Analýza a klasifikace dat

Rozměr: px
Začít zobrazení ze stránky:

Download "Analýza a klasifikace dat"

Transkript

1 Analýza a klasifikace dat Jiří Holčík Březen 0 Přípava a vydání této publikace byly podpoovány pojektem ESF č. CZ..07/..00/ Víceoboová inovace studia Matematické biologie a státním ozpočtem České epubliky.

2 Předmluva Těžko se hledá přiléhavý název, kteý by výstižně pojmenoval náplň této publikace. Za celou dobu, po kteou se metody analýzy a klasifikace dat ozvíjejí, dostala tato disciplina mnohá jména. Ty ůzné názvy ani tak nesouvisí s vlastní podstatou tohoto způsobu páce s daty, jako spíše s účelem zpacování. Asi nejobecnější název zní ozpoznávání obazů, v angličtině patten ecognition. Ve skutečnosti ale nejde o žádné obazy ve smyslu děl Leonada da Vinci či jiných velikánů výtvaného umění (jak by bylo možné vyvozovat z českého překladu), nýbž o pouhý matematický popis vlastností eálného objektu, jehož stav chceme hodnotit, nějakým abstaktním způsobem např. vektoem hodnot, gafem, apod. Poto, navzdoy skutečnosti, že se někdy (v souladu se čením, že čeština po nějaké specifické anglické názvy nemá slov) anglické názvosloví považuje za fetiš, ani anglické slovo patten znamenající především vzo, schéma, předloha, šablona, možná i systém není úplně to pavé a ideální. Jiný obecný název disciplíny víceozměné statistické metody zase navozuje představu, že dané metody využívají pouze pavděpodobnostní pincipy a že tyto metody jsou součástí statistiky. Ano, z velké části je to spávný názo, ale ne zas až tak úplně. Mnohé publikace zabývající se touto poblematikou nesou i anglický oiginální název data mining a v české kotlině máme hned poblém, zda tento název překládat jako dolování dat, nebo spíše vytěžování dat. V podstatě je cílem těchto aktivit v daných datech odhalit nějaké skyté jevy, souvislosti, závislosti. Takže vlastně analýza. Ale toto slovo v půběhu všech těch tisíciletí, po kteá se používá, nabylo tak geneálního, obecného významu, že je ho snad i stydno použít ve spojení s daty. I označení stojové učení ( machine leaning ) se používá. To je ale zase spíše důsledek toho, že ta vlastní analýza, klasifikace nebo pedikce není zas až tak velká věda, ale to, jak přimět počítače, aby to udělaly za nás, to je tepve ta spávná disciplína, ve kteé lze psát dizetace. No, a když už se zabýváme tímto výčtem, ten by učitě nebyl úplný bez zmínky o umělé inteligenci. Tato disciplína, pokud nebudeme komentovat tu hůzu, kteou ve všech důsledcích její jméno vyvolává, se ale z guntu věnuje mimetickým modelům lidského ozhodování. Umělé neuonové sítě jsou kásným příkladem metod umělé inteligence. Všechny ostatní matematicky založené metody, kteé sice slouží k témuž účelu, ale nejsou tak zcela inspiovány činností lidského ducha, do této přihádky jaksi nepatří. Kdyby se tato publikace chtěla pokusit shnout, co lidstvo v této disciplině vytvořilo, musel by být její předpokládaný ozsah překočen mnoha mnohanásobně. To skomně naznačují i někteé knihy uvedené na konci tohoto textu v dopoučené liteatuře. Poto, i s ohledem na další souvislosti vzniku této publikace (vznikla v souvislosti s řešením pojektu ESF č. CZ..07/..00/ Víceoboová inovace studia Matematické biologie, kteý si dal do vínku inovovat náplň a zlepšit povázanost povinných předmětů studijního obou Matematická biologie na PřF MU), je to spíše publikace typu obázky z analýzy a klasifikace dat. Obsahuje metody, kteé umožní čtenářům, jimž je učena, ozšířit si obecné povědomí o někteých snad typických metodách, postupech a algoitmech sloužících ke zpacování, analýze i klasifikaci údajů o objektech sice všeliké obecné, hlavně však biologické a medicínské podstaty. Byli bychom učitě potěšeni, kdyby se tak i stalo. V Bně 3. března 0 Jiří Holčík Jiří Holčík, 0 ISBN

3 Kapitola úvodní aneb o čem to tady bude. Zpacování dat základní pincipy Reálný život nás dennodenně staví před ůzná ozhodnutí všelijaké úovně a kvality zda si pávě koupit dva nebo tři nebo čtyři ohlíky, či zda si vzít za manžela toho fešného mladého muže od vedle, příp. jaké bude vzájemné soužití s ním po 0 letech. Tyto úlohy zvládáme zpavidla intuitivně, aniž si uvědomujeme, že i tato ozhodnutí jsou podložena sběem a analýzou potřebných infomací tak, aby závěečné ozhodnutí bylo co nejlepší. Např. jak velký máme hlad, kolik máme peněz, zda vůbec máme chuť na ohlíky i to, zda náš zdavotní stav umožní konzumovat jiné pochutiny než ohlíky, apod. Složitější úlohy samozřejmě potřebují více infomace i složitější způsob uvažování, kteý už většinou není možné zvládnout intuitivně, ale je potřeba ozhodovací postupy zfomalizovat, následně algoitmizovat a vytvořené algoitmy implementovat zpavidla v počítačovém postředí, především ale připavit vstupní infomaci/data ve fomalizované podobě, vhodné po stojové zpacování. Zpacováním dat se obecně snažíme zkoumat vztahy mezi stavy, jevy a pocesy, kteé chaakteizují učitý objekt a jsou chaakteizovány naměřenými daty. Základní výchozí představa spočívá v tom, že existuje nějaký eálný objekt (skupina pacientů, kůň, vodní tok, dopava ve městě Bně), kteý poskytuje infomaci o svém stavu (věk, váha, kevní tlak, datum diagnózy, okamžitý půtok vody a její chemické složení, výskyt živočišných duhů v učité tůni na potoce, počet nasazených autobusů ve městě, okamžitý počet přepavovaných cestujících, apod). Ta infomace je ukyta v datech, kteá daný objekt geneuje a my jsme schopni je přiměřeně přesně změřit. Data jsou obecně mnohoozměná (stav objektu je popsán mnoha poměnnými) a dynamická (v čase poměnná). Počet elevantních poměnných popisujících dostatečně přesně stav objektu z hlediska účelu, kvůli kteému objekt sledujeme, udává řád tohoto objektu, esp. jeho modelu, jehož konstukce může být jednou z cest jak zákonitosti vyplývající z chování objektu analyzovat. Data obsahují jednak deteministickou, jednak nedeteministickou složku. Deteministická část dat umožňuje najít příčinný vztah mezi stavem objektu a výokem, kteým objekt, esp. jeho stav hodnotíme, popřípadě klasifikujeme. Toto hodnocení komplikuje nedeteministická složka dat, kteá může vznikat jako důsledek nějakých, z hlediska dané úlohy nežádoucích skutečností, jevů či pocesů. Často se vnímá, že zpacování dat zahnuje pouze metody založené na statistických základech a pincipech. Skutečnost je ale taková, že stejně významnou skupinu tvoří metody vycházející z postupů a přístupů, kteé se pimáně snaží postihnout deteministickou podstatu zkoumané skutečnosti. Každý z obou přístupů si vytvořil svou specifickou teminologii, kteá často používá k vyjádření ůzných skutečností stejných pojmů, nebo naopak ůzných pojmů Obecně chápeme jev jako souhn vnějších, smyslům bezpostředně či zpostředkovaně (např. měřením) přístupných vlastností a vztahů daného objektu. Statistika dále specificky definuje náhodný jev jako výsledek náhodného pokusu, o kteém lze po povedení pokusu ozhodnout, zda nastal nebo nenastal. Náhodný jev tedy představuje událost, kteá za učitých podmínek buď nastane, nebo nenastane. Poces vnímáme jako postupné, vnitřně navzájem svázané tansfomace jevů, objektů, systémů v jiné jevy, objekty nebo systémy. Zatímco stav, esp. jev považujeme spíš za statický fenomén, poces má chaakte dynamický

4 k popisu téhož, což logicky může vést v lepším případě k nedoozumění, v hoším případě k chybným intepetacím dosažených výsledků 3.. Cíl zpacování dat Cílem jakéhokoliv zpacování (analýzy) dat je zpavidla posouzení zkoumaného eálného objektu (živého či neživého), kteý je zdojem analyzovaných dat, příp. jeho stavu. Toto posouzení může nejčastěji vyústit: v ozhodnutí o typu či chaakteu objektu např. že daná ostlina je pomněnka lesní (Myosotis sylvatica), zvíře že je medvěd hnědý (Usus actos) nebo že daná budova je vystavěna v enesančním slohu klasifikační, esp. ozpoznávací úloha; v posouzení kvality stavu analyzovaného objektu, např. zda je pacient v pořádku nebo má infakt myokadu, cihózu jate, apod. opět klasifikační, esp. ozpoznávací úloha; v ozhodnutí o budoucnosti objektu např. zda lze pacienta léčit a vyléčit, zda les po 0 letech odumře, jaké bude sociální složení obyvatelstva na daném území a v daném čase klasifikační nebo také pedikční úloha 4. Fomálně tedy hledáme cestu od skutečného eálného objektu k fomálnímu výoku o jeho kvalitě, stavu, příp. budoucnosti (ob..). Hovoříme-li o zpacování či analýze dat, pak v zobazeném řetězci potřebných opeací většinou pomíjíme blok měření, kteý je většinou vázán s řešením technických, nikoliv matematických poblémů. Přesto všechno je tento blok, komě samotného zkoumaného objektu, nejvíce spojen se vznikem ůzných ušivých složek, kteé naměřené údaje obsahují. Tyto ušivé složky vznikají jak přímo ve zdoji (měřeném objektu), tak při vlastním měření. V měřeném objektu vznikají vlivem neovlivnitelných změn podmínek existence daného objektu v čase (intaindividuální vaiabilita), vlivem odlišnosti jednotlivých, zdánlivě Ob.. Cíl zpacování dat a koky k jeho dosažení ekvivalentních částí celku (inte- 3 Základní případ, kdy se teminologie v oblasti statistického a nestatistického zpacování poněkud liší, je vnímání pojmů zpacování a analýza. Zatímco statistické pojetí dává přednost označovat veškeé výpočty nad daty analýzou, oblast nestatistická (deteministická) dává přednost použití slova analýza po vyjádření specifičtějších opeací, více odpovídajících definici uvedené v poznámce 5) a globální poces označuje spíše pojmem zpacování. 4 Klasifikace a pedikce jsou opět dva pojmy, jejichž použití v odboné liteatuře často splývá. Pojem pedikce (z lat. pae-, před, a dicee, říkat) zjevně nese časové (příp. postoové) hledisko, když jej používáme ve významu předpovědi či pognózy, jako soud o tom, co se stane nebo nestane v budoucnosti. V tomto významu je používán např. v analýze či zpacování časových řad. Zmatení, kteé vyplývá ze zaměňování pojmů klasifikace a pedikce, se někteá odboná liteatua snaží ne zcela přesvědčivě ozmotat konstatováním, že pojem klasifikace je používán, použije-li se klasifikačního algoitmu po známá data. Pokud jsou data nová, po kteá apioi neznáme klasifikační třídu, pak hovoříme o pedikci klasifikační třídy (to by znamenalo, že za klasifikaci považujeme pouze pocesy spojené s návhem klasifikátou, vlastní činnost klasifikátou by pak měla být nazývána pedikcí s takovým vysvětlením se lze smířit pouze velice obtížně). Za příjemnější ozlišení obou pojmů považujeme výklad, kteý říká, že pojem klasifikace používáme, pokud vybíáme identifikáto klasifikační třídy z učitého diskétního konečného počtu možných identifikátoů. Pokud učujeme (pedikujeme) spojitou hodnotu, např. pomocí egese, pak hovoříme o pedikci, i když tento pojem nezbytně časovou dimenzi nemá

5 individuální vaiabilita) i vlivem skutečnosti, že na objektu měříme veličinu, kteá je ovlivněna jinými ději téže povahy (např. signál EKG matky při snímání fetálního EKG). Při vlastním měření se ušivé složky objevují v datech nejčastěji vlivem špatného uspořádání měřicího expeimentu (měříme něco, co jsme ani měřit nechtěli a co nenese požadovanou infomaci, použili jsme nevhodný měřicí přístoj, přístoj používá nevhodnou metodu měření, esp. nevhodný algoitmus pimáního předzpacování dat, ušení z vnějšího postředí poniká k původním, šumu postým datům při přenosu dat v čase i postou). Ve statistice ušivé komponenty dat zpavidla označujeme jako vaiabilitu dat, kteou je potřeba odstanit, potlačit či dodatečně vysvětlit. Pokud jsou data zpacovávána někteými nestochastickými postupy, je zvykem nazývat je ušením, šumem, nebo pouchami. Opět se snažíme ušení z dat eliminovat, tentokát zpavidla na základě apioní znalosti jeho chaakteistik, příčin vzniku, apod. Navzdoy ůzným ušivým složkám, kteé se v datech vyskytují, musí být mezi finálním hodnotícím výokem (diagnostickým, klasifikačním, pedikčním), kteý vyřkneme na základě znalosti dat o daném objektu, a tímto objektem jasný deteministický příčinný vztah. Pokud by tento příčinný vztah neexistoval, pak ani data nemohou obsahovat využitelnou infomaci a je zbytečné se o jeho hledání snažit, a to jakýmikoliv postředky ať statistickými či založenými na jiných pincipech. Chceme-li upřesnit cíl zpacování (analýzy) dat, definovaný na začátku této kapitoly, pak je to pávě odhalení toho příčinného deteministického vztahu, navzdoy všemu tomu, co to odhalení kazí..3 Blokové schéma zpacování dat Blok zpacování v ob.. lze podobněji vyjádřit schématem na ob... Ob.. Blokové schéma zpacování dat Pocesně se blok zpacování skládá ze tří následných, podstatou odlišných opeací předzpacování, analýzy a klasifikace, esp. pedikce. Pvní z těchto bloků epezentuje postupy vázané na odstanění ušivé, esp. zvýaznění užitečné složky oiginální epezentace dat, ekonstukci a doplnění chybějících údajů, příp. edukci dat, např. odstaněním jejich edundantní (nadbytečné) nebo ielevantní (neužitečné) části, na převod do fomy, v níž je podstatná infomace lépe patná (např. časová vs. fekvenční epezentace časových řad), příp. i - 5 -

6 na převod zpavidla spojité poměnné, jejíž hodnoty měříme, na diskétní hodnoty, tzv. vzokování, esp. kvantování. Zatímco pvním pojmem zpavidla ozumíme disketizaci s ohledem na nezávisle poměnou, duhý pojem používáme po disketizaci funkčních hodnot. Blok analýzy 5 je zde vnímán v zúženém smyslu jako blok opeací, kteé vedou k nalezení hodnot poměnných, esp. jiných elementů (např. učitých geometických tvaů v obazu), kteé představují významnou složku zpacovávané infomace, případně nalezení vazeb mezi nimi. Konečně, poslední blok představuje blok zařazení dat do stanovených klasifikačních, např. diagnostických kategoií nebo odhadu budoucího stavu objektu. Při řešení učitých úloh nemusí být řetězec úplný, úloha může např. skončit analýzou, někteé bloky mohou ekuzívně obsahovat, po vyřešení dílčího poblému, řetězec úloh, kteý opět obsahuje všechny tři fáze zpacování, apod. Řetězec zpacování dat je podpoován bloky fáze učení, kteé jsou s bloky zpacování spojeny mnohými vazbami infomačních toků. Fáze učení může předcházet fázi zpacování (algoitmus je navžen před vlastním zpacováním dat), nebo pacovat paalelně (chaakteistiky algoitmu jsou dolaďovány během vlastního zpacování). Rozebeme nyní účel a obsah jednotlivých dílčích bloků podobněji..3. Blok předzpacování Jak bylo výše uvedeno, blok předzpacování epezentuje někteé opeace nad zpacovávanými daty, kteé jednak zajišťují čitelnost dat, jednak zvyšují jejich kvalitu. Jedním ze základních dominantních cílů předzpacování je tzv. čištění či filtace dat, což představuje opeace vedoucí k potlačení paazitní vaiability dat či odstanění ušení, esp. zvýaznění užitečné (z hlediska cíle zpacování) složky dat. Základní fomou epezentace dat vstupujících do bloku předzpacování je množina (příp. uspořádaná) vektoů, obsahujících hodnoty veličin, kteé o zpacovávaných objektech získáváme. Tyto veličiny mohou být jakéhokoliv běžného typu, tj. kvantitativní (numeické spojité, diskétní a ve speciálním případě binání, logické, kteé nabývají dvou diskétních hodnot, ale lze učit, kteá z nich znamená méně, kteá více a je možné s nimi povádět matematické opeace); odinální typ kategoiální poměnné, její hodnoty ale lze vzájemně seřadit, je však obtížné kvantifikovat jejich hodnoty (např. bolest zanedbatelná, malá, střední, velká, nesnesitelná); nominální opět typ kategoiální poměnné, v tomto případě ale nelze jejich hodnoty seřadit podle velikosti (např. příslušnost studenta MU k učité fakultě), speciálním typem nominální poměnné je tzv. dichotomická poměnná, kteá podobně jako poměnná binání, či logická nabývá dvou hodnot, kteé se navzájem vylučují, ale v tomto případě nelze učit jejich velikost, např. pohlaví muž/žena. Kvůli možnosti sovnání hodnot ůzných veličin se často hodnoty veličin upavují např. centováním (odečtení střední hodnoty), nomalizací (vztažení hodnoty poměnné k nějak definované nomě), esp. standadizací (centovaná hodnota je vztažena k učité specifické hodnotě, často např. k směodatné odchylce). To bývá nezbytné např. v situaci, kdy z hodnot jednotlivých veličin jako jsou výška v centimetech (chceme ji měřit v centimetech?), nebo metech (je lepší ji měřit v metech?), hmotnost v kilogamech nebo gamech, věk udaný 5 Analýza (z řec. analyó, ozvazovat, ozebíat) znamená ozbo, metodu zkoumání složitějších skutečností ozkladem na jednodušší. Je založena na dekompozici celku na elementání části. Cílem analýzy je identifikovat podstatné a nutné vlastnosti elementáních částí celku, poznat jejich podstatu a zákonitosti. Používá se v mnoha vědách, ve filosofii i v běžném životě, pokud chceme dospět k výsledku na základě detailního poznání podobností

7 v letech, počet bílých kvinek vztažený na nějakou objemovou jednotku mm 3 nebo lit (kdy je lépe použít tu či onu jednotku?), apod, máme učit nějakou hodnotu, kteá globálně chaakteizuje všechna potřebná data, např. nomu vektou x = (x, x,, x n ) učenou podle vztahu n x x, (.) i i přičemž jednotlivé složky jsou epezentovány výše uvedenými hodnotami chaakteizujícími pacienta. V tom případě nomalizace i standadizace udělá z jednotlivých hodnot hodnoty bezozměné, kteé už můžeme použít k výpočtu nějakého sumaizujícího, globalizujícího paametu. Je ovšem třeba si uvědomit, že např. standadizací vůči směodatné odchylce jsme se v datech zbavili infomace o střední hodnotě i ozptylu. Obě tyto hodnoty mohou být důležité z hlediska následného zpacování, kteé se touto opeací může výazně zkomplikovat, nebo i zcela znemožnit. Poto musíme vždy pečlivě zvážit, zda opeace, kteé učitou fázi zpacování zjednoduší, jsou přípustné z hlediska dalších cílů zpacování. Předzpacování dat se pincipiálně může lišit podle chaakteu dat zda jsou statická (vyjadřují stav zdojového objektu bez potřeby popsat jeho dynamiku zdoj buď dynamický není, nebo jeho dynamika není důležitá očekávané změny pobíhají pomaleji než důsledky povedeného zpacování), nebo dynamická (vyjadřují změny stavu zdoje data musí být uspořádána, nejčastěji jako funkce času nebo postou). Typickými představiteli dynamických dat jsou signály, obazy, časové řady (což jsou v podstatě matematické modely diskétních signálů). Přes někteé ozdíly v přístupu ke zpacování dat toho či onoho typu má zpacování v obou případech mnoho společného. Pokusme se vystihnout tento společný základ. Čištění (filtace) dat - samozřejmě ideální případ nastává, když data žádné paazitní nežádoucí komponenty neobsahují. Jejich obsah lze účinně minimalizovat vhodným uspořádáním expeimentu, při kteém údaje o sledovaném objektu nebo objektech měříme. Uspořádáním expeimentu můžeme ůzné zdoje ušení vyloučit. V případě, že to není možné, lze expeiment uspořádat tak, že se snažíme půběžně stanovovat vlastnosti ušení, když ne přímo jeho hodnoty. Vliv vaiability při statistickém zpacování omezujeme náhodným výběem (např. [8], [9]) zkoumaných subjektů, odhad chaakteistik základní vaiability dat může poskytnout tzv. kontolní skupina. Vaiabilita dat může být potlačena identifikací a odstaněním odlehlých (vybočujících) vzoků (např. [8], nebo [9]). Typickým případem, jak odstanit paazitní složky dat v případě signálů či časových řad je využití případné fekvenční disjunktnosti užitečné i paazitní komponenty, tj. případu, kdy se užitečná i paazitní složka dat skládají z hamonických půběhů odlišných fekvencí. (Podobnější infomaci o fekvenčních vlastnostech signálů a časových řad a jejich fekvenčních spektech může čtenář tohoto textu najít např. v [].) V tom případě je velice účinným a elativně jednoduchým nástojem po filtaci nežádoucího ušení použití lineáních časově invaiantních systémů (filtů), kteé budou podobněji ozebány v kapitole Lineání systémy a modely časových řad. Pokud obě složky dat (užitečná i paazitní) nejsou fekvenčně sepaabilní, pak je třeba k vzájemnému oddělení použít jakoukoliv jinou dostupnou infomaci, např. míu koelace obou složek. V případě, že obě složky nejsou koelovány a užitečná složka dat má epetiční chaakte, lze po potlačení ušení použít kumulačních technik (způměování), např. [5]. Naopak, pokud neznáme přesný půběh ušení, pouze nějaká data s ušením koelovaná, nebo naopak data koelovaná s užitečnou složkou analyzované posloupnosti, pak možným řešením je použití adaptivního filtu [5]. Řešíme-li situaci, kdy se snažíme odhadnout okamžik výskytu nějakého známého půběhu v posloupnosti silně ovlivněné náhodným ušením, pak lze použít souhlasného filtu, což v podstatě epezentuje půběžný výpočet vzájemné koelace mezi datovou posloupností a - 7 -

8 posloupností, kteá epezentuje hledaný půběh. Po filtaci posloupnosti dat vhodně ovlivněné náhodným ušením očekávaných vlastností lze použít např. optimální Wieneův filt 6 nebo adaptivní filt Kálmánův 7. Redukce dat se zpavidla dopouštíme, když chceme umožnit nebo alespoň usnadnit přenos či zajistit efektivní uchovávání dat, nebo požadujeme-li zychlení zpacování dat. Zatímco v pvních dvou případech očekáváme, že budeme schopni data opět zcela přesně ekonstuovat do původní podoby (vatná edukce dat), v posledním případě obnovu původní datové epezentace apioi nepředpokládáme (nevatná edukce dat). (Konec konců samotné klasifikační vyvcholení zpacování dat je demonstativním případem datové edukce, potože veškeá data popisující analyzovaný objekt epezentujeme pouze identifikátoem klasifikační třídy.) Algoitmy vatné edukce dat využívají pavděpodobnostních chaakteistik dat a odstaňují pouze edundantní (nadbytečnou, známou) složku dat. Jsou založeny na epezentaci edundantní složky pomocí ůzných apoximačních, intepolačních či extapolačních algoitmů a uchovávají se paamety modelů edundantní složky spolu s odchylkami eálných dat od hodnot učených modelem, kteé jsou zpavidla podstatně menší než hodnoty původních, což posléze vede k možnému omezení ozsahu dat. Naopak algoitmy nevatné edukce dat jsou založeny pouze na učení a uchování paametů modelů dat za předpokladu, že ozdíl mezi skutečnou hodnotou a hodnotou vyplývající z modelu je menší než předpokládaná pahová hodnota. Modely dat bývají učeny pomocí po částech polynomiální apoximace, či jinými fomami vyjádření dat paamety hamonických složek nezbytných po dostatečně přesné vyjádření signálu, paamety složek kosinové tansfomace. V poslední době jsou po nevatnou edukci dat velice často používány paamety složek učených pomocí vlnkové tansfomace. Rekonstukce a doplnění chybějících údajů - je vždy ke zvážení, zda neúplnou infomaci ze zpacování vyloučit, či zda se pokusit o její odhadnutí. Základní algoitmy doplnění dat jsou dominantně založeny na intepolaci, ať již polynomiální či na základě ozkladu do řady. Využíváme-li statistických vlastností dat, pak zpavidla hovoříme o egesi, jednoozměné či víceozměné. Často používaný přístup vychází z modelu zdoje dat, kteý konstuujeme na základě apioních infomací o sledovaném pocesu, tj. o chování zdojového objektu. Součástí předzpacování může být i převod hodnot kategoiálních poměnných do hodnot, se kteými lze následně povádět výpočty. Dalšími dvěma bloky se bude tato publikace v dalších kapitolách zabývat poměně podobně, poto na tomto místě uveďme pouze nejdůležitější fakta, zásady a pincipy..3. Blok analýzy dat a blok volby elementů po analýzu Jak je uvedeno v pozn.5), obecným cílem analýzy je identifikovat podstatné a nutné vlastnosti elementáních částí celku, poznat jejich podstatu a zákonitosti. To v paxi znamená nalezení zákonitostí v ozložení hodnot použitých poměnných, stanovení míy koelace, příp. závislosti mezi hodnotami použitých poměnných. V někteých případech přímo nalezení 6 (..0) 7 (..0) V ůzných komunitách se citace infomací převzatých z Wikipedie vnímá jako cosi nežádoucího, nepěkného, potože konec konců infomace zde uváděné nejsou ecenzované a veifikované. Domníváme se však, že tvářit se, že tento zdoj infomace neexistuje, je duhým pávě tak škodlivým extémem. Pokud nebeeme wikipedické infomace za jedině spávné dogma, nýbž zdavě kiticky (což konec konců je nezbytné i u mnohokát ecenzovaných zdojů), pak je učitě Wikipedie velice užitečný zdoj poučení, což platí i po tento případ

9 vhodného matematického vztahu vyjadřujícího funkční závislost mezi použitými poměnnými. To vše po usnadnění páce s daty, kteá zpacováváme. Výsledky analytických výpočtů pak mohou být použity k tansfomaci předzpacovaných dat do vstupního fomátu klasifikačního bloku, nebo mohou být i finálním výsledkem zpacování dat (bez navazující klasifikace). Duhým nezbytným cílem tohoto bloku by měla být edukce počtu poměnných, což může usnadnit následné klasifikační opeace. V našem případě jde o nalezení těch poměnných 8, jejichž hodnoty nesou spávnou infomaci po kvalitní funkci posledního bloku zpacování, tj. klasifikaci nebo pedikci. Obecně způsob, jak pimáně učit příznakové veličiny nesoucí nejvíce infomace po klasifikaci, není teoeticky fomalizován ([], [6]), tzn. že neexistuje teoie, podle níž by bylo možné předem stanovit veličiny, jejichž hodnoty poskytují užitečnou infomaci, nebo naopak ty, kteé jsou po následné zpacování nepodstatné. Současná teoie nabízí pouze dílčí, suboptimální řešení, spočívající ve výběu nezbytného počtu veličin z předem zvolené množiny poměnných, příp. ve vyjádření původních příznakových veličin pomocí menšího počtu skytých (tzv. latentních) nezávislých poměnných, kteé nelze přímo měřit, ale mohou, ale i nemusí mít učitou věcnou intepetaci. V žádné z obou možností však není specifikováno, jak učit výchozí množinu příznakových poměnných. V tomto směu nezbývá než se spolehnout na empiickou znalost analyzovaného poblému u těch, kteří se daným konkétním poblémem zabývají, a na technických možnostech dokázat změřit hodnoty takto vybaných veličin. Není poto jisté, že zvolená výchozí množina bude obsahovat pávě i ty veličiny, jejichž hodnoty jsou po klasifikaci ty nejužitečnější..3.3 Blok klasifikace Klasifikací 9 ozumíme ozdělení dané (konkétní či teoetické) skupiny (množiny) objektů, jevů či pocesů na konečný počet dílčích skupin (podmnožin), v nichž všechny objekty, jevy či pocesy mají dostatečně podobné společné vlastnosti. Vlastnosti, podle nichž lze klasifikaci zadat či povádět, učují klasifikační kitéia. Objekty, kteé mají podobné vlastnosti, tvoří klasifikační třídu. Každá klasifikace musí být úplná, tzn., že každý předmět musí patřit do nějaké třídy a nemůže být současně ve dvou či více třídách. Klasifikaci povádíme pomocí klasifikátou (ob..3), což je algoitmus se vstupem, odpovídajícím chaakteu dat, popisujících analyzovaný objekt a jedním diskétním výstupem, jehož hodnota je identifikátoem klasifikační třídy, do kteé klasifikáto zařadí vstupní epezentaci dat. Tedy platí 8 I v tomto případě panuje velká divezita pojmů, používaných po označení popisných poměnných a jejich hodnot. Zatímco statistické metody analýzy dat ády používají pojmu znak, pozoování, nebo i diskimináto [3], publikace zabývající se specificky poblémy klasifikace dat, používají pojmu příznaková poměnná, esp. příznak po její konkétní hodnotu. V tomto případě je daný babylon kupodivu pouze v češtině, anglická liteatua dominantně používá pojem featue, kteý bohužel čeští odboníci z ůzných oblastí začali překládat ůzně. 9 S pojmem klasifikace se často zaměňuje pojem diskiminační analýza, kteá hledá vztah mezi kategoiální poměnnou a množinou vzájemně vázaných příznakových poměnných. Předpokládáme-li, že existuje konečný počet R ůzných a pioi známých populací, kategoií, tříd nebo skupin, kteé označujeme ω, =,,R, je úkolem diskiminační analýzy nalézt vztah (diskiminační, ozhodovací pavidlo), na základě kteého po daný vekto příznaků popisujících konkétní objekt tomuto vektou přiřadíme hodnotu ω [0]. Poovnáme-li tuto definici s dalším vysvětlujícím textem v této kapitole, učitě si uvědomíme, že diskiminační analýza je, za předpokladu příznakového popisu klasifikovaného objektu či pocesu, jednou z možných, specifických náplní bloku nastavení ozhodovacího pavidla

10 kde d(x) je funkce agumentu X představujícího epezentaci vstupních dat, kteou nazýváme ozhodovací pavidlo klasifikátou a ω, =,, R je identifikáto klasifikační třídy. Rozhodovací pavidlo se stanoví v odpovídajícím bloku učební fáze. Poměnnou X, fomálně popisující klasifikovaný objekt, obecně nazýváme obazem 0. ω = d(x) (.) Ob..4 Označení klasifikačních tříd a částí obazového postou Ob..3 Schéma klasifikátou Na tomto místě je dobé zmínit a uvědomit si i někteé skutečnosti, týkající se značení identifikátou klasifikační třídy, kteé budeme v tomto textu espektovat. Na ob..4 je znázoněna situace, kdy jsou ve dvouozměném postou zobazeny vektoy vyjadřující zástupce dvou skutečných tříd koleček, popsaných např. identifikátoem a křížků, popsaných např. identifikátoem. Výsledkem učení klasifikátou bylo, že klasifikační třídy můžeme vyjádřit pomocí haniční přímky ve vektoovém postou, kteá ozdělila celý posto na dvě polooviny poloovinu R, v níž se vyskytují především zástupci třídy koleček a poloovinu R, v níž leží spíše zástupci klasifikační třídy křížků. Nicméně ozdělení není dokonalé, v poloovině R leží i dva křížky, v poloovině R jedno kolečko. Na to konto bude kolečko ležící v poloovině R přiřazeno chybně do třídy křížků, označené identifikátoem. Nelze tedy směšovat identifikáto skutečné klasifikační třídy, byť je i přiřazena chybně ( i ) a identifikáto části postou (R i), kteý se používá při konstukci ozhodovacího pavidla. Rozhodovací pavidla pacují na základě vzdálenosti či podobnosti mezi vstupní datovou epezentací a vzoem klasifikační třídy (speciálním případem této fomy klasifikace je možnost ztotožnění vstupních dat s etalonem klasifikační třídy), hanic ozdělujících obazový posto dat, pomocí funkcí, kteé učují míu příslušnosti k dané klasifikační třídě, tzv. diskiminačních funkcí, případně doplňkových logických pavidel. Všechny tyto zmíněné postupy mohou být deteministické či pacovat na pavděpodobnostních pincipech, přičemž deteministické pavidlo může vycházet i z pavděpodobnostních chaakteistik zpacovávaných dat. Poto za deteministický klasifikáto považujeme takový, kteý daná vstupní data zpacuje vždy se stejným jednoznačným výsledkem. 0 Z tohoto označení vyplývá i jeden z obecných názvů této discipliny ozpoznávání obazů, což ovšem nemá nic společného ani s malířstvím, ani s entgenovými snímky, nýbž s výsledkem zobazení oiginálního eálného objektu do jeho učité abstaktní epezentace. To může být např. vekto hodnot popisujících daný objekt tzv. vekto pozoování, nebo jak posléze uvidíme, vekto příznaků. Jinou fomou může být i gaf či obecně nějaká elační stuktua. V anglickém oiginálu je ozpoznávání obazů vyjádřeno jako patten ecognition, což by spíš odpovídalo překladu ozpoznávání vzoků, esp. vzoů, spíše evokující zpacování nějakých etalonů dané skutečnosti. Často se můžeme v této oblasti setkat i s jiným názvem, v anglickém oiginálu data mining, překládaným jako dolování dat, nebo vytěžování dat. To už ale není klasická klasifikační disciplina, nýbž postup (byť má s analýzou a klasifikací mnoho společného), kteým se v datech snažíme nalézt nějaké skyté závislosti a skutečnosti

11 Na duhé staně, nedeteministický klasifikáto může táž data při opakovaném zpacování klasifikovat ůzně. Nedeteministické klasifikátoy nemusí být jen a pouze pavděpodobnostní. Existují i jiné další matematické disciplíny, kteé pacují s neučitostí, uveďme zde jako příklad fuzzy logiku, příp. fuzzy algebu. Při páci s algoitmy nejen tohoto typu se často vyskytuje členění na paametické a nepaametické algoitmy, metody, modely. Paametický algoitmus pacuje na základě nějaké dané funkce, jejíž konkétní vlastnosti jsou učeny a mohou se měnit s hodnotami konečného počtu stanovených paametů. Ve statistice ozumíme paametickým odhadem hustoty pavděpodobnosti postup, kdy na základě učité apioní infomace předpokládáme učitý typ ozložení pavděpodobnosti a do fomule, kteá toto ozložení popisuje, učujeme jen konkétní hodnoty jejich paametů, jako např. střední hodnotu a směodatnou odchylku po nomální ozložení. Příkladem paametického klasifikačního algoitmu je pahová klasifikace, kteá např. zařadí vstupní obaz do učité klasifikační třídy, pokud hodnota, chaakteizující daný obaz, překačuje nebo nepřekačuje danou pahovou úoveň. Tuto pahovou hodnotu učujeme v učební fázi algoitmu. Typickým představitelem paametických klasifikačních algoitmů jsou poto ozhodovací stomy. Příkladem nepaametického klasifikačního algoitmu je například klasifikace podle minimální vzdálenosti od etalonu klasifikační třídy. V tom případě učíme vzdálenost vstupního obazu od všech etalonů klasifikačních tříd a obaz zařadíme do té třídy, jejíž etalon má ke vstupnímu obazu nejblíže. I když po stanovení vzdálenosti používáme ůzné metiky, kteé fomálně také mají ůzné paamety (Euklidova metika používá duhou odmocninu součtu čtveců ozdílů dílčích souřadnic daných vektoů, esp. bodů v postou), tyto hodnoty už ve fázi učení neučujeme, jsou pevně svázány s daným typem metiky. Paametičnost či nepaametičnost vlastního klasifikačního algoitmu ale nic nepředučuje, pokud jde o chaakte algoitmů učení klasifikátoů. Existuje na příklad velká třída ténovacích algoitmů po klasifikační stomy, kteé si nekladou žádné požadavky na způsob učení, učící postup není závislý na žádných patikuláních paametech, jsou to tedy algoitmy nepaametické. Často je vlastní klasifikace poměně jednoduchý postup a to zajímavé, co se týká zvoleného klasifikátou, je způsob jeho návhu, esp. učení a poto chaakte učícího algoitmu v odboné liteatuře často předučuje náhled na typ klasifikátou. Je poto potřeba ozlišovat..3.4 Blok nastavení ozhodovacího pavidla Tento blok je jedním ze dvou základních bloků učící fáze zpacování dat. Výsledkem tohoto bloku je návh obecného tvau ozhodovacího pavidla, případně učení jeho paametů, v případě, že ozhodovací pavidlo je paametické. Zatímco návh obecného tvau ozhodovacího pavidla není fomalizován a závisí především na zkušenostech konstuktéa buď s danou eálnou úlohou, nebo s chaakteem naměřených a zobazených dat. Návh paametů ozhodovacího pavidla pak standadně vede na použití nějaké optimalizační úlohy. Děje se to na základě tzv. učební nebo ténovací množiny, kteá obsahuje vstupní obazy spojené s infomací o předpokládané spávné klasifikaci (uspořádané dvojice datového popisu a identifikátou klasifikační třídy). V tom případě hovoříme o učení s učitelem, a podle míy spolehlivosti údaje o předpokládané klasifikaci ozlišujeme algoitmy učení s dokonalým či nedokonalým učitelem. V případě, že ténovací množina není k dispozici, pak blok nastavení ozhodovacího pavidla obsahuje pouze návh jeho obecného tvau a případné nastavování paametů ozhodovacího pavidla pobíhá současně s klasifikací. Tento postup označujeme jako učení bez učitele. Typickým příkladem je shlukování. - -

12 Příznakové metody klasifikace dat. Základní pojmy a pincipy Příznakový obaz x hodnoceného objektu je fomálně vyjádřen n-ozměným (sloupcovým) vektoem x i, i =,, n příznakových poměnných (veličin) chaakteizujících daný objekt, tj. platí x = (x, x,, x n ) T. Příznakové poměnné mohou popisovat kvantitativní i kvalitativní vlastnosti objektu. Jejich hodnoty nazýváme příznaky. Vchol každého příznakového vektou (obazu) představuje bod n-ozměného postou X n, kteý nazýváme obazovým postoem. Obazový posto je definován pomocí katézského součinu definičních oboů všech příznakových poměnných, tzn. že jej tvoří všechny možné obazy zpacovávaného objektu. V případě, že příznaky vyjadřují kvantitativní vlastnosti objektu, může být obazový posto euklidovský. Je-li klasifikovaný objekt popsán vektoem příznaků, představuje klasifikáto algoitmus (stoj podle v angličtině v tomto případě standadně používaného slova machine) s tolika vstupy, kolik je použito příznaků (jinými slovy jaký je ozmě příznakového vektou, popisujícího klasifikovaný obaz) a s jedním diskétním výstupem, jehož hodnoty učují třídu, do kteé klasifikáto zařadil ozpoznávaný obaz. Klasifikáto si tedy lze představit jako zařízení (ob..), kteé ealizuje matematickou opeaci (ozhodovací pavidlo) d( x), (.) Ob.. Schéma příznakového klasifikátou kde d(x) je skalání funkce vektoového agumentu x. Příznakové klasifikátoy se v pincipu mohou lišit časovým sledem použití jednotlivých příznaků buď lze zpacovávat celý vekto jako celek, nebo lze nejen zpacovávat, nýbž především i pořizovat (měřit) jednotlivé příznaky postupně, což umožňuje minimalizovat počet potřebných příznaků při požadované kvalitě ozhodnutí a v paktickém důsledku náklady na pořízení nezbytné infomace po dostatečně kvalitní klasifikaci. Pvní z uvedených způsobů klasifikace nazýváme paalelní klasifikací, zatímco duhý označujeme jako klasifikace sekvenční. Základní pincipy paalelní klasifikace budou dále popsány a ozvinuty v kap.. až.5, základní pincipy sekvenční klasifikace budou jen stučně naznačeny v kap..6 a dále v učitých směech ozvinuty v navazujících učebních textech [4]. Klasifikační třídy jsou vymezeny, jak již bylo uvedeno v předchozích kapitolách, učitými nepřekývajícími se částmi obazového postou, kteé představují obazy klasifikovaných objektů s dostatečně podobnými vlastnostmi. Fomálně můžeme předpokládat, že obazový posto je ozdělen na R disjunktních postoů R, =,, R, přičemž každá podmnožina R obsahuje ty obazy x, po kteé = d(x). Klasifikační třídy lze v obazovém příznakovém postou vymezit několika následujícími způsoby: a) pomocí tzv. diskiminačních funkcí; b) pomocí etalonů klasifikačních tříd počet etalonů klasifikační třídy může být ůzný od jednoho epezentativního vzoku, kteý exkluzivně představuje danou klasifikační třídu až po úplný výčet všech vektoů (obazů) patřících do dané klasifikační třídy; s tímto - -

13 způsobem popisu je pak nejčastěji vázána klasifikace podle minimální vzdálenosti, esp. maximální podobnosti; c) vymezením haničních ploch.. Klasifikace podle diskiminačních funkcí.. Základní pincipy Příslušnost do jednotlivých klasifikačních tříd v tomto případě vyjadřujeme pomocí R skaláních funkcí g (x), g (x),, g R (x) takových, že po obaz x z podmnožiny R, o níž předpokládáme, že epezentuje obazy ze třídy, po všechna platí g ( x ) g ( x), pos,,...,r a s. (.) s Ob.. Pincip metody pomocí diskiminačních funkcí Ob..3 Blokové schéma klasifikátou pomocí diskiminačních funkcí Funkce g (x) mohou vyjadřovat např. míu výskytu obazu x patřícího do - té klasifikační třídy v odpovídajícím místě obazového postou. Nazýváme je diskiminační funkce a z analyticky geometického hlediska definují plochy nad obazovým postoem. Po jednoozměný příznakový posto a dvě klasifikační třídy je pincip klasifikace pomocí diskiminačních funkcí zobazen na ob... Blokové schéma klasifikátou založeného na metodě pomocí diskiminačních funkcí je na ob..3. Všechny příznaky x, x,, x n jsou současně přivedeny do R bloků, ve kteých se vyčíslí hodnoty diskiminačních funkcí g (x), =,,, R. Na výstupu výběového bloku se objeví identifikáto vybané klasifikační třídy. Potože diskiminační funkce jsou definovány vztahem (.), je v případě deteministických klasifikátoů výběový algoitmus definován jednoznačně výběem maxima, zatímco u nedeteministických klasifikátoů je výbě učen nějakým nejednoznačným algoitmem. Buď se např. zvolí hodnota vý

14 stupní poměnné na základě někteé vaianty náhodného výběu, nebo mohou být jednotlivé výstupní hodnoty oceněny patřičnou míou příslušnosti k daným klasifikačním třídám (např. velikostí pavděpodobnosti). V případě klasifikace do dvou klasifikačních tříd, tzv. dichotomie, pacuje klasifikáto pouze se dvěma diskiminačními funkcemi. Učujeme-li, kteá z obou funkcí má po obaz x větší hodnotu, stačí zjistit znaménko funkce a výběový blok pak epezentuje nelineání příkaz g( x) g( x) g( x) (.3) sign g( x), (.4) po kteý je =, když g(x) 0, tj. předpokládáme, že x R a =, když g(x) < 0, tj předpokládáme, že x R. Nejjednodušším tvaem diskiminační funkce je funkce lineání, kteá má tva g (x) = a 0 + a x + a x + + a n x n, (.5) kde a 0 je páh diskiminační funkce posouvající počátek souřadnicového systému a a i, i =,, n jsou váhové koeficienty i-tého příznaku x i. Schéma lineáního klasifikátou je na ob..4. Ob..4 Schéma deteministického klasifikátou s lineáními diskiminačními funkcemi Diskiminační funkce lineáního dichotomického klasifikátou má tva (ze vztahů (.3) a (.5)) g(x) = a 0 + a x + a x + + a n x n = = a 0 +a T.x, (.6) kde vekto a je sloupcový vekto váhových koeficientů, po jehož souřadnice a po koeficient a 0 platí a i = a i - a i, po i = 0,,, n. (.7) Blokové schéma takového klasifikátou je na ob..5. Ob..5 Schéma dichotomického lineáního klasifikátou - 4 -

15 .. Učení diskiminačních funkcí na základě statistických vlastností množiny obazů Bayesův klasifikáto Při řešení paktických klasifikačních úloh je nutné předpokládat, že hodnoty příznaků jsou ovlivněny víceméně náhodnými fluktuacemi ůzného původu. Poloha příznakového obazu (vektou) je tedy ovlivněna všelijakým náhodným ušením, kteé způsobuje zvýšený ozptyl obazů nejen v postou učité klasifikační třídy, nýbž i vně tohoto postou, takže dochází k překývání množin obazů z ůzných klasifikačních tříd. Je zřejmé, že díky tomuto překývání nebude klasifikace vždy bezchybná a chybná klasifikace může způsobit učitou ztátu. Možnost vyjádření ztáty při chybné klasifikaci nabízí tzv. ztátová funkce λ( s ), udávající ztátu vzniklou chybným zařazením obazu do třídy, když ve skutečnosti patří do třídy s. Po celou klasifikační úlohu vyjádříme ztáty všech možných chybných klasifikací pomocí matice ztátových funkcí (cost matix) ( ) ( ) ( R ) ( ) ( ) ( R ) λ. (.8) ( R ) ( R ) ( R R ) Tato matice je obecně nesymetická. Např. pokud není u pacienta spávně diagnostikován infakt myokadu, může to po dotyčného pacienta mít fatální důsledky. Naopak, ztáta bude naposto jiná, bude-li u zdavého pacienta infakt myokadu diagnostikován chybně. Obecně mohou hodnoty ztátové funkce záviset na obazu x, čehož fomálně snadno dosáhneme dosazením za podle vztahu (.), tj. λ(d(x) s ), nebo zahneme-li mezi paamety ozhodovacího pavidla i nastavení paametů klasifikátou, vyjádřené vektoem a, je ztátová funkce vyjádřena jako λ(d(x,a) s ). Často je výhodnější, než použití celé matice, vyjádřit kvalitu ozhodování klasifikátou jedním jednoduchým zobecňujícím paametem. K tomu účelu se používá tzv. střední ztáta J(a), udávající půměnou ztátu při chybné klasifikaci obazu x. Než se pustíme do podobnějšího popisu jednotlivých metod, připomeňme po méně zkušené čtenáře vztah, se kteým tyto metody pacují, tj. Bayesův vzoec ve tvau a s intepetací, kteé jsou užitečné z pohledu výkladů v této kapitole. Tedy p( x ).P( ) P( x), (.9) p( x) kde P(ω x) je aposteioní podmíněná pavděpodobnost zatřídění obazového vektou x do třídy ω, p(x s ) je podmíněná hustota pavděpodobnosti výskytu obazů x ve třídě ω, P( s ) je apioní pavděpodobnost třídy ω a konečně p(x) je celková hustota pavděpodobnosti ozložení všech obazů x v celém obazovém postou. Kitéium minimální střední ztáty Pokud bychom se soustředili pouze na obazy ze třídy s, je střední ztáta dána půměnou hodnotou z λ(d(x,a) s ) vzhledem ke všem obazům ze třídy s, tj. Js( a ) (d( x, a) s ).p( x s )dx, X (.0) kde zopakujme, že p(x s ) je podmíněná hustota pavděpodobnosti výskytu obazu x ve třídě s. Ve skutečnosti na vstup klasifikátou přicházejí obazy ze všech tříd, poto musíme celkovou střední ztátu J(a) stanovit jako půměnou hodnotu ze ztát J s (a). Tedy

16 R R s s s X s J( a ) J ( a).p( ) (d( x, a) ).p( x ).P( )dx, (.) kde opět P( s ) je apioní pavděpodobnost výskytu třídy s, nebo podle Bayesova vzoce J( a) R X s (d( x, a) ).p( x).p( s s s s x). dx, s (.) kde, jak již víme, je p(x) hustota pavděpodobnosti výskytu obazu x v celém obazovém postou X a P( s x) je podmíněná pavděpodobnost toho, že daný obaz x patří do třídy s (tzv. aposteioní pavděpodobnost třídy s ). Celková střední ztáta J(a) je tedy již pouze funkcí nastavení klasifikátou. Návh optimálního klasifikátou, kteý by minimalizoval celkovou střední ztátu, spočívá v nalezení takové množiny paametů ozhodovacího pavidla a*, že platí J( a*) min J( a), (.3) a tj. a* je vekto takových hodnot paametů ozhodovacího pavidla, po kteý je střední ztáta nejmenší. Dosadíme-li do (.3) podle (.), dostaneme J( a*) min a R X s (d( x, a) ).p( x ).P( ) dx s s s (.4) a za předpokladu, že ztátová funkce λ( s ) je konstantní po všechny obazy x ze třídy s, platí dále J( a*) X min R s Když označíme ztátu při klasifikaci obazu x do třídy ( ).p( x ).P( )dx. (.5) s R ) ( s ).p( x s ).P( s ) s s Lx ( (.6) a dosadíme-li podle (.6) do (.5), dostaneme vztah J( a*) min Lx( ). dx. X s (.7) Úloha nalezení minima celkové střední ztáty se tímto postupem tansfomovala na minimalizaci funkce L x ( ). Optimální ozhodovací pavidlo d(x,a*) podle kitéia minimální celkové střední ztáty (nebo podle v liteatuře používaného názvu kitéia minimální chyby, esp. Bayesova kitéia) je učeno vztahem L x (d ME ( x, a*)) min Lx ( ). (.8) Pokud chceme, tak jak se v této kapitole očekává, ealizovat klasifikáto na pincipu diskiminačních funkcí, vyjdeme ze vztahu min Lx ( ) max( Lx ( )). (.9) Diskiminační funkci optimálního klasifikátou podle kitéia minimální chyby pak můžeme učit podle vztahu - 6 -

17 g R ( ) L ( ) ( s ).p( x s ).P( s ) s x x. (.0) Důsledky návhu optimálního ozhodovacího pavidla podle kitéia minimální chyby si nyní demonstujme na jednoduchém příkladu dichotomického klasifikátou. Celková střední ztáta při klasifikaci do dvou tříd bude J( a) R s ( ).p( x ).P( ).dx s s s R s ( ( ).P( ). p( x ).dx ( ).P( ). p( x).dx R R ).p( x ).P( ). dx ( ).P( ). p( x ).dx ( ).P( ). p( x).dx ).P( ).( ) ( ).P( ). ( R s ).P( ). ( ).P( ).( ), ( s R s (.) kde α a β jsou pavděpodobnosti chybného ozhodnutí odpovídající vyšafovaným plochám na ob..6 a vyjádřené vztahy R ( x )dx a p( x )dx. (.) p R Diskiminační funkce po dichotomický klasifikáto podle kitéia minimální chyby bude s pomocí vztahů (.3) a (.0) g x x ( ).p( x ).P( ) ( ).p( x).p( ( x ) g ( x) g ( x) L ( ) L ( ) ) Ob..6 Pavděpodobnosti chybného zatřídění ).p( x ).P( ) ( ).p( ).P( ) ( x ) ( ).p(x ).P( ) ( ) ( ).p(x ).P( ) (. (.3) - 7 -

18 Položíme-li výsledný výaz ve vztahu (.3) oven nule, dostaneme výaz po haniční plochu dichotomického klasifikátou, ze kteého můžeme učit pomě hustot pavděpodobnosti obazu x v každé z obou klasifikačních tříd, jenž nazýváme věohodnostní pomě ( ) ( ).P( ) ( ) ( ).P( ) p(x ). (.4) p(x ) Podle vztahu (.4) zařadíme obaz x do třídy, když je věohodnostní pomě větší než výaz na pavé staně; je-li menší, pak obaz x zařadíme do třídy. Haniční plocha pochází pávě těmi body x obazového postou, po kteé platí ovnost definovaná vztahem (.4). Výše uvedené odvození kitéia minimální střední ztáty předpokládalo elativně obecné podmínky. Jediné zjednodušení vycházelo z předpokladu, že ztátová funkce λ( s ) je konstantní po všechny obazy x ze třídy s. Při řešení paktických úloh se však často setkáváme se situacemi, kdy je velice obtížné zjistit všechny infomace, potřebné k ealizaci tohoto kitéia. Poto se nyní seznamme, jak se kitéium mění, nejsou-li k dispozici všechny požadované údaje. Kitéium minimální pavděpodobnosti chybného ozhodnutí Vzhledem k obtížnosti stanovení hodnot ztátových funkcí λ( s ) se kitéium minimální chyby zjednodušuje použitím jednotkových ztátových funkcí definovaných Matice jednotkových ztátových funkcí má pak tva 0; po s; ( ) s (.5) ; po s. a celková střední ztáta s pomocí vztahů (.) a (.5) je 0 0 λ (.6) 0 R J( a ) p( x ).P( )dx, s s X -R s s s (.7) což udává hodnotu pavděpodobnosti chybného ozhodnutí klasifikátou. Minimalizací celkové střední ztáty v tomto případě učíme paamety a* klasifikátou ozhodujícího s nejmenší pavděpodobností chybného ozhodnutí. Dosadíme-li (.5) do (.6), dostaneme R R Lx ( ) p( x s ).P( s ) p( x s ).P( s ) p( x ).P( ) (.8) s s a s využitím Bayesova vztahu je dále s Věohodnostní pomě (likelihood atio) LR udává podíl pavděpodobnosti, že se vyskytne nějaký jev A za učité podmínky (jev B), k pavděpodobnosti, že se jev A vyskytne, když podmínka neplatí (jev nonb). Má-li například pacient náhlou ztátu paměti (jev A), chceme znát věohodnostní pomě výskytu jevu A v případě, že má mozkový nádo (jev B), tj. podíl pavděpodobnosti, s jakou ztáta paměti vzniká při nádou mozku, k pavděpodobnosti, s jakou vzniká v ostatních případech. Věohodnostní pomě je tedy podíl podmíněných pavděpodobností LR=P(A B)/P(A nonb)

19 R Lx ( ) p( x). P( s x) p( x ).P( ) p( x) p( x ).P( ). (.9) s Hustota pavděpodobnosti p(x) nezávisí na klasifikační třídě, po daný obaz je konstantní po všechna L x ( ) a tedy neovlivňuje výbě minima. Poto můžeme stanovit diskiminační funkci jako g ( x ) p( x ).P( ). (.30) V případě dichotomického klasifikátou je diskiminační funkce g ( x ) p( x ).P( ) p( x ).P( ). (.3) Z tohoto vztahu můžeme učit věohodnostní pomě Λ, kteý učuje hanici mezi dichotomickými klasifikačními třídami podle kitéia minimální pavděpodobnosti chybného ozhodnutí Kitéium maximální aposteioní pavděpodobnosti p(x ) P( ). (.3) p(x ) P( ) Modifikujeme-li vztah (.6) po ztátu při klasifikaci obazu x do třídy podle Bayesova vztahu (tj. P( s x).p(x) = p(x s ).P( s )), platí, že R R ) ( s ).p( x).p( s x) p( x). ( s ).P( s x) s s Lx (. (.33) Když opět využijeme toho, že hustota pavděpodobnosti p(x) výskytu obazu x v celém obazovém postou nezávisí na klasifikační třídě, její odstanění neovlivní konstukci ozhodovacího pavidla. Lze tedy místo L x ( ) použít poměnnou L x ( ) učenou vztahem L' L ( ) R x x ( ) ( s ).P( s x) p( x) s. (.34) Uvažujeme-li znovu nejjednodušší volbu hodnot ztátových funkcí, tj. jednotkové ztátové funkce, je L' ( ) x R s s P( s x) R s P( s x) P( x) P( x). (.35) Minimum ztáty L x ( ) nalezneme pávě tehdy, když P( x) bude maximální. To znamená, že jako diskiminační funkci můžeme volit pávě hodnotu aposteioní pavděpodobnosti třídy, tj. g ( x) P( x). (.36) Konečně se opět zabývejme případem klasifikace do dvou klasifikačních tříd. Diskiminační funkce je při tom definována g ( x ) P( x) P( x) 0. (.37) Z toho dále platí, že hanici mezi dvěma třídami učuje vztah - 9 -

20 nebo P( P( x). x) (.39) Podle tohoto kitéia, tzv. kitéia maximální aposteioní pavděpodobnosti zatřídíme obaz x logicky do té třídy, jejíž pavděpodobnost je při výskytu obazu x větší. Z odvození tohoto kitéia a kitéia minimální pavděpodobnosti chyby vyplývá, že jsou obě kitéia ovnocenná. Kitéium maximální pavděpodobnosti Všechna dosud uvedená optimální kitéia vycházela ze znalosti hustoty pavděpodobnosti výskytu obazů x ve všech klasifikačních třídách p(x s ) a apioních pavděpodobností všech tříd P( s ). Pokud nemáme infomaci o výskytu klasifikačních tříd, předpokládáme ovnoměné ozložením, tedy všechny třídy jsou stejně pavděpodobné (P( s ) = P() = /R). Potom celková střední ztáta R J( a) ( s ).p( x s ). dx (.40) R dosáhne minima, když J( a*) R s X min a R X s ( ).p( x )d. x. (.4) Diskiminační funkci pomocí ztáty při klasifikaci obazu x do třídy můžeme podobně jako v (.0) učit ze vztahu g R ( ) L ( ) ( s ).p( x s ) s s s x x. (.4) V případě dichotomie je věohodnostní pomě p(x ) ( ) ( ). (.43) p(x ) ( ) ( ) Když jsou ceny spávného ozhodnutí nulové, tj. λ( ) = λ( ) = 0, je p(x ) ( ). p(x ) ( ) P x ( x) P( ), (.38) (.44) Obaz x je zařazen do třídy, když je věohodnostní pomě větší než pomě cen ztát chybných zatřídění (ob..7). Jsou-li obě ceny stejné, tj. i jednotkové, je obaz x zařazen do té třídy, po kteou je hodnota hustoty pavděpodobnosti p(x s ) větší. Ob..7 Stanovení klasifikační hanice po dichotomický klasifikáto podle kitéia maximální pavděpodobnosti - 0 -

21 .3 Klasifikace podle minimální vzdálenosti.3. Základní pincipy Jak již bylo uvedeno, posto odpovídající jednotlivým klasifikačním třídám můžeme v obazovém postou vymezit komě diskiminačních funkcí a haničních ploch ovněž polohou epezentativních obazů etalonů. Je-li v obazovém postou zadáno R etalonů vektoy x E, x E,, x RE, zařadí klasifikáto podle minimální vzdálenosti klasifikovaný obaz x do té třídy, jejíž etalon má od bodu x nejmenší vzdálenost. Rozhodovací pavidlo je tedy učeno vztahem d( x) = xe - x min xse - x. (.45) Pokud je i nejmenší možná vzdálenost příliš velká, lze ozhodovací pavidlo upavit do tvau s když d( x ) = xe -x min xse -x T, pak, jinak R, (.46) s kde T je učená pahová hodnota a R+ epezentuje klasifikační třídu, kteá obsahuje vzoky, kteé klasifikáto neumí zatřídit. Vzdálenost je hodnota, kteou můžeme považovat za míu nepodobnosti. Čím je vzdálenost mezi dvěma objekty větší, tím méně jsou si podobny. Duální míou ke vzdálenosti je podobnost čím větší je podobnost dvou objektů, tím bližší si tyto objekty jsou. Klasifikace podle minimální vzdálenosti bývá někdy až příliš automaticky a samozřejmě spojována pouze se shlukováním. Shlukovací algoitmy, kteé jsou detailněji popsány např. v [3], představují typický klasifikační učící se algoitmus, kteý samočinně modifikuje vlastnosti klasifikační třídy s klasifikací každého nového obazu. Pokud ale definici klasifikační třídy (její etalon) během klasifikačního pocesu neměníme, pak lze klasifikaci podle minimální vzdálenosti považovat za klasický neučící se algoitmus, byť se zde používá pojmu etalon, jehož výskyt se v někteých odboných zdojích považuje za pevně vázaný se sebeučícími se algoitmy..3. Metika, vzdálenost, podobnost Abychom uměli obazy podle vzdálenosti, esp. podobnosti klasifikovat, je potřeba umět vzdálenost/podobnost spočítat. Jinými slovy je třeba znát předpis (algoitmus, funkci), na základě kteého vzdálenost/podobnost počítáme. Způsob výpočtu vzdálenosti, esp. podobnosti bude záležet na mnoha okolnostech na způsobu, jakým matematicky popíšeme analyzovaný objekt, na chaakteu (typu) dat, samozřejmě i na vlastnostech předpisu, podle kteého vzdálenost, esp. podobnost počítáme. Zabývejme se nejdříve vzdáleností. Metikou ρ na X nazýváme takovou funkci ρ: X X R, kde X je n-ozměný obazový posto a R je množina eálných čísel, splňující následující předpoklady: ρ 0 R: - < ρ 0 ρ(x,y) < +, x,y X ; (.47) Konstanta ρ 0 je tomto případě definována velice obecně. V paktických případech je ovna nule, což znamená, že vzdálenost nabývá nezáponých hodnot s tím, že pokud jsou oba obazy (vektoy) totožné, je vzdálenost nulová. - -

22 a má následující vlastnosti ρ(x,x) = ρ 0, x X ρ(x,y) = ρ(y,x), x,y X (symetie); ρ(x,y) = ρ 0 když a jen když x = y (totožnost). Pokud navíc platí i tojúhelníková neovnost (.48) ρ(x,z) ρ(x,y) + ρ(y,z), x,y,z X, (.49) nazýváme metiku pavou metikou. Posto X, ve kteém je metika ρ definována, označujeme jako metický posto. Vzdálenost je pak hodnota učená podle metiky. Pokud se týče podobností, pak metikou podobnosti na X je taková funkce : X X R, kde X je opět n-ozměný obazový posto a R je množina eálných čísel, splňující následující předpoklady: 0 R: - < (x,y) 0 < +, x,y X ; (x,x) = 0, x X a má stejně jako v předešlém případě následující vlastnosti a (x,y) = (y,x), x,y X (symetie) (x,y) = 0 když a jen když x = y (totožnost). (.50) (.5) V případě tojúhelníkové neovnosti je situace poněkud složitější. Vztahy pimáně vycházejí ze vztahu po tojúhelníkovou neovnost definovanou po metiku vzdálenosti a její konkétní tva po metiku podobnosti souvisí se základním vztahem mezi podobností a vzdáleností. Tento vztah může být vyjádřen např. pomocí následujících fomulí: nebo ; (.5), (.53) = c -, když c max. (.54) Pokud se hodnoty vzdáleností pohybují v intevalu 0, ), pak v případě vztahu (.5) se hodnoty podobnosti nacházejí také v tomto intevalu a výaz po tojúhelníkovou neovnost (.49) se tansfomuje do tvau (x,y). (y,z) [(x,y) + (y,z)]. (x,z), x,y,z X. (.55) Řídí-li se elace mezi vzdáleností a podobností vztahem (.53), pak se hodnoty podobnosti vyskytují v intevalu 0, a tojúhelníková neovnost má tva (x,y). (y,z) [(x,y) + (y,z) - (x,y). (y,z)]. (x,z), x,y,z X. (.56) Konečně, v případě fomule (.54) spadají hodnoty podobnosti do intevalu c - max, c a tojúhelníková neovnost se změní na (x,z) (x,y) + (y,z) - c, x,y,z X. (.57) - -

23 .3.3 Metiky po učení vzdálenosti mezi dvěma obazy s kvantitativními příznaky Použití konkétní metiky závisí vždy na řešené úloze, a pokud se používá klasifikace podle minimální vzdálenosti, pak ozhodujícím kitéiem po posouzení vhodnosti té kteé metiky musí být kvalita výsledků klasifikace. Komě tohoto základního kitéia, lze při výběu možné metiky použít i další dílčí kitéia, jako např. výpočetní náoky, chaakte ozložení dat, apod. Obecně nelze dopoučit vhodný postup po výbě optimální metiky ani po úlohy učitých standadních typů. Euklidova metika je definována vztahem / n E ( x, x) (xi x i). (.58) i Je to metika zřejmě s nejnázonější geometickou intepetací, geometickým místem bodů s toutéž Euklidovou vzdáleností od daného bodu je koule (kuh ve dvouozměném postou viz ob..8). Kvadát ozdílů souřadnic znamená, že klade větší důaz na větší ozdíly mezi souřadnicemi než v lineáním případě (což je třeba v každém konkétním případě posoudit, zda je to stav žádoucí či nežádoucí). Pokud bychom počítali vzdálenost podle vztahu (.58), ovšem bez použití odmocniny, tzv. kvadatická Euklidova vzdálenost, pak je výpočet učitě méně náočný, ale vztah nesplňuje tojúhelníkovou neovnost. Vypočtené hodnoty lze považovat za míy nepodobnosti, ale výpočetní vztah není pavou metikou. Kvadatickou euklidovskou vzdálenost lze tedy používat tehdy, kdy je ozhodující elativní poovnávání dvou hodnot (což klasifikace podle minimální vzdálenosti je), nikoliv absolutní hodnoty jako takové, což už by byl i případ klasifikace podle vztahu (.46). Příklad Učete hodnoty euklidovské vzdálenosti a kvadatické euklidovské vzdálenosti po dvouozměné body x = (0,0), y = (5,0) a z = (6,). Euklidovská vzdálenost: d ( x, y) = E 5 0 = 5; d ( y, z) = Kvadatická euklidovská vzdálenost: d E ( x, y) = 5 0 E = 5; d E = ( y, z) = = 5; Ob..8 Geometická místa bodů se stejnou vzdáleností od souřadnicového počátku ve dvouozměném příznakovém postou: E - Euklidova metika, C - Čebyševova metika, H Hammingova metika 5,7; d ( x, z) = E d E ( x, z) = 6 6 = = ,3. Zatímco po libovolné dvě hodnoty Euklidovy vzdálenosti platí, že jejich součet je větší než zbývající hodnota, v případě kvadatické Euklidovy vzdálenosti je d E (x,y) + d E (y,z) není větší nebo ovno než d E (x,z). Hammingova metika, také nazývána manhattanská metika, nebo v angličtině city-block metika, esp. taxi dive metika, potože svým výpočtem ve dvouozměném postou navozuje představu vzdálenosti, kteou uazí automobil jedoucí z jednoho místa do duhého v pavoúhle zastavěném městském postředí. Je definována vztahem - 3 -

24 H n ( x, x ) x x. (.59) i i Hammingova metika je vytvořena lineaizací Euklidovy metiky, což má za následek jednak snížení významu členů s větším ozdílem mezi dílčími souřadnicemi obou vektoů, jednak snížení výpočetní pacnosti vůči Euklidově metice. Absolutní hodnota je nezbytná po zachování kladné výsledné hodnoty vzdálenosti. Geometickým místem bodů s toutéž Hammingovou vzdáleností od počátku v dvouozměném postou je čtveec uvnitř Euklidovy kužnice (viz ob..8). Jak posléze uvidíme (kap..3.5 a 4.3.3) má Hammingova metika použití i při posuzování vzdáleností dvou bináních vektoů, esp. řetězců stejné délky. Uplatňuje se i při hodnocení podobnosti dvou objektů, příp. jevů pomocí asociačních koeficientů (kap..3.6). Minkovského metika je definována vztahem n / m m M(, x) xi x i i i x. (.60) Zobecňuje Euklidovu nebo v podstatě i Hammingovu metiku. Místo duhé mocniny, příp. odmocniny, je použita mocnina i odmocnina obecná. To znamená, že zvyšuje váhu vlivu členů s větším ozdílem dílčích souřadnic obou obazů. Čím větší mocnina, tím větší důaz na velké ozdíly mezi příznaky. Čebyševova metika je definována vztahem C( x, x) max xi xi. (.6) i Je limitním případem Minkovského metiky, potože platí C( x, x) lim M( x, x). (.6) m Používá se ve výpočetně kiticky náočných případech, kdy je pacnost výpočtu dle euklidovsky oientovaných metik nepřijatelná. Geometickým místem bodů s toutéž čebyševovskou vzdáleností od daného bodu je kychle, čtveec ve dvouozměném postou (ob..8). Posto mezi kužnicí euklidovské metiky E a čtvecem Čebyševovy metiky C vyplňují křivky Minkovského metiky po ůzné hodnoty paametu m >. Pokud je potřeba použít euklidovskou metiku, ale s nižší výpočetní náočností, používá se v pvní řadě Hammingova nebo Čebyševova metika. Možným přiblížením může být také kombinace obou metik. Vzdálenost učenou podle Hammingovy metiky lze považovat za dolní odhad vzdálenosti podle Euklidovy metiky a vzdálenost podle Čebyševovy metiky za její honí odhad. Všechny uvedené metiky mají mnohé společné nevýhody. Jednak to, že je fyzikálně nesmyslné vytvářet součet ozdílů veličin s ůzným fyzikálním ozměem, jednak to, že jsou-li začleněny příznakové veličiny do výsledné vzdálenosti se stejnými vahami, zvyšuje to vliv koelovaných veličin na celkový výsledek. Tyto nevýhody mohou být odstaněny vhodnou tansfomací poměnných. Vliv ůzných fyzikálních veličin lze odstanit vztažením jejich hodnot k nějakému vyovnávacímu faktou, např. střední hodnotě x, směodatné odchylce x, nomě daného obazu definované po obaz x = (x, x,, x n ) jako - 4 -

25 / n x x i, (.63) i ozpětí i = max j x ij - min j x ij, esp. standadizací podle vztahu (někdy také nazývaného z- skóe) u ij xij x j, i =,, n; j =,, K. (.64) j Můžeme také buď čistě subjektivně, nebo lépe na základě nějaké objektivní apioní infomace přiřadit každé příznakové poměnné koeficient udávající váhu této poměnné při výpočtu vzdálenosti. Např. vztah po Minkovského metiku se váhováním mění na n / m m WM(, x) ai.xi x i i x. (.65) Tansfomaci pomocí váhových koeficientů lze vyjádřit maticovým zápisem kde koeficienty tansfomační matice C jsou dány u = C T.x, (.66) c ii = a i, po i =,, n; c ij = 0, po i j. (.67) S takovým vyjádřením tansfomace příznakových poměnných je váhovaná Euklidova metika definována vztahem T T ( x x ). CC..( x x ) /. ( x, x ) (.68) WE Pokud jsou složky tansfomovaného obazu dány lineání kombinací více složek původního obazu, není ani matice C, ani matice C.C T čistě diagonální. Použijeme-li místo matice C.C T invezní kovaianční (dispezní) matici K - je vztah (.68) definičním vztahem tzv. Mahalanobisovy metiky ( u, u E ) MA ( x, x ) T / ( x x ). K.( x x ). (.69) Kovaianční matice dvou sloupcových vektoů x = (x,, x m ) a y = (y,, y n ) je učena podle vztahu T K ( x, y) E(( x Ex).( y Ey) ) [cov(x i,y j)] m,n. (.70) Přestože použití kovaianční matice je po Mahalanobisovu metiku naposto dominantní, lze nalézt definice této metiky i s koelační maticí E(x.y T )=[co(x i,y j )] m,n. V tomto případě je to opět situace, kdy je potřeba posoudit, zda je po řešenou úlohu více infomace v datech obsahujících i jejich střední hodnotu či zda střední hodnota pouze překývá důležitou infomaci obsaženou pouze ve vaiabilitě dat. Využívá-li výpočet vzdálenosti hodnot příznakových poměnných vztažených vůči ozdílům maximální a minimální hodnoty dané poměnné, pak na příklad Hammingova nomovaná metika je v tomto případě definovaná vztahem NHnx i n xi x i ( x, x). (.7) max x min x i i - 5 -

26 kde max x i a min x i jsou maximální a minimální hodnoty dané souřadnice. Po ozšíření intevalu, ve kteém se hodnoty vzdálenosti vyskytují, existuje i její logaitmická vaianta definovaná jako G n xi x i ( x, x) log0. (.7) n i max xi min xi Ve všech těchto případech je třeba pečlivě zvážit, zda tansfomací dat nepřicházíme o významnou část infomace, potřebné při navazujícím zpacování dat. Např. při použití Mahalanobisovy metiky, tak i při použití poměnných vztažených ke směodatné odchylce, je potlačen vliv ozptylů příznakových poměnných na výslednou hodnotu vzdálenosti, což může mít na jedné staně příznivý, na duhé i nepříznivý vliv na získané výsledky a jejich intepetaci. Je potřeba si i uvědomit, že hodnota např. Mahalanobisovy metiky nebo nomované Hammingovy metiky NHnx definované vztahem (.7), příp. i metiky G nezávisí pouze na poloze vektoů x a x, nýbž i na vlastnostech postou vektoů X. To znamená, že nabývá-li na příklad vzdálenost učená metikou G hodnoty d G (x,x ) v postou X a hodnoty d G (x,x ) v postou X, pak obecně d G (x,x ) d G (x,x ). Příklad Mějme dva tříozměné vektoy x = (0,,) T a x = (4,3,) T. Pak za předpokladu neváhovaných metik je d H (x,x ) = 6, d E (x,x ) =.5 a d C (x,x ) = 4. Všimněme si, že d H (x,x ) > d E (x,x ) > d C (x,x ). Nyní předpokládejme, že tyto vektoy patří do postou X, kteý obsahuje vektoy s maximálními hodnotami jednotlivých příznakových poměnných x max = (0; ; 3) T a minimálními hodnotami příznaků x min = (0; 0,5; ) T. Pak d G (x,x ) = 0,09. Pokud ale vektoy x a x patří do postou vektoů X = s maximálními hodnotami příznakových poměnných x max = (0; ; 3) T minimálními hodnotami x max = (-0; -9,5; -9) T, pak d G(x,x ) = 0,095. Relativizovanou vaiantou Hammingovy metiky je i tzv. canbeská metika daná fomulí 3 CA n xi x i ( x, x). (.73) x x i i Jednotlivé zlomky jsou z intevalu 0;, celkový součet ale může být větší než. Je-li hodnota jednoho příznaku nulová, je dílčí zlomek oven jedné bez ohledu na duhou hodnotu. Jedničce se ovná dílčí zlomek i v případě, kdy obě souřadnice mají tutéž hodnotu, ale s opačným znaménkem. Jsou-li hodnoty obou příznaků ve zlomku nulové, pak předpokládáme, že i hodnota zlomku je nulová (někdy se z paktických výpočetních důvodů nahazují nulové hodnoty velmi malými hodnotami menšími než nejmenšími možnými naměřenými hodnotami). Canbeská metika je velice citlivá na malé změny souřadnic, pokud se oba obazy nacházejí v blízkosti počátku souřadnicové soustavy. Naopak je méně citlivá na změny hodnot příznaků, pokud jsou tyto hodnoty velké. Příklad Jsou dány dva vektoy x = (0,00; 0,00) T a x = (0,0; 0,0) T. Předpokládejme, že souřadnice pvního z vektoů se změní na x (0,00; 0,00) T. Jaká je Hammingova a canbeská vzdálenost v obou případech a jaká je elativní změna vzdáleností, vyvolaná uvedenou modifikací? i 3 V liteatuře lze najít i vezi bez absolutních hodnot ve jmenovateli (tak, jak byl vzoec původně navžen), samozřejmě s dovětkem, že vztah je vhodný pouze po kladné hodnoty příznaků

27 dca( x, x) dca( x', x) d H (x,x ) = 0,00-0,0 + 0,00-0,0 = 0, ,009 = 0,08; d H (x,x ) = 0,00-0,0 + 0,00-0,0 = 0, ,009 = 0,07; 0,00 0,0 0,00 0,0 0,00 0,0 0,00 0,0 0,00 0,0 0,00 0,0 0,00 0,0 0,00 0,0 0,009 0,0 0,008 0, ,009 0,88 0,88,6364 ; 0,0 0,009 0,6667 0,88, ,0 Relativní změny vzdáleností, učující citlivost té kteé metiky, kteé jsou způsobeny změnou hodnoty pvní souřadnice, jsou dh( x, x) dh( x', x) 0,08 0,07 0,00 dh 0,056; d ( x, x ) 0,08 0,08 d CA d CA H d ( x, x CA ) d ( x, x CA ( x', x ) ),6364,4849 0,093.,6364 Ze získaných výsledků je zřejmé, že elativní změna vzdáleností je v případě canbeské metiky po toto zadání o poznání větší. Nyní mějme dány vektoy x = (000; 000) T a x = (00; 00) T a předpokládejme, že dojde ke změně pvní souřadnice vektou x na x = (00; 000) T. Jaká je Hammingova a canbeská vzdálenost po tyto vektoy a jaká je elativní změna vzdáleností, vyvolaná uvedenou modifikací? d H (x,x ) = = = 800; d H (x,x ) = = = 80; dca( x, x) dca( x', x) ,88 0,88,6364 ; 0,885 0,88,6367. Relativní změny vzdáleností způsobených změnou hodnoty pvní souřadnice pak v tomto případě jsou dh( x, x) dh( x', x) d H 0,00; d ( x, x ) d CA d CA ( x, x d CA H ) d ( x, x CA ) ( x', x ),6364,6367 0,0003 0,0008.,6364,6364 Jak je zřejmé, citlivost canbeské metiky je v tomto případě řádově menší. Komě uvedených metik s poměně obecným použitím existuje řada dalších způsobů výpočtu nepodobnosti dvou vektoů odvozených po speciální účely. Z nichž uveďme alespoň tzv. nelineání metiku definovanou vztahem N 0, poe ( x, x) D; ( x, x) (.74) H, poe ( x, x) D, kde D je pahová hodnota a H je nějaká konstanta. I když existují dopoučení, jak volit obě hodnoty na základě statistických vlastností vektoového postou, výhodnější se zdá volit obě

28 konstanty na základě expetní analýzy řešeného poblému. I když ve vztahu (.74) je použita jako základní Euklidova metika, teoeticky nic nebání použití jakékoliv jiné metiky vzdálenosti..3.4 Metiky po učení podobnosti dvou obazů s kvantitativními příznaky V paxi se po obazy s kvantitativními příznaky (spojitými i diskétními) používají především následující míy podobnosti. Skalání součin je po dva sloupcové vektoy x a x definován v euklidovském postou vztahem ss n T ( x, x) x. x xix. i (.75) i Ve většině případů je skalání součin jako mía podobnosti použit po vektoy x a x o stejné délce, např. a. V těch případech jsou honí, esp. dolní mez skaláního součinu a, esp. a a hodnoty skaláního součinu v tom případě závisí výhadně na úhlu, kteý oba vektoy svíají. Hodnoty a nabývá, pokud oba vektoy svíají nulový úhel, hodnoty a, pokud úhel mezi nimi je 80 a nulové hodnoty, pokud jsou oba vektoy na sebe kolmé. Z dosud uvedeného plyne, že skalání součin je invaiantní vůči otaci (jejich absolutní oientace není podstatná, důležitý je pouze úhel mezi nimi), nikoliv však vůči lineání tansfomaci (závisí na délce vektoů). Ze skaláního součinu vektoů o délce a je možné odvodit i metiku vzdálenosti podle vztahu ss( x, x) a ss( x, x). (.76) Na výpočtu skaláního součinu je založena i metika kosinové podobnosti, kteá předpokládá, že oba vektoy jsou nomovány, tedy mají jednotkovou délku. Platí x. x T cos( x, x) x. x, (.77) kde x i je noma (délka) vektou x i, učená podle vztahu (.63). To znamená, že platí vše výše uvedené po skalání součin s tím, že délka obou vektoů je jednotková, tj. a =. Hodnoty cos (x, x ) jsou pak ovny kosinu úhlu mezi oběma vektoy. Peasonův koelační koeficient, známá statistická mía definovaná výazem x. x T d d PC( x, x), (.78) xd. xd kde x di = (x i - x i, x i - x i,, x in - x i ) T, x ij představují j-tou souřadnici vektou x i a střední hodnota učená ze souřadnic vektou x i ( x i n j x ij / n x i je ). Vektoy x di se obvykle nazývají difeenční vektoy. Podobně jako v případě kosinové podobnosti, nabývá Peasonův koelační koeficient hodnot z intevalu -;, ozdíl vůči kosinové míře podobnosti je ten, že učuje vztah nikoliv vektoů x a x, nýbž jejich difeenčních vaiant. I z hodnot Peasonova koelačního koeficientu lze učit vzdálenost obou vektoů pomocí metiky - 8 -

29 PC( x, x) PC( x, x), (.79) jejíž hodnoty se, díky dělení dvěma, vyskytují v intevalu 0;. Tato metika se používá např. při analýze dat genové expese. Tanimotova metika podobnosti je další, celkem běžně používaná metika podobnosti, definovaná vztahem T x x T ( x, x). T x x x x (.80) Přičteme-li a odečteme-li ve jmenovateli výaz x T x a podělíme-li čitatele i jmenovatele zlomku toutéž hodnotou, dostaneme T( x, x) T. ( x x) ( x x) (.8) T x x Tanimotova podobnost vektoů x a x je tedy nepřímo úměná kvadátu Euklidovy vzdálenosti vektoů x a x vztažené k jejich skalánímu součinu. Pokud skalání součin považujeme za míu koelace obou vektoů, můžeme fomulovat výše uvedenou fomulaci tak, že s T (x, x ) je nepřímo úměný kvadátu Euklidovy vzdálenosti podělenému velikostí jejich koelace, což znamená, že je koelaci, jako míře podobnosti přímo úměný. Konečně poslední z pakticky užitečných metik podobnosti je metika definovaná vztahem E( x, x) C( x, x). x x (.8) Vzdálenost podle metiky x, x ) je ovna jedné, když x = x a svého minima, tj. x, x ) = -, když x = -x. C( C(.3.5 Metiky po učení vzdálenosti mezi dvěma obazy s kvalitativními příznaky Tyto metiky dominantně vycházejí z pojmu kontingenční matice, esp. tabulka. Předpokládejme, že hodnoty uvažovaných vektoů patří do konečné k-pvkové množiny F kategoiálních, nebo případně diskétně kvantitativních hodnot. Dále předpokládejme, že máme vektoy x,y F n, kde n je jejich délka a nechť A(x,y) = a ij, i,j F, je matice o ozměu k k, a její pvky a ij jsou učeny počtem případů, kdy se hodnota i nachází na učité pozici ve vektou x a současně se na téže pozici nachází hodnota j ve vektou y. Matici A nazýváme kontingenční tabulkou (maticí). Pokud je kontingenční tabulka ozměu x, tj. k =, nazýváme ji čtyřpolní tabulkou, slouží ke sovnání dichotomických znaků. Komě postého popisu četností kombinací hodnot dvou znaků a výpočtu vzdáleností, či podobností dvou vektoů hodnot uvedených vlastností, nabízí kontingenční tabulka také možnost testování vztahu mezi oběma hodnotami. Příklad: Předpokládejme, že množina F obsahuje symboly {0,, }, tj. k = 3 a vektoy x a y jsou x = (0,,,,, ) T a y = (, 0,,, 0, ) T, n = 6. Potom kontingenční matice A(x,y) je - 9 -

30 0 0 A ( x, y) 0. (.83) 0 Lze snadno ukázat, že součet hodnot všech pvků matice A(x,y) je oven délce n obou vektoů, tj. v našem případě i0 j0 a ij 6. (.84) Hammingova metika (jak lze usoudit z dále uvedené definice, učitě není náhodná shoda jména s metikou uvedenou v kap..3.3.) je definována počtem pozic, v nichž se oba vektoy liší, tj. k k ( x, y). HQ a ij i0 j0 i j (.85) tj. je dána součtem všech pvků matice A, kteé leží mimo hlavní diagonálu. Po k =, kdy jsou hodnoty obou vektoů binání, se definiční vztah Hammingovy vzdálenosti tansfomuje na n HQB (, y) (xi yi xiyi) i x, (.86) kde třetí člen v závoce kompenzuje případ, kdy jsou hodnoty x i i y i ovny jedné a součet pvních členů v závoce je tím pádem oven dvěma, nicméně nastává shoda hodnot, kteá k celkové vzdálenosti nemůže přispět. Potože x i a y i nabývají hodnot pouze 0 a, můžeme také psát n n HQB (, y) (xi yi xiyi) (xi yi) i i x (.87) a díky speciálnímu případu hodnot x i a y i je možná i nejjednodušší foma HQB n ( x, y) x y. (.88) i V případě bipoláních vektoů, kdy jednotlivé složky vektoů nabývají hodnot + a -, je Hammingova vzdálenost učena vztahem HQP n n xiyi i (, ) x y. i i (.89) Příklad: Učete Hammingovu vzdálenost vektoů z předchozího příkladu, tj. x = (0,,,,, ) T a y = (, 0,,, 0, ) T. Vzájemným poovnáním obou vektoů lze učit, že oba vektoy se liší v pvní, duhé a páté souřadnici, to znamená, že se oba vektoy liší ve třech pozicích, což definuje hodnotu Hammingovy vzdálenosti obou vektoů, tj. d HQ (x,y) =

31 Chceme-li učit tuto vzdálenost z kontingenční matice A(x,y) podle vztahu (.83), pak je vzdálenost podle vztahu (.85) učena součtem všech pvků matice A(x,y) mimo hlavní diagonálu. Tedy d HQ (x,y) = a + a + a 3 = + + = 3. Příklad: Učete Hammingovu vzdálenost bináních vektoů x = (0,,, 0, ) T a y = (, 0, 0, 0, ) T. Podle definičního pincipu je vzdálenost obou vektoů dána počtem pozic, ve kteých se oba vektoy liší, tj. d HQB (x,y) = 3. Použijeme-li vztah (.84), d HQB (x,y) ovna d HQB n ( x, y) (x i y x y ) (0+.0. ) + (+0..0) + (+0..0) + ( ) (+.. ) 3. Podle vztahu (.85) je ( x, y) (x (0 ) + ( 0) + ( 0) (0 0) Konečně, využijeme-li vztah (.88), je d HQB n ( x, y) xi yi i d HQB n i i i i y ) ( ) i i i Příklad: Učete Hammingovu vzdálenost dvou bipoláních vektoů x = (,,, -, ) T a y = (, -,, -, -) T. Podle definičního pincipu se oba vektoy liší ve dvou pozicích, tj. d HQP (x,y) =. Z kontingenční matice, kteá je po tento případ ovna A ( x, y) 0 je d HQP (x,y) ovna součtu hodnot pvků ležících mimo hlavní diagonálu, tj. d HQP (x,y) =. Použijeme-li vztah (.89), je také n n xiyi 5 (.) (.( )) (.) (( ).( )) (.( )) d (, ) i HQP x y 5 ( ) Metiky po učení podobnosti mezi dvěma obazy s kvalitativními příznaky Metiky podobnosti po vektoy kvalitativních příznaků, esp. vektoů s diskétními hodnotami příznaků je vhodné ozdělit na případy obecné a případy s dichotomickými příznaky, po kteé je definována celá řady tzv. asociačních koeficientů. Asociační koeficienty až na výjimky nabývají hodnot z intevalu 0,, hodnoty v případě shody vektoů, 0 po případ nepodobnosti. Pvní možností, jak definovat metiku podobnosti po nedichotomické příznaky, je odvodit ji z Hammingovy metiky - 3 -

32 HQ( x, y) bmax HQ( x, y). (.90) Zřejmě nejozšířenější metikou podobnosti dvou vektoů je ale tzv. Tanimotova metika podobnosti (název opět není jen náhodnou podobností s názvem metiky uvedené v kap..3.4). Zhusta se používá na příklad v chemii při poovnávání vzoců chemických sloučenin. Její pincip vychází z postupu sovnání dvou množin. Předpokládejme, že máme dvě množiny X a Y a nx, ny a nxy jsou kadinality (počty pvků) množin X, Y a X Y. V tom případě je Tanimotova mía podobnosti dvou množin učena podle vztahu ( n X Y T X, Y ). (.9) n n n X Y Jinými slovy, Tanimotova podobnost dvou množin je učena počtem společných pvků obou množin vztaženým k počtu všech ozdílných pvků. Využijme nyní tohoto pincipu po stanovení podobnosti dvou obazových vektoů s kvalitativními, esp. diskétními hodnotami příznaků. Po výpočet Tanimotovy podobnosti pak jsou použity všechny páy složek sovnávaných vektoů, komě těch, jejichž hodnoty jsou obě nulové. 4 Nyní definujme po poovnávané vektoy x a y hodnoty k k X Y n x a ij a i j0 k k n, (.9) y a ij i0 j kde k je počet hodnot souřadnic obou vektoů a a ij jsou pvky kontingenční matice A(x,y), tzn. že n x, esp. n y udává počet nenulových položek vektou x, esp. y. Pak je Tanimotova metika podobnosti dvou vektoů definována vztahem k a x (.93) n n a ii i TQ (, y) k k x y i i Hodnoty Tanimotovy podobnosti se vyskytují v intevalu od 0 při nepodobnosti do při úplné shodě obou vektoů. Příklad Učete hodnoty Tanimotových podobností s TQ (x,x), s TQ (x,y) a s TQ (x,z), jsou-li vektoy x = (0,,,,, ) T a y = (, 0,,, 0, ) T a z = (, 0, 0, 0, 0, ) T. Ze zadání vyplývá, že množina symbolů F = {0,, }, k = 3, n = 6. ij Ob..9 Pvky kontingenční matice použité po výpočet Tanimotovy podobnosti dvou vektoů 4 Tuto volbu se pokusme zdůvodnit případem, kdy analyzujeme vektoy odinálních kvalitativních příznaků, přičemž hodnotu i-tého příznaku daného vektou považujeme za míu výskytu učitého jevu popisovaného i-tým příznakem. Podle této intepetace jsou páy složek vektoů s oběma hodnotami nulovými méně důležité než ostatní. Tento poblém úzce souvisí i s tzv. poblémem dvojité nuly, kteý se vyskytuje při analýze envionmentálních dat (to, že se např. sledovaný duh na dvou sledovaných lokalitách nevyskytuje, není po posouzení kvality obou lokalit tak důležité, jako společný výskyt někteých duhů). Při řešení někteých úloh může být stanovení absence nějakého sledovaného ysu i pincipiálně nemožné detekce učitých signálových pvků

33 Kontingenční tabulky jsou A ( x, x) ; (, ) 0 A x y ; A ( x, z) V pvním případě při maximální podobnosti jsou nenulové pvky kontingenční tabulky pouze na hlavní diagonále, v případě nejmenší podobnosti jsou naopak na hlavní diagonále jen nulové pvky. V případě pvní podobnosti s TQ (x,x) je n x = 5, n Y = 5, součet pvků na hlavní diagonále a ii také 5 a konečně součet a ij opět 5. Hodnota podobnosti pak po dosazení je 5 s TQ ( x, x) Po podobnost s TQ (x,y) je n x = 5, n y = 4, součet pvků na hlavní diagonále a ii = 3 a konečně součet a ij = 3. Hodnota podobnosti pak po dosazení je 3 s TQ ( x, y) 0, Konečně, po podobnost s TQ (x,z), což představuje sovnání dvou nejméně podobných vektoů, je n x = 5, n y =, součet pvků na hlavní diagonále a ii = 0 a konečně součet a ij =. Hodnota podobnosti pak po dosazení je 0 TQ ( x, y) 0. 5 Další míy podobnosti vektoů x,y F n jsou definovány pomocí ůzných pvků kontingenční matice A(x,y). Někteé z nich používají pouze počet shodných pozic v obou vektoech (ovšem s nenulovými hodnotami), jiné míy používají i shodu s nulovými hodnotami. Příkladem metiky podobnosti z pvní uvedené kategoie může být např. metika definovaná vztahem nebo i metika k a ii i ( x, y), n k i a ii ( x, y). n a 00 Příkladem metiky duhé uvedené skupiny je např. k a ii i 0 3( x, y). n Při řešení dichotomických poblémů, tj. když k =, nabývá kontingenční tabulka tva podle ob..0, kteý vyjadřuje čtyři možné situace: A. hodnota k-té souřadnice obou vektoů signalizuje, že u obou obazů sledovaný jev nastal (oba odpovídající si příznaky x i x j (.94) (.95) (.96) false/0 tue/ false/0 D C tue/ B A Ob..0 Kontingenční tabulka po dichotomické hodnoty

34 mají hodnotu tue) pozitivní shoda; B. ve vektou x i jev nastal (x ik = tue), zatímco ve vektou x j nikoliv (x jk = false); C. u obazu x i jev nenastal (k-tá souřadnice má hodnotu x ik = false), zatímco u obazu x j ano (x jk = tue); D. sledovaný jev nenastal (oba odpovídající si příznaky mají hodnotu false) negativní shoda. Při výpočtu podobnosti dvou vektoů sledujeme kolikát po všechny souřadnice obou vektoů x j a x j nastaly případy shody či neshody A+D učuje celkový počet shod, B+C celkový počet neshod a A+B+C+D = n, tj. celkový počet souřadnic obou vektoů (obazů). Pokud budeme pokačovat v popisu Tanimotovy metiky podobnosti, pak po dichotomické poměnné se výpočet, s ohledem na symboliku podle ob..0, tansfomuje do vztahu (často je též označován jako Jaccadův-Tanimotův asociační koeficient) JT ( A x, y), (.97) A B C což je díky zjednodušení i dichotomická vaianta metiky podle vztahu (.93). Tento vztah se dominantně používá v ekologických studiích. Dichotomická vaianta vztahu (.94) je tzv. Russelův - Raoův asociační koeficient. RR ( Vztah (.96) modifikovaný po dichotomické aplikace SM ( A x, y), (.98) A B C D A D x, y) (.99) A B C D se označuje jako Sokalův - Micheneův asociační koeficient. Komě uvedených koeficientů se v odboné liteatuře vyskytují i Dicův (Czekanowského) koeficient DC ( a Rogesův - Tanimotův koeficient RT ( A A x, y) (.00) A B C (A B) (A C) A D A D x, y), (.0) A D.(B C) (B C) (A B C D) kteé zvyšují význam shod v datech v případě Dicova koeficientu zvýšením váhy počtu pozitivních shod v čitateli i jmenovateli, v duhém případě zvýšením váhy počtu neshod ve jmenovateli. Hamanův koeficient HA ( A D (B C) x, y) (.0) A B C D nabývá na ozdíl od všech dříve uvedených koeficientů hodnot z intevalu -,. Hodnoty - nabývá, pokud se příznaky pouze neshodují, je oven nule, když je počet shod a neshod v ovnováze a + v případě úplné shody všech příznaků. V případě Jaccadova a Dicova koeficientu je třeba vyřešit (pokud jsou používány v situacích, kdy může nastat úplná negativní shoda) jejich hodnotu, když A = B = C =0. Pak zpavidla předpokládáme, že JT (x,y) = DC (x,y) =

35 Z asociačních koeficientů, kteé vyjadřují míu podobnosti, lze jednoduše odvodit i míy nepodobnosti (vzdálenosti) pomocí fomule x, y) ( x, y). (.03) X( X Na základě četností A až D lze po případ bináních příznaků vytvářet i zajímavé vztahy po již dříve uvedené míy: Hammingova metika H( x, y) B C ; (.04) Euklidova metika H( x, y) B C ; (.05) Peasonův koelační koeficient ( A.D B.C PC x, y) (.06) (A B).(C D).(A C).(B D) i jiné..3.7 Deteministické metiky po učení vzdálenosti mezi dvěma množinami obazů Při klasifikaci podle minimální vzdálenosti, stejně jako i v jiných klasifikačních disciplínách (např. při shlukování), je třeba po posouzení vzdálenosti či podobnosti dvou obazů, umět učit i vzdálenost mezi obazem a množinou obazů, představujících učitou klasifikační třídu, případně vzdálenost mezi dvěma ůznými množinami obazů. Oba poblémy lze vyřešit zavedením metik po dvě množiny za předpokladu, že samotný obaz považujeme za jednopvkovou množinu. Tyto metiky, samozřejmě splňující podmínky uvedené v kap..3., ke každé dvojici množin (C i, C j) obazů z ozkladu S = (C, C,, C m) přiřazují hodnotu znamenající vzdálenost či podobnost obou množin C i a C j. Způsoby výpočtu vzdáleností tohoto typu záleží na způsobu epezentace množiny obazů - zda je vyjádřena úplným výčtem obazů, nebo zda je epezentována nějakým významným obazem či obazy. Následující metiky předpokládají epezentaci množiny úplným výčtem jejích položek. Metoda nejbližšího souseda Je-li libovolná metika vzdálenosti dvou obazů a C i a C j jsou libovolné množiny ozkladu množin (klasifikačních tříd) obazů {x i }, i =,, K, potom metoda nejbližšího souseda definuje vzdálenost mezi množinami C i a C j NN ( C i, C j) min ( xp, xq). xpc i xq C j (.07) Při použití tohoto způsobu výpočtu vzdálenosti se mohou vyskytovat v jedné množině často i poměně vzdálené obazy, pokud se mezi nimi vyskytují obazy další. To znamená, že metoda nejbližšího souseda může vytvářet klasifikační třídy potáhlého tvau. Metoda k nejbližších sousedů Tento postup je zobecněním předcházející metody. Je definován vztahem NNk ( C i, C j) min ( x x p C i xq C j k p, x q ), (.08)

36 tj. vzdálenost dvou množin obazů je v tomto případě definována součtem k nejkatších vzdáleností mezi obazy obou množin. Metoda částečně potlačuje výše uvedenou tendenci ke geneování potáhlých řetězcových stuktu. Metoda nejvzdálenějšího souseda Je založena na přesně opačném pincipu než obě předcházející metody. Platí, že FN ( C i, C j) max ( xp, xq). xp C i xq C j (.09) Geneování potáhlých stuktu tato metoda potlačuje, naopak vede k tvobě nevelkých kompaktních množin. Tak jako v předcházejícím případě je možné i zobecnění použitím k nejvzdálenějších obazů z obou shluků, pak platí Metoda půměné vazby FNk k ( C i, C j) max ( xp, xq). (.0) x p C i xq C j Metoda definuje vzdálenost dvou množin C i a C j pomocí půměné vzdálenosti mezi všemi obazy obou množin. Obsahuje-li množina C i P obazů a množina C j Q obazů, pak jejich vzdálenost podle metody půměné vazby je učena vztahem GA P Q ( C i, C j) ( xp, xq ). (.) P.Q p q Tento způsob výpočtu často vede k podobným výsledkům jako metoda nejvzdálenějšího souseda. Centoidní metoda Je představitelkou metod, kteé učují vzdálenost mezi množinami pomocí vzdálenosti jejich epezentativních obazů. Takovým obazem může být tzv. centoid, což je obaz, kteý je učený půměem, mediánem, esp. jinou významnou chaakteistikou, vyjadřující nějakou souhnnou vlastnost všech obazů dané množiny. Zatímco centoid je nový, uměle spočítaný obaz epezentující množinu, tzv. medoid je jeden z obazů dané množiny, kteý má optimální vlastnost z hlediska nějaké souhnné chaakteistiky, např. jehož vzdálenost od všech ostatních obazů množiny je minimální. V případě centoidu v euklidovském n-ozměném postou je vzdálenost dvou shluků učena euklidovskou vzdáleností mezi centoidy, epezentujícími obě množiny. Je-li např. centoid definován pomocí středních hodnot souřadnic všech obazových vektoů patřících do dané množiny, tj. představuje-li x x,x,..., x ) (.) i ( i i in epezentativní vekto (centoid) množiny C i, kde pak CE x is K K i i k x isk, s,...,n, (.3) n ( C i, C j) E( xi, xj) ( xis xjs). (.4) s

37 Wadova metoda Je kombinovaný postup, kteý potřebuje jak znalost všech obazů obou uvažovaných množin, tak i znalost epezentativních obazů. Vzdálenost mezi množinami je podle této metody definována příůstkem součtu čtveců odchylek mezi centoidem a obazy množiny Ob.. Pincip výpočtu vzdálenosti podle Wadovy metody vytvořené z obou vstupních množin C i a C j opoti součtu čtveců odchylek mezi obazy a centoidy v obou množinách C i a C j. Jsou-li x i a je Wadova metika definována výazem (viz ob..) x j n-ozměné centoidy množin C i a C j a x centoid sjednocené množiny, pak n n n W ( C i, C j) (x is x s ) (x is xs ) (x xic i C j s xic i s xic j s is x s ). (.5) Wadova metoda má tendenci vytvářet kompaktní, poměně malé množiny, zhuba stejné velikosti..3.8 Metiky po učení vzdálenosti mezi dvěma množinami obazů používající jejich pavděpodobnostní chaakteistiky Klasifikační třídy (množiny obazů se společnými chaakteistikami) nemusí být definovány jen výčtem obazů, nýbž vymezením obecnějších vlastností, jak ostatně tento text zmiňuje velice často definicí hanic oddělujících část obazového postou, kteá náleží dané klasifikační třídě, diskiminační funkcí, pavděpodobnostními chaakteistikami výskytu obazů v dané třídě, atd. Jestliže jsme v předchozí kapitole využívali znalosti vlastností dané množiny, kteé byly učeny polohou jednotlivých konkétních obazů, patřících do té kteé klasifikační třídy, dále popíšeme způsoby stanovení vzdálenosti mezi množinami, kteé používají pavděpodobnostní chaakteistiky ozložení obazů v dané množině. Pokud si na metiky klademe učité požadavky, i metiky po stanovení vzdálenosti dvou množin, po něž využíváme ozložení pavděpodobnosti výskytu obazů, by měly vyhovovat standadním požadavkům. Logicky tyto metiky splňují následující vlastnosti (potože jejich výpočet je založen na poněkud jiném přístupu a potože i dále uvedené vlastnosti nesplňují vše, co od metik očekáváme, bývá zvykem je značit jiným písmenem, zpavidla J):. J = 0, pokud jsou hustoty pavděpodobnosti obou množin identické, tj. když p(x ) = p(x );. J 0; 3. J nabývá maxima, pokud jsou obě množiny disjunktní, tj. když p( x ).p( x )dx 0. (Jak vidíme, není mezi vlastnostmi pavděpodobnostních metik uvedena tojúhelníková neovnost, jejíž splnění by se zajišťovalo vskutku jen velmi obtížně.)

38 Základní myšlenkou, na kteé jsou pavděpodobnostní metiky založeny, je podobně, jak bylo popsáno po bayesovský klasifikáto v kap.., využití pavděpodobnosti způsobené chyby. Čím více se hustoty pavděpodobnosti výskytu obazů x v jednotlivých množinách překývají, tím je větší pavděpodobnost chyby. Pokusme se nyní tuto myšlenku zfomalizovat. Pavděpodobnost P e chybného zařazení je s pomocí vztahů (.3), (.7) a(.8), esp.(.9) ovna P e J( a*) min J( a) X p( x)dx a X min L ( a)dx max p( x ).P( )dx X X X X p( x) p( x ).P( ) dx max p( x ).P( )dx. (.6) Po dichotomický případ (R = ) je celková pavděpodobnost chybného ozhodnutí učena vztahem Pe p( x ).P( ) p( x ).P( )dx, což lze podle Bayesova vzoce upavit i do tvau X Pe P( x) P( X x).p( x). dx. (.7) (.8) Integál ve vztahu (.8) nazýváme Kolmogoovova vaiační vzdálenost a jeho hodnota přímo souvisí s pavděpodobností chybného ozhodnutí. Ostatní dále uvedené pavděpodobnostní míy vzdálenosti, odvozené z obecné fomule J( x) fp( x ),P( ),i,. dx (.9) i i už tuto přímou souvislost nemají, ale mohou být použity k učení mezí odhadu chyby. Jednou z hlavních nevýhod pavděpodobnostních metik je potřeba odhadnout půběh hustot pavděpodobnosti a poté je numeicky integovat, což může způsobit poblémy, kteé znemožní použití tohoto přístupu v mnoha ůzných aplikacích. Situace se výazně zjednoduší, pokud lze předpokládat učitý chaakte ozložení pavděpodobnosti. V tom případě je možné povést mnohé výpočty analyticky. Mezi nejpoužívanější míy pavděpodobnostní vzdálenosti dvou množin patří Chenoffova metika Bhattachayyova metika s s JC(, ) ln p ( x ).p ( x ).dx, s 0; ; (.0) 0,5 J (, ) ln [p( x ).p( x )].dx. (.) B (Jak lze snadno ozpoznat, Bhattachayyova metika je speciální případ Chenoffovy metiky po s = 0,5). Divegence J D nebo Patickova -Fisheova metika p( x ) (, ) [p( x ) p( x )].ln.dx ; p( x ) (.) J PF 0,5 [p( x ) p( x )].dx. (, ) (.3)

39 Altenativou mohou být jejich způměněné veze, kteé zahnují i apioní pavděpodobnost jednotlivých množin: způměněná Chenoffova metika J AC (, ) ln způměněná Bhattachayyova metika J AB způměněná divegence J AD s s [p( x ).P( )].[p( x ).P( )].dx,. s 0; ; (.4) 0,5 (, ) ln [p( x ).P( ).p( x ).P( )].dx; (.5) p( x ).P( ) (, ) [p( x ).P( ) p( x ).P( )].ln.dx; p( x ).P( ) (.6) nebo způměněná Patickova -Fisheova metika J PF 0,5 [p( x ).P( ) p( x ).P( )].dx. (, ) (.7) Po R množin byl odvozen vztah po Bayesovu metiku J BA (,..., R ) R P ( x).p( x).dx. (.8) Hodnoty vzdálenosti učené podle tohoto předpisu se pohybují v intevalu (0;. Jednotkové hodnoty nabývá v případě, že aposteioní pavděpodobnost P( x) jedné množiny je ovna jedné, zatímco po zbývající množiny jsou jejich aposteioní pavděpodobnosti nulové. Nejmenší hodnoty, kteé Bayesova vzdálenost nabývá je /R, to v případě, že jsou všechny aposteioní pavděpodobnosti stejné. Když R, pak hodnota vzdálenosti se limitně blíží k nule. Uvedené vztahy se liší zejména pacností výpočtu a vazbou k hodnotám pavděpodobnosti chyby. Tato vazba je vyjádřena hodnotami dolního D(x) a honího H(x) odhadu pavděpodobnosti chyby, z nichž především honí odhad má paktický význam. Po někteé z uvedených pavděpodobnostních mě jsou hodnoty honího odhadu H C H ( x) min J H BA B s 0; ( x) J B C ; ( x ) J (s); BA. (.9) V případě, že známe dichotomické pavděpodobnostní míy a je třeba řešit poblém klasifikace do více tříd, lze definovat metiku podle vztahu R R J(,..., R ) P( ).P( q ).J(, s ). q (.30) V tom případě ale neplatí těsný vztah k hodnotě pavděpodobnosti chyby, jako ve výše uvedených vztazích

40 .4 Klasifikace pomocí hanic v obazovém postou.4. Základní pincipy Ob.. Dvoupříznakový posto s přímkami oddělujícími množiny obazů R i Rozdělení příznakového postou do vzájemně disjunktních dílčích postoů, odpovídajících jednotlivým klasifikačním třídám, pavděpodobně odpovídá nejjednodušší představě o epezentaci klasifikačních tříd (ob..). Hanice jsou tvořeny obecně nadplochami o ozměu o jednotku menší než je ozmě příznakového postou v dvoupříznakovém postou je to obecně křivka, ve speciálním lineáním případě přímka, v tojozměném postou plocha, esp. ovina, atd. Způsoby učení oddělujících hanic závisí jednak na vlastnostech klasifikačních tříd (zda se jejich obazy vyskytují v navzájem překývajících se oblastech, či nikoliv v tom případě hovoříme o sepaabilních či nesepaabilních množinách; zda je možné množiny obazů oddělit lineání haniční plochou, či zda je vhodnější použít plochu nelineání, ), jednak na kitéiích, kteá použijeme po optimalizaci polohy hanic. V dalším textu se budeme zabývat výhadně metodami po stanovení lineáních hanic mezi klasifikačními třídami. V případě, že jsou klasifikační třídy lineáně nesepaabilní, používají se dva pincipiálně odlišné přístupy: a) zachováme původní obazový posto a zvolíme nelineání haniční funkci aa) definovanou obecně; ab) složenou po částech z lineáních úseků; b) zobazíme původní n ozměný obazový posto X n nějakou nelineání tansfomací a) b) c) Ob..3 Případy sepaability klasifikačních tříd - a) lineáně sepaabilní úloha; b)lineáně nesepaabilní úloha, ovšem s lineáně sepaovanými třídami; c) nelineáně sepaabilní klasifikační úloha

41 : X n X m do nového m ozměného postou X m, obecně je n m, tak, aby v novém postou byly klasifikační třídy lineáně sepaabilní a v novém postou použijeme lineání klasifikáto. ad aa) Abychom byli schopni analyticky specifikovat nelineání hanici mezi dvěma klasifikačními třídami, je potřeba po každou hanici učit obecný tva funkce, kteé je možné po daný účel použít (např. h (x) = a.x.x 3, nebo h (x) = [(a.x ) 3 + (b.x ) ] c ) a stanovit jejich paamety (v našem případě a, b a c). Pvní poblém se zpavidla řeší heuisticky pomocí apioní infomace o klasifikační úloze, stanovení paametů haniční funkce vede na obtížně řešitelné nelineání optimalizační úlohy, poto se tomuto způsobu popisu klasifikačních tříd snažíme co nejvíce vyhýbat. ad ab) Náhada nelineání haniční nadplochy po částech nadovinami je další možností, jak zjednodušit stanovení paametů haniční funkce tím, že optimalizační úlohu paciálně lineaizujeme, i když za cenu násobné ealizace. ad b) Tansfomaci do nového postou povedeme pomocí m funkcí (x), (x),, m (x), kde (x) a tansfomované haniční nadoviny pak mohou mít tva nebo při vektoovém zápisu h (x) = a (x) + a (x) + + a m m (x), (.3) h (x) = a T.(x), (.3) kde (x) =( (x), (x),, m (x)) T a a T = (a, a,, a m ). Potože (x), představuje a pahový koeficient, posouvající počátek souřadnicového systému v obazovém postou X m opoti počátku X n. Tato metoda klasifikace se obvykle nazývá metodou funkcí, esp. převodník. V zásadě se neliší od klasifikátou s obecnými nelineáními haničními funkcemi, potože nelineání funkci lze ozvést v řadu a tak získat vztah (.3). Blokové schéma metody Ob..4 Blokové schéma převodníku funkcí je na ob..4, z něhož plyne, že tuto metodu lze také intepetovat jako lineání klasifikáto s předřazeným blokem funkčních převodníků. Z lineáních metod učení haničních funkcí mezi klasifikačními třídami se budeme dále zabývat metodou nejmenších čtveců, Fisheovou diskiminační metodou, metodou jednovstvého peceptonu a algoitmem podpůných vektoů. Než se začneme věnovat jednotlivým klasifikačním algoitmům, uveďme několik základních skutečností. K tomu použijme nejjednodušší klasifikační, tzv. dichotomickou - 4 -

42 úlohu 5, kteá se zabývá klasifikací do dvou vzájemně se vylučujících kategoií. Předpokládejme, že je dána funkce b(x) = w T.x + w 0, (.33) kde w T = (w, w,, w n ) je tzv. váhový vekto a x = (x, x,, x n ) T je příznakový vekto, popisující klasifikovaný objekt. Konečně absolutní člen w 0 můžeme chápat jako pahovou hodnotu. Abychom fomálně splnili podmínku systémové lineaity, tj. aby funkce b(x) pocházela počátkem souřadnicové soustavy, zavádíme novou souřadnici x 0 = a pak lze psát kde ~ T w (w, w) a ~ T T x (x, x ) (, x T ). 0 Předpokládejme dále, že vekto x zařadíme do třídy R, pokud b(x) 0 a do třídy R, když platí b(x) < 0. Odpovídající haniční funkce (ovina) je tedy jeho kolmý půmět na haniční ovinu tak, že b(x)= w T.x + w 0 = 0, (.35) tj. půsečík funkce b(x) s obazovým postoem. Nyní uvažme dva body x A a x B, kteé leží na haniční ovině. Potože po oba platí, že b(x A ) = b(x B ) = 0, platí také w T.(x A - x B ) = 0 a poto můžeme říci, že vekto w je kolmý k libovolnému vektou ležícímu na haniční ovině a tím také učuje smě haniční plochy. 0 b( ~ x ) = w ~ T. ~ x, (.34) Ob..5 Základní vztahy po lineání haniční plochu ve dvouozměném postou Podobně, leží-li bod x A na haniční ploše a tedy je b(x A ) = 0, pak nomálová vzdálenost počátku souřadnicové soustavy od haniční plochy je w~ T. ~ x w 0. (.36) w w Z toho plyne, že pahový paamet w 0 učuje i polohu haniční oviny. Dále hodnota b(x) učuje i kolmou vzdálenost d bodu x od haniční plochy. Uvažme libovolný bod x a nechť x je jeho kolmý půmět na haniční ovinu tak, že w x x d. (.37) w Vynásobíme-li obě stany tohoto vztahu w T a přičteme w 0, pak dostaneme s použitím vztahů b(x) = w T.x+w 0 a b(x ) = w T.x +w 0 = 0 5 Dichotomie (z řec. dicha, oddělený, na dvakát a tome, řez) označuje jakékoli ozdělení celku do dvou, navzájem disjunktních podmnožin. U někteých kategoií je toto dělení naposto přiozené, např. pohlaví nabývající dvou hodnot muž/žena, nebo polaita celých čísel jsou kladná a záponá s jasnou hanicí. Na duhé staně jsou kategoie, kteé jsou sponé, např. kuřák/nekuřák je ten, kdo vykouří jednu cigaetu za ok kuřákem, či nekuřákem, esp. patří yzí nekuřák, žijící ve společnosti silného kuřáka, tedy pasivní kuřák, do kategoie kuřák nebo nekuřák? Konečně kategoie typu malý/velký. Z hlediska klasifikačních úloh je třeba vždy ozhodnout, zda daný objekt patří do jedné z obou kategoií, ovšem zařazení do těchto kategoií může být opatřeno velkou chybou danou skutečností, že většina z objektů se zpavidla nachází pávě mezi extémy obou kategoií

43 b(x) d. (.38) w Uvažujme nyní případ více klasifikačních tříd, tj. R >. V tom případě se můžeme snažit vytvořit haniční plochu kombinací několika dichotomických haničních ploch. To nám ale může způsobit učité těžkosti. Mějme R - dichotomických klasifikátoů, kteé oddělují body patřící do třídy R od bodů, kteé do této třídy nepatří. Takovou klasifikaci nazýváme klasifikací jedna vesus zbytek. Na ob..6 je znázoněn případ, kdy je tento klasifikační pincip použit po tři klasifikační třídy, což jak znázoněno vede k vytvoření oblasti v honí střední části příznakového postou, po kteou neumíme jednoznačně ozhodnout, potože do ní spadají vektoy, kteé patří do R i do R. Poblém nenastává s třídou R 3, potože do té patří všechny obazové vektoy, kteé nepatří ani do třídy R, ani do R. Altenativou může být ozdělení příznakového postou pomocí R.(R-)/ dichotomických haničních ploch po oddělení každých dvou tříd. Tento způsob klasifikace nazýváme klasifikací jedna vesus jedna. Každý vekto je pak zařazen do příslušné klasifikační třídy podle většinového pavidla. Ob..7 opět znázoňuje situaci po tři klasifikační třídy, tj. R = 3, je tedy potřeba (3.)/ = 3 oddělující haniční plochy. Posto po všechny uvažované třídy je vymezen většinovou platností dvou pavidel, v případě R platností pavidel R /R a R /R 3, v případě R platností pavidel R /R a R /R 3, Ve středové oblasti nelze uplatnit většinové pavidlo, pavidlo R /R ukazuje na výskyt oblasti R, pavidlo R /R 3 na R a konečně pavidlo R /R 3 vede na R 3. Tedy všechny tři oblasti jsou po ozhodování zastoupeny ovnoměně, tj. každá pávě jednou a poto nelze ozhodnout. Těmto poblémům se lze vyhnout, použijeme-li pincipu diskiminačních funkcí a po Ob..6 Případ nejednoznačného ozdělení příznakového postou při použití klasifikace typu jedna vesus zbytek Ob..7 Případ nejednoznačného ozdělení příznakového postou při použití klasifikace typu jedna vesus jedna Ob..8 Konstukce oddělovací haniční přímky ve dvouozměném obazovém postou pomocí lineáních diskiminačních funkcí

44 klasifikaci do R tříd použijeme R lineáních funkcí g (x) = w T.x + w 0 (.39) a poté dle definiční vlastnosti po diskiminační funkce zařadíme vekto x do té klasifikační třídy R, po kteou platí g (x) > g i (x) po všechna i. Haniční plocha mezi třídami je dána půmětem půsečíku obou diskiminačních ovin g (x) a g i (x) do obazového postou (ob..8), tedy (w w i ) T.x + (w 0 w i0 ) = 0, (.40) což je funkce téhož chaakteu, jako podle vztahu (.35). Poloha a oientace haničních funkcí jsou jednoznačně učeny vektoy svých váhových koeficientů w, esp. ~w, =,, R. To znamená, že návh klasifikátou, esp. jeho ozhodovacího pavidla v tomto případě spočívá v učení optimálních hodnot těchto váhových koeficientů. Hovoříme-li o optimálních hodnotách, pak musí existovat nějaké kitéium, na základě kteého poznáme, že hodnoty váhových koeficientů jsou opavdu nejlepší. Dá se očekávat, že takových kitéií bude více a tato kitéia budou i tím, čím se metody popisované v následujících kapitolách budou lišit..4. Metoda nejmenších čtveců Pincip metody nejmenších čtveců, především používaný zejména při řešení egesních úloh, je samozřejmě možné použít i po stanovení koeficientů haničních funkcí. Aby to bylo vskutku možné, je především třeba ozhodnout jak stanovit chyby, součet jejichž duhých mocnin učuje kiteiální funkci, jejíž hodnotu se snažíme minimalizovat. Předpokládejme, že máme k dispozici ténovací množinu K obazů {x k, t k }, k =,,, K, kde tzv. cílový vekto t k nese infomaci o spávné klasifikaci zakódovanou bináním kódem z R (R je počet klasifikačních tříd). Tedy v případě, že obaz x k patří do třídy, bude mít R ozměný vekto t k tva (, 0,., 0) T, bude-li obaz x k patřit do třídy R, bude cílový vekto t k = (0, 0,., ) T. Tento způsob kódování apoximuje hodnotu podmíněné pavděpodobnosti zařazení vstupního obazu x do požadované klasifikační třídy. Každá třída bude popsána vlastní lineání diskiminační funkcí g (x) = w T.x + w 0 (.4) kde =,, R. Všechny funkce g (x) můžeme sdužit a pomocí maticového zápisu vyjádřit jako ~ g( x) W T. ~ x, (.4) kde vekto g(x) je -ozměný, -tý sloupec matice je W ~ tvořen (n+)-ozměným vektoem w ~ (w, w T ) a ~ x je ozšířený vstupní obazový vekto (,x T ) T po x 0 =. Rozmě matice 0 W ~ je tedy (n+). Každý vstupní vekto je přiřazen do té klasifikační třídy s, po kteou je g ( x) max g ( x). (.43) s Úkolem metody nejmenších čtveců je nalézt pomocí ténovací množiny takové hodnoty matice paametů W ~, aby byla minimalizována chybová kiteiální funkce ~ ~ ~ T ~ ~ En ( W) T( XW T).( XW T), (.44)

45 kde k-tý řádek ténovací obazové matice X ~ je tvořen k-tým ozšířeným obazovým vektoem T ténovací množiny ~ x k a matice T je matice, jejíž k-tý řádek tvoří cílový binání vekto požadovaných klasifikací t T ~ k. Položíme-li deivace funkce E n ( W ) podle koeficientů W ~ ovné nule, dostaneme soustavu ovnic, jejíž řešení je ~ ~ T ~ ~ T ~ W ( X. X). X. T X. T (.45) ~ ~ T ~ T kde X ( X. X ~ ). X je tzv. pseudoinvezní matice k matici X ~, kteou můžeme považovat za zobecnění invezní matice po obdélníkové matice. Zajímavá a užitečná vlastnost řešení pomocí metody nejmenších čtveců je, že když cílové vektoy ténovací množiny t k, k =,, K, splňují lineání funkci a T.t k + b = 0 (.46) po libovolné k a dané konstanty a a b, pak klasifikační model daný vztahem (.4) splňuje po libovolný obaz x tentýž vztah, tj. a T.g(x) + b = 0. (.47) To znamená, že po kódovací schéma z R po R klasifikačních tříd, je součet pvků vektou g(x) oven jedné stejně jako součet pvků vektou t k po libovolný obazový vekto x. Tento požadavek ale není postačující, potože hodnoty vektou g(x) nejsou nutně vázány na inteval 0;, což by bylo třeba, kdyby měly vyjadřovat odhady pavděpodobností zatřídění do jednotlivých klasifikačních kategoií. Tento nedostatek, komě jiných jako je např. citlivost vůči odloučeným hodnotám, pak způsobuje, že tento algoitmus nedosahuje dostatečně spolehlivých výsledků. Příklad: Jednou z tadičních databází používaných po ilustaci vlastností ůzných klasifikačních metod a zejména nastavení ozhodovacího pavidla klasifikátoů je tzv. Fisheova nebo také Andesonova databáze tří duhů kosatců (Iis setosa, Iis viginica a Iis vesicolo) 6. Obsahuje 3 x 50 vektoů, popisujících uvedené duhy kosatců pomocí čtyř příznakových poměnných délkou a šířkou vnějších okvětních, nebo též kounních lístků (petala) a délkou a šířkou vnitřních okvětních, esp. kališních lístků (sepala). Následující příklad pezentuje návh lineání haniční funkce (oviny) metodou nejmenších čtveců. Pokud bychom chtěli použít metody nejmenších čtveců po vytvoření všech haničních ovin mezi třemi klasifikačními třídami ve čtyřozměném postou (po čtyři příznakové poměnné), mají předpokládané diskiminační lineání funkce obecný tva g (x) = w 0 + w x + w x + w 3 x 3 + w 4 x 4. Předpokládejme, že v tomto vztahu x epezentuje délku a x šířku kališních lístků a x 3 délku a x 4 šířku kounních lístků. Haniční funkce jsou pak dány půměty půsečíků odpovídajících si diskiminačních funkcí do obazového postou (viz ob..8). Při použití úplné epezentace dat metoda nejmenších čtveců vede po jednotlivé duhy na následující diskiminační funkce: Iis setosa Iis vesicolo g (x) = 0,8 + 0,0660.x + 0,48.x - 0,47.x 3-0,0575.x 4 ; g (x) =,577-0,00.x - 0,4456.x + 0,07.x 3-0,4943.x 4 ; 6 např. (.3.0)

46 Iis viginica g 3 (x) = - 0,6953-0,0459.x + 0,08.x + 0,0040.x 3 + 0,557.x 4. Půsečíky jednotlivých oddělujících nadovin potom jsou b (x) = g (x) - g (x) = -, ,086.x +0,6885.x 0,4453.x 3 + 0,4368.x 4 = 0; b 3 (x) = g (x) g 3 (x) =,70 + 0,057.x 0,6484.x + 0,67.x 3,046.x 4 = 0; b 3 (x) = g (x) g 3 (x) = 0, ,9.x + 0,040.x 0,86.x 3 0,6093.x 4 = 0. Chceme-li si ale výsledky zobazit v ozumné, smyslově vhodně vstřebatelné epezentaci, tj. nejlépe pomocí dvojdimenzionálních gafů, pak nezbývá, než najít půsečík oddělujících nadovin s tou částí obazového postou, kteou chceme zobazit. Na příklad, zobazení oddělujících ploch do oviny x x dosáhneme tak, že souřadnice x 3 a x 4 ve výazech po g (x), g 3 (x) a g 3 (x) položíme ovny nule a dostáváme b (x) = g (x) g (x) = = -, ,086.x +0,6885.x = 0; b 3 (x) = g (x) g 3(x) = =,70 + 0,057.x 0,6484.x = 0; b 3 (x) = g (x) g 3(x) = = 0, ,9.x + 0,040.x = 0. Gafické zobazení uvedených funkcí (ob..9) ale není nijak přesvědčivé. Nevypadá, že bylo spávné. Zde je ovšem třeba si uvědomit, že diskiminační funkce jsou učeny dle kitéia nejmenších čtveců s ohledem na všechny příznakové poměnné. Dále, že metoda nejmenších čtveců tpí jistými nepřesnostmi způsobenými chaakteem ozložení obazů v jednotlivých klasifikačních třídách. A konečně, že zobazené dělení obazového postou je jen dílčí půmět, kteý zjevně nevystihuje vliv dvou odstaněných poměnných. Abychom dosavadní dojem napavili, pokusme se použít kitéia nejmenších čtveců na vektoy obsahující pouze poměnné x a x. V tom případě jsou diskiminační funkce Iis setosa Iis vesicolo Ob..9 Příklad haničních přímek po klasifikaci tří duhů kosatců učených metodou nejmenších čtveců Iis setosa ( ), Iis vesicolo () a Iis viginica(); x délka kališních lístků, x šířka kališních lístků Ob..0 Příklad haničních přímek po klasifikaci tří duhů kosatců učených metodou nejmenších čtveců ve dvouozměném příznakovém postou Iis setosa ( ), Iis vesicolo () a Iis viginica(); x délka kališních lístků, x šířka kališních lístků g (x,x ) = 0,7753-0,3744.x + 0,57.x ; g (x,x ) =, ,04.x 0,5044.x ;

47 Iis viginica oddělující přímky mají tva g 3 (x,x ) = -, ,3603.x + 0,0667.x, b (x,x ) = g (x,x ) g (x,x ) = -,075-0,3886.x +,0755.x = 0; b 3 (x,x ) = g (x,x ) g 3(x,x ) = 3,3607-0,346.x 0,4377.x = 0; b 3 (x,x ) = g (x,x ) g 3(x,x ) =,3433-0,7347.x + 0,6378.x = 0 a jsou zobazeny na ob..0. Po ozdělení příznakového obazového postou je vhodné použít pouze haničních polopřímek. Výsledky jsou vizuálně výazně lepší než v předcházejícím případě, nicméně i v tomto případě jsou výsledky za očekáváním. Ne zcela optimální polohy haničních přímek vyplývají z vlastností ozložení obazových vektoů nejsou kompaktně unimodální, v jednotlivých množinách se vyskytují ůzné odlehlé hodnoty, klasifikační třídy se překývají, nejsou lineáně sepaabilní, což jsou všechno nectnosti zmíněné v popisu metody..4.3 Fisheova lineání diskiminace Poblém lineání klasifikace lze také nahlížet z hlediska potřeb edukce dimenzionality klasifikovaných obazových vektoů. Po základní vysvětlení pincipu předpokládejme dichotomickou klasifikační úlohu. Dále předpokládejme lineání tansfomaci původního n-ozměného obazového vektou x do pouhého jednoho ozměu pomocí vztahu y(x) = w T.x. (.48) Použijeme-li po klasifikaci pahové hodnoty w 0 tak, že je-li hodnota y(x) -w 0, zařadíme obaz x do třídy a v opačném případě do třídy, pak daná úloha odpovídá v dřívějších kapitolách diskutované lineání diskiminaci. Vážeme-li ale pincip klasifikace na dastickou edukci obazového postou (z původních n ozměů na jediný), potom se na pvní pohled může zdát, že takové značné omezení infomace obsažené v původním obazovém vektou může významně snížit kvalitu ozhodovacího pocesu. Ovšem vhodným nastavením hodnot váhového vektou w můžeme vytvořit takovou pojekci, kteá maximalizuje možnou sepaaci obou klasifikačních tříd (viz ob..). Zatímco v levé části obázku se při půmětu do směu ovnoběžného s osou x hustoty pavděpodobnosti výskytu obazů z obou klasifikačních tříd Ob.. Pincip řízeného snížení dimenzionality obazových vektoů

48 významně překývají, při vhodné volbě půmětu v pavé části obázku mohou být obě klasifikační třídy pohodlně a spolehlivě odděleny. Abychom nalezli takový výhodný smě pojekce, učeme nejdříve půměné obazy, kteé budou představovat etalony obou klasifikačních tříd. Předpokládejme tedy, že se v třídě vyskytuje K obazů a ve třídě K obazů. Pak jsou půměné vektoy obou klasifikačních tříd dány vztahy m xk a K k m xk. (.49) K k Nejjednodušší možnou míou sepaace obou tříd při vhodné volbě koeficientů váhového vektou w je vzdálenost pojekcí obou půměných obazů a to vede na maximalizaci vzdálenosti obou půmětů kde m m = w T (m m ), (.50) m = w T m. (.5) Ovšem tento výaz může být uměle zvětšován ůstem modulu váhového vektou w. Tuto potíž lze ale snadno odstanit zavedením požadavku na nějakou standadní velikost vektou w, nejlépe s jednotkovou nomou, tj. i w i =. Taková definice optimalizační úlohy vede na metodu Langangova součinitele po hledání vázaného extému. Tato metoda vychází z následující věty nejdříve po dvě poměnné: Nechť funkce f(x,y) a g(x,y) mají v okolí bodů křivky g(x,y) = 0 totální difeenciál 7. Dále, nechť v každém bodě křivky g(x,y) = 0 je alespoň jedna z deivací g/x, g/y ůzná od nuly. Má-li pak funkce f(x,y,) v bodě (x 0,y 0 ) křivky g(x,y) = 0 na této křivce lokální extém, pak existuje taková konstanta, že po funkci jsou v bodě (x 0,y 0 ) splněny ovnice (podmínky nutné) F(x,y)=f(x,y) +.g(x,y) (.5) F(x 0,y 0 )/x=0; F(x 0,y 0 )/y=0 (.53) a samozřejmě g(x 0,y 0 )=0. Vázané extémy lze tedy hledat tak, že sestojíme funkci (.5) a řešíme ovnice (.53) po neznámé x 0,y 0, (paamet nazýváme Lagangeův součinitel (multiplikáto)). Podmínky postačující vyplývají z výpočtu duhého difeenciálu funkce (.5) v bodě (x 0,y 0 ) d F(x 0,y 0 )= F(x 0,y 0 )/x + F(x 0,y 0 )/x y + F(x 0,y 0 )/y. (.54) Jestliže po všechny body (x 0 +dx,y 0 +dy) z učitého okolí bodu (x 0,y 0 ) takové, že g(x 0 +dx,y 0 +dy) = 0 a současně dx a dy nejsou ovny nule, je duhý difeenciál podle (.54) kladný, esp záponý, pak je v bodě (x 0,y 0 ) vázaný lokální extém, a to minimum, esp. maximum. Obdobně se řeší nalezení vázaných extémů funkce několika poměnných. Např. nutná podmínka k existenci lokálního extému funkce w=f(x,y,z,u,v) při podmínkách F (x,y,z,u,v), F (x,y,z,u,v) je splnění ovnic 7 Totální difeenciál funkce z=f(x,y) se nazývá, za předpokladu, že je funkce f(x,y) v bodě (x 0,y 0 ) difeencovatelná, výaz dz =(f/x).dx + (f/y).dy

49 Ob.. Řízené snížení dimenzionality obazových vektoů se zohledněním poloh půměných etalonů (vlevo) a se zahnutím směových vlastností ozptylu (vpavo) G/x = 0, G/y = 0, G/z = 0, G/u = 0, G/v = 0, F = 0 a F = 0, (.55) kde G = f+ F + F, tj. řešení úlohy spočívá v řešení soustavy sedmi ovnic po sedm neznámých. Na ob.. vlevo je znázoněna situace, kdy je diskiminační smě učen spojnicí půměných etalonů obou množin. Vidíme, že ani toto řešení, vyplývající ze vztahu (.50) neepezentuje ideální stav, v půmětu do tohoto směu se hustoty pavděpodobnosti stále překývají. Řešení by ale mohlo být modifikováno, pokud by bylo možné zahnout také infomaci o směových vlastnostech ozptylu v obou množinách. Tansfomační vztah (.48) převádí n-ozměné vektoy x do jednoozměného postou. Rozptyl uvnitř jednotlivých do jednoho ozměu tansfomovaných množin je pak dán vztahem s k (y k m ), (.56) kde y k = w T.x k. Celkový ozptyl uvnitř tříd v dichotomickém případě můžeme učit součtem dílčích ozptylů s + s. Optimalizační kitéium, kteé zohledňuje jak vzdálenost mezi třídami (tu chceme půmětem maximalizovat), tak i ozptyl uvnitř tříd (ten naopak chceme půmětem minimalizovat) můžeme v tomto případě vyjádřit fomulí (m m ) ( w ). (.57) s s J S využitím vztahů (.48), (.5) a (.56) můžeme Fisheovo diskiminační kitéium přepsat do obecného tvau kde S B je kovaianční matice mezi třídami definovaná vztahem T w SBw J( w), T (.58) w S w W S B = (m m ). (m m ) T (.59) a S W je celková kovaianční matice uvnitř tříd definovaná jako

50 S W ( x m ).( x m ) T k k k k ( x k m ).( x k m ) T. (.60) Deivováním (.58) podle váhových koeficientů vektou w dostaneme, že J(w) nabývá maxima, když (w T S B w) S W w = (w T S W w) S B w. (.6) Z (.57) plyne, že S B w má vždy smě m m. Dále, potože modul vektou w není důležitý, zajímá nás pouze jeho smě, můžeme ve vztahu (.6) pominout oba skalání členy (w T S B w) a (w T S W w) a vynásobením obou stan tohoto výazu zleva S W - dostaneme w ~ S W -.( m m ). (.6) Pokud je ozptyl uvnitř obou tříd stejný ve všech směech, tzn. S W je diagonální matice se všemi pvky o stejné velikosti, jinými slovy je úměná jednotkové matici (a také, že směové vlastnosti ozptylu nejsou podstatné), pak je w úměné pouze ozdílu půměných etalonů obou tříd, jak jsme již dříve konstatovali na základě vztahu (.50). Vztah (.6) se obecně označuje jako Fisheův lineání diskiminant, i když ve skutečnosti o žádnou diskiminační funkci nejde, pouze o učení směu té jedné souřadnice, do kteé se pomítají původní n- ozměná data. Ovšem tento učuje směnici haniční plochy, potože ta je kolmá na smě vektou w (viz ob..5) a její konkétní pozici jednoznačně stanoví hodnota pahu w 0, se kteým vekto x patří do třídy, pokud g(x) w 0 a v opačném případě do třídy. Hodnotu pahu můžeme učit např. bayesovskými metodami popsanými v kap... Příklad Navažme na příklad řešený v kapitole o metodě nejmenších čtveců a ověřme, jak se Fisheova metoda vypořádá s nastavením haničních funkcí po ozdělení obazového postou po Fisheovu databázi kosatců. Ani tentokát v případě zobazení půmětů čtyřozměných haničních ploch do dvouozměného obazového postou není situace nijak skvělá, dokonce poloha hanic je ještě hoší než v případě metody nejmenších čtveců. Rovnice oddělujících haničních ovin jsou b (x) = ,85.x + 6,5.x,64.x 3 3,8.x 4 = 0; a) b) Ob..3 Příklad haničních přímek po klasifikaci tří duhů kosatců učených pomocí Fisheovy lineání diskiminace Iis setosa ( ), Iis vesicolo () a Iis viginica(); x délka kališních lístků, x šířka kališních lístků a) ve čtyozměném postou; b) ve dvouozměném postou

51 b 3 (x) =: 3,5 + 3,5. x + 3,39. x 7,55. x 3 4,64. x 4 = 0; b 3 (x) = 8,05 +,0. x + 9,90. x 9,9. x 3 38,46. x 4 = 0 a jejich půměty do souřadnic x a x - x stejně jako v předešlém příkladu epezentuje délku a x šířku kališních lístků - tedy jsou (získáme je tak, že x 3 a x 4 ve výše uvedených vztazích položíme ovny nule) b (x) = ,85.x + 6,5.x = 0; b 3 (x) = 3,5 + 3,5.x + 3,39.x = 0; b 3 (x) = 8,05 +,0.x + 9,90.x = 0. Gafické zobazení těchto haničních přímek je na ob..3a. Zásadní důvod zůstává týž jako v případě metody nejmenších čtveců při zobazení není zohledněn vliv dvou poměnných, kteé se podílely na stanovení váhových koeficientů haničních ploch. Jak poto vypadá situace při optimálním stanovení klasifikačních hanic přímo ve dvouozměném postou. V tom případě jsou haniční přímky učeny ovnicemi b (x,x ) = 5,58-7,6574.x +,8557.x = 0; b 3 (x,x ) = 5,084 -,560.x + 0,908.x = 0; b 3 (x,x ) = 0,36-0,94.x +,465.x = 0, kteé jsou gaficky zobazeny na ob..3b. Sovnáním ob..0 a.3b lze konstatovat, že haniční přímky b i b 3 po případ Fisheovy diskiminace viditelně podstatně lépe espektují ozložení obazových vektoů v postou, v případě tříd a nedochází k žádné chybné klasifikaci, v případě tříd a 3 k výazně menšímu počtu chybných klasifikací. Haniční přímka b 3 (tj. po výazně se překývající klasifikační třídy a 3) má zcela jiný smě. To zda je její poloha v případě Fisheovy diskiminační metody výhodnější z hlediska počtu chybných klasifikací, by vyžadovalo podobnější analýzu. Po klasifikaci by bylo zřejmě možné použít hanic b a b 3., kteými je obazový posto ozdělen do čtyř částí, z nichž výsek vpavo nahoře na ob..3b neodpovídá žádné z předpokládaných klasifikačních tříd. Po zajímavost lze uvést haniční přímky učené pomocí Fisheovy lineání diskiminace i po další poměnné. a) b) Ob..4 Příklad haničních přímek po klasifikaci tří duhů kosatců učených pomocí Fisheovy lineání diskiminace ve dvouozměném postou Iis setosa ( ), Iis vesicolo () a Iis viginica() po příznakové poměnné a) x délka kališních lístků, x 3 délka kounních lístků; b) x šířka kališních lístků, x 4 šířka kounních lístků - 5 -

52 Dvouozměný obazový posto s příznakovými poměnnými x (délka kališních lístků) a x 3 (délka kounních lístků) je ozdělen haničními přímkami (ob..4a) b (x,x 3 ) =, ,079.x 7,8704.x 3 = 0; b 3 (x,x 3 ) = 5,98 + 4,553.x,0954.x 3 = 0; b 3 (x,x 3 ) = 8,4750 8,660.x 38,9658.x 3 = 0, s příznakovými poměnnými x (šířka kališních lístků) a x 4 (šířka kounních lístků) je ozdělen haničními přímkami (ob..4b) b (x,x 4 ) =, x x 4 = 0; b 3 (x,x 4 ) = x x 4 = 0; b 3 (x,x 4 ) = x x 4 = 0, Na obou obázcích, stejně tak jako na ob..3 lze vidět poněkud poblematické překývání klasifikačních tříd Iis vesicolo a Iis viginica, v obou případech tedy vlivem překyvu dochází k chybnému zatřídění. Na duhé staně, kosatce duhu Iis setosa zaujímají odlišné části obazového postou bez jakéhokoliv překytí s oběma dalšími klasifikačními třídami, haniční přímky b i b 3 nevyvolávají jakékoliv pochybnosti o spávné klasifikaci. Vzhledem k ozmístění obazů v příznakovém postou lze po klasifikaci v obou zobazených případech použít hanice b a b 3, kteé po eálné hodnoty příznaků dělí obazový příznakový posto pávě do tří segmentů, odpovídajících jednotlivým klasifikačním třídám..4.4 Jednovstvý pecepton Jednovstvý pecepton je základní stuktuou vstevnatých neuonových sítí 8. Neuonová sít epezentuje jeden z možných výpočetních postupů zpacování dat inspiovaný funkcí nevové soustavy. Komě možného využití v takových matematických plinách jako je klasifikace a ozpoznávání, pedikce, filtace dat, mohou neuonové sítě sloužit i jako matematický model, sloužící ke zkoumání funkce eálné nevové soustavy. Základním výpočetním pvkem neuonové sítě je umělý (fomální) neuon, kteý je v neuonové síti zapojen podle učitých specifikovaných topologických schémat. Vzoem umělého neuonu je základní buňka nevové soustavy neuon (ob..5). Neuon je stuktuní i funkční jednotkou nevové soustavy.tělo neuonu, kteé jako každá eukayotická buňka obsahuje jádo, je opatřeno kátkými, několik milimetů dlouhými, vstupními výběžky, tzv. dendity. Postřednictvím denditů přijímá neuon efeentní vzuchy z okolních (často tisíců) neuonů připojených na dendity pomocí synapsí. Vlastnosti sousedních Ob..5 Schématické znázonění neuonu neuonů i typ synapsí učují chaakte infomace přiváděné do těla neuonu (budicí, tlumicí). Synaptický přenos u savců pobíhá téměř výhadně pomocí chemických pocesů, u nižších živočichů bývá i elektický. Synaptický přenos infomace může být modifikován (excitačně i inhibičně) i jinými neuony. Neuonem zpacovaná infomace se předává na další neuony postřednictvím dlouhého výstupního vlákna - axonu. Jeho délka bývá i desítky centimetů. 8 V těchto textech se budeme zabývat pouze nejjednodušší fomou neuonové sítě, kteá umožňuje stejně jako ostatní metody v této kapitole lineání diskiminaci klasifikačních tříd. Podobnějším popisem dalších sofistikovanějších stuktu neuonových sítí se zabývá např. předmět Umělá inteligence

53 Ob..6 Základní výpočetní schéma umělého neuonu Ob..7 Lineání výpočetní schéma umělého neuonu Axon je zpavidla obalen myelinovou vstvou přeušovanou přibližně po,5 mm tzv. Ranvieovými zářezy. Toto uspořádání umožňuje uychlit šíření elektického vzuchu podél axonu. Na konci se axon dělí na teminální vlákna, kteá se postřednictví synapsí dále připojují na okolní neuony. Existuje celá řada matematických modelů neuonu. Nejběžnější tadiční fomu má model, jehož schéma je na ob..6. Vstupy epezentují dendity a infomace přivedená na vstupy je dále upavena obecně poměnnými váhovými koeficienty, kteé epezentují vliv synapsí. Váhované vstupy ze všech denditů jsou kumulovány a výsledek této kumulace je posléze podoben nelineání tansfomaci pomocí tzv. aktivační, esp. výstupní funkce. Nelineáně upavená infomace se posléze objeví na výstupu. Zjednodušenou lineání vaiantou tohoto schématu je zapojení na ob..7. Obsahuje pouze konstantní váhové koeficienty na vstupech a nelineání zpacování součtu všech váhovaných vstupů je epezentováno pahovou funkcí. Matematicky je toto výpočetní schéma epezentováno vztahem y(x) = w T.x + w 0, (.63) což je známá fomule použitá v těchto textech již několikát (svn. např. vztah (.6) v kap..., vztahy (.33), esp. (.34) v kap..4., atd). Znamená to, že výpočet v jednom neuonu epezentuje jednu lineání hanici v obazovém příznakovém postou a tím dělení obazového postou na dvě dichotomické polooviny. Pokud má klasifikáto třídit obazy do více klasifikačních tříd, pak je potřeba ozdělit obazový posto odpovídajícím počtem haničních přímek, každá epezentovaná jedním neuonem, přičemž na všechny potřebné umělé neuony je přiváděna táž infomace, epezentovaná obazovými vektoy. Takové zapojení je v podstatě vyjádřeno schématem na ob..4 (pokud funkci (.63) vnímáme jako diskiminační, příp. je v obázku blok výběu maxima nahazen blokem logických pavidel, pomocí kteých klasifikáto ozhoduje, do kteé části lineáně ozděleného obazového postou vstupní obaz zařadí). Jednotlivé neuony jsou tedy zapojeny v jedné vstvě a tato neuonová vstva je následována vyhodnocovacím blokem. Potože histoicky pvní neuonové sítě s vstevnatou stuktuou byly použity po modelování funkce zaku a ozpoznávání geometických obazců, začalo se neuonovým sítí s touto topologií říkat peceptony. Důležitou úlohou je učení hodnot váhových koeficientů na základě infomací obsažených v ténovací množině tak, aby dělení obazového postou a tím i funkce klasifikátou byly optimální. Obecné požadavky na postup nastavení hodnot váhových koeficientů peceptonu (a nejen peceptonu) jsou: algoitmická fomulace tj. metoda musí najít řešení pomocí konečného počtu dílčích koků; konvegence výpočet by měl být monotónní a pokud možno co nejychlejší

54 Učení peceptonu (obecně jakéhokoliv klasifikátou) pobíhá na základě následujících pavidel: na vstup peceptonu jsou vkládány pvky ténovací množiny a výsledek klasifikace je sovnán s očekávanou spávnou klasifikací; pokud je ozdíl mezi klasifikátoem učenou a spávnou klasifikací větší než učitá předem daná mez definující přípustnou chybu, pak se paamety klasifikátou (váhové koeficienty) změní tak, aby se chyba mezi učenou a požadovanou klasifikací minimalizovala; pokud je chyba klasifikace větší než předem stanovená mez, pak učení dále pokačuje, v opačném případě se učení ukončí a klasifikáto je možné použít ke klasifikaci. Komě zmíněného absolutního kitéia ukončení učicí se fáze se v současné době často používá po zastavení učení i elativní kitéium založené poklesu chyby během daného časového okna. Učení peceptonu lze tedy považovat za typickou optimalizační úlohu. Abychom ji dokázali vyřešit, je třeba použít vhodnou kiteiální (ztátovou) funkci a přiměřený algoitmus, kteý dokáže najít extém kiteiální funkce. Po následující výklad předpokládejme dichotomickou klasifikační úlohu, po kteou platí ~ T w ~ x 0, když x ω ; ~ T~ (.64) w x 0, když x ω. Jako kiteiální funkci použijme funkci J( ~ ) w x xy w~ T~ x (.65) kde Y je podmnožina ténovací množiny, kteá obsahuje chybně klasifikované obazy pomocí haniční oviny definované hodnotami váhového vektou w ~. Poměnou x volme tak, že x = -, když x a x =, když x. Je-li x a je chybně klasifikován, pak je w ~ T~ x 0 a x < 0 a součin w ~ T~ x x je kladný. Podobně je součin kladný, když x a je chybně klasifikován, pak je w ~ T~ x 0 i x > 0. Z toho plyne, že funkce J( w ~ ) je nezáponá a ovna nule, pokud je množina Y pázdná, tj. všechny obazy jsou klasifikovány spávně. Kiteiální funkce je spojitá a po částech lineání. Měníme-li hodnoty váhového vektou pouze nepatně, mění se hodnoty J( w ~ ) lineáně až do chvíle, kdy se změní počet chybně klasifikovaných obazů. V tomto bodě je gadient funkce nedefinován a gadientní funkce nespojitá. Po nalezení minima funkce J( w ~ ) se zpavidla používá gadientní algoitmus, definovaný iteační fomulí ~ ~ J( w ~ ) w (m ) w (m) m ~, (.66) w ~ ww~ (m) kde ~w (m) je váhový vekto odhadnutý v m-tém iteačním koku algoitmu a m (0, je paamet algoitmu, kteý učuje ychlost jeho konvegence. Jak jsme ale uvedli výše, gadient kiteiální funkce není definován v místě nespojitosti. Z definičního vztahu kiteiální funkce (.65) je v bodech, kde je gadient definován J( w ~ ) ~ w xy Po dosazení z (.67) do (.66) dostáváme ~ x x. (.67)

55 ~ ~ (m) ~ x w(m ) w m x xy (.68) (tato funkce je už definována po všechny body). Stuktua vlastního algoitmu je poměně jednoduchá, obsahuje následující koky:. zvolte ~w (0) a 0 (hodnoty váhového vektou se zpavidla nastavují náhodně na hodnoty blízké nule);. m = 0; 3. epeat Y = ; fo k= to K (K je celkový počet obazů v ténovací množině); if ~ (m) T xkw xk 0 then Y = Y {x k }; w ~ (m ) w~ (m) ~ x ; x nastavte m ; m = m+; until Y =. m xy Na ob..8 je zobazena geometická intepetace popsaného algoitmu učení jednovstvého peceptonu. Předpokládejme, že v m-tém koku algoitmu je chybně klasifikován pouze jeden obaz x. Dále předpokládejme, že paamet m =. V tom případě algoitmus koiguje váhový vekto ve směu obazového vektou x. Potože váhový vekto učuje oientaci haniční oviny, koekcí váhového vektou se otočí haniční oviny tak, že je obazový vekto klasifikován spávně do třídy. Po hodnotu m = se uvedená změna hodnot váhového vektou povedla v jednom iteačním koku, po menší hodnotu m by algoitmus poběhl ve více kocích. Ob..8 Geometická intepetace algoitmu učení jednovstvého peceptonu Vzhledem k podstatě použitého optimalizačního algoitmu a kitéiu optimality, za optimální řešení je považováno pvní nastavení váhového vektou, po kteé je splněno kitéium optimality. Jsou-li obě klasifikační třídy lineáně sepaabilní, existuje pavděpodobně více možných řešení ozdělení obazového postou a bylo by možné snažit se z těchto řešení vybat opět nejlepší. To ale tento algoitmus neumožňuje. Vaiantou uvedeného algoitmu je postup, kteý epezentuje třídu algoitmů schématu zisk ztáta. Algoitmus předpokládá, že je na vstup peceptonu postupně cyklicky přiváděno K obazů ténovací množiny. Cykly (též epochy) zpacování všech pvků ténovací množiny se opakují, dokud nejsou spávně zařazeny všechny ténovací pvky. Algoitmus se řídí následujícími vztahy:. w~ (m ) w~ (m) x(m), když x(m) a ~ w (m). x(m) 0;. w~ (m ) w~ (m) x(m), když x(m) a ~ w (m). x(m) 0; (.69) 3. w~ (m ) w~ (m), ve všech ostatních případech. To znamená, že je-li pvek ténovací množiny klasifikován spávně, hodnoty váhového vektou se nemění. Algoitmus je odměněn tím, že není třeba nic koigovat. Je-li naopak té

56 novací obaz zatříděn špatně, k hodnotám váhového vektou je přičtena, příp. odečtena hodnota úměná souřadnicím vektou x ~. Tedy algoitmus tatí cenu koekce. Pokud jsou obě klasifikační třídy lineáně sepaabilní, pak lze dokázat, že učicí algoitmus konveguje a haniční ovina leží mezi oběma množinami. Když ale třídy nejsou lineáně sepaabilní, potom poloha hanice osciluje. Příklad: Navhněte lineání ozdělení dvouozměného obazového postou pomocí jednovstvého peceptonu. V obazovém postou body x = (-, 0) T a x = (0, ) T patří do klasifikační třídy a body x 3 = (0, -) T a x 4 = (, 0) T do třídy (ob..9). Počáteční hodnoty ozšířeného váhového vektou ~w (0) zvolme (0, 0, 0) T a hodnotu paametu zvolme jednotkovou, =. Po pvní ozšířený obaz ~ x je ~ T (0). ~ Ob..9 Zadání a řešení úlohy w x 0, tedy podle 0 0 pavidla ~w () V duhém koku po ozšířený obaz ~ x je ~ T w (). ~ x , tedy podle pavidla 3 w~ () w~ ( ) V třetím koku po obaz ~ x 3 je 0 ~ T w (). ~ x Poto podle pavidla ~w (3) 0. 0 V následujícím čtvtém koku po obaz ~ x 4 je ~ T w (3). ~ x a tedy podle pavidla 3 w~ (4) w~ (3 ). 0 Nyní přivádíme na vstup obazy znovu od ~ x ~ T w (4). ~ x 0. 0 a poto dle pavidla 3 w~ (5) w~ (4 ), 0 dále po obaz ~ x

57 ~ T w (5). ~ x ; opět podle pavidla 3 w~ (6) w~ (5 ) a konečně po obaz ~ x 3 ~ T w (6). ~ x a tedy znovu podle pavidla 3 je w~ (7) w~ (6 ). Ve čtyřech (počet obazů v ténovací množině) následných kocích nebylo třeba jakékoliv koekce váhového vektou, všechny obazy učební množiny byly klasifikovány spávně, algoitmus poto dál nepokačuje, učený váhový vekto je ~ T w 0. To znamená, že haniční přímka je učena ovnicí x + x = 0, esp. x = x, což epezentuje přímku pocházející počátkem s jednotkovou směnicí (ob..9)..4.5 Algoitmus podpůných vektoů Algoitmus podpůných vektoů (suppot vecto machine SVM) představuje velkou třídu metod s použitím v ozličných klasifikačních úlohách, v této kapitole se věnujme jeho použití především po hledání lineání sepaace klasifikačních tříd. Začneme dichotomickým poblémem s lineáně sepaabilními klasifikačními třídami, kteý se posléze pokusíme zobecnit. Sepaabliní třídy Předpokládejme, že ténovací množina obsahuje K obazových vektoů, kteé patří do dvou lineáně sepaabilních klasifikačních tříd a, kteé lze oddělit hanicí b(x) = w T.x + w 0 = 0 (viz též vztah (.35)). V předcházející kapitole jsme zmínili, že poloha takové haniční plochy není obecně jednoznačná a použijeme-li algoitmus učení jednovstvého peceptonu, pak její poloha nemusí být optimální. Na ob..30 je znázoněno několik možných řešení. Všechny třídy beze zbytku splňují požadavek na dokonalé oddělení obou množin, lze však i intuitivně odhadnout, že někteé z uvedených řešení je vhodnější, jiná méně. Zřejmě nejlepší volba z dělení obazového postou uvedeného na ob..30 představuje silná čáa, kteá pochází v dostatečně velké vzdálenosti od vektoů obou množin. Takové řešení je nepochybně nejobustnější po klasifikaci nových vektoů, kteé nejsou součástí ténovací množiny. Pomě vzdáleností každé dílčí části ténovací množiny od hanice bude učitě záležet na očekávání, jaký posto budou vyplňovat nově klasifikované obazy. V případě, že je toto Ob..30 Nejednoznačnost možné lineání sepaace dvou klasifikačních tříd Ob..3 Příklad dělení obazového postou pomocí algoitmu podpůných vektoů v případě sepaabilních tříd

58 očekávání stejné po obě množiny, esp. nemáme-li z tohoto pohledu žádnou apioní infomaci, předpokládáme, že by tento pomě měl být oven jedné. Na základě této úvahy lze definovat kitéium, jež umožní nalézt optimální polohu dělicí haniční oviny. Nechť je to taková nadovina, kteá vytváří největší šířku toleančního pásma mezi hanicí a oběma částmi ténovací množiny. Připomeňme nyní, že oientace dělicí oviny je dána souřadnicemi vektou w a její poloha hodnotou pahu w 0. Dále připomeňme ob..5 a vztah (.38), podle kteého je vzdálenost bodu od haniční oviny b( x) d. w Nyní předpokládejme, že hodnota funkce b(x) v nejbližším bodě množiny je ovna + a v nejbližším bodě množiny je -. V tom případě a za předpokladu stejných vah obou dílčích množin je šířka celého toleančního pásma w a po všechny vektoy ténovací množiny platí T w x w T w x w 0 0 (.70) w w pox pox ;. (.7) Jestliže definujeme pomocnou cílovou poměnou x, v tomto případě definovanou tak, že x = po vektoy z třídy a x = - po vektoy z třídy, pak lze definovat kiteiální funkci w J( w, w 0 ) (.7) (kvadát nomy je použit, abychom se vyhnuli nespojitosti deivace w v bodě nula a koeficient / zjednoduší výazy získané po deivování), kteou budeme minimalizovat. Ze vztahu (.70) je nepochybně vidět, že minimalizací nomy maximalizujeme šířku toleančního pásma. Minimální hodnotu kiteiální funkce musíme hledat za podmínky, že T x.( w x w0), po x z ténovací množiny. (.73) To je opět nelineání podmíněná optimalizační úloha, kteá vede na využití metody Langangova součinitele po hledání vázaného extému. Jejím použitím získáme soustavu ovnic (tzv. Kaushovy Kuhnovy Tuckeovy podmínky) L ( w, w 0, λ) 0; (.74) w L ( w, w 0, λ) 0; w (.75) k[ xk k 0 0 T ( w x w ) ] 0, k,,...,k; (.76) kde je vekto Langangových součinitelů k 0, k =,,, K a L(w, w 0, ) je Langangova funkce definovaná vztahem

59 w w L( w, w x T K T 0, λ) k[ xk( w k w 0 ) ] k Řešením uvedené soustavy ovnice dostáváme (.77) a K w x (.78) k k xk k K k k xk 0. (.79) Řešením této soustavy získáváme optimální hodnoty w 0 a w. Vektoy, po kteé leží pávě ve vzdálenosti / w, tj. vektoy, kteé pávě definují šířku toleančního pásu a po kteé platí w T x + w 0 =, se nazývají podpůnými vektoy a klasifikáto používající haniční plochu optimálně učenou souřadnicemi podpůného vektou se označuje jako algoitmus podpůných vektoů (viz též ob..7). Příklad: Navhněte lineání ozdělení dvouozměného obazového postou pomocí algoitmu podpůných vektoů, za předpokladu, že obazové vektoy x = (, ) T a x = (, -) patří do třídy a vektoy x 3 = (-, ) T a x 4 = (-, -) do třídy (viz ob..3). Jednoduchá geometie zadání patná z ob..3 a znalost pincipu algoitmu podpůných vektoů vede k intuitivnímu řešení úlohy, definujícímu haniční funkci b(x) = w x + w x +w 0 = 0 po w = a w = w 0 = 0. V tom případě jsou všechny čtyři obazové vektoy podpůnými vektoy a toleanční pás oddělující haniční přímku od všech podpůných vektoů je šioký pávě. Všechna ostatní možná řešení vedou Ob..3 Zadání a řešení příkladu k menší šířce toleančního pásma. Pokusme se nyní o matematickou fomulaci a řešení zadané úlohy. Lagangova funkce podle vztahu (.77) v tomto konkétním případě nabývá tvau w w L(w, w, w0, λ) (w w w0 ) (w w w0 ) (.80) 3(w w w0 ) (w w w0 ) Její deivací podle jednotlivých souřadnic vektou w dostáváme (viz vztahy (.74) a (.75))

60 L w L w 0 w 0 w L w 0 a ze vztahu (.76) plyne (w w w ) 0; 3 (w w (w w w w ) 0; ) 0; 4 4 ; ; (.8) (.8) 4(w w w0 ) 0. Jednotlivé ovnice se ovnají nule, buď když i = 0, nebo když jsou ovny nule výazy v závoce, nebo obojí. Potože v této chvíli nevíme, jaké hodnoty nabudou Langangovy součinitele i, budeme se zabývat případem, kdy se budou ovnat nule výazy v závokách. V tom případě se soustava ovnic (.8) tansfomuje do lineáního tvau w w w ; w w w w w w ; ; (.83) w w w0, kteá má řešení w = a w =w 0 = 0, což odpovídá intuitivnímu řešení uvedenému na začátku řešení tohoto příkladu. Po dosazení za w, w a w 0 do (.8) dostáváme lineání soustavu tří ovnic po čtyři neznámé,, 3 a 4 ; 0; Tato soustava má nekonečně mnoho řešení, kteá lze paameticky popsat (.84) t t 4 t; 3 ; 4 t a 3. (.85) Ovšem všechna řešení odpovídají optimálnímu nastavení souřadnic vektou w, např. po t = 0,5 jsou = 0,5, = 0,5, 3 = 0,5 a stejně 4 = 0,5. Nesepaabliní třídy Pokud jsou obě klasifikační třídy nesepaabilní, pak výše uvedené předpoklady neplatí. Předpokládejme situaci zobazenou na ob..33. Komě obazových vektoů, kteé odpovídají představě ozebíané v dřívější kapitole, jsou v ténovací množině i vektoy, kteé jsou už v toleančním pásu, ale jsou spávně klasifikovány (zakoužkované body), ovšem existují i vektoy, kteé budou špatně klasifikovány, potože leží v opačné poloovině, než by odpovídalo spávné klasifikaci (začtveečkované body). Ob..33 Příklad dělení obazového postou pomocí algoitmu podpůných vektoů v případě lineáně nesepaabilních tříd

61 Po vektoy ležící ve spávném toleančním pásu je 0 x 0 po obazové vektoy nacházející se na nespávné staně dělicí hanice, tj. chybně klasifikované obazy je T.( w x w ) (.86) T x.( w x w 0 ) 0. (.87) Abychom mohli popsat všechny tři případy pomocí jediné fomulace (to je třeba po definici kiteiální funkce), zavedeme další poměnné, k 0. Nazýváme je elaxační poměnné. Pomocí těchto poměnných můžeme psát T x.( w x w 0) k. (.88) Obazy pvní kategoie, tj. dostatečně jistě spávně klasifikované odpovídají hodnotám k = 0, obazy ležící na spávné staně toleančního pásu je 0 < k a konečně po chybně klasifikované obazové vektoy je k >. Optimalizační úloha je teď nepoměně komplikovanější, i když vychází ze stejných pincipů. Cílem optimalizace je teď, stejně jako v předchozím případě, vytvořit co nejšiší toleanční pás, ale současně minimalizovat počet obazů, po něž je k > 0. Znamená to, že se v tomto případě snažíme o sloučení dvou optimalizačních úloh. Matematicky vyjádřeno, snažíme se minimalizovat kiteiální funkci kde je vekto elaxačních poměnných k, K J( w, w 0, ξ) w CI( k ), (.89) k, po k 0; I( k ) (.90) 0, po k 0. a konstanta C vyjadřuje pomě vlivu obou členů kiteiální funkce podle (.89). Bohužel úlohu značně komplikuje dle definice nespojitá funkce I( k ). Abychom byli schopni kiteiální funkci deivovat, používá se náhadní vyjádření kiteiální funkce ve tvau kteou minimalizujeme za podmínky, že J( w, w (.9) K 0, ξ) w Ck, k xk( k 0 k T w x w ), k,,...,k. (.9) Definice poblému opět vede k řešení pomocí metody Lagangova součinitele, tentokát s Lagangovou funkcí T K K K w w L( w, w0, ξ, λ, μ) Ck kk k k k k [ xk T ( w x Tomu odpovídající Kaushovy-Kuhnovy-Tuckeovy podmínky jsou L 0 nebo w w K k k xk x k ; k w ) ]. 0 k (.93) (.94) - 6 -

62 L k L w 0 0 nebo w 0 nebo C k k K k k xk 0, k,,...,k; ; (.95) (.96) k[ xk k 0 k T ( w x w ) ] 0, k,,...,k. (.97) 0, k,,...,k; (.98) k k, 0, k,,...,k. (.99) k 0 k.5 Souvislosti jednotlivých pincipů klasifikace V kap..4. a na ob..8 jsme si již uvedli, jak haniční plochy souvisejí s diskiminačními funkcemi - že je tvoří půmět půsečíku diskiminační funkce do obazového postou. Vzájemné souvislosti mezi jednotlivými pincipy klasifikace si objasníme na jednoduchých příkladech. Začněme se sovnáním klasifikace podle minimální vzdálenosti a klasifikací podle diskiminačních funkcí. Uvažme příklad dvou tříd epezentovaných etalony x E = (x E, x E ) a x E = (x E, x E ) v dvoupříznakovém euklidovském postou. Výpočet vzdálenosti mezi obazem x = (x, x ) a libovolným z obou etalonů je v tomto postou definován vztahem v( x, x) = x - x min x - x (x x ) (x x ) ; s,. (.00) se se s se se s, se Podle definice ozhodovacího pavidla klasifikátou podle minimální vzdálenosti hledáme menší z obou vzdáleností, tj. min v( x, x). Potože nám nejde o stanovení konkétní vzdálenosti, ale o nalezení minima a ovněž díky tomu, že vzdálenost mezi dvěma body postou je vždy kladná, můžeme psát, že hledáme min v ( x, x). To znamená, že min v( x s se, x) ~ min v ( x s min x s se x, x) = x x se se x s, - x x min se s x se (x se (x se x se ) x (x se se ). x ) (.0) Po každý etalon představuje výaz ve složených závokách kuželovou plochu s vcholem v etalonu (pokud je vekto x totožný s etalonem, je výaz ve složených závokách oven nule) a ozšiřující se do kladných hodnot funkce g(x) (po souřadnice vektou x = (x se c, x se c ) je hodnota výazu ve složených závokách ovna c c) (ob..34). Jak je z obázku patné, tato oientace kuželové plochy bohužel nesplňuje podmínku po diskiminační funkci, ovšem po daný obaz x dvojčlen x x ve složených závokách ve výazu (.0) nezávisí na klasifikační třídě, můžeme jej poto považovat za aditivní konstantu, kteá se nepodílí na ozhodování. Poněvadž je tento člen vždy kladný, můžeme učit minimum celého výazu pávě tehdy, když najdeme ve vztahu (.0) maximum výazu v hanatých závokách. Tím se oientace kuželové plochy mění a v souladu s pincipem klasifikace podle diskiminačních funkcí lze tento výaz považovat za definiční vztah diskiminační funkce s-té - 6 -

63 třídy g s (x). Kuželové plochy se v obou případech potínají v paabole a její půmět do obazové oviny je přímka (ob..34), definovaná vztahem xe xe x E x E x(xe - x E ) x (xe - x E ) 0. (.0) Tato haniční přímka mezi klasifikačními třídami je vždy kolmá na spojnici obou etalonů a tuto spojnici půlí. Z uvedeného plyne, že klasifikáto pacující na základě minimální vzdálenosti je ekvivalentní lineánímu klasifikátou s diskiminačními funkcemi. Dále je tento příklad ukázkou toho, že i nelineání diskiminační funkce může vyústit v lineání sepaaci klasifikačních tříd. Jinou možností, jak zkonstuovat diskiminační funkci na základě pincipu stanovení vzdálenosti, esp. podobnosti mezi klasifikovaným obazem a etalony klasifikačních tříd je použití metiky podobnosti. Dle závislosti mezi vzdálenostní a podobnostní metikou se mění tva kuželové plochy, nicméně její vchol leží vždy nad etalony klasifikačních tříd, kuželová plocha se ozšiřuje směem k obazovému postou, mění se sice tva půsečíků kuželových ploch odpovídajících jednotlivým etalonům, ale jejich půmět do obazové oviny zůstává lineání za předpokladu, že metiky po jednotlivé etalony nejsou ůzně váhované. Uvažme nyní případ, kdy je třída epezentována etalonem x E a třída dvěma etalo- () () ny x E a x E a obazový vekto x klasifikujeme opět pomocí kitéia nejmenší vzdálenosti. Podle výše uvedeného vztahu po hanici oddělující obazy náležející jednotlivým etalonům podle kitéia minimální vzdálenosti jsou hanice mezi třemi etalony znázoněny na ob..35. Potože třídu představují dva etalony, je hanice mezi oběma třídami lomená přímka půlící Ob..34 Klasifikace podle minimální vzdálenosti Ob..35 Klasifikace podle minimální vzdálenosti s víceetalonovými klasifikačními třídami

64 () () vzdálenosti mezi etalony x E a x E a x E a x E. Klasifikace podle minimální vzdálenosti s třídami epezentovanými více etalony je ekvivalentní klasifikaci podle diskiminační funkce s po částech lineání haniční funkcí. Pokusme se tedy shnout vzájemné vztahy mezi jednotlivými pincipy klasifikace. Hanice mezi klasifikačními třídami jsou dány půmětem diskiminačních funkcí do obazové oviny. Klasifikace podle minimální vzdálenosti definuje hanici, kteá je kolmá na spojnici etalonů klasifikačních tříd a půlí ji. Pincip klasifikace dle minimální vzdálenosti vede buď přímo, nebo postřednictvím využití metik podobnosti k definici diskiminačních funkcí a ty dle pvního ze zde uvedených pavidel k učení hanic mezi klasifikačními třídami..6 Sekvenční příznaková klasifikace.6. Základní úvahy V dosud popisovaných metodách po vymezení klasifikačních tříd jsme předpokládali, že všechny klasifikované obazy mají konstantní počet příznaků, přičemž poblém stanovení vhodného počtu příznaků jsme zatím neřešili. Je zřejmé, že nepřiměřený počet příznaků může při klasifikaci způsobit potíže. Malý počet příznaků (malé množství infomace) může být příčinou nespávné klasifikace, naopak zjišťování velkého množství dat může být z hlediska cílů klasifikace nepřiměřeně pacné, případně nákladné, zpavidla obojí. Jednou z možností jak nalézt kompomis mezi chybou klasifikace a cenou učení příznaků je sekvenční klasifikace, kteá spočívá v klasifikaci obazů popisovaných stále ostoucím množstvím příznaků, přičemž okamžik ukončení klasifikace a tím celkovým počet příznaků stanoví klasifikáto sám na základě předem stanoveného kitéia posuzujícího kvalitu ozhodnutí. Algoitmus řízení sekvenční klasifikace může být jednoznačně učen předem, např. ozhodovacím (klasifikačním) stomem, nebo závislý na vlastnostech výskytu jednotlivých pávě zpacovávaných obazů. Metodám používajícím klasifikační stomy a způsobu jejich návhu je věnována publikace [4], zabývejme se zde poto především základním pincipům tohoto způsobu klasifikace a duhému, altenativně uvedenému přístupu. Předpokládejme, že n-ozměný obazový posto X n je haničními plochami ozdělen na R disjunktních oblastí R, =,,, R, kteé epezentují představu klasifikátou o klasifikačních třídách. Poto je obaz x, kteý se nachází v oblasti R obazového postou, zařazen do třídy. Jestliže se jedná o případ nesepaabilních klasifikačních tříd, může dojít k chybnému zatřídění obazu. Pavděpodobnost chybného zatřídění je zřejmě tím větší, čím menší je vzdálenost obazu od hanice. Máme-li zadáno kitéium ukončení klasifikačního pocesu např. pomocí maximální přípustné pavděpodobnosti chybného ozhodnutí, lze si Ob..36 Pincip sekvenční klasifikace

65 toto kitéium znázonit gaficky podle ob..36. Jednopříznakový obazový posto je hanicí ozdělen na dvě oblasti R a R, kteé epezentují klasifikační třídy. Okolo ozdělující haniční plochy je oblast nejistoty R 0, ve kteé je pavděpodobnost chyby větší než předepsaná. Nachází-li se obaz x v oblasti R 0, je potřeba v klasifikačním pocesu pokačovat přidáním a zpacováním další infomace (dalšího příznaku), je-li obaz mimo tuto oblast lze klasifikaci ukončit. Každý příznak v obaze nese učité množství infomace o klasifikovaném objektu a toto množství je obecně po jednotlivé příznaky ůzné. Intuitivně lze usoudit, že ozhodovací poces bude možné ukončit dříve, pokud bude obaz vyjádřen nejdříve příznaky nesoucími největší množství infomace. Rychlost sekvenční klasifikace je tedy závislá na pořadí, v jakém jsou jednotlivé příznaky do obazu klasifikovaného objektu přidávány. Zabývejme se nyní kitéii po řízení sekvenčního klasifikátou, poblematika výběu a uspořádání příznaků bude ozebána později v kap Waldovo kitéium Předpokládejme dichotomický klasifikáto a dále, že každý klasifikovaný obaz x je popsán množinou příznaků {x, x, }. Nechť p(x, x,, x i ) a p(x, x,, x i ) jsou i- ozměné hustoty pavděpodobnosti výskytu obazu x = (x, x,, x i ) vytvořeného v i-tém klasifikačním koku ve třídách a. Konečně, nechť A a B jsou konstantní paamety, po kteé platí 0 < B < < A <. Jestliže v i-tém klasifikačním koku platí po věohodnostní pomě Λ i, definovaný vztahem p(x, x,..., x i ) i (.03) p(x, x,..., x ) že Λ i B, pak d w (x) =, je-li Λ i A, pak d w (x) =. Konečně, když Λ i (B,A), pak se přibee další příznak x i+ a klasifikační poces se zopakuje. Jak vyplývá z uvedeného ozhodovacího pavidla, závisí počet koků ozhodovacího algoitmu, tj. maximální počet příznaků v obazu x, na volbě hodnot mezních paametů A a B a na hustotách pavděpodobnosti výskytu obazů v obou klasifikačních třídách. Pokud jsou dány pavděpodobnosti chybného zařazení R p(x )dx a p(x )dx, můžeme empiicky stanovit hodnoty mezí A a B např. podle vztahů i R (.04) A a B. (.05) Jsou-li příznaky x, x,, ze kteých jsou vytvořeny obazy x, statisticky nezávislé, lze dokázat, že k přijetí ozhodnutí podle Waldova kitéia je potřeba konečný počet koků, tj. konečný počet příznaků. Z hlediska počtu koků má Waldovo kitéium ve sovnání s jinými ozhodovacími pavidly optimální vlastnosti vyjádřené větami: a) po libovolné kitéium s pevným počtem n příznaků a s pavděpodobnostmi a chybných ozhodnutí platí po n, že je větší nebo ovno střední hodnotě počtu koků podle Waldova kitéia; b) po libovolné sekvenční kitéium je k ozhodnutí potřeba půměný počet koků větší než je půměný počet koků podle Waldova kitéia

66 .6.3 Reedovo kitéium Waldovo kitéium je vázáno na výpočet věohodnostního poměu po dvě klasifikační třídy. Poto se po počet klasifikačních tříd R větší než dvě využívá kitéia založeného na tzv. zobecněném věohodnostním poměu definovaném po každou klasifikační třídu vztahem p(x, x,..., x i ) i ( x ), R / R p(x, x,..., x i s ) s,,...,r, (.06) kde i, podobně jako ve vztahu (.03), udává pořadí klasifikovaného koku, tj. počet použitých příznaků. Takto vypočítaný pomě Λ i (x ) se sovná s mezní hodnotou -té třídy A( ) stanovenou jako A( ) R s P ( Ps ) / R,,,...,R, (.07) kde P s je pavděpodobnost, že obaz x ze třídy s je zařazen do třídy. Pokud po třídu p platí, že x ) A( ), p,,...,r, (.08) i ( p p pak předpokládáme, že obaz x nepatří do třídy p třídu p tedy můžeme vyloučit z množiny nadále uvažovaných klasifikačních tříd, tj. tříd do nichž lze obaz x zařadit. Po vyloučení všech tříd p, po kteé platí vztah (.08), se spočítají nové hodnoty zobecněných věohodnostních poměů Λ i (x ) a mezních hodnot A( ), nové hodnoty se sovnají a pokud po někteou třídu opět platí vztah (.08), tato třída se vyloučí z množiny možných klasifikačních tříd, atd., pokud nezůstane poslední třída, do kteé je pak klasifikovaný obaz zařazen. Není-li možné vyloučit žádnou klasifikační třídu, zvýší se počet příznaků na i + a klasifikační poces pokčuje po všechny možné klasifikační třídy. Po R = je Reedovo kitéium ekvivalentní kitéiu Waldovu a má tytéž optimální vlastnosti. Po R > nebyla optimalita Reedova kitéia ani pokázána, ani vyvácena..6.4 Modifikované Waldovo kitéium Přes optimální vlastnosti Waldova kitéia může nastat situace, že počet koků potřebných k přijetí ozhodnutí podle tohoto kitéia může být po někteé obazy příliš velký, i když střední hodnota počtu koků po všechny obazy je elativně nízká; i střední hodnota počtu koků potřebných k ozhodnutí je příliš velká, jestliže požadujeme, aby byly malé pavděpodobnosti chybných ozhodnutí. V paktických úlohách bývá poto účelné klasifikační poceduu po učitém počtu koků přeušit a klasifikační třídu učit podle nějakého doplňkového kitéia, pacujícího s pevným počtem příznaků. To lze zajistit: předepsáním učitého maximálního počtu koků; zavedením poměnných hanic A(i) a B(i). Nechť A(i), příp. B(i) je nezáponá neostoucí, esp. nekladná neklesající posloupnost počtu klasifikačních koků. Klasifikáto v i-tém koku zařadí obaz x = (x, x,, x i ) do třídy

67 , pokud Λ i e A(i), do třídy, pokud Λ i e B(i) a přibíá další příznak, jestliže Λ i (e B(i), e A(i) ). Poblém analytického stanovení posloupností A(i) a B(i) není obecně vyřešen, obvykle se tato úloha řeší expeimentálně. Jestliže po obě mezní posloupnosti platí, že A(i max ) = B(i max ) (ob..33), pak nejpozději po i = i max je klasifikační pocedua ukončena, přičemž střední počet koků potřebných k ozhodnutí je menší než u standadního Waldova kitéia, ovšem za tu cenu, že nemusí být splněny požadavky na pavděpodobnost chybného ozhodnutí. Poměně šiokou třídou funkcí používaných po učení poměnných hanic modifikovaného Waldova kitéia jsou funkce q q i i A(i) a. a B(i) b. i max i, (.09) max kde a, b > 0, q, q (0, a i max je předem stanovená hodnota maximálního počtu klasifikačních koků klasifikátou. Půběh funkcí A(i) a B(i) podle (.09) s ůznými hodnotami exponentů q a q jsou na ob..37. Po i jsou A(i) = a a B(i) = -b a klasifikační pocedua odpovídá oiginálnímu Waldovu kitéiu s mezemi A = e a a B = e -b. Ob..37 Závislost klasifikačních hanic Waldova kitéia na počtu příznaků.6.5 Modifikované Reedovo kitéium Pincip konstukce poměnných mezních hodnot tak, jak byl použit u modifikovaného Waldova kitéia, lze použít i po případ více klasifikačních tříd. V každém klasifikačním koku může být hodnota zobecněného věohodnostního poměu Λ i (x ) po všechny třídy sovnávána s pahem definovaným vztahem q i G (i) g.,,...,r. i (.0) max Když platí, že Λ i (x ) < G (i), pak je třída vyloučena z dalšího ozhodování a počet možných klasifikačních tříd se sníží o jednu. Výpočet pokačuje způsobem ekvivalentním postupu popsaného v případě standadního Reedova kitéia, dokud nezůstane poslední jediná třída, do kteé se vstupní obaz přiřadí

68 3 Volba a výbě příznaků 3. Úvod Po spávnou činnost potřebuje klasifikáto dostatečné množství kvalitní infomace. Intuitivně lze předpokládat, že čím větší množství infomace data nesou, tím spávnější bude ozhodování klasifikátou, případně tím menší bude možnost, že se zmýlí. Z toho vyplývá, že čím úplnější popis klasifikovaného objektu zpostředkuje jeho matematický popis, tím kvalitnější by měla být činnost klasifikátou. Taková úvaha v jednoduchém důsledku vede k co nejpodobnějšímu popisu objektu pomocí velkého počtu příznaků. Rostoucí počet příznaků ale na duhé staně komplikuje technickou ealizaci klasifikátou. Roste složitost ozhodovacího algoitmu a tím i požadavky na jeho návh, příp. i na výpočetní čas potřebný ke klasifikaci. Z hlediska technického řešení je poto žádoucí počet příznaků v obazu klasifikovaného objektu co nejvíce omezit. Z těchto dvou potichůdných požadavků logicky vyplývá, že řešení každé konkétní klasifikační úlohy spočívá v nalezení ozumného kompomisu mezi spávností klasifikace a požadavky na její technickou ealizaci. Abychom takový kompomis nalezli, je po danou úlohu třeba: definovat přípustnou míu spolehlivosti klasifikace; učit ty příznakové poměnné, jejichž hodnoty nesou nejvíce infomace, tj. ty poměnné, kteé jsou nejefektivnější po co nejlepší sepaaci požadovaných klasifikačních tříd. Definice míy spolehlivosti učuje optimalizační kitéium, podle kteého jsou příznakové poměnné hodnoceny a vybíány. V převážné většině případů se používá pavděpodobnosti chybné klasifikace, či ůzných dalších sofistikovanějších kitéií z pavděpodobnosti chybné klasifikace odvozených, jako jsou hodnoty senzitivity a specificity, tvau tzv. pacovní chaakteistiky klasifikátou (ROC Receive Opeating Chaacteistic). Vhodným kitéiem může být i odchylka obazu vytvořeného z vybaných příznaků vůči učitému efeenčnímu, ve stanoveném smyslu ideálnímu obazu. Způsob, jak učit příznakové veličiny nesoucí nejvíce infomace po klasifikáto, není teoeticky fomalizován, tj. neexistuje teoetický apaát, pomocí kteého by bylo možné předem stanovit veličiny, jejichž hodnoty poskytují užitečnou infomaci, nebo naopak ty, kteé jsou po klasifikaci nedůležité. Teoie nabízí pouze dílčí, suboptimální řešení, spočívající ve výběu nezbytného počtu veličin z předem zvolené množiny příznakových veličin, příp. ve vyjádření původních příznakových veličin pomocí menšího počtu skytých (latentních) nezávislých poměnných, kteé nelze přímo měřit, ale mohou, ovšem také nemusí mít učitou věcnou intepetaci. Pvní z obou postupů má přímý důsledek i na optimalizaci pořizování dat (není nadále nutné měřit ty veličiny, kteé nepokážou, že obsahují vhodné množství infomace). Naopak, duhý postup předpokládá kompletní vstupní data, kteá pouze tansfomuje a vytváří tím možnost jejich efektivnějšího zpacování. 3. Volba příznaků V žádném z obou přístupů však není specifikováno, jak učit výchozí množinu příznakových poměnných. To se zpavidla děje na základě empiie a expetní analýzy, vycházející ze znalosti podstaty řešeného poblému. Může to být i na základě simulačních výpočtů s matematickými modely analyzovaných jevů a pocesů. Neméně důležitým aspektem po tuto počáteční volbu je i naše schopnost, daná technickými možnostmi, učité veličiny měřit

69 Není poto jisté, zda zvolená výchozí množina bude obsahovat pávě ty veličiny, jejichž hodnoty jsou po danou klasifikační úlohu nejužitečnější. Přes empiický chaakte počáteční volby příznakových veličin platí někteé zásady, kteými se lze při této volbě řídit. Jak záhy uvidíme, s někteými pincipy jsme se už setkali v dřívějších kapitolách. Podle pvní myšlenky, kteá napadne, to vypadá, že užitečnější (infomativnější) po klasifikaci by měla být ta příznaková veličina, po kteou jsou dvě klasifikační třídy vzdálenější. Samotná vzdálenost ale sama o sobě není ozhodující, při zvažování, zda použít tu kteou příznakovou veličinu je třeba vzít v úvahu i ozptyl hodnot uvažovaných příznakových veličin. Lze tedy fomulovat dva základní pincipy (viz také kap..4.3 o Fisheově diskiminaci): a) výbě veličin s maximální vzdáleností mezi třídami Pokud je ozptyl příznaků ve dvou klasifikačních třídách stejný, pak jsou třídy lépe ozlišitelné po tu příznakovou veličinu, po kteou je vzdálenost mezi třídami větší (ob.3.a). b) výbě veličin s minimálním ozptylem uvnitř tříd Když je vzdálenost dvou tříd po ůzné příznakové veličiny stejná, pak jsou třídy lépe ozlišitelné s tou příznakovou veličinou, jejíž hodnoty se po každou třídu mění méně, tj. jejíž ozptyl v jednotlivých klasifikačních třídách je menší (ob.3.b). Jinými slovy, čím menší je ozptyl příznakové veličiny uvnitř klasifikační třídy, tím více infomace nese příznaková veličina o třídě, do kteé patří. a) b) Ob.3. Zásady po volbu příznaků a) pefeence maximální vzdálenosti mezi třídami; b) pefeence minimálního ozptylu uvnitř tříd Jestliže vyjádříme ozložení hodnot uvažovaných příznakových veličin pomocí hustoty pavděpodobnosti, tak jak je naznačeno na ob.3., je optimální volba chaakteizována minimálním překyvem obou hustot, tj. situací, kteá znamená minimalizaci chybných ozhodnutí. c) výbě vzájemně nekoelovaných veličin Pokud je možné hodnoty jedné příznakové veličiny odvodit z příznaků veličiny duhé, potom použití obou těchto veličin nepřináší žádnou další infomaci o spávné klasifikaci opoti použití pouze jedné z nich, jedno kteé

70 d) výbě veličin invaiantních vůči defomacím (fluktuacím, vaiabilitě) Poslední požadavek je především paktický. Dle kap..3 a ob.. závisí volba elementů fomálního (matematického) popisu klasifikovaného objektu na jeho chaakteu, chaakteu původních údajů o něm, i na způsobu předzpacování. V těch případech, kdy je odstanění defomací dat příliš náočné, případně nejde vůbec ealizovat, je třeba vybat takové příznakové veličiny, kteé nejsou ušením ovlivněny, esp. podstatně ovlivněny. Někdy lze výběem příznakové veličiny fázi předzpacování eliminovat a tak zjednodušit celé zpacování, i když jsou algoitmy předzpacování jednoduše ealizovatelné. 3.3 Výbě příznaků Jak bylo uvedeno dříve, nedokážeme učit nejvhodnější veličiny z hlediska klasifikace přímo, nýbž pouze vybat z předem dané množiny veličin. To znamená, že se obaz, epezentovaný původně m-ozměným příznakovým vektoem, snažíme vyjádřit vektoem n- ozměným (m n) tak, aby množství tzv. diskiminační infomace obsažené v původním vektou bylo v co největší míře zachováno. Výbě příznaků se tedy převádí na hledání zobazení Z: Y m X n, kteým se původní m-ozměný posto Y m tansfomuje do nového postou X n. Zmenšení ozměu obazového postou lze dosáhnout dvěma pincipiálně ůznými způsoby (ob.3.): Ob.3. Pincipy výběu příznaků a) selekce; b) extakce. a) selekce nalezení těch příznakových funkcí, kteé přispívají k sepaabilitě klasifikačních tříd nejméně a po klasifikaci se z původní množiny ponechá jen n nejvíce infomativních poměnných. Zobazení Z tedy pouze vynechává m n příznakových poměnných. b) extakce tansfomace původních příznakových poměnných na menší počet jiných příznakových poměnných. K tomu, abychom dokázali ealizovat libovolný z obou způsobů výběu příznaků, je třeba definovat a splnit učité podmínky optimality. Nechť J je kiteiální funkce, jejíž pomocí vybíáme příznakové poměnné. Pak v případě selekce vybíáme vekto x = (x,x,, x n ) T ze všech možných n-tic příznaků y i, i =,,, m. Optimalizaci výběu příznaků tudíž můžeme fomálně zapsat jako Z ( y) ext J( ). (3.) Poblémy, kteé je nutné vyřešit, jsou stanovení kiteiální funkce, ozměu nového příznakového postou a optimalizačního postupu

71 Při extakční altenativě tansfomujeme příznakový posto na základě výběu zobazení Z z množiny všech možných zobazení postou Y m do X n, tj. Z ( y) ext J( ). (3.) I v tomto případě je potřeba učit vhodnou kiteiální funkci, ozmě nového obazového postou, zvolit požadavky na vlastnosti zobazení i vhodný optimalizační postup (pokud nevyplývá z vlastností zobazení) Selekce příznaků Pomě ozptylů Jak bylo uvedeno mimo jiné i v kap.3., po klasifikaci jsou výhodnější ty příznaky, po kteé je menší ozptyl obazů uvnitř klasifikačních tříd a současně co největší vzdálenost (ozptyl) mezi třídami. To znamená, že se lze při selekci příznaků řídit hodnotami poměu ozptyl mezi třídami vzhledem k ozptylu uvnitř tříd. Čím větší bude tento pomě, tím méně pavděpodobná bude chyba klasifikace a tím také bude lépe poveden výbě příznaků. Ke stanovení zmíněného poměu je třeba chaakteizovat oba použité ozptyly. Zatímco ozptyl uvnitř tříd lze chaakteizovat dispezní maticí kde R T D ( χ) P( ) ( χ μ ).( χ μ ).p( χ ). dχ, (3.3) X μ χ. p( χ ). dχ. Rozptyl mezi třídami může být definován např. vztahem X (3.4) kde s = - s. Pokud můžeme také psát R R B( χ) P( μ, (3.5) s R P( ). μ )P( s ). μs. T s μ0 χ.p( χ). dχ, (3.6) X R T B ( χ) P( ).( μ μ0).( μ μ0). (3.7) Jestliže je dispezní matice D() egulání, tj. jestliže má invezní matici, pak lze vyjádřit vlastnosti výskytu obazů v obazovém postou při zvolené kombinaci příznaků, např. vztahem J ( χ) t D ( χ). B( χ). (3.8) Další možné používané způsoby popisu ozptylových vlastností obazů jednoduchým paametem jsou B( χ) / td( χ) J ( χ) t ; (3.9) - 7 -

72 J esp. po omezení ozsahu hodnot paametu J 3 3 Algoitmy selekce příznaků ( χ) D ( χ). B( χ) B( χ) / D( χ), (3.0) J4 3 ( χ) J ( χ). (3.) Poblém selekce příznaků spočívá ve výběu optimální podmnožiny obsahující n příznakových poměnných (n m). Její hledání je kombinatoický poblém, přičemž celkový počet možných podmnožin, kteé při daných počtem poměnných m a n můžeme vytvořit je učeno výazem m!/(m-n)!n!. To je číslo příliš veliké i po ne příliš velké hodnoty m a n, než abychom byli schopni učit optimální řešení na základě stanovení vlastností všech možných vaiant. To vede k vytváření postupů, kteé umožňují najít alespoň kvazioptimální řešení, ovšem s přijatelnými náoky na výpočet. Algoitmus ohaničeného větvení umožňuje stanovit optimální množinu příznaků za předpokladu, že kiteiální funkce po selekci příznaků je monotónní. Označíme-li X j množinu j příznaků, pak monotónnost kiteiální funkce znamená, že po množiny splňuje selekční kiteiální funkce vztah X X X j X m (3.) J(X ) J(X ) J(X j ) J(X m ). (3.3) Po popis algoitmu uvažme případ selekce dvou příznaků z původních pěti. Všechny možné altenativy vyloučení tří příznakových poměnných z výchozí množiny ukazuje gaf na ob.3.3. Každý uzel v gafu vyjadřuje eliminaci jedné označené příznakové poměnné. Ob.3.3 Gaf algoitmu ohaničeného větvení - selekce z 5 Předpokládejme, že vyhodnocujeme hodnotu zvolené kiteiální funkce v každém uzlu stomu, přičemž postupujeme shoa dolů a zleva dopava, a sovnáváme ji s dosud nejlepší dosaženou hodnotou, kteou označíme J 0. Pokud je okamžitá hodnota kiteiální funkce větší než J 0, je stále šance, že optimální řešení bude nalezeno na pávě analyzované větvi gafu a poto bude hledání pokačovat po nejlevější dosud neanalyzované větvi. Jestliže dosáhneme konce větve a odpovídající hodnota selekčního kitéia je větší než J 0, pak tento uzel definuje novou optimální množinu příznaků a modifikujeme hodnotu J 0. Naopak, jestliže je v někteém uzlu gafu hodnota selekčního kitéia menší než J 0, pak větve začínající v tomto uzlu nemá - 7 -

73 smysl dále pohledávat, potože díky monotónnosti kitéia budou jeho hodnoty v dalších uzlech již jenom stále menší. Efektivnost pohledávání se ještě zvětší, jestliže se bude výbě odstaňované veličiny na dané úovni stomu povádět podle změny hodnoty kiteiální funkce a bude se postupovat tím směem, kde je změna kiteiální funkce nejmenší. Algoitmus sekvenční dopředné selekce je spolu s následujícím algoitmem nejjednodušší poceduou, kteá hledá suboptimální řešení. Algoitmus začíná s pázdnou množinou, do kteé se vloží poměnná s nejlepší hodnotou selekční kiteiální funkce. Dále, v každém následujícím koku se přidává ta poměnná, kteá s dříve vybanými veličinami dosáhla nejlepší hodnoty kitéia, tj. J(X k+ ) = max j J(X k y j ), y j (Y X k ). (3.4) Algoitmus sekvenční zpětné selekce začíná, na ozdíl od předešlého, s množinou všech výchozích příznakových veličin. V každém koku se eliminuje ta poměnná, kteá způsobí nejmenší pokles hodnoty kiteiální funkce, tj. po (k+)-ním koku platí J(X m-k+) = max J(X m-k - y j ), y j X m-k). (3.5) Důvodem pouhé suboptimality nalezeného řešení je v případě dopředné selekce to, že z vytvořené množiny nelze vyloučit ty veličiny, kteé se staly nadbytečnými po přiřazení dalších veličin. Podobně u zpětného algoitmu neexistuje možnost opavy při neoptimálním vyloučení kteékoliv poměnné. Dopředný algoitmus je výpočetně jednodušší, potože pacuje maximálně v n-ozměném postou, naopak zpětný umožňuje půběžně sledovat množství ztacené infomace. Algoitmus plus p mínus q pomáhá částečně napavit suboptimalitu obou výše uvedených algoitmů tím, že po přidání p veličin se q veličin odstaní. Poces pobíhá, dokud se nedosáhne požadovaného počtu příznaků. Je-li p > q, pacuje algoitmus stejně jako dopředný algoitmus od pázdné množiny. Naopak, je-li p < q, jedná se o vaiantu zpětného algoitmu. Algoitmus min max je heuistický algoitmus, kteý umožňuje vybíat příznaky na základě výpočtů hodnot kiteiální funkce pouze v jedno- a dvouozměném příznakovém postou. Předpokládejme, že již bylo vybáno k příznakových veličin do množiny X k, po výbě tedy zbývají veličiny z množiny Y - X k. Výbě veličiny y j (Y - X k) přináší novou infomaci, kteou můžeme ocenit elativně k libovolné veličině x i X k podle vztahu J(y j,x i ) = J(y j,x i ) - J(x i ). (3.6) Máme samozřejmě zájem, aby tento infomační příůstek byl co největší, nicméně musí být dostatečný vzhledem ke všem veličinám již zahnutým do množiny X k. Vybíáme poto takovou veličinu y k+, po kteou platí J(y k+,x k ) = max j min i J(y j,x i ), x i X k, y j {Y - X k}. (3.7) 3.3. Extakce příznaků Jak bylo uvedeno v kap.3., spočívá extakce příznaků v hledání optimálního zobazení Z, kteé tansfomuje původní m-ozměný obaz popisující analyzovaný objekt na obaz n

74 ozměný. Pvním předpokladem po nalezení vhodného zobazení je stanovení kitéia optimality. V současné paxi se používá především tří následujících kitéií: zobazení Z se učí tak, aby obazy z nového postou X n apoximovaly původní m- ozměné obazy z Y m ve smyslu minimální střední kvadatické odchylky; zobazení Z se učí tak, aby ozložení pavděpodobnosti veličin v novém postou splňovaly podmínky kladené na jejich pavděpodobnostní chaakteistiky; zobazení Z se učí tak, aby obazy z X n minimalizovaly odhad pavděpodobnosti chyby. Aby byl uvedený poblém teoeticky příjemně řešitelný, vybíá se zobazení Z z obou lineáních zobazení. Z metod extakce příznaků se dále budeme podobněji zabývat dvěma epezentativními postupy analýzou hlavních komponent a analýzou nezávislých komponent Analýza hlavních komponent Odvození Analýza hlavních komponent (PCA Pincipal Component Analysis) je jednou ze základních metod extakce příznaků. Teoeticky je založena na tansfomaci původního obazového postou pomocí metody Kahunenova Loevova ozvoje, kteý vychází z pvního z uvedených kitéií optimality. Předpokládejme, že je dáno K m-ozměných obazů, kteé pimáně nejsou ozděleny do klasifikačních tříd. Pak je k-tý obaz vyjádřen m-ozměným sloupcovým vektoem y k Y m, k =,,, K. Apoximujme nyní každý obaz y k lineání kombinací n otonomálních vektoů e i (n m). Tedy platí K x c e. (3.8) k i ki i Koeficienty c ki lze považovat za velikost i-té souřadnice vektou y k vyjádřeného v novém systému souřadnic s bází e i, i =,,, n, tj. platí c T ki yk. e. (3.9) i Volíme-li jako kitéium optimality zobazení, jak jsme již předeslali, kitéium minimální střední kvadatické odchylky, pak musíme stanovit vztah po učení kvadatické odchylky k původního obazu y k od jeho apoximace x k. Nechť je Pak pomocí vztahů (3.8) a (3.9) je y x. (3.0) k k k n y c. (3.) k Střední kvadatická odchylka po všechny obazy y k, k =,,, K je k i ki K K k k K K k y k n i e T i K K k y k y T k e i (3.) a je závislá na volbě otonomálního bázového systému e i, kteý je třeba zvolit tak, aby odchylka byla minimální. Diskétní konečný ozvoj podle vztahu (3.8) s bázovým systémem

75 e i optimálním podle kitéia minimální střední kvadatické odchylky nazýváme diskétní Kahunenův - Loevův ozvoj. Aby byla střední kvadatická odchylka definovaná vztahem (3.) minimální, musí duhý člen na pavé staně uvedené ovnice nabývat maximální hodnoty (vzhledem k tomu, že pvní člen pavé stany uvedené ovnice je po dané zadání úlohy konstantní). Je tedy nutné maximalizovat výaz kde n e i T i κ y) K ( e i, (3.3) T κ (y) = y ky k. (3.4) K k Je autokoelační matice řádu m. Z jejích vlastností (symetická, semidefinitní) vyplývá, že její vlastní čísla i, i =,,, m jsou eálná, nezáponá a jim odpovídající vlastní vektoy v i, i =,,, m jsou buď otonomální, nebo je můžeme otonomalizovat (v případě vícenásobných vlastních čísel). Uspořádáme-li vlastní čísla sestupně podle velikosti, tj. m 0 (3.5) a podle tohoto seřazení očíslujeme i odpovídající vlastní vektoy, pak lze dokázat, že výaz (3.4) dosahuje maxima, jestliže platí a po velikost maxima je max e i = v i, i =,,, n (3.6) n i n T i κ( y) ei i. i Po minimální střední kvadatickou odchylku tedy platí K n min k i t ) K k i e (3.7) n κ( y i y. (3.8) i m i in To znamená, že je ovna součtu těch vlastních čísel, jimž odpovídající vlastní vektoy nebyly použity při apoximaci obazu podle vztahu (3.8). Po n = m je střední kvadatická odchylka nulová. V někteých případech je vhodnější vektoy y,, y K před apoximací centovat 9. V tom případě vypočítáme střední hodnotu K K k y (3.9) k a místo s obazem y k počítáme s jeho centovanou vezí y y. k k 9 Zde je dobé opět připomenout, že centováním (odečtením střední hodnoty) přicházíme o učitou infomaci v datech, kteá chaakteizuje analyzovaný objekt a kteou již nebude možné nadále využít. Je poto potřeba, abychom si byli v tomto okamžiku zcela jistí, že střední hodnota v datech nenese žádnou infomaci podstatnou z hlediska řešené analytické, esp. klasifikační úlohy

76 Postup výpočtu Kahunenova Loevova ozvoje se nemění, ale místo autokoelační matice používáme matici dispezní ve tvau K T D ( y) ykyk. (3.30) K k Platí, že T κ( y) D( y) μ. μ. (3.3) Otonomální systém e,, e n je v tom případě oven vlastním vektoům v,....., v n dispezní matice D(y). Podobně, v případě standadizovaných dat, tj. když jsou po odečtení střední hodnoty jednotlivé hodnoty příznakových poměnných ještě poděleny patřičnou směodatnou odchylkou, pak místo autokoelační matice dostáváme matici hodnot Peasonova koelačního koeficientu, kteé popisují vzájemné koelační vztahy mezi jednotlivými poměnnými. Závěy a důsledky vyplývající z výpočtů vlastních čísel a vektoů takovéto matice zůstávají v pincipu zachovány, jen je třeba si uvědomit, že se mění chaakte výchozích dat. Diskétní Kahunenův Loevův ozvoj a na něj navazující analýza hlavních komponent má velice názonou matematickou intepetaci (ob.3.4). Nechť je původní obazový posto dvouozměný a je dán příznakovými veličinami Y a Y a obaz y má tedy v původní souřadnicové soustavě souřadnice y a y. Po tansfomaci souřadnicového systému, kteá je pimáně učena vlastnostmi autokoelační matice množiny obazů, jsou souřadnice uvedeného obazu tansfomovány do hodnot x a x. Vzhledem k tomu, že je tansfomace souřadnicové soustavy lineání, jsou obě nové souřadnice učeny lineání kombinací souřadnic původních, tedy (ob.3.4a,b,c) X = a.y + b.y = cos.y + sin.y ; X = c.y + d.y = sin.y + (cos/cos).y. (3.3) Pokud nedojde k edukci ozměu obazového postou je obaz i v tansfomovaných souřadnicích vyjádřen zcela přesně. Omezíme-li ale počet souřadnic, vynechávají se nejdříve souřadnice, kteé způsobují menší střední kvadatickou chybu, jinými slovy méně přispívají k výsledné apoximaci, v zobazeném případě souřadnice x. Hodnota chyby je učena pávě těmito vynechanými souřadnicemi. Při nulovém ozptylu jsou vlastní čísla autokoelační matice (y) =. T ovna = ǁμǁ a = = m = 0. Vlastní vekto v pochází pávě bodem, ve kteém leží všechny obazy, a ostatní vektoy v,, v m se volí tak, aby i nový souřadnicový systém byl otonomální. Střední kvadatická odchylka je v tom případě ovna nule. Pokud data centujeme (ob.3.4d,e), počítáme s dispezní maticí. Pak má tansfomovaná bázová soustava seřazeny osy ve směech největších ozptylů (ob.3.4d), kteé jsou v této nové souřadnicové soustavě číselně ovny vlastním číslům dispezní matice. Vlastní čísla a vlastní vektoy dispezní matice jsou ůzné od vlastních čísel a vektoů autokoelační matice, poto se oba Kahunenovy Loevovy ozvoje logicky liší. Když oiginální data navíc vztáhneme ke směodatné odchylce (standadizujeme), tj. odstaníme další možnou užitečnou infomaci po ozlišení dat, dále ztěžujeme výpočet vlastních čísel a vektoů matice koelačních koeficientů - množina obazů získává kompaktnější, kulovitější tva, stíá se ozdíl mezi vlivem jednotlivých nových souřadnic, z matematického hlediska autokoelační matice ztácí dobou podmíněnost, což v důsledku může vést i k výpočetním chybám (ob.3.4f)

77 Vlastnosti Ob.3.4 Geometická intepetace Kahunenova Loevova ozvoje Kahunenův Loevův ozvoj má někteé vlastnosti, kteé jej zvýhodňují před jinými typy tansfomací: při daném počtu n členů ozvoje poskytuje ze všech možných apoximací nejmenší kvadatickou odchylku; při použití dispezní matice jsou nové tansfomované příznakové poměnné nekoelované; pokud se výskyt obazů řídí nomálním ozložením, zajišťuje nekoelovanost příznaků současně i nezávislost; členy ozvoje nepřispívají k apoximaci ovnoměně, vliv každého z členů uspořádané posloupnosti apoximace se zmenšuje s jeho pořadím učeným velikostí odpovídajících vlastních čísel; změna požadavků na velikost střední kvadatické odchylky nevyžaduje přepočítat celý ozvoj, je třeba pouze změnit počet jeho členů. Až dosud jsme předpokládali, že množina apoximovaných obazů je konečná a že obazy nejsou ozděleny podle příslušnosti k jednotlivým klasifikačním třídám. Po klasifikační úlohy je však členění obazů základním předpokladem, poto se dále zabývejme, jak se změní podmínky, když obazy y budou patřit do R klasifikačních tříd, kteé budou vymezeny jako

78 části spojitého obazového postou Y m. Výskyt obazů v jednotlivých klasifikačních třídách bude popsán podmíněnými hustotami pavděpodobnosti p(y ) a apioní pavděpodobnost klasifikačních tříd bude P( ), =,,, R. Za těchto podmínek bude autokoelační matice (y) definována vztahem R T T κ ( y) P( ). y. y.p( y )dy y. y.p( y)dy (3.33) a dispezní matice buď podle předpisu R Y m Y m T D ( y) P( ). ( y μ ).( y μ ).p( y )dy, (3.34) Y m kde μ y.p( y m Y )dy,,,..., R, (3.35) nebo vztahem R 0 T T D ( y) P( ). ( y μ).( y μ).p( y )dy ( y μ).( y μ).p( y)dy, (3.36) Y m když střední hodnota μ je vážený půmě středních hodnot učených podle vztahu (3.35) (ob.3.5a), tj. R Y m μ P( ). y.p( y )dy y.p( y)dy. (3.37) Y m Dispeze podle definice (3.34) bee ohled na střední hodnoty obazů v jednotlivých klasifi- Y m Ob.3.5 Souřadnicové soustavy po výpočet dispezní matice

79 kačních třídách, obazy ze všech klasifikačních tříd se centují podle středních hodnot obazů v jednotlivých třídách (ob.3.5b). Klasifikační třídy se tedy po vycentování mohou ozlišit pouze podle dispeze ve směu jednotlivých souřadnicových os. Zato jsou tansfomované příznakové poměnné zcela nekoelované. Naopak dispeze podle vztahu (3.36) centuje obazy podle celkové půměné hodnoty, neodstaňuje vliv středních hodnot obazů v jednotlivých klasifikačních třídách (ob.3.5c) a je poto lépe použít Ob.3.6 Zadání a řešení příkladu této definice v těch případech, kdy jsou střední hodnoty výazně odlišné a nesou tak významnou část infomace o klasifikační úloze. Příklad Předpokládejme, že množinu obazů Y 3 tvoří dva obazové vektoy y = (,, ) T a y = (,, ) T (viz ob.3.6). Pomocí Kahunenova Loevova ozvoje najděme novou souřadnicovou soustavu, kteá umožní popsat oba vektoy s minimální střední kvadatickou odchylkou. Jak lze usoudit z elementáního znění zadání a případně i ověřit z gafického vyjádření na ob.3.6, oba zadané vektoy leží přesně na přímce dané směovým vektoem (,, ). Poto by tento vekto měl být pvní hlavní komponentou, další dvě souřadnice již nejsou po vyjádření obou zadaných vektoů podstatné. Ověřme nyní tento intuitivní závě výpočtem. Dle definičního vztahu (3.4) po výpočet autokoelační matice máme,5,5,5 T (.. T κ y y y y )..,5,5,5.,5,5,5 Autokoelační matice o ozměu 3 x 3 má všechny tři řádky stejné, tj. jsou lineáně závislé. Vlastní čísla i, kteá vypočítáme ze vztahu,5,5,5 det,5,5,5 0,5,5,5 a tedy (,5 - ) 3 +,5 3 +,5 3 3.,5.(,5 - ) = 0 3 7,5 = 0 jsou = 7,5 a dvě násobná,3 = 0. Potože hodnota vlastního čísla učuje střední kvadatickou chybu vyjádření daného vektou při odstanění vlastnímu číslu odpovídající souřadnice (dané vlastním vektoem), znamená to, že i když odstaníme souřadnice dané vlastními vektoy odpovídajícími vlastním číslům a 3 a použijeme pouze souřadnici definovanou vlastním vektoem náležejícím číslu, jsou oba vektoy y a y vyjádřeny naposto přesně. Z cvičných důvodů ale spočítejme směy všech tří vlastních vektoů x i, i=,, 3, kteé učíme ze vztahu

80 [ -.I].x = 0. Po = 7,5 dostáváme lineání soustavu tří ovnic 5x,5x,5x,5x 5x,5x,5x,5x 5x3 0, kteá obsahuje pouze dvě lineáně nezávislé ovnice a tedy její paametické řešení je x x3 x ; x x3 a x3 t. Při volbě paametu t = odpovídá vlastnímu číslu vlastní vekto x = (,, ) T, jak jsme usoudili na základě geometického ozbou úlohy. Po vlastní čísla,3 = 0 vypadá definiční soustava ovnic následovně,5x,5x,5x 3 0,5x,5x,5x ; 0;,5x,5x,5x 3 0 To znamená, že dvě ovnice jsou lineáně závislé a její paametické řešení je x = - x - x 3 ; x = t a x 3 = u. Paamety t a u volíme tak, aby vlastní vektoy byly navzájem otogonální, po x např. t = a u =, pak x = (-,, ) T a po x 3 např. t = - a u = a tedy x 3 = (0, -, ) T. V tom případě jsou všechny tři vlastní vektoy navzájem otogonální, každé jejich vzájemné skalání součty jsou ovny nule. Jak už jsme uvedli dříve, odstaněním souřadnic daných vlastními vektoy x a x 3 a ponecháním pouze souřadnice definované vlastním vektoem x se nedopustíme žádné chyby ve vyjádření zadaných vektoů y a y (oba vektoy leží na souřadnicové ose dané Ob.3.7 Postoová lokalizace vektoů y a y vektoem x a poto také obě vlastní čísla = 3 = 0). Jak by vypadala situace v případě, že bychom odstanili souřadnici x? Potože body y a y leží na vcholech kychlí s hanami o délce, esp. potilehlých k počátku (ob.3.7), je jejich vzdálenost od počátku a tím i souřadnice ve směu x ovna délce postoové úhlopříčky, tj. d = 3 v případě vektou y, esp. d = v případě vektou y. Potože je nová souřadnicová soustava otogonální, pomítaly by se oba obazové vektoy při odstanění osy x do počátku. A konečně, vzhledem k tomu, že chybu popisu obazových vektoů vyjadřujeme pomocí střední kvadatické odchylky, je tato chyba ovna (d d) (3) 7,5, což je pávě hodnota. Metoda výběu příznaků podle Fukunagy a Koontzeho Kahunenův Loevův ozvoj umožňuje nalézt optimální popis obazů s edukovaným počtem souřadnic podle kitéia střední kvadatické odchylky apoximace. Pomocí dispezní matice vede Kahunenova Loevova tansfomace k příznakům s největším ozptylem, což

81 jak jsme naznačili v kap.3. není po klasifikační úlohy zovna to nejpříznivější řešení. Při tansfomaci pomocí autokoelační matice je situace příznivější, ale i v tom případě se může stát, že příznaky odpovídající velkým chaakteistickým číslům jsou sice vhodné po optimální epezentaci dat, nikoliv však po klasifikaci, potože u všech tříd nabývají téměř stejných hodnot. Říkáme, že takové příznaky mají malou diskiminační schopnost, esp. jsou po klasifikační úlohu málo infomativní. Tento poblém lze řešit např. tím, že se chaakteistická čísla dispezní matice uspořádají vzestupně a příznaky se vybíají podle nejmenších vlastních čísel. Jinou možnou metodou je následující postup publikovaný Fukunagou a Kootzem, kteý je založen na předpokladu dichotomické klasifikační úlohy. Dichotomický hendikep však lze obejít ozkladem úlohy s obecným počtem klasifikačních tříd na posloupnost dichotomií. Metoda vychází z nomalizace autokoelační matice tak, že platí κ( y' ) E, (3.38) kde E je jednotková matice a y epezentuje nomalizovaný obaz, po kteý je y' U. y, (3.39) přičemž U je matice nomalizační tansfomace. Po autokoelační matici (y ) můžeme psát K K T T T T κ( y' ) y' k y' k U. y ky k. U U. κ( y). U. (3.40) K K k k Pomocí (3.40) lze přepsat vztah (3.38) do tvau Podle definičního vztahu (3.33) je po dvě klasifikační třídy T U. κ( y). U E. (3.4) κ y) P( ) κ ( y) P( ) κ ( ), (3.4) ( y kde κ ( y) y. y m Y T.p( y )dy,,; (3.43) je autokoelační matice učená výlučně pvky -té třídy. Vztah (3.4) pak můžeme dále přepsat do tvau kde S S, (3.44) E T S P( ). U. κ ( y). U,,. (3.45) Po vlastní čísla i () a vlastní vektoy v i () matice S podle definice platí () () () S v v, i,,..., m. (3.46) i i i Po matici S bude obdobně, s využitím (3.44) odkud po úpavě dostaneme () () () () S v ( E S ) v v, i,,..., m, (3.47) i i i i - 8 -

82 () () () S v ( ) v i,,...,m. (3.48) i i i Sovnáním vztahů (3.46) a (3.48) vidíme, že () () v v, i,,...,m (3.49) i i a () () ( ). (3.50) i i Potože 0 i () po =, a i =,,, m, pak jsou-li vlastní čísla matice S uspořádána vzestupně, jsou podle téhož indexu i vlastní čísla matice S uspořádána sestupně. Tedy nejdůležitější příznaky po popis obazů z pvní třídy jsou současně nejméně důležité po popis obazů z třídy duhé. Výbě bázového souřadnicového systému povádíme z vektoů v (), v (), po třídu a v m (), v m- (), po třídu. Zbývá učit matici U nomalizační tansfomace. Bez důkazu uvádíme, že U U. U, (3.5) kde U představuje matici tansfomace autokoelační funkce (y) na matici diagonální (U y). Uvedenou tansfomaci lze povést, když T v U, (3.5) T v m kde v i, i =,, m, jsou chaakteistické vektoy autokoelační matice (y). Tansfomovaná matice má pak tva ( ) κ U y. (3.53) 0 0 m U epezentuje tansfomační matici, kteá převádí diagonální matici podle (3.53) na jednotkovou. To je, když / / 0 U. (3.54) 0 0 / m Analýza nezávislých komponent Začínáme Analýza nezávislých komponent (ICA Independent Component Analysis) je podobně jako analýza hlavních komponent postup, kteý umožňuje v původních datech odhalit skyté veličiny, kteé nelze přímo měřit, ovšem mohou být učitým způsobem věcně intepetovány

83 Zatímco analýza hlavních komponent hledá pomocí lineání tansfomace nové příznakové souřadnice, kteé nejlépe epezentují data z hlediska střední kvadatické chyby, metoda analýzy nezávislých komponent používá k lineání sepaaci jednotlivých složek kitéium statistické nezávislosti. Byť je to metoda, jejímž pimáním cílem není, tak jak je to v případě analýzy hlavních komponent, především edukce počtu popisných poměnných, ve svém důsledku, tj. po odhalení nezávislých skytých zdojů dat, může vést ke snížení ozměu dat. Dále, zatímco metoda hlavních komponent může najít uplatnění při zpacování statických i dynamických, doménou analýzy nezávislých komponent je více zpacování dynamických dat, tj. časových řad. Nicméně, není to jediné možné využití. Definice poblému Ob.3.8 Definice metody analýzy nezávislých komponent Předpokládejme, že v daném postou jsou dva nezávislé zdoje znečištění (ob.3.8). Označme veličiny, kteé je chaakteizují s a s. Dále předpokládejme, že celková úoveň znečištění je měřena přinejmenším stejným počtem měřicích přístojů, jejichž výstupy označme x a x. V případě, že zanedbáme možné postoové vlivy (např. dobu šíření znečištění od zdoje k měřícímu zařízení) a nelineaity, můžeme si naměřené veličiny vyjádřit pomocí vztahů x as as ; (3.55) x a s a s, kde paamety a ij popisují přenosové vlastnosti postředí, jímž se znečištění šíří, směové chaakteistiky, apod. Poměnné s i nazýváme skyté, nebo latentní poměnné a hodnoty x i epezentují pozoované veličiny, kteé tvoří vekto pozoování. Cílem analýzy je ze známých hodnot x a x učit hodnoty poměnných s a s. Pokud bychom znali hodnoty tansfomačních koeficientů a ij, pak by řešení uvedené úlohy bylo v podstatě tiviální. Avšak poblém je, že tyto hodnoty apioi neznáme. Znamená to, že výsledkem výpočtů vycházejících ze znalosti hodnot pozoovaných veličin musí být učení hodnot latentních veličin, ale i hodnot tansfomačních koeficientů. Takové řešení může vypadat jako naposto neealizovatelné a když tak jen v říši snů. Bez jakýchkoliv dalších podmínek by se taková úloha opavdu dost dobře řešit nedala. Je-li to ovšem třeba, zabývejme se podmínkami, za kteých dokážeme řešení nalézt. Pokusme se poto nyní výše uvedené jednoduché konkétní zadání úlohy fomulovat obecněji. Tedy předpokládejme, že máme k dispozici n-ozměný náhodný vekto x = (x, x,, x n ), jehož jednotlivé složky představují známá naměřená data. Nechť po jednotlivé složky x i vektou x platí x i = a i s + a i s + + a in s n ; i =,,, n, (3.56) nebo také pomocí maticového zápisu x = A.s, (3.57) kde s epezentuje vekto původních, fomálně skytých zdojových komponent a matice A je tzv. tansfomační matice. Hodnoty jejích pvků, stejně jako hodnoty jednotlivých složek vektou s pimáně neznáme. Platí-li předpoklad, vyjádřený vztahy (3.56), esp. (3.57), můžeme také psát

84 s = W.x = A -.x, (3.58) což je ten vztah, kteý umožňuje ze známých hodnot vektou x učit neznámé složky vektou latentních poměnných. Má-li být tento výpočet ealizovatelný, musíme znát hodnoty pvků matice W, esp. A. Výpočetní stategie Pomocí lineání tansfomace nemůže dojít k navýšení počtu poměnných, tzn. z n naměřených veličin nemůžeme učit více než n zdojů. Poto, chceme-li odhadnout n zdojových poměnných, musíme mít k dispozici nejméně n pozoovaných veličin. Budou-li obě matice čtvecové o řádu n (lepší situace po výpočet invezní matice) a bude-li existovat pouze m < n zdojů, pak přiměřeně spávný lineání algoitmus nalezne v n pozoovaných veličinách pávě m zdojových poměnných a dalších n m bude buď nulových, nebo budou obsahovat šumovou složku. Je poto vhodné navhnout měřicí expeiment tak, aby byl počet pozoovaných veličin buď pávě oven počtu zdojů, nebo případně jen o něco málo větší. Přesto, že výpočetně příjemnější je, když jsou obě matice koeficientů čtvecové, je teoeticky možné, v případě, že je naměřených pozoovaných veličin více než zdojových, aby byly matice koeficientů obdélníkové, v případě matice A o ozměu n m, n > m. Dalším fomálním požadavkem, kteý významně zjednodušuje teoetické zdůvodnění výpočetního postupu i jeho ealizaci, je předpoklad o nulové střední hodnotě jak pozoovaných, tak i zdojových veličin. Pokud tomu tak při řešení paktických úloh není, lze teoetický nedostatek snadno napavit centováním dat. Je ovšem potřeba si opět uvědomit, že centováním data přichází o učitou infomaci, kteé se může při následném zpacování nedostávat. Vzhledem k tomu, jak je úloha zadána, nelze očekávat, že existuje pouze jedno její řešení, nýbž že bude třeba volit z nekonečně mnoha možných řešení takové, kteé nejlépe splní učité, vhodně zvolené kitéium optimality. Potože navíc neznáme ani hodnoty skytých poměnných, je třeba, abychom omezili posto možných řešení tak, že budeme alespoň předpokládat nějaké jejich učité vlastnosti, kteé usnadní nalezení řešení. Zásadním požadavkem na vlastnosti zdojů a tím i latentních veličin, kteý dal i název algoitmu, je požadavek na jejich statistickou nezávislost. To značí, že hodnota žádné z latentních veličin neposkytuje infomaci o hodnotách dalších latentních veličin. V případě vzájemné statistické nezávislosti náhodných veličin x, x,, x n platí p(x, x,, x n ) = p (x ). p (x )... p n (x n ), (3.59) kde p(x, x,, x n ) je sdužená funkce ozložení hustoty pavděpodobnosti a p i (x i ) jsou maginální funkce ozložení hustoty pavděpodobnosti. Po nezávislé náhodné veličiny s učitými pavděpodobnostními ozděleními říká centální limitní věta, že jejich součet konveguje za poměně obecných podmínek s ostoucím počtem náhodných veličin ke Gaussovu nomálnímu ozdělení bez ohledu na to, jaké je ozdělení jednotlivých náhodných veličin. Dle zadání metody nezávislých komponent jsou pozoované veličiny dány váhovaným součtem latentních poměnných. Z toho plyne, že jednotlivé pozoované veličiny x i budou mít ozdělení o něco nomálnější, než jsou ozdělení jednotlivých zdojových komponent. Na této skutečnosti je pak založena kiteiální funkce po optimalizační výpočet zdojových veličin, kteá předpokládá, že po jednotlivé zdojové veličiny podle (3.58) platí s i = w i.x. Tedy hledáme koeficienty tansfomační matice W takové, aby pavděpodobnostní ozdělení vypočítaných zdojových veličin bylo co nejméně nomální. Aby tato myšlenka byla ealizovatelná, může mít nomální ozdělení maximálně jedna skytá náhodná veličina, ostatní musí mít jiné než nomální ozdělení. V současné době již existují i jiná kitéia, jak učit nezávislé nebo alespoň co nejméně závislé zdojové veličiny, v následujícím textu se ale budeme zabývat jen tímto základním pincipem, založeným na centální limitní větě

85 Máme-li fomalizovat výpočet kiteiální funkce, musíme toto uvedené kitéium vyjádřit matematicky. Nejčastěji používané míy statistické anomality v analýze nezávislých komponent jsou: koeficient špičatosti; negativní entopie. Zabývejme se nyní jednotlivými míami. Koeficient špičatosti (angl. kutosis) je klasickou míou statistické anomality a jako kumulant 4. řádu je po náhodnou veličinu s, za předpokladu nulové střední hodnoty, definován vztahem kut(s) = E{s 4 } 3(E{s }). (3.60) Potože duhý člen na pavé staně výazu epezentuje ozptyl náhodné veličiny s, zjednodušuje se definiční výaz po data standadizovaná vůči směodatné odchylce na kut(s) = E{s 4 } 3. (3.6) To znamená, že koeficient špičatosti je v podstatě dán čtvtým momentem náhodné veličiny. Po náhodné veličiny s nomálním ozdělením je koeficient špičatosti oven nule. Po většinu negaussovských náhodných veličin (ale ne po všechny, což může být považováno za nevýhodu, potože tato ozdělení jsou algoitmem analýzy fomálně vyloučena, potože jejich chaakteistika je číselně ovna chaakteistice nomálního ozdělení) je ůzný od nuly. Může být kladný i záponý, poto se za typickou míu statistické anomality používá jeho absolutní hodnota, esp. jeho duhá mocnina. Výhodou použití koeficientu špičatosti po odhad zdojových komponent je jeho elativně jednoduchý a tím i ychlý výpočet, teoetické zázemí jeho použití je ovněž příjemně jednoduché díky jeho lineaitě. Platí totiž, že a kut(s + s ) = kut(s ) + kut(s ) (3.6) kut(α.s) = α 4.kut(s). (3.63) kde α je konstanta. Odhad skyté zdojové veličiny pak pobíhá tak, že hledáme takové koeficienty tansfomačního vektou w i, po kteé má koeficient špičatosti veličiny s = w i.x maximální hodnotu. Způsob hledání extému závisí jednak na použitém kitéiu a tím i na vlastnostech a tvau kiteiální funkce. V případě koeficientu špičatosti lze vystačit s gadientní či Newtonovou metodou. Nevýhodou použití koeficientu špičatosti je, komě již zmíněné diskiminace několika málo nenomálních ozdělení s nulovým koeficientem špičatosti, poměně malá obustnost vůči odlehlým hodnotám pozoovaných veličin. To jest, pokud měření obsahují hodnoty výazně se odlišující od běžných, potom i zdojové veličiny budou pavděpodobně odhadnuty chybně. Negativní entopie (negentopie) je paamet, vycházející z jednoho ze základních pincipů teoetické fyziky a Shannonovy teoie infomace, tj. pincipu entopie 0 a její míy. Obecně po systém S s konečným počtem možných stavů s, s,, s n a pavděpodobnostní distibucí P(s i ) je infomační entopie definována jako střední hodnota n H (S) P(s ).log P(s (3.64) i i i ) 0 Entopie (z řec. εντροπία; εν- "k" + τροπή "směem").tedy směem k

86 (fomálně po P(s i ) = 0 definujeme P(s i ).logp(s i ) = 0). Základ použitého logaitmu je zpavidla oven, v tom případě velikost entopie udáváme v bitech. Definujeme-li na intevalu p 0, funkci f(p) = -p.log p, tato funkce nabývá nulové hodnoty v kajních bodech intevalu a jednoho maxima uvnitř definičního intevalu. Po dvojkový logaitmus by se maximum vyskytovalo na p = 0,368. Z infomatického hlediska vnímáme entopii jako míu neučitosti systému. Po úzká, příp. ostá ozdělení pavděpodobnosti je entopie nízká, naopak šioká či neostá ozdělení pavděpodobnosti mají entopii vysokou. Entopie je maximální po ovnoměné ozdělení, tj. po V tom případě je H(S) P(s i ) po i. (3.65) n n i.log n n log n log n. (3.66) Minimální entopie po deteministický systém s pavděpodobnostní distibucí P(s k ) = po nějaké k a P(s k ) = 0 po i k. Tehdy je H(S) log 0. (3.67) I na základě těchto konkétních výsledků můžeme entopii intepetovat jako míu infomace, kteou poskytuje daná hodnota měřené veličiny. Čím náhodnější, tj. čím méně očekávaná, či deteminovaná je daná poměnná, tím je její entopie větší. Entopie definovaná po diskétní náhodnou poměnnou může být zobecněna po spojitý případ, kdy se ale spíše vžilo označení difeenciální entopie. Po náhodnou poměnnou s hustotou ozdělení pavděpodobnosti p(x) je difeenciální entopie učena vztahem H(s) ps ( ).log ps ( ) d nebo obecněji H(s) f[ps ( )]. d. (3.68) Kteý může být dále zobecněn i po víceozměnou poměnnou H( s) ps ( ξ).log ps ( ξ) dξ nebo obecněji H( s) f[ps ( ξ)]. dξ. (3.69) Difeenciální entopie má podobné vlastnosti jako entopie, také může být intepetována jako mía náhodnosti. Čím jsou hodnoty poměnné soustředěny v šiším intevalu a čím je jejich pavděpodobnost ovnoměnější, tím je difeenciální entopie větší. Dále platí, že entopie Gaussova nomálního ozdělení má největší hodnotu ze všech ozdělení pavděpodobnosti s týmž ozptylem. Potože hodnota difeenciální entopie po nomální ozložení není po konkétní případ předem známa, je hodnota kiteiální funkce použitá po učení optimálních hodnot tansfomační matice definována ozdílem odhadnuté negentopie nomálního ozložení J( s) H( sgauss) H( s), (3.70) kde s gauss je vekto hodnot náhodné veličiny s nomálním ozdělením a stejným ozptylem (a tím také stejnou kovaianční maticí ) jako náhodný vekto s a kde ze známé kovaianční matice odhadujeme entopii nomálního ozdělení podle vztahu n H( s gauss ) log det Σ [ log ], (3.7) kde n je ozmě vektou s gauss. Poměnnou J(s) zde nazýváme negentopií. Nastavení tansfomační matice hledáme tak, aby hodnota J(s) byla co největší. Negentopie je vždy nezápo

87 ná a je ovna nule pouze tehdy a jen tehdy, pokud má x nomální ozdělení. Dále, negentopie je invaiantní vůči změně měřítka náhodné poměnné, tj. vynásobíme-li hodnoty náhodné poměnné konstantou, její negentopie se nemění. Mezi výhody negentopie patří její jednoznačné hodnocení nomality, esp. anomality. Negentopie je ve sovnání s koeficientem šikmosti odolnější vůči odlehlým hodnotám. Na duhé staně je negentopie obtížně vyčíslitelná, potože její výpočet vyžaduje vyčíslit definiční integál podle vztahu (3.68), nebo dokonce (3.69) po ozdělení pavděpodobnosti odpovídající zpacovávaným datům. Hodnota integálu může být teoeticky učena analyticky (pokud to umíme) z funkčního vyjádření hustoty pavděpodobnosti, kteé stanovíme nějakým paametickým odhadem. Tento způsob je ale z velké části závislý na apioní infomaci o chaakteu ozložení dat, nehledě na skutečnost, že analytické výpočty nad expeimentálními daty nejsou oganizačně příliš paktické. Altenativním způsobem výpočtu integálu může být numeický odhad jeho hodnoty, založený na nepaametickém odhadu hustoty pavděpodobnosti. Ať ten, či onen způsob výpočtu hodnoty entopického integálu je zpavidla zatížen takovou chybou, kteá z konceptu negentopie dělá spíše teoetickou disciplínu, než paktický návod ke zpacování expeimentálních dat. Zmíněné poblémy poto vedou k hledání dalších způsobů, jak v daných konkétních případech pakticky ealizovat odhad negentopie. Již klasickým postupem je apoximace negentopie pomocí kumulantů vyššího řádu vztahem (s jednoozměnou náhodnou veličinou) J(s) kut(s) 48 3 E{s }, (3.7) kteý lze z definičního vztahu negentopie odvodit po data standadizovaná na směodatnou odchylku pomocí polynomiálního ozvoje hustoty pavděpodobnosti. Nicméně po symetická ozdělení je pvní člen ve výazu na pavé staně vztahu (3.7) nulový, což v důsledku znamená, že se po data tohoto typu vacíme k hodnocení anomality pomocí koeficientu špičatosti se všemi negativy i pozitivy tohoto přístupu. Případnou altenativou je zobecněná apoximace pomocí kumulantů vyššího řádu, kteá nahazuje polynomiální funkce s 3, příp. s 4 jinými funkcemi G i. Za předpokladu, že G i jsou nekvadatické a G je lichá a G sudá, je možné odvodit obecný apoximační vztah J(s) E{G (s)} k E{G (s)} E{G (υ k, (3.73) )} kde k, k > 0 jsou váhové konstanty vyjadřující vliv obou členů a υ je standadizovaná náhodná poměnná s nomálním ozdělením, příp. po jedinou nekvadatickou funkci G je J(s) E{G(s)} E{G( )}, (3.74) což je zobecněním momentové apoximace podle vztahu (3.7) za předpokladu, že náhodná poměnná má symetické ozložení. Až dosud jsme uvažovali poměně obecný tva funkcí G i. Po konkétní ealizaci je ale třeba pacovat s konkétní funkcí. Paxe ukázala, že po obustnost odhadu je užitečné pokud funkce G i nejsou příliš ychle ostoucí. Expeimentálně se pokázaly užitečné vlastnosti zejména funkcí G(s) logcosha s (3.75) a a s G (s) exp( ), (3.76) kde a, je konstanta, většinou se volí a =

88 Omezení metody V dřívějším textu jsme uvedli někteé vstupní předpoklady, za kteých lze analýzu nezávislých komponent povést (statistická nezávislost zdojových veličin, maximálně jedna náhodná zdojová veličina s nomálním ozdělením, nulová střední hodnota, ), metoda má ale někteé omezující důsledky, kteé vyplývají z teoie, kteá většinou přesahuje ámec tohoto textu, poto si je zde uveďme pouze víceméně bez důkazů. Uvádí se, že metoda nezávislých komponent neumí stanovit nezávislé komponenty v oiginálním pořadí. V podstatě to znamená, že metoda neumí fixně stanovit pořadí jednotlivých členů v definičním vztahu (3.56). To je omezení ve většině případů fomální, potože při řešení mnoha eálných úloh není pořadí poměnných důležité, ale v někteých úlohách (např. snaha o odstanění atefaktů ze signálů EEG) může působit komplikace. Metodou nezávislých komponent není obecně možné stanovit ozptyl oiginálních poměnných. To znamená, že při nulové střední hodnotě mohou být odhadnuté zdojové veličiny vůči skutečnému stavu vynásobeny libovolnou konstantou. Pokud předpokládáme jednotkový ozptyl, jsou všechny odhady standadní. Potože konstanta, kteou vynásobíme odhad zdojové veličiny, může být i záponá, znamená to, že hodnoty zdojových veličin mohou měnit i polaitu. Příklad Na ob.3.9 je ilustována situace sepaace půběhů zdojových veličin s (t) a s (t) pomocí analýzy nezávislých komponent. Půběhy známých, tzv. naměřených veličin x (t) a x (t) jsou dány lineání kombinací zdojových veličin s (t) a s (t). V dolní části obázku jsou uvedeny odhadnuté půběhy ~ s (t) a ~ s (t). Lze si všimnout, že zatímco ~ s (t) odpovídá zdojovému půběhu, funkce ~ s (t) má jednak jinou velikost, jednak i jinou polaitu. Ob.3.9 Příklad ekonstukce zdojových veličin metodou nezávislých komponent

89 4 Stuktuální metody analýzy a klasifikace dat 4. Základní pojmy a pincipy 4.. Pimitiva, elace, elační stuktua Až dosud jsme se zabývali metodami analýzy a klasifikace dat, vyjádřených pomocí příznakového vektou. V někteých případech ale nestačí pouze znalost chaakteistik elementáních vlastností klasifikovaných objektů vyjádřených hodnotami příznaků, ale je třeba znát i stuktuu objektů a vzájemné souvislosti mezi jednotlivými elementy objektů, příp. mezi jednotlivými vlastnostmi, což pomocí příznakového popisu buď vůbec není možné, nebo je zapotřebí příliš velkého množství příznaků a výpočetního úsilí. Tento případ nastává např. při zpacování obazů, ale i při analýze sekvencí DNA či při zpacování řetězců popisujících učité identifikační údaje např. jméno pacienta. V těchto situacích se ukazuje výhodnější popsat zpacovávané jevy, pocesy, objekty pomocí elační stuktuy, vytvořené z učitých elementáních popisných částí analyzovaného objektu, tzv. pimitiv a vzájemných vztahů mezi nimi tzv. elacemi. Relační stuktuy popisující analyzovaný objekt vyjadřujeme názoně pomocí gafu (ob.4.). Ob.4. Pimitiva, elace a elační stuktua čáové kesby Pimitiva mohou obecně nést dva duhy infomace. Bezpodmínečně musí obsahovat infomaci stuktuální, kteá definuje jejich chaakte a mnemotechnicky je vyjádřena jejich identifikátoem. Stuktuální infomace může být doplněna infomací sémantickou, podobněji specifikující, kvantitativně nebo i kvalitativně, dílčí vlastnosti pimitiva. Pimitivum tedy lze chaakteizovat jako dvojici = (s,x), kde s je název pimitiva, epezentující stuktuální (syntaktickou) infomaci a x = (x, x,, x k ) je sémantický vekto s n numeickými, esp. kvalitativními atibuty pimitiva. Vekto atibutů pimitiva je v podstatě totéž jako vekto příznaků, jak jsme se s ním seznámili v předcházejících kapitolách. Neobsahuje-li vekto x žádnou položku, hovoříme o pimitivu bez sémantické infomace. Učení vhodných pimitiv je pvní etapou sestavení stuktuálního modelu objektu. Obecné řešení této úlohy, podobně jako v případě volby a výběu příznaků popsaných v kap.3, neexis

90 tuje. Záleží poto na konkétních vlastnostech analyzovaných dat, aplikační oblasti a v neposlední řadě i na dostupných technických a algoitmických postředcích po detekci pimitiv v datech. Podobně elace, epezentující vztahy mezi pimitivy, lze definovat jako dvojici = (u,y), kde u je opět název elace vystihující její podstatu a y = (y, y,, y j ) je sémantický vekto atibutů elace. Podobně jako u pimitiv, je-li vekto y pázdný, hovoříme o elaci bez sémantické infomace. Relace používané v elačních stuktuách mohou být obecně k-ání, to znamená, že mohou vyjadřovat vzájemný vztah mezi k pimitivy. Ovšem každou k-ání elaci je možné převést (ekuzivní dekompozicí, konjunkcí, ) na elace binání, tj. elace vyjadřující vztah mezi dvěma pimitivy. Podle ekuzivní dekompozice lze nahadit k-ání elaci R (k > ) elacemi bináními podle předpisu R(X, X,, X k ) = R (X, R (X,, R k- (X k-,x k ) )) (4.) a pomocí konjunkce podle vztahu R(X, X,, X k ) = R (X, X ) R 3 (X, X 3 ) R k-,k (X k-,x k ). (4.) Vzhledem k této skutečnosti a dále vzhledem k možnosti příjemně a názoně epezentovat elační stuktuy pomocí bináních elací označenými gafy se v úlohách stuktuálního ozpoznávání dominantně užívá především elací bináních. Významné postavení mezi bináními elacemi má elace ostého úplného uspořádání, po kteou platí, že: () po každé dva pvky X a Y je buď X,Y R nebo Y, X R; () po žádný pvek X neplatí X,X R; (3) když po tři pvky X, Y, Z je X,Y R a současně Y,Z R, pak musí být i X,Z R. Relaci X,Y, kteá splňuje vlastnosti úplného ostého uspořádání, intepetujeme místně jako X je vlevo od Y, nebo časově X předchází Y. Relační stuktuu složenou z n pvků X, X,, X n, přičemž mezi každými dvěma pvky lze definovat pávě jen elaci ostého úplného uspořádání, nazýváme řetězec. Popis řetězcem přiozený po popis sekvenčních stuktu, např. řetězec bází DNA - se díky vytvořenému teoetickému i algoitmickému zázemí velice často používá i v těch případech, kdy tomu základní představa neodpovídá např. po ozpoznávání dvojdimenzionálních elementů v obaze. Použití obou složek infomace, stuktuální i sémantické, vede k tomu, že algoitmy po stuktuální analýzu a klasifikaci mají obecně dvě fáze zpacování, kteé mohou po sobě následovat (nejdříve stuktuální, posléze sémantická), nebo což je častější případ, se navzájem polínají. Při volbě pimitiv je třeba v zásadě vyhovět třem základním požadavkům: pimitiva musí být z hlediska řešené úlohy základními pvky stuktuy analyzovaného předmětu; zvolená pimitiva a elace musí zajistit přiměřený popis dat, tj. popis vyjadřující kompomis mezi požadavky na jednoduchost pimitiv na jedné staně a jednoduchost vyjádření klasifikačních tříd na staně duhé; je třeba, aby pimitiva i elace bylo možné nalézt ve vstupních datech co nejjednodušším způsobem. Stuktuální popis lze opoti popisu příznakovému považovat za vyšší kvalitu. Z větší složitosti, kteá je důsledkem této změny kvality, plyne, že metody volby pimitiv jsou podstatně méně fomalizovatelné, než to bylo v případě volby a výběu příznaků

91 Nejobvyklejší způsob algoitmizace volby pimitiv je použití příznakové shlukové analýzy, pomocí kteé se v datech učební množiny hledají příznakové veličiny, umožňující chaakteizovat dílčí segmenty dat jako dobře ozlišitelné shluky v použitém příznakovém obazovém postou. Takto nalezené shluky jsou pak považovány za pimitiva. Pincip tohoto přístupu je znázoněn schématem na ob.4.. V převážné většině případů se stuktuální metody ozpoznávání používají po řešení poblémů s názoným plošným či postoovým popisem, z jejichž zadání buď přímo, či po nevelkém expeimentování, vyplývá možný způsob ozkladu dat na jejich elementání části. Způsob volby popisu v takovém případě závisí na chaakteu dat, zkušenosti řešitele a úspěšnosti heuistického expeimentování. Ob.4. Výbě pimitiv shlukovou analýzou 4.. Blokové schéma stuktuálního zpacování dat Blokové schéma stuktuálního zpacování dat bez využití sémantické infomace je na ob.4.3. V pincipu schéma zůstává stejné jak jsme se sním seznámili v kap..3, jen náplň jednotlivých bloků se přizpůsobila potřebám stuktuálního zpacování. Pvní blok v učební fázi epezentuje volbu a výbě pimitiv a elací vhodných po popis daného typu objektu. Výbě pimitiv je pimání, elace jsou po danou úlohu učeny zvolenými pimitivy. Klasifikační třída je v případě stuktuálního klasifikátou dána množinou všech elačních stuktu požadovaných vlastností, případně s jejich povoleným chybovým okolím. Potože tato množina může být poměně ozsáhlá, byly vytvořeny postředky po kompaktní matematický popis stuktuální klasifikační třídy gamatiky a automaty. Návh (infeence) gamatik, esp. automatů na základě elačních stuktu učební množiny je náplní duhého bloku učební fáze. V oblasti zpacování, v bloku předzpacování zůstávají cíle činnosti tytéž jako v případě příznakových klasifikátoů odstanění paazitních složek, zdůaznění užitečné komponenty dat, edukce edundantních složek infomace,, atd. Blok stuktuálního popisu signálů vytváří na základě zvolených pimitiv a elací stuktuální obaz objektu, tj. elační stuktuu. Klasifikáto pak ozhodne o zařazení elační stuktuy. Ob.4.3 Blokové schéma stuktuálního klasifikátou bez sémantické infomace - 9 -

92 Ob.4.4 Hieachická elační stuktua kesby z ob.4. Při stuktuální klasifikaci je často výhodné, když elační stuktua neobsahuje pouze pimitiva spojená patřičnými elacemi (vše na jedné hieachické úovni), nýbž když elační stuktua vyjadřuje i hieachii skladby objektu vyznačením dílčích částí elační stuktuy jako mezistupňů mezi pimitivy, coby epezentanty elementů objektu a celou elační stuktuou (ob.4.4). Podobně jako pimitiva a elace, i zmíněné dílčí části stuktuy mohou být popsány vektoem atibutů, kteé lze dílem vypočítat z atibutů pimitiv, elací a dílčích stuktu, učených na nižší hieachické úovni, dílem musí být učeny z eálného objektu. Pokud by byl půmě atibutem pimitiv (K), ze kteých je, komě jiného, obaz medvěda složen, můžeme spočítat velikost duhovky oka, ovšem její bavu, v případě baevné kesby, by bylo třeba zjistit z oiginálu. Po zavedení hieachické elační stuktuy se sémantickou infomací můžeme přikočit k popisu blokového schématu stuktuálně sémantické (kombinované) analýzy a klasifikace objektů (ob.4.5). V učební fázi je činnost obou bloků spojením činnosti odpovídajících bloků stuktuálního i příznakového přístupu. Ve fázi zpacování zůstává i nadále táž činnost bloku předzpacování, ke změnám ale dochází v dalších fázích zpacování. V bloku popisu signálu se nejpve vytvoří nehieachická elační stuktua, včetně vektoů Ob.4.5 Blokové schéma atibutového stuktuálního klasifikátou - 9 -

93 Ob.4.6 Čáové kesby se stejnou elační stuktuou bez sémantické infomace atibutů pimitiv i elací, kteá se podobí v následujícím bloku stuktuální klasifikaci. Stuktuální klasifikace může být řízena infomací o hieachii elační stuktuy. Pokud se během klasifikace vyskytne potřeba manipulovat i s někteými dílčími stuktuami, učují se vektoy jejich atibutů buď výpočty z atibutů již dříve stanovených, nebo opět v bloku popisu signálu z oiginálních dat. Po skončení stuktuální klasifikace je výsledek dále upřesněn v bloku sémantické klasifikace. Sémantický klasifikáto může při vhodné volbě atibutů přispět např. k ozlišení tří keseb podle ob.4.6, jejichž posté elační stuktuy bez sémantické infomace jsou stejné. Použití sémantické infomace má ledajaké další paktické výhody. Zavedením sémantického vektou lze snížit počet pimitiv, esp. elací, potřebných k popisu klasifikovaného objektu, pokud lze vyjádřit ozdíly mezi nimi i pomocí sémantických atibutů. Snížení počtu použitých typů pimitiv a elací vede zpavidla ke zjednodušení vytvářených elačních stuktu a tím se sníží i výpočetní pacnost stuktuální klasifikace. Sémantické infomace lze použít i k řízení stuktuálního klasifikátou, nebo naopak stuktuální analýzy po řízení příznakové klasifikace dílčích segmentů celkové elační stuktuy. Na základě sémantické infomace lze také ozšířit možnosti analýzy šumových složek ve stuktuálním popisu dat. Na duhé staně, zavedením sémantické infomace v případech, kdy není nutná (tato nutnost samozřejmě nemusí být na pvní pohled zřejmá), se zvyšuje složitost algoitmů zpacování, zvyšuje se výpočetní pacnost a tak i doba zpacování. 4. Popis klasifikační třídy 4.. Poznámky na úvod Stuktuální etalon klasifikační třídy je epezentován množinou elačních stuktu, popisujících všechny objekty patřící do této třídy. V případě většího počtu těchto elačních stuktu je efektivnější k epezentaci třídy využít, podle účelu epezentace, buď geneáto, kteý na základě stanovených pavidel vytváří elační stuktuy, patřící pávě jen do stanovené klasifikační třídy, nebo přijímač, kteý je na podobných pincipech schopen přijmout pávě jen elační stuktuy dané klasifikační třídy (ob.4.7)

94 Mnohé postředky a postupy používané v oblasti stuktuálního ozpoznávání jsou inspiovány nástoji a algoitmy vytvořenými v oblasti teoie fomálních jazyků. Podle teminologie této teoie ozumíme fomálním jazykem množinu slov (řetězců) učitých specifikovaných vlastností, přičemž slovem fomálního jazyka, vytvořeným nad danou abecedou (nepázdnou množinou pvků nazývaných symboly abecedy), ozumíme obecně každou konečnou posloupnost symbolů abecedy. Poovnáme-li uvedenou definici Ob.4.7 Stuktuální etalon klasifikační třídy fomálního jazyka a definici stuktuální klasifikační třídy, zjistíme, že pojem stuktuální klasifikační třídy je obecnější jen co do větší obecnosti pvků, nad kteými je klasifikační třída vytvořena. Pokud bychom se omezili jen na páci s řetězcovými elačními stuktuami, pak jsou oba pojmy ekvivalentní a z toho plyne, že vše, co bylo v poblematice fomálních jazyků vytvořeno, lze použít i po potřeby stuktuálního ozpoznávání V souladu s teminologií teoie fomálních jazyků nazýváme geneáto elačních stuktu z dané klasifikační třídy gamatika a přijímač elačních stuktu automat. 4.. Gamatiky Definice gamatiky Gamatika G je čtveřice G = (V n, V t, P, S), kde V n a V t jsou konečné disjunktní abecedy, přičemž pvky V n se nazývají neteminální (pomocné) symboly a pvky V t teminální symboly, S V t je tzv. axiom gamatiky nebo také počáteční symbol a P je množina substitučních pavidel tvau, kteé definují způsob náhady dílčí elační stuktuy novou elační stuktuou. Množinu všech elačních stuktu geneovaných danou gamatikou nazýváme jazykem L(G) dané gamatiky. Jazyk je tedy jednou z veličin, kteé gamatiku chaakteizují. Gamatiky, kteé geneují týž jazyk, se nazývají ekvivalentní. Gamatiky můžeme dělit podle následujících kitéií: podle typu geneovaných stuktu na jednoozměné (řetězcové) a víceozměné; podle tvau substitučních pavidel se řetězcové gamatiky dělí dle Chomského metodiky na obecné, kontextové, bezkontextové a egulání; podle řízení geneování řetězců můžeme řetězcové gamatiky ozdělit na standadní, pogamované, indexové, podmínkové, atd.; podle způsobu užívání substitučních pavidel na deteministické a nedeteministické (posté, pavděpodobnostní, fuzzy). Podle typu může být obecná definice gamatiky, jak je uvedena výše, ještě doplněna někteými dalšími pomocnými stuktuami. Blízkost obou poblematik vede i k častému používání názvu syntaktické, esp. lingvistické metody ozpoznávání. Ovšem, jak plyne ze sovnání obou definic, název stuktuální metody vyjadřuje obecnější náhled na danou poblematiku, poto mu dáváme v tomto textu přednost

95 Jednoozměné (řetězcové) gamatiky Jádem řetězcové gamatiky jsou substituční pavidla ve tvau W W, učující možnou substituci řetězce W na místo řetězce W, kteý představuje část geneovaného řetězce a obsahuje alespoň jeden neteminální symbol. Příklad Řetězcová gamatika je např. G = ({A, B}, {0, }, P, A), kde množina substitučních pavidel je učena následujícím způsobem P = (A 0B, 0B 00B, B e ) Příklad Mějme gamatiku G = ({S, A}, {0, }, P, A) s pavidly P: S 0A; A 0A A. 3 Jazyk gamatiky G obsahuje slova L(G) = {X X V t * 4 a X začíná 0 a končí }. Chomského kategoie řetězcových gamatik Podle tvau substitučních pavidel se podle Chomského dělí řetězcové gamatiky na čtyři základní typy (od nejsložitějších k nejjednodušším): obecné, kontextové, bezkontextové a egulání. Gamatika typu 0 (obecná gamatika) nepožaduje žádná omezení tvau substitučních pavidel. Příklad Obecná gamatika může mít tva G = ({A, B}, {0, }, P, A) s pavidly P: A AB 0; AB 0B BAB; B e. Gamatika typu (kontextová nebo senzitivní gamatika) obsahuje substituční pavidla tvau W AW W UW, W, W, U (V t V n )*, U e, A V n (4.3) a může obsahovat pavidlo S e. To znamená, že neteminální symbol A může být nahazen řetězcem U pouze tehdy, sousedí-li zpava s řetězcem W a zleva s řetězcem W. Gamatika tohoto typu neobsahuje pavidla typu W AW W W, není tedy povoleno, aby byl teminál nahazen pázdným řetězcem. Jedinou výjimkou je pavidlo S e, kteé umožňuje popsat příslušnost pázdného řetězce k jazyku geneovanému kontextovou gamatikou. Díky těmto pavidlům nemůže dojít při geneování řetězce gamatikou typu k jeho zkácení. Příklad Příklad senzitivní gamatiky - G = ({A, S}, {0,, }, P, S) s pavidly P: S 0A; 0A 00A (W = 0, W = e, U = 0A); A. Gamatika typu (bezkontextová gamatika) obsahuje substituční pavidla tvau A U, U (V t V n )*, U e, A V n (4.4) a může obsahovat pavidlo S e. To znamená, že neteminální symbol A lze nahadit slovem U nezávisle na jeho okolí (kontextu). Symbolem e značíme pázdný řetězec. 3 Tento způsob zápisu vyjadřuje tři pavidla A 0A, A A, A se stejnou levou stanou. 4 Zápisem V * budeme ozumět množinu všech možných řetězců vytvořených ze symbolů abecedy V, včetně řetězce pázdného

96 Příklad Příklad bezkontextové gamatiky - G = ({S}, {0,, }, P, S) s pavidly P: S 0S. Gamatika typu 3 (egulání gamatika) obsahuje substituční pavidla tvau A xb, nebo A x; x V t ; A, B V n (4.5) a může dále obsahovat pavidlo S e. Někdy se jako gamatika typu 3 definuje tzv. zpava lineání gamatika (jediný neteminál na pavé staně pavidla stojí úplně napavo), kteá obsahuje pavidla tvau A xb, nebo A e ; x V t ; A, B V n. (4.6) Dá se dokázat, že gamatiky podle vztahů (4.5) a (4.6) jsou ekvivalentní. Příklad Příklad egulání gamatiky - G = ({A, B}, {0,, }, P, A) s pavidly P: A 0B B; B B e. Pavidla gamatik podle Chomského kategoizace jsou definována tak, že všechny egulání jazyky jsou ovněž bezkontextové, všechny bezkontextové jsou současně i kontextové a kontextové jsou podmnožinou obecných jazyků. Obecné a kontextové gamatiky poskytují vhodnou základnu po teoii fomálních jazyků, po paktické aplikace jsou důležité především gamatiky (jazyky) egulání a bezkontextové. Deteministické a nedeteministické gamatiky Gamatiky, kteé obsahují pavidla vždy s ůznou levou stanou, nazýváme deteministické, naopak gamatiky s více substitučními pavidly s toutéž levou stanou nazýváme nedeteministické. Větší paktický význam mají gamatiky nedeteministické, potože gamatiky jsou schopny vypodukovat pouze jedinou elační stuktuu. Při geneování stuktu nedeteministickou gamatikou lze obecně vybat libovolné z možných substitučních pavidel. Není-li tento výbě specifikován, hovoříme o postých nedeteministických gamatikách, kteé geneují elační stuktuy, aniž by někteé stuktuy pefeovaly před jinými. Nicméně infomace o způsobu použití (např. jak často se má učitého substitučního pavidla používat) může geneování elačních stuktu zkvalitnit, potože na jejím základě můžeme např. zjistit, jak často se vytvořená elační stuktua vyskytuje v množině stuktu geneovaných použitou gamatikou, což může být výhodné pávě z hlediska klasifikačních úloh, kteé mají často pavděpodobnostní chaakte. Přidáme-li k substitučním pavidlům váhy, vyjadřující pavděpodobnost užití pavidel, dostaneme tzv. stochastické gamatiky. Přitom tyto váhy musí být učeny tak, aby součet pavděpodobností substitučních pavidel s toutéž levou stanou byl oven jedné. Skutečnost, že se substituční pavidlo W W vyskytuje s pavděpodobností P, značíme W P W. (4.7) Říkáme, že slovo Y je bezpostředně odvozeno ze slova X s pavděpodobností P a značíme X P P Y, když X Y použitím jednoho substitučního pavidla W W. Říkáme, že slovo Y je odvozeno ze slova X s pavděpodobností P = P. P.. P k a značíme X P Y, P P P k X U,U U... U,U Y. (4.8) 0 0 Říkáme, že slovo je geneováno gamatikou G s pavděpodobností výskytu k k

97 když S PG n G (X) Pi, i P (4.9) X, X V t *. S ohledem na klasifikační úlohy je vhodné, aby G XL ( G) P (X). (4.0) Gamatika splňující tento požadavek se nazývá konzistentní. Příklad Mějme stochastickou gamatiku se substitučními pavidly P s : S 0,3 A, B 0, 0,7 0,8 0, B S, A 0B, A. Slovem geneovaným touto gamatikou může být např. 0,8 0,3 SA 0B00 s pavděpodobností P(00) =.0,8.0,3 = 0,4. Jazyk L(G) geneovaný touto gamatikou: geneované slovo X pavděpodobnost P(X) 0, 00 0,4 (0) n 0,.(0,56) n (0) n 00 0,.(0,56) n Dále XL ( G) P(X) 0, 0,4 n (0, 0,4).0,56 A tedy zadaná gamatika je konzistentní. Podle tvau substitučních pavidel se řetězcové stochastické gamatiky ovněž dělí na obecné, kontextové, bezkontextové a egulání. Stochastické mohou být samozřejmě i jakékoliv jiné, např. víceozměné. Není-li součet pavděpodobností substitučních pavidel s toutéž levou stanou oven jedné, tj. platí n. A B, 0; a A,B{ V V }*, (4.) kde je tzv. stupeň příslušnosti řetězce B řetězci A. Takovou gamatikou nazýváme fuzzy gamatikou Automaty Relační stuktuy dané klasifikační třídy můžeme vyjádřit komě pouhého výčtu a gamatikou i pomocí automatu. Zatímco gamatika jako geneáto elačních stuktu má význam především po popis vlastností stuktu klasifikační třídy, po potřeby vlastní klasifikace, tj. stanovení příslušnosti elační stuktuy k učité klasifikační třídě, má ozhodující postavení automat. Typ automatu záleží na typu elační stuktuy. Existují stomové automaty, automaty polí, atp., největšího ozšíření však dosáhly automaty po řetězcové elační stuktuy, opět díky úzkým vzájemným souvislostem mezi teoií fomálních jazyků a teoií stuktuálního ozpoznávání, ale především díky jejich poměné jednoduchosti. Každému typu řetězcových gamatik podle Chomského kategoizace náleží jiný typ automatu k egulání gamatice existuje ekvivalent konečný automat, po bezkontextovou gamatiku zásobníkový automat, po kontextovou gamatiku lineáně ohaničený automat a po n t

98 obecné gamatiky je ekvivalentem tzv. Tuingův stoj. Paktické využití však dosud nalezly především konečné, příp. i zásobníkové automaty. Potože naším cílem je především poozumění pincipům návhu a použití automatů, budeme se zabývat pouze nejjednodušší třídou automatů, tj. konečnými automaty. Konečný stavový automat A je pětice A = (X, S, s 0, S c, δ), kde X = {x i } je konečná vstupní abeceda, S = {s m } je nepázdná konečná množina vnitřních stavů, s 0 S je počáteční stav automatu, S c S je nepázdná množina cílových stavů automatu a δ: X S D(S) je přechodová funkce, kde D(S) je množina podmnožin S. Automat pacuje v diskétních kocích k =,, a v každém koku setvává po učitou dobu (takt) t k v někteém ze svých vnitřních stavů s k. Po příchodu vstupního symbolu x k se stav po příští takt změní na s k+ = δ(s k, x k ). (4.) Je-li toto přiřazení jednoznačné, tj. existuje-li po každý vnitřní stav automatu s m a vstupní symbol x i pouze jediný možný nový vnitřní stav, pak takový automat nazýváme deteministický. V tom případě platí, že D(S) = S. Může-li automat přejít ze stavu s m vlivem vstupu x i do více možných stavů, pak je automat nedeteministický. Přivedeme-li na vstup automatu řetězec X = x x x k, přejde automat z počátečního stavu s 0 do stavu s k. Jazyk epezentovaný konečným automatem A tvoří všechny řetězce X, jejichž vlivem přejde automat A z počátečního stavu s 0 do konečného stavu s k S c. Gamatika G a automat A jsou ekvivalentní, když L(G) = L(A). Platí, že ke každé egulání gamatice G = (Vn, V t, P, S) existuje konečný automat A = (X, S, s 0, S c, δ), kteý je s ní ekvivalentní. Konečný stavový automat A, ekvivalentní gamatice G, se konstuuje podle následujících pavidel: ) X = V t ; ) S = V n {s c }, když s c V n ; 3) s 0 = S; 4) S c = {s c } {U U V n takové, že existuje pavidlo U e }; 5) a) obsahuje-li gamatika pavidla tvau C xb nebo C x, příp. S e, x V t ; B, C, S V n, pak - je-li (C xb) P, pak B = (C,x); - je-li (C x) P, pak s c = (C,x); - je-li (S e ) P, pak s 0 S c ; b) obsahuje-li gamatika pavidla tvau C xb nebo C e, x V t ; B, C V n, pak - je-li (C xb) P, pak B = (C,x); - je-li (C e ) P, pak c S c. Podobně platí i obáceně, že ke každému konečnému automatu A existuje ekvivalentní egulání gamatika G, vytvořená podle následujícího postupu: ) V t = X; ) V n = S - {stavy, ze kteých nevychází ani jeden přechod}; 3) S = s 0 ; 4) množina substitučních pavidel P je tvořena pavidly: - je-li s = (s,x) a {p p (s,x) po x X } {0}, pak (s xs ) P ;

99 - je-li s = (s,x) a s S c, pak (s x) P ; - je-li s 0 S c, pak (S e ) P. Poznámka: podmínku {p p (s,x) po x X } {0} nemusí splňovat všechny koncové stavy. Příklad Mějme gamatiku G = ({A, B}, {0,, }, P, A) s pavidly P: A 00B B; B B e. Sestavte automat, kteý přijímá pávě slova geneovaná gamatikou G. Gamatiku G je nejdříve třeba přepsat do tvau, kdy je vlevo od neteminálu vždy pouze jeden teminální symbol, tj. P : A 0C D; C 0B; D B; B B e. Vstupní abeceda je učena abecedou teminálních symbolů, tedy X = {0,, }. Abeceda vnitřních stavů automatu je dána abecedou neteminálů, příp. doplněna množinou cílových stavů, učených dalším výpočtem. Počáteční stav automatu je dán počátečním symbolem gamatiky, tj. s 0 = A. Ze substitučních pavidel vyplývají následující přechody funkce : (A 0C) C = (A, 0); (A D) D = (A, ); (C 0B) B = (C, 0); (D B) B = (D, ); (B B) B = (B, ); (B e ) B S c. Přechodová funkce automatu je tedy dána tabulkou A B. C D 0 C - B - - B - - D - - B Cílovým stavem je pouze stav B, poto automat nemá jiné vnitřní stavy než dané neteminální abecedou. Příklad Konečný automat je zadán oientovaným gafem (ob.4.8) s počátečním stavem 0 a s jedním koncovým stavem 3. Učete egulání gamatiku ekvivalentní tomuto automatu, tj. geneující stejný fomální jazyk, jaký automat přijímá. Abeceda teminálních symbolů je dána vstupní abecedou automatu, tj. V t = {a, b}. Abeceda neteminálů je dána množinou vnitřních stavů automatu V n = {0,,, 3} a axiom gamatiky učuje počáteční Ob.4.8 Zadaný konečný stavový automat stav automatu S =

100 Zbývá učit množinu substitučních pavidel gamatiky. Tabulka přechodové funkce zadaného automatu je 0 3. a b 3 Po všechny přechody definované přechodovou funkcí automatu platí je-li s =(s, x), pak (sxs ) P (ze všech stavů vychází alespoň jeden přechod). Na základě tohoto pavidla učíme pvní část substitučních pavidel: = (0, a) 0 a; = (0, b) 0 b; 0 = (, a) a0; = (, b) b; 3 = (, a) a3; 3 = (, b) b3; 3 = (3, a) 3 a3; = (3, b) 3 b. Další substituční pavidla vyplývají z následujícího přikázání je-li s = (s, x) a přitom je s S c, pak (s x) P. V našem případě je koncovým stavem stav 3, uvedené pavidlo tedy platí po všechny přechody končící ve stavu 3, tj. 3 = (, a) a; 3 = (, b) b; 3 = (3, a) 3 a. Po přepisu jsou substituční pavidla vytvořené gamatiky 0 a b; a0 b; a3 b3 b3 a b; 3 a3 b a. Klasifikace do více klasifikačních tříd Automatový klasifikáto skládající se z R konečných stavových automatů, tj. klasifikáto třídící vstupy do R+ tříd (poslední třída zahnuje řetězce, kteé neakceptuje žádný z použitých automatů) nechá nejdřív pojít vstupní řetězec pvním automatem. Jestliže patří do jazyka epezentovaného tímto automatem, pak vstupní řetězec zařadí do pvní třídy a klasifikáto ukončí svou činnost. V případě, že pvní automat vstupní řetězec nepřijal, vloží se na vstup duhého automatu, atd., dokud není řetězec zatříděn nebo nepojde všemi automaty klasifikátou. Zobecněním konečného stavového automatu je Mooův konečný automat. Použití Mooova automatu zefektivňuje klasifikační poces, potože s jeho pomocí lze vstupní řetězec zatřídit do odpovídající klasifikační třídy již během jednoho půchodu automatem a nikoliv, jako v předešlém případě, po nejhůře R půchodech. Mooův konečný automat M je šestice M = (X, Y, S, s 0,, ), kde X = {x i } je konečná vstupní abeceda, Y = {y i } je konečná výstupní abeceda, S = {s m } je nepázdná konečná množina vnitřních stavů, s 0 S je počáteční stav automatu, :S Y je výstupní funkce a δ: X S D(S) je přechodová funkce, kde D(S) je množina podmnožin S. (Je-li D(S) S, pak automat M nazýváme deteministický.) Nechť A = (X, S, s 0, S c, ), =,, R jsou konečné stavové automaty takové, že automat A přijímá slova jazyka L, představujícího klasifikační třídu. Nechť přitom platí, že

101 R S {}, (4.3) c tj. že jazyky všech klasifikačních tříd jsou disjunktní. Pak lze sestavit Mooův automat M = (X, Y, S, s 0,, ) ekvivalentní klasifikátou složenému z automatů A, kteý ale klasifikuje pouze jedním půchodem vstupního slova automatem. Mooův automat se vytváří podle následujících pavidel: ) vstupní abeceda R X X ; ) počáteční stavy s 0 všech automatů A ztotožníme a tento ztotožněný stav považujeme za počáteční stav automatu M; 3) přechodovou funkci automatu M sestojíme z dílčích přechodových funkcí opakovaným použitím následujícího pavidla, dokud nejsou zahnuty všechny přechody původních automatů A : - ztotožníme ty přechody, kteé vystupují ze ztotožněných stavů automatu A a přísluší stejným symbolům vstupní abecedy X. Stavy, do kteých vedou ztotožněné přechody, opět ztotožníme. Ostatní přechody a stavy automatů A zachovávají původní topologii. 4) množinu vnitřních stavů S automatu M tvoří nové ztotožněné stavy a stavy původních automatů A, kteé nelze ztotožnit; 5) výstupní abecedu Y tvoří identifikátoy klasifikačních tříd, =,, R, spolu s identifikátoem N, kteý označuje třídu řetězců, kteé nepatří do žádné klasifikační třídy, tj. Y = { =,, R} { N }; 6) výstupní funkce automatu M přiřazuje hodnotu, =,, R, esp. N tomu stavu automatu M, kteý odpovídá koncovému stavu automatu s c, esp. stavu, kteému neodpovídá žádný koncový stav automatů A. Příklad Mějme zadány konečné automaty A = ({a,b}, {,,3},, {3}, ), A = ({a,b}, {4,5,6}, 4, {6}, ) a A 3 = ({a,b}, {7,8,9}, 7, {9}, 3 ), jejichž přenosové funkce jsou zadané tabulkami 3. a - - b a b Ob.4.9 Konečné automaty podle zadání a b Zadané automaty lze znázonit pomocí oientovaných gafů na ob Tyto automaty přijímají fomální jazyky: L(A ) = {X X = ab{b}*} 5 L(A ) = {X X = ba{a}*} L(A 3 ) = {X X = bb{ab}*}. Sestavte Mooův automat, kteý klasifikuje vstupní řetězce stejně jako klasifikáto složený z automatů A, A a A 3. Výsledný Mooův automat M bu- 5 Hvězdička (*) v tomto případě znamená opakování výazu v předcházejících složených závokách

102 de mít vstupní abecedu stejnou jako zadané automaty, potože X = {a,b} {a,b} {a,b} = {a,b}. Počáteční stavy automatů A, A a A 3 ztotožníme do počátečního stavu automatu M, tj. s Přechodová funkce automatu M je pak popsána tabulkou,4,7 5, a b 5, Po přepsání označení vnitřních stavů automatu podle pavidel: (,4,7),, (5,8) 3, 3 4, 6 5, 9 6 je přechodová funkce a b Konečně, výstupní funkce automatu M je N N N 3 potože stavy 4, 5 esp. 6 automatu M odpovídají koncovým stavům automatů A 3, 6, esp. 9, zatímco stavy,, 3 automatu M představují stavy,, 4, 5, 7 a 8, kteé v zadaných automatech nejsou koncové. Výsledný Mooův automat je možné znázonit pomocí oientovaného gafu na ob Stuktuální klasifikace Ob.4.0 Výsledný Mooův automat 4.3. Základní pincipy Algoitmy stuktuální klasifikace, tj. přiřazení identifikátou klasifikační třídy zpacovávané elační stuktuře, záleží na tom, zda etalony klasifikačních tříd espektují možnost ovlivnění klasifikované elační stuktuy šumovými defomacemi či nikoliv. Pokud se šumové defomace vůbec nepřipouští či zda možné defomace zahnují již elační stuktuy etalonu, pak klasifikaci elační stuktuy povádíme ztotožněním s etalonem. Když etalon epezentuje jen ideální nedefomované elační stuktuy a připustíme-li současně, že klasifikovaná elační stuktua může být pouchami zdefomovaná, pak by snaha o pouhé ztotožnění s etalonem někteé klasifikační třídy mohla způsobit, že by elační stuktua nemusela být vůbec klasifikovatelná, potože by nemusela odpovídat etalonu žádné klasifikační třídy. V tom případě je třeba využít pavděpodobnostně definovaných etalonů gamatik či automatů nebo lépe pincipů klasifikace podle minimální vzdálenosti

103 4.3. Klasifikace nedefomovaných stuktu Nejjednodušší jsou algoitmy klasifikace, kdy lze analyzovaná data popsat eguláním řetězcem. V tom případě může ozhodnout konečný automat, na jehož vstup vytvořený řetězec přivedeme. V případě všech složitějších stuktu je klasifikace složitější. Po tyto stuktuy již není konstatování o ekvivalenci gamatik a automatů příliš užitečné, potože činnost odpovídajících automatů již není tak přímočaá jako činnost konečných automatů, nýbž při klasifikaci dochází k vytváření ůzných slepých cest a k návazným návatům na nižší úovně ozhodování, poto se klasifikace povádí pomocí algoitmů, kteé činnost automatů pouze simulují Klasifikace defomovaných stuktu Při řešení mnoha paktických klasifikačních úloh bývá elační stuktua popisující klasifikovaný objekt či jev ovlivněna působením ůzných pouch. Relační stuktuy se sémantickou infomací mohou být defomovány podle schématu na ob.4.: a) stuktuálně u elační stuktuy je odstaněna či naopak vložena dílčí substuktua (např. u řetězců odstanění, příp. vložení jednotlivých teminálních symbolů, nebo celých jejich skupin), příp. elace stuktuy je zaměněna za jinou s odlišnou aitou; b) způsobem zachovávajícím elační gaf ba. defomací lokální dochází k chybnému přiřazení jména pimitiva k elaci, esp. ke změně hodnot atibutů pimitiva; bb. defomací elační je způsobena použitím chybné elace při zachování aity, esp. změnou hodnot atibutů elace (elační defomaci často dopovází defomace lokální). Po řetězec bez sémantické infomace, tj. elační stuktuy s jediným typem elace, se defomační schéma edukuje do tvau podle ob.4. zůstává pouze možnost stuktuální a lokální defomace. Ob.4. Obecné stuktuální defomační schéma Ob.4. Defomační schéma po řetězce bez sémantické infomace

104 Po každou eálnou klasifikační úlohu je třeba předem učit typy přípustných defomací (dané defomačními substitučními pavidly) a klasifikační páh, kteý udává maximální přípustnou míu vzdálenosti (podobnosti), do kteé lze elační stuktuu považovat za defomovaný etalon klasifikační třídy. Stuktuální vzdálenost V případě řetězců lze defomační vlivy vyjádřit (na úovni pimitiv) tojicí tzv. elementáních defomačních tansfomací eliminace, substituce a inzece, kteé jsou definovány: a) eliminační defomační tansfomace b) substituční defomační tansfomace c) inzeční defomační tansfomace T T S E T : I : : w (a) E a ; (4.4) w (a,b) E a b ; (4.5) w (b) E b, (4.6) kde a, b jsou libovolné teminální symboly, epezentující pimitiva řetězců, a jsou libovolné konečné řetězce teminálních symbolů (mohou být i pázdné) a w E (a), w S (a,b) a w I (b) jsou váhové koeficienty příslušné eliminační, substituční, esp. inzeční tansfomace. Vzdálenost dvou libovolných konečných řetězců X a Y teminálních symbolů je možné učit na základě tzv. váhované Levenštejnovy metiky, definované následujícím předpisem: Je-li P = (T, T,, T n ), n 0, T i (T E, T S, T I ) posloupnost elementáních defomačních tansfomací taková, že po libovolná konečná slova X, Y nad abecedou V te = V t e je Y = P(X), pak váhovaná Levenštejnova metika je definována vztahem d WL(X, Y) min w E (a) w S (a, b) w I (b). (4.7) P a a,b b TE (a) P TS (a,b) P TI (b) P Aby byly splněny všechny tři základní axiomy metik (axiom totožnosti, symetičnosti a tojúhelníková neovnost) je třeba, aby platilo w I (a) = w E (a) a w S (a,b) = w S (b,a) po všechny teminální symboly a, b. Váhovaná Levenštejnova metika splňující tyto požadavky je pavá metika. Z váhované Levenštejnovy metiky se dají vhodnou volbou koeficientů, příp. zavedením podmínky stejné délky obou řetězců, odvodit další speciální metiky, ovněž užívané po stanovení stuktuální vzdálenosti dvou řetězců Levenštejnova metika, váhovaná i postá Hammingova metika. Postá (neváhovaná) Levenštejnova metika je ovněž podle vztahu (4.7), pouze hodnoty váhových koeficientů jsou ovny w E (a) = w S (a,b) = w I (b) = po a b a w S (a,a) = 0 po všechna a, b V t. To znamená, že se definiční vztah zedukuje do tvau d (X,Y) min E S I, (4.8) L P P kde E P, S P a I P je počet eliminačních, substitučních a inzečních elementáních tansfomací potřebných k převedení řetězce X na řetězec Y. P P

105 Ob.4.3 Pincip výpočtu váhované Levenštejnovy vzdálenosti Hammingova vzdálenost je opět odvozena ze vztahu (4.0) za předpokladu, že oba řetězce jsou stejně dlouhé a w E (a) = w I (a) = a w S (a,a) = 0 po a V t a w S (a,b) je jistá hodnota v případě váhované Hammingovy vzdálenosti a w S (a,b) = v případě posté (neváhované) Hammingovy vzdálenosti (a, b V t, a b). Definiční vztah po výpočet váhované Levenštejnovy vzdálenosti lze vyjádřit pomocí ohodnoceného oientovaného gafu (ob.4.3), jehož hany epezentují elementání defomační tansfomace (hoizontální inzeci, vetikální eliminaci a úhlopříčné substituci) a uzly představují stavy přeměny tansfomovaného řetězce X na řetězec Y (počáteční uzel N 00 původní řetězec X a uzel N nm konečný stav po úplné tansfomaci, tj. řetězec Y). Každá cesta z uzlu N 00 do uzlu N nm odpovídá nějaké posloupnosti P tansfomací potřebných k převodu řetězce X na Y. Úkolem je tedy najít cestu mezi uzly N 00 a N nm s minimální vahou což je standadní úloha teoie gafů. Podobné metiky jako váhovaná Levenštejnova metika po řetězce byly definovány i po složitější elační stuktuy, jako jsou např. pole nebo stomové elační stuktuy. V případě pavděpodobnostního defomačního modelu lze podobnost dvou elačních stuktu učit (za předpokladu nezávislosti jednotlivých defomačních pavidel) jako součin pavděpodobností použití příslušných defomačních pavidel. Vlastní klasifikace defomovaných elačních stuktu Klasifikační pocedua záleží na způsobu vyjádření etalonu klasifikační třídy. Pokud je klasifikační třída vyjádřena výčtem etalonů, pak lze klasifikaci povést jednoduše podle kitéia nejmenší vzdálenosti nebo na základě posouzení, zda klasifikovaný obaz patří do povoleného chybového okolí etalonových elačních stuktu, definovaného opět na základě stuktuální vzdálenosti. To znamená spočítat vzdálenosti zadané elační stuktuy ode všech etalonů a vybat třídu, jejíž etalon je od klasifikovaného obazu nejméně vzdálen, esp. tato vzdálenost je menší než předepsaná povolená mez

106 Je-li klasifikační třída popsána gamatikou, příp. automatem, pak oba uvedené pincipy klasifikace (klasifikace podle minimální vzdálenosti, esp. povoleného chybového okolí) zůstávají zachovány, jen ealizace klasifikačního algoitmu bude poněkud složitější. Uvažujme opět případ nejjednodušších, tj. eguláních řetězcových elačních stuktu. V tom případě je vzdálenost mezi dvěma řetězci, jak bylo dříve uvedeno, definována pomocí tří elementáních defomačních tansfomací eliminace, substituce a inzece teminálního symbolu. Je-li G =(V n, V t, P, S) gamatika popisující klasifikační třídu, pak možný vliv defomačních tansfomací vyjádříme ozšířením množiny substitučních pavidel P přidáním pavidel epezentujících všechny možné chybové tansfomace teminálních symbolů. Nově přidaná pavidla jsou opatřena nenulovými vahami, vyplývajícími z vah defomačních tansfomací. O původních pavidlech gamatiky předpokládáme, že mají váhu nulovou. Vzdálenost řetězce od etalonu klasifikační třídy je učena minimálním součtem vah substitučních pavidel potřebných po vygeneování zadaného řetězce podle pavidel ozšířené gamatiky. Podobná situace je s automaty esp. konkétně konečnými automaty. Tabulku přechodové funkce ozšíříme o přechody vyplývající z chybových tansfomací. Těmto přechodům, opět na ozdíl od původních, přisoudíme nenulové váhy podle vah chybových tansfomací. Vzdálenost řetězce od etalonu epezentovaného automatem je dána minimální celkovou vahou přechodů automatu použitých při zpacování vstupního řetězce. Příklad Mějme opět egulání gamatiku G = ({A, B, C, D}, {0,, }, P, A) s pavidly P: A 0C D; C 0B ; D B; B B e a dále mějme zadánu množinu substitučních elementáních tansfomací s vahami podle tab.4. a eliminačních, esp. inzečních tansfomací s vahami podle tab.4.. Učeme ozšířenou gamatiku a jí odpovídající konečný automat, umožňující klasifikaci defomovaných stuktu. Tab.4. Váhy substitučních elementáních tansfomací w S Tab.4. Váhy eliminačních a inzečních elementáních tansfomací w E, w I 0 Množina substitučních pavidel, ozšířená o pavidla substitučních a eliminačních elementáních tansfomací bude (nulové váhy nejsou uvedeny) A 0C, A C, A C, A D, A D, A 0D, C 0B, C B, C B, D B, D 0B, D B, B B, B0B, B B, A "e"c, A "e"d, C "e"b, D "e"b, B"e"B. Poslední pavidlo vzniklo mechanickým uplatněním eliminační defomace na předposlední pavidlo zadané množiny P. Potože však toto pavidlo při geneování vytvářený řetězec nemění, je logické předpokládat i implicitní pavidlo B B. Potože z obou pavidel má menší váhu tansfomace to duhé, lze poslední nové pavidlo vypustit. Při využití inzečních tansfomací je potřeba ozhodnout, do kteého místa původního pavidla nový symbol vložíme. Předpokládejme, že to bude před teminální symbol. Pak je množina pavidel vyjadřujících inzeční tansfomace následující:

107 A00C, A0C, A0C, A0D, AD, AD, C00B, C0B, C0B, D0B, DB, DB, B0B, BB, BB, B0, B, B. Aby byl zachován standadní tva pavidel egulání gamatiky, přepíšeme tato pavidla do tvau: A0E, E 0C, AE, AE, A0F, F D, AF, AF, C0G, G 0B, CG, CG, D0H, H B, DH, DH, B0I, I B, BI, BI, B0, B, B. To znamená, že množina neteminálních symbolů musí být dále ozšířena o symboly E, F, G, H a I. Poslední uvedená skupina substitučních pavidel spolu s pvní skupinou tvoří pavidla gamatiky, podle kteých jsme schopni učit vzdálenost řetězců od řetězců původního stuktuálního etalonu. Jak už bylo uvedeno, vzdálenost zadaného řetězce od etalonu klasifikační třídy je učena minimálním součtem vah substitučních pavidel potřebných po vygeneování zadaného řetězce podle pavidel ozšířené gamatiky. Takže úloha, opět spadá mezi kombinatoické optimalizační úlohy, jejichž absolutní řešení se zpavidla hledá jen obtížně. Je třeba se spokojit jen se suboptimálním řešením, získaným např. nějakou vaiantou algoitmů uvedených v kapitole pojednávající o selekci. a) Ob.4.4 Automat ekvivalentní a) zadané gamatice; b) ozšířené gamatice Automat ekvivalentní původní gamatice lze vyjádřit oientovaným gafem na ob.4.4a. Automat, kteý odpovídá ozšířené gamatice je na ob.4.4b (váhy přechodů jsou uvedeny v závokách). Je to automat nedeteministický. Výbě mezi možnými přechody je řízen optimalizační poceduou, např. suboptimalizační algoitmus, ekvivalentní algoitmu sekvenční dopředné selekce, uvedený v kapitole o selekci příznaků, vybíá ten přechod, jehož váha je nejmenší. Pokud je více přechodů s toutéž vahou, je výbě náhodný. b)

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT pof. Ing. Jiří Holčík, CSc. INVESTICE Intitut DO biotatitiky OZVOJE VZDĚLÁVÁNÍ a analýz II. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD PŘÍZNAKOVÝ POPIS Příznakový obaz zpacovávaných dat je

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT pof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz VI. VOLBA A VÝBĚR PŘÍ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace;

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANAÝZA A KASIFIKACE DAT pof. Ing. Jiří Holčík, CSc. INVESTICE Intitut DO biotatitiky OZVOJE VZDĚÁVÁNÍ a analýz III. BAYESŮV KASIFIKÁTO Intitut biotatitiky a analýz Intitut biotatitiky a analýz ZÁKADN KADNÍ

Více

ROZDĚLENÍ PŘÍJMŮ A JEHO MODELY. Jitka Bartošová

ROZDĚLENÍ PŘÍJMŮ A JEHO MODELY. Jitka Bartošová ROZDĚLENÍ PŘÍJMŮ A JEHO MODELY Jitka Batošová Kateda managementu infomací, Fakulta managementu, Vysoká škola ekonomická Paha, Jaošovská 1117/II, 377 01 Jindřichův Hadec batosov@fm.vse.cz Abstakt: Poces

Více

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. III. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD PŘÍZNAKOVÝ POPIS Příznakový obraz x zpracovávaných dat je vyjádřen n-rozměrným loupcovým vektorem hodnot x i,

Více

( + ) t NPV 10000 + + = NPV

( + ) t NPV 10000 + + = NPV Základní pojmy Finanční management Základní pojmy ozhodování a nejčastější omyly ovlivnitelné a neovlivnitelné položky elevantní náklad stálé a poměnné náklady půměné náklady maginální náklady Příklad

Více

Modely produkčních systémů. Plánování výroby. seminární práce. Autor: Jakub Mertl. Xname: xmerj08. Datum: ZS 07/08

Modely produkčních systémů. Plánování výroby. seminární práce. Autor: Jakub Mertl. Xname: xmerj08. Datum: ZS 07/08 Modely podukčních systémů Plánování výoby seminání páce Auto: Jakub Metl Xname: xmej08 Datum: ZS 07/08 Obsah Obsah... Úvod... 3 1. Výobní linky... 4 1.1. Výobní místo 1... 4 1.. Výobní místo... 5 1.3.

Více

Příklady elektrostatických jevů - náboj

Příklady elektrostatických jevů - náboj lektostatika Hlavní body Příklady elektostatických jevů. lektický náboj, elementání a jednotkový náboj Silové působení náboje - Coulombův zákon lektické pole a elektická intenzita, Páce v elektostatickém

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz III. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD PŘÍZNAKOVÝ POPIS Příznakový obraz x zpracovávaných

Více

ELEKTŘINA A MAGNETIZMUS Řešené úlohy a postupy: Spojité rozložení náboje

ELEKTŘINA A MAGNETIZMUS Řešené úlohy a postupy: Spojité rozložení náboje EEKTŘINA A MAGNETIZMUS Řešené úlohy a postupy: Spojité ozložení náboje Pete Doumashkin MIT 006, překlad: Jan Pacák (007) Obsah. SPOJITÉ OZOŽENÍ NÁBOJE.1 ÚKOY. AGOITMY PO ŘEŠENÍ POBÉMU ÚOHA 1: SPOJITÉ OZOŽENÍ

Více

1.7.2 Moment síly vzhledem k ose otáčení

1.7.2 Moment síly vzhledem k ose otáčení .7. oment síly vzhledem k ose otáčení Předpoklady 70 Pedagogická poznámka Situaci tochu komplikuje skutečnost, že žáci si ze základní školy pamatují součin a mají pocit, že se pouze opakuje notoicky známá

Více

5. Měření vstupní impedance antén

5. Měření vstupní impedance antén 5. Měření vstupní impedance antén 5.1 Úvod Anténa se z hlediska vnějších obvodů chová jako jednoban se vstupní impedancí Z vst, kteou můžeme zjistit měřením. U bezeztátové antény ve volném postou by se

Více

Úlohy krajského kola kategorie B

Úlohy krajského kola kategorie B 61. očník matematické olmpiád Úloh kajského kola kategoie B 1. Je dáno 01 kladných čísel menších než 1, jejichž součet je 7. Dokažte, že lze tato čísla ozdělit do čtř skupin tak, ab součet čísel v každé

Více

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA SPECIÁLNÍ GEODÉZIE název předmětu

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA SPECIÁLNÍ GEODÉZIE název předmětu ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA SPECIÁLNÍ GEODÉZIE název předmětu EKONOMIKA V ZEMĚMĚŘICTVÍ A KATASTRU číslo úlohy 1. název úlohy NEMOVITOSTÍ Analýza

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

Hlavní body. Keplerovy zákony Newtonův gravitační zákon. Konzervativní pole. Gravitační pole v blízkosti Země Planetární pohyby

Hlavní body. Keplerovy zákony Newtonův gravitační zákon. Konzervativní pole. Gravitační pole v blízkosti Země Planetární pohyby Úvod do gavitace Hlavní body Kepleovy zákony Newtonův gavitační zákon Gavitační pole v blízkosti Země Planetání pohyby Konzevativní pole Potenciál a potenciální enegie Vztah intenzity a potenciálu Úvod

Více

B1. Výpočetní geometrie a počítačová grafika 9. Promítání., světlo.

B1. Výpočetní geometrie a počítačová grafika 9. Promítání., světlo. B. Výpočetní geometie a počítačová gafika 9. Pomítání., světlo. Pomítání Převedení 3D objektu do 2D podoby je ealizováno pomítáním, při kteém dochází ke ztátě infomace. Pomítání (nebo též pojekce) je tedy

Více

Učební text k přednášce UFY102

Učební text k přednášce UFY102 Matematický popis vlnění vlna - ozuch šířící se postředím zachovávající svůj tva (pofil) Po jednoduchost začneme s jednodimenzionální vlnou potože ozuch se pohybuje ychlostí v, musí být funkcí jak polohy

Více

6A Paralelní rezonanční obvod

6A Paralelní rezonanční obvod 6A Paalelní ezonanční obvod Cíl úlohy Paktickým měřením ověřit základní paamety eálného paalelního ezonančního obvodu (PRO) - činitel jakosti Q, ezonanční kmitočet f a šířku pásma B. Vyšetřit selektivní

Více

do strukturní rentgenografie e I

do strukturní rentgenografie e I Úvod do stuktuní entgenogafie e I Difakce tg záření na kystalu Metody chaakteizace nanomateiálů I RND. Věa Vodičková, PhD. Studium kystalové stavby Difakce elektonů, neutonů, tg fotonů Kystal ideální mřížka

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

Trivium z optiky Vlnění

Trivium z optiky Vlnění Tivium z optiky 7 1 Vlnění V této kapitole shnujeme základní pojmy a poznatky o vlnění na přímce a v postou Odvolávat se na ně budeme často v kapitolách následujících věnujte poto vyložené látce náležitou

Více

Diferenciální operátory vektorové analýzy verze 1.1

Diferenciální operátory vektorové analýzy verze 1.1 Úvod Difeenciální opeátoy vektoové analýzy veze. Následující text popisuje difeenciální opeátoy vektoové analýzy. Měl by sloužit především studentům předmětu MATEMAT na Univezitě Hadec Kálové k přípavě

Více

Kinematika. Hmotný bod. Poloha bodu

Kinematika. Hmotný bod. Poloha bodu Kinematika Pohyb objektů (kámen, automobil, střela) je samozřejmou součástí každodenního života. Pojem pohybu byl poto známý už ve staověku. Modení studium pohybu začalo v 16. století a je spojeno se jmény

Více

2.1 Shrnutí základních poznatků

2.1 Shrnutí základních poznatků .1 Shnutí základních poznatků S plnostěnnými otujícími kotouči se setkáváme hlavně u paních a spalovacích tubín a tubokompesoů. Matematický model otujících kotoučů můžeme s úspěchem využít např. i při

Více

Fuzzy prediktor pro kinematicko silové řízení kráčejícího robota

Fuzzy prediktor pro kinematicko silové řízení kráčejícího robota Fuzzy pedikto po kinematicko silové řízení káčejícího obota Ing. Jan Kaule, Ph.D. Ing. Mioslav UHER VA Bno Kateda technické kybenetiky a vojenské obotiky, Kounicova 65, 6 00 Bno, Česká epublika Abstakt:

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

3.7. Magnetické pole elektrického proudu

3.7. Magnetické pole elektrického proudu 3.7. Magnetické pole elektického poudu 1. Znát Biotův-Savatův zákon a umět jej použít k výpočtu magnetické indukce v jednoduchých případech (okolí přímého vodiče, ve středu oblouku apod.).. Pochopit význam

Více

Konstrukční a technologické koncentrátory napětí

Konstrukční a technologické koncentrátory napětí Obsah: 6 lekce Konstukční a technologické koncentátoy napětí 61 Úvod 6 Účinek lokálních konstukčních koncentací napětí 63 Vliv kuhového otvou na ozložení napjatosti v dlouhém tenkém pásu zatíženém tahem

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

F5 JEDNODUCHÁ KONZERVATIVNÍ POLE

F5 JEDNODUCHÁ KONZERVATIVNÍ POLE F5 JEDNODUCHÁ KONZERVATIVNÍ POLE Evopský sociální fond Paha & EU: Investujeme do vaší budoucnosti F5 JEDNODUCHÁ KONZERVATIVNÍ POLE Asi nejznámějším konzevativním polem je gavitační silové pole Ke gavitační

Více

5. Lokální, vázané a globální extrémy

5. Lokální, vázané a globální extrémy 5 Lokální, vázané a globální extrémy Studijní text Lokální extrémy 5 Lokální, vázané a globální extrémy Definice 51 Řekneme, že f : R n R má v bodě a Df: 1 lokální maximum, když Ka, δ Df tak, že x Ka,

Více

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 4. října 2018 Podmíněná pravděpodobnost Při počítání pravděpodobnosti můžeme k náhodnému pokusu přidat i nějakou dodatečnou podmínku. Podmíněná pravděpodobnost

Více

4. konference o matematice a fyzice na VŠT Brno, Fraktály ve fyzice. Oldřich Zmeškal

4. konference o matematice a fyzice na VŠT Brno, Fraktály ve fyzice. Oldřich Zmeškal 4. konfeence o matematice a fyzice na VŠT Bno, 15. 9. 25 Faktály ve fyzice Oldřich Zmeškal Ústav fyzikální a spotřební chemie, Fakulta chemická, Vysoké učení technické, Pukyňova 118, 612 Bno, Česká epublika

Více

Poznámky k předmětu Aplikovaná statistika, 4. téma

Poznámky k předmětu Aplikovaná statistika, 4. téma Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické

Více

Základní vlastnosti elektrostatického pole, probrané v minulých hodinách, popisují dvě diferenciální rovnice : konzervativnost el.

Základní vlastnosti elektrostatického pole, probrané v minulých hodinách, popisují dvě diferenciální rovnice : konzervativnost el. Aplikace Gaussova zákona ) Po sestavení základní ovnice elektostatiky Základní vlastnosti elektostatického pole, pobané v minulých hodinách, popisují dvě difeenciální ovnice : () ot E konzevativnost el.

Více

Poznámky k předmětu Aplikovaná statistika, 4. téma

Poznámky k předmětu Aplikovaná statistika, 4. téma Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické

Více

Chyby měření 210DPSM

Chyby měření 210DPSM Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů

Více

Cvičení z termomechaniky Cvičení 6.

Cvičení z termomechaniky Cvičení 6. Příklad 1: Pacovní látkou v poovnávacím smíšeném oběhu spalovacího motou je vzduch o hmotnosti 1 [kg]. Počáteční tlak je 0,981.10 5 [Pa] při teplotě 30 [ C]. Kompesní pomě je 7, stupeň zvýšení tlaku 2

Více

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti Kapitola 5 Vektorové prostory V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti operací sčítání a násobení

Více

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich

Více

MAGNETICKÉ POLE ELEKTRICKÉHO PROUDU. r je vyjádřen vztahem

MAGNETICKÉ POLE ELEKTRICKÉHO PROUDU. r je vyjádřen vztahem MAGNETICKÉ POLE ELEKTRICKÉHO PROUDU udeme se zabývat výpočtem magnetického pole vytvořeného danou konfiguací elektických poudů (podobně jako učení elektického pole vytvořeného daným ozložením elektických

Více

Měření koaxiálních kabelů a antén

Měření koaxiálních kabelů a antén Jihočeská Univezita v Českých Budějovicích Pedagogická fakulta Kateda fyziky Měření koaxiálních kabelů a antén BAKALÁŘSKÁ PRÁCE České Budějovice 2010 Vedoucí páce: Ing. Michal Šeý Auto: Zdeněk Zeman Anotace

Více

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti. Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je

Více

3. Podmíněná pravděpodobnost a Bayesův vzorec

3. Podmíněná pravděpodobnost a Bayesův vzorec 3. Podmíněná pravděpodobnost a Bayesův vzorec Poznámka: V některých úlohách řešíme situaci, kdy zkoumáme pravděpodobnost náhodného jevu za dalších omezujících podmínek. Nejčastěji má omezující podmínka

Více

I. kolo kategorie Z9

I. kolo kategorie Z9 68. očník Matematické olympiády I. kolo kategoie Z9 Z9 I 1 Najděte všechna kladná celá čísla x a y, po kteá platí 1 x + 1 y = 1 4. Nápověda. Mohou být obě neznámé současně větší než např. 14? (A. Bohiniková)

Více

Fyzikální veličiny. - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny. Obecně

Fyzikální veličiny. - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny. Obecně Fyzikální veličiny - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny Obecně Fyzika zkoumá objektivní realitu - hmotu - z určité stránky. Zabývá se její látkovou formou

Více

Rozklad přírodních surovin minerálními kyselinami

Rozklad přírodních surovin minerálními kyselinami Laboatoř anoganické technologie Rozklad příodních suovin mineálními kyselinami Rozpouštění příodních mateiálů v důsledku pobíhající chemické eakce patří mezi základní technologické opeace řady půmyslových

Více

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu. 6. NÁHODNÝ VEKTOR Průvodce studiem V počtu pravděpodobnosti i v matematické statistice se setkáváme nejen s náhodnými veličinami, jejichž hodnotami jsou reálná čísla, ale i s takovými, jejichž hodnotami

Více

Posouzení přesnosti měření

Posouzení přesnosti měření Přesnost měření Posouzení přesnosti měření Hodnotu kvantitativně popsaného parametru jakéhokoliv objektu zjistíme jedině měřením. Reálné měření má vždy omezenou přesnost V minulosti sloužila k posouzení

Více

6 Pokyny ke zpracování naměřených hodnot

6 Pokyny ke zpracování naměřených hodnot 6 Pokyny ke zpacování naměřených hodnot Při numeických výpočtech nesmíme zapomínat, že naměřené hodnoty veličin jsou pouze přibližná, neúplná čísla. Platné cify (číslice) daného čísla jsou všechny od pvní

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

VÝBĚR A JEHO REPREZENTATIVNOST

VÝBĚR A JEHO REPREZENTATIVNOST VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:

Více

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia. Úvod (Proč se zabývat statistikou?) Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě ekonomických, technických, přírodovědných a humanitních disciplín. Její význam v poslední

Více

Cavendishův pokus: Určení gravitační konstanty,,vážení Země

Cavendishův pokus: Určení gravitační konstanty,,vážení Země Cavendishův pokus: Učení gavitační konstanty,,vážení Země Jiří Kist - Mendlovo gymnázium, Opava, SO@seznam.cz Teeza Steinhatová - gymnázium J. K. Tyla Hadec Kálové, SteinT@seznam.cz 1. Úvod Abstakt: Cílem

Více

Základy teorie pravděpodobnosti

Základy teorie pravděpodobnosti Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 15. srpna 2012 Statistika

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

10. Předpovídání - aplikace regresní úlohy

10. Předpovídání - aplikace regresní úlohy 10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu

Více

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti ZÁKLADNÍ STATISTICKÉ POJMY HROMADNÝ JEV Statistika pracuje s tzv. HROMADNÝMI JEVY cílem statistického zpracování dat je podání informace o vlastnostech a zákonitostech hromadných jevů: velkého počtu jedinců

Více

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice I. Funkce dvou a více reálných proměnných 1. Úvod Značení: V textu budeme používat označení: N pro množinu všech přirozených čísel; R pro množinu všech reálných čísel; R n pro množinu všech uspořádaných

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Fyzika. Fyzikální veličina - je mírou fyzikální vlastnosti, kterou na základě měření vyjadřujeme ve zvolených jednotkách

Fyzika. Fyzikální veličina - je mírou fyzikální vlastnosti, kterou na základě měření vyjadřujeme ve zvolených jednotkách Fyzika Studuje objekty neživé příody a vztahy mezi nimi Na základě pozoování a pokusů studuje obecné vlastnosti látek a polí, indukcí dospívá k obecným kvantitativním zákonům a uvádí je v logickou soustavu

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

ELEKTRICKÝ NÁBOJ COULOMBŮV ZÁKON INTENZITA ELEKTRICKÉHO POLE

ELEKTRICKÝ NÁBOJ COULOMBŮV ZÁKON INTENZITA ELEKTRICKÉHO POLE ELEKTRICKÝ NÁBOJ COULOMBŮV ZÁKON INTENZITA ELEKTRICKÉHO POLE 1 ELEKTRICKÝ NÁBOJ Elektický náboj základní vlastnost někteých elementáních částic (pvní elektické jevy pozoovány již ve staověku janta (řecky

Více

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých Obyčejné diferenciální rovnice Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých se vyskytují derivace neznámé funkce jedné reálné proměnné. Příklad. Bud dána funkce f : R R.

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D. Algoritmizace diskrétních simulačních modelů Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Při programování simulačních modelů lze hlavní dílčí problémy shrnout do následujících bodů: 1) Zachycení statických

Více

ODVOZENÍ OBLASTI NECITLIVOSTI PRO PARAMETRY STŘEDNÍ HODNOTY REGULÁRNÍHO SMÍŠENÉHO LINEÁRNÍHO REGRESNÍHO MODELU BEZ PODMÍNEK

ODVOZENÍ OBLASTI NECITLIVOSTI PRO PARAMETRY STŘEDNÍ HODNOTY REGULÁRNÍHO SMÍŠENÉHO LINEÁRNÍHO REGRESNÍHO MODELU BEZ PODMÍNEK ODVOZENÍ OBLASTI NECITLIVOSTI PRO PARAMETRY STŘEDNÍ HODNOTY REGULÁRNÍHO SMÍŠENÉHO LINEÁRNÍHO REGRESNÍHO MODELU BEZ PODMÍNEK Hana Boháčová Univezita Padubice, Fakulta ekonomicko-spávní, Ústav matematiky

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality.

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality. Modelování dynamických systémů Matematické modelování dynamických systémů se využívá v různých oborech přírodních, technických, ekonomických a sociálních věd. Použití matematického modelu umožňuje popsat

Více

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice 9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika Pravděpodobnost a statistika Teorie pravděpodobnosti popisuje vznik náhodných dat, zatímco matematická statistika usuzuje z dat na charakter procesů, jimiž data vznikla. NÁHODNOST - forma existence látky,

Více

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristik často potřebujeme všetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich

Více

PODÉLNÁ STABILITA PLOVOUCÍHO TĚLESA VÁLCOVÉHO TVARU PLOVÁKŮ - 1. FÁZE LONGITUDINAL STABILITY OF THE FLOATING BODY BY CYLINDRICAL FORM OF FLOATS - 1

PODÉLNÁ STABILITA PLOVOUCÍHO TĚLESA VÁLCOVÉHO TVARU PLOVÁKŮ - 1. FÁZE LONGITUDINAL STABILITY OF THE FLOATING BODY BY CYLINDRICAL FORM OF FLOATS - 1 Ročník 5., Číslo III., listopad 00 PODÉLNÁ STABILITA PLOVOUCÍHO TĚLESA VÁLCOVÉHO TVARU PLOVÁKŮ -. FÁZE LONGITUDINAL STABILITY OF THE FLOATING BODY BY CYLINDRICAL FORM OF FLOATS - Leopold Habovský Anotace:

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 202 Založeno na materiálech doc. Michala Kulicha Náhodný vektor často potřebujeme

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

Podle povahy dělíme obvykle fyzikální veličiny do tří skupin, na extenzivní, intenzivní a protenzivní veličiny.

Podle povahy dělíme obvykle fyzikální veličiny do tří skupin, na extenzivní, intenzivní a protenzivní veličiny. Extenzivní, intenzivní a protenzivní veličiny Skalární, vektorové a tenzorové veličiny Extenzivní, intenzivní a protenzivní veličiny Podle povahy dělíme obvykle fyzikální veličiny do tří skupin, na extenzivní,

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl

Více

Geometrická optika. Aberace (vady) optických soustav

Geometrická optika. Aberace (vady) optických soustav Geometická optika Abeace (vady) optických soustav abeace (vady) optických soustav jsou odchylky zobazení eálné optické soustavy od zobazení ideální optické soustavy v důsledku abeací není obazem bodu bod,

Více

I. D i s k r é t n í r o z d ě l e n í

I. D i s k r é t n í r o z d ě l e n í 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více

NÁHODNÁ VELIČINA. 3. cvičení

NÁHODNÁ VELIČINA. 3. cvičení NÁHODNÁ VELIČINA 3. cvičení Náhodná veličina Náhodná veličina funkce, která každému výsledku náhodného pokusu přiřadí reálné číslo. Je to matematický model popisující více či méně dobře realitu, který

Více

Soustavy lineárních rovnic

Soustavy lineárních rovnic Soustavy lineárních rovnic V této kapitole se budeme zabývat soustavami lineárních diferenciálních rovnic y = a (x)y + a (x)y + + a n (x)y n + f (x) y = a (x)y + a (x)y + + a n (x)y n + f (x). y n = a

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

10. N á h o d n ý v e k t o r

10. N á h o d n ý v e k t o r 10. N á h o d n ý v e k t o r 10.1. Definice: Náhodný vektor. Uspořádanou n tici (X 1, X 2,..., X n ) náhodných veličin X i, 1 i n, nazýváme náhodným vektorem. Poznámka: Pro jednoduchost budeme zavádět

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

ANALÝZA ELEKTROMAGNETICKÉ VLNY NA

ANALÝZA ELEKTROMAGNETICKÉ VLNY NA VYSOKÉ UČNÍ TCHNICKÉ V BRNĚ FAKULTA LKTROTCHNIKY A KOMUNIKAČNÍCH TCHNOLOGIÍ Ústav teoetické a expeimentální elektotechniky Ing. Radim Kadlec ANALÝZA LKTROMAGNTICKÉ VLNY NA ROZHRANÍ HTROGNNÍHO PROSTŘDÍ

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ

REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ 5 přednáška S funkcemi se setkáváme na každém kroku ve všech přírodních vědách ale i v každodenním životě Každá situace kdy jsou nějaký jev nebo veličina jednoznačně určeny

Více

p(x) = P (X = x), x R,

p(x) = P (X = x), x R, 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více