ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

Podobné dokumenty
ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Aplikovaná numerická matematika

5. cvičení z Matematické analýzy 2

5. Lokální, vázané a globální extrémy

Projekt OPVK - CZ.1.07/1.1.00/ Matematika pro všechny. Univerzita Palackého v Olomouci

4. cvičení z Matematické analýzy 2

Implementace Bayesova kasifikátoru

1 Seznamová barevnost úplných bipartitních

Funkce v ıce promˇ enn ych Extr emy Pˇredn aˇska p at a 12.bˇrezna 2018

Bayesovské rozhodování - kritétium minimální střední ztráty

ANALÝZA A KLASIFIKACE DAT

Regresní analýza 1. Regresní analýza

Matematika pro informatiky

Řešení úloh 1. kola 51. ročníku fyzikální olympiády. Kategorie D = s v 2

Kybernetika a umělá inteligence, cvičení 10/11

25 Dopravní zpoždění. Michael Šebek Automatické řízení

Obsah přednášky. 1. Základní pojmy. 2. Jednorozměrné charakteristiky 3. Rozložení 4. Vícerozměrné charakteristiky. Jak stručně popsat data

ANALÝZA A KLASIFIKACE DAT

Vysokofrekvenční obvody s aktivními prvky

Úvod do optimalizace, metody hladké optimalizace

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Co jsme udělali: Au = f, u D(A)

Zavedeme-li souřadnicový systém {0, x, y, z}, pak můžeme křivku definovat pomocí vektorové funkce.

Trénování sítě pomocí učení s učitelem

Matematika I, část I. Rovnici (1) nazýváme vektorovou rovnicí roviny ABC. Rovina ABC prochází bodem A a říkáme, že má zaměření u, v. X=A+r.u+s.

Hledání extrémů funkcí

Definice Tečna paraboly je přímka, která má s parabolou jediný společný bod,

FUNKCE POJEM, VLASTNOSTI, GRAF

Dnešní látka: Literatura: Kapitoly 3 a 4 ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Matematika I, část I Vzájemná poloha lineárních útvarů v E 3

ELEKTRICKÝ OBVOD, ZÁKLADNÍ OBVODOVÉ VELIČINY,

VZOROVÝ TEST PRO 3. ROČNÍK (3. A, 5. C)

Lineární algebra : Metrická geometrie

Poznámky k předmětu Aplikovaná statistika, 4. téma

Průvodce studiem. do bodu B se snažíme najít nejkratší cestu. Ve firmách je snaha minimalizovat

Systém vztahů obecné pružnosti Zobecněný Hookeův zákon

Interpolace, ortogonální polynomy, Gaussova kvadratura

Lineární klasifikátory

10 Funkce více proměnných

MODELOVÁNÍ VYSOKOFREKVENČNÍCH PULSACÍ

Vzorový test k přijímacím zkouškám do navazujícího magisterského studijního oboru Automatické řízení a informatika (2012)

AVDAT Mnohorozměrné metody, metody klasifikace

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

VÝBĚR A JEHO REPREZENTATIVNOST

Poznámky k předmětu Aplikovaná statistika, 4. téma

Kótované promítání. Úvod. Zobrazení bodu

III. Diferenciál funkce a tečná rovina 8. Diferenciál funkce. Přírůstek funkce. a = (x 0, y 0 ), h = (h 1, h 2 ).

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

1 Polynomiální interpolace

Poznámka. V některých literaturách se pro označení vektoru také používá symbolu u.

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

cv3.tex. Vzorec pro úplnou pravděpodobnost

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

Přednáška Omezení rozlišení objektivu difrakcí

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

Úloha - rozpoznávání číslic

AB = 3 CB B A = 3 (B C) C = 1 (4B A) C = 4; k ]

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/ Lineární rovnice

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

1 Báze a dimenze vektorového prostoru 1

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

( + ) ( ) f x x f x. x bude zmenšovat nekonečně přesný. = derivace funkce f v bodě x. nazýváme ji derivací funkce f v bodě x. - náš základní zápis

0.1 Úvod do lineární algebry

Odhady Parametrů Lineární Regrese

Úvodní informace. 17. února 2018

4EK213 LINEÁRNÍ MODELY

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Diferenciál funkce dvou proměnných. Má-li funkce f = f(x, y) spojité parciální derivace v bodě a, pak lineární formu (funkci)

Drsná matematika III 3. přednáška Funkce více proměnných: Inverzní a implicitně definovaná zobrazení, vázané extrémy

6.1 Vektorový prostor

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Náhodné (statistické) chyby přímých měření

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

12. Lineární programování

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

PRAVDĚPODOBNOST A STATISTIKA

Interpolace pomocí splajnu

Cyklografie. Cyklický průmět bodu

Příklady k přednášce 25 Dopravní zpoždění

Testování hypotéz o parametrech regresního modelu

Parametrická rovnice přímky v rovině

Matematika B101MA1, B101MA2

14. přednáška. Přímka

teorie elektronických obvodů Jiří Petržela syntéza elektronických obvodů

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

7. Derivace složené funkce. Budeme uvažovat složenou funkci F = f(g), kde některá z jejich součástí

Příklady k přednášce 19 - Polynomiální metody

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Transkript:

ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc.

III. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD

PŘÍZNAKOVÝ POPIS Příznakový obraz x zpracovávaných dat je vyjádřen n-rozměrným loupcovým vektorem hodnot x i, i=,,,n příznakových proměnných veličin charakterizujících vlatnoti těchto dat, tj. platí x=x,x,,x n T.

PŘÍZNAKOVÝ POPIS Příznakové proměnné mohou popiovat kvantitativní i kvalitativní vlatnoti ouboru dat. Jejich hodnoty nazýváme příznaky. Podle definičního oboru rozlišujeme proměnné: pojité nepojité, dikrétní, vyjmenovatelné logické, binární, alternativní, dichotomické

PŘÍZNAKOVÝ POPIS Vrchol každého příznakového vektoru obrazu předtavuje bod n-rozměrného protoru X n, který nazýváme obrazovým protorem. Obrazový protor je definován kartézkým oučinem definičních oborů všech příznakovým proměnných, tzn. že jej tvoří všechny možné obrazy zpracovávaného ouboru dat.

PŘÍZNAKOVÝ POPIS Při vhodném výběru příznakových veličin je podobnot ignálů jedné klaifikační třídy vyjádřena blízkotí jejich obrazů v obrazovém protoru. Vymezení klaifikační třídy: etalony - charakteritické reprezentativní obrazy hranice

PŘÍZNAKOVÝ KLASIFIKÁTO Příznakový klaifikátor je troj tolika vtupy, kolik je příznaků a jedním dikrétním výtupem, který udává třídu, do které klaifikátor zařadil rozpoznávaný obraz. ω r = dx dx je kalární funkce vektorového argumentu x, kterou nazýváme rozhodovací pravidlo klaifikátoru; ω r je identifikátor klaifikační třídy

PŘÍZNAKOVÝ KLASIFIKÁTO determinitický a nedeterminitický pevným a proměnným počtem příznaků bez učení a učením

PŘÍZNAKOVÝ KLASIFIKÁTO determinitický a nedeterminitický pevným a proměnným počtem příznaků bez učení a učením Nadále e nějaký ča věnujme determinitickým klaifikátorům pevným počtem příznaků.

PŘÍZNAKOVÝ KLASIFIKÁTO Obrazový protor je rozhodovacím pravidlem rozdělen na dijunktních protorů r, r=,,, přičemž každá podmnožina r obahuje ty obrazy x, pro které je ω r = dx. Návrh rozhodovacího pravidla je základním problémem návrhu klaifikátoru.

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ hranice klaifikačních tříd definujeme pomocí kalárních funkcí g x, g x,, g x takových, že pro obraz x z podmnožiny r pro všechna r platí g r x > g x, pro =,,, a r funkce g r x mohou vyjadřovat např. míru výkytu obrazu x patřícího do r-té klaifikační třídy v daném mítě obrazového protoru nazýváme je dikriminační funkce

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ hranice mezi dvěma ouedními podmnožinami r a je určena průmětem průečíku funkcí g r x a g x, definovaného rovnicí g r x = g x, do obrazového protoru.

BLOKOVÉ SCHÉMA KLASIFIKÁTOU POMOCÍ DISKIMINAČNÍCH FUNKCÍ

BLOKOVÉ SCHÉMA KLASIFIKÁTOU POMOCÍ DISKIMINAČNÍCH FUNKCÍ u dichotomického klaifikátoru dvě třídy je ω = ign g x g x

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ nejjednodušším tvarem dikriminační funkce je funkce lineární, která má tvar g r x = a r0 + a r x + a r x + + a rn x n kde a r0 je práh dikriminační funkce poouvající počátek ouřadného ytému a a ri jou váhové koeficienty i-tého příznaku x i lineárně eparabilní třídy

KLASIFIKACE PODLE DISKIMINAČNÍCH FUNKCÍ LINEÁNĚ NESEPAABILNÍ TŘÍDY zachováme původní obrazový protor a zvolíme nelineární dikriminační funkci definovanou obecně loženou po čátech z lineárních úeků zobrazíme původní n-rozměrný obrazový protor X n nelineární tranformací Φ: X n X m do nového m-rozměrného protoru X m, obecně je m n, tak, aby v novém protoru byly klaifikační třídy lineárně eparabilní a v novém protoru použijeme lineární klaifikátor Φ převodník

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI reprezentativní obrazy klaifikačních tříd - etalony je-li v obrazovém protoru zadáno poloh etalonů vektory x E, x E,, x E, zařadí klaifikátor podle minimální vzdálenoti klaifikovaný obraz x do té třídy, jejíž etalon má od bodu x minimální vzdálenot. ozhodovací pravidlo je určeno vztahem d x x x minx x re E

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI uvažme případ dvou tříd reprezentovaných etalony x E = x E, x E a x E = x E, x E ve dvoupříznakovém euklidovkém protoru; vzdálenot mezi obrazem x = x,x a libovolným z obou etalonů je pak definována v x E, x xe x x E x x E x hledáme menší z obou vzdálenotí, tj. min =, vx E,x, ale také min =, v x E,x; min v x, min v, minx x x x Ex xex E E minx x [x x x x x x E E E E /]

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI dikriminační kuželové plochy e protínají v parabole a její průmět do obrazové roviny je přímka definovaná vztahem x x E - x E + x x E - x E - x E + x E - x E - x E / = 0 Tato hraniční přímka mezi klaifikačními třídami je vždy kolmá na pojnici obou etalonů a tuto pojnici půlí klaifikátor pracující na základě kritéria minimální vzdálenoti je ekvivalentní lineárnímu klaifikátoru dikriminačními funkcemi.

KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI Klaifikace podle minimální vzdálenoti třídami reprezentovanými více etalony je ekvivalentní klaifikaci podle dikriminační funkce po čátech lineární hraniční plochou

UČENÍ DISKIMINAČNÍCH FUNKCÍ ZE STATISTICKÝCH VLASTNOSTÍ MNOŽINY OBAZŮ

ZÁKLADNÍ POJMY A PŘEDPOKLADY při řešení praktických úloh je třeba předpokládat, že obrazy ignálů jou ovlivněny víceméně náhodnými fluktuacemi zdroje ignálu, v přenoové cetě, při předzpracování i analýze, které e nepodaří zcela eliminovat. ztrátová funkce r udává ztrátu při chybné klaifikaci obrazu ze třídy do třídy r. matice ztrátových funkcí λ třední ztráta Ja udává průměrnou ztrátu při chybné klaifikaci obrazu x

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY pokud e outředíme na obrazy pouze ze třídy, je třední ztráta dána průměrnou hodnotou z dx,a vzhledem ke všem obrazům ze třídy, tj. J a x d xa,. p x d kde px je podmíněná hutota pravděpodobnoti výkytu obrazu x ve třídě x

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Celková třední ztráta Ja je průměrná hodnota ze ztrát J a J a J a. P x d xa,. p x. P dx nebo podle Bayeova vzorce Pω x.px = px ω.pω J a x d xa, kde px je hutota pravděpodobnoti výkytu obrazu x v celém obrazovém protoru a P x je podmíněná pravděpodobnot, že daný obraz patří do třídy tzv. apoteriorní pravděpodobnot třídy.. p x. P x dx

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Návrh optimálního klaifikátoru, který by minimalizoval třední ztrátu, počívá v nalezení takové množiny parametrů rozhodovacího pravidla a*, že platí J a* min J a Doadíme-li za Ja z předchozího vztahu, je J a* min d xa,. p x. P a x Je-li ztrátová funkce r kontantní pro všechny obrazy z, je dále J a* min r. p x. P dx r x a d x

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Označíme-li ztrátu při klaifikaci obrazu x do třídy r L x r r. p x. P tak po doazení dotaneme J a* minl dx x Úloha nalezení minima celkové třední ztráty e tak převedla na minimalizaci funkce L x r. Optimální rozhodovací pravidlo dx,a* podle kritéria minimální celkové třední ztráty je L x dme x, a* r x r minl r x r

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY Chceme-li využít principu dikriminačních funkcí Dikriminační funkci optimálního klaifikátoru podle kritéria minimální chyby pak definujeme r x L x r r. p x. P g minl x r maxl x r

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY DICHOTOMICKÝ KLASIFIKÁTO Celková třední ztráta v případě dvou tříd je J a. p x. P d x P.. P. P. p x p x P.. dx. dx. P. P. P.. p x. p x p x. P. dx. dx d x P.

KITÉIUM MINIMÁLNÍ STŘEDNÍ ZTÁTY DICHOTOMICKÝ KLASIFIKÁTO Dikriminační funkce pro dichotomický klaifikátor bude g x g x g x p. x. P. p x P. p. x. P L x L x p. p. x. P. P p. x. P Položíme-li tento výraz nule dotaneme vztah pro hraniční plochu dichotomického klaifikátoru, ze kterého můžeme určit poměr hutot pravděpodobnoti výkytu obrazu x v každé z obou klaifikačních tříd - věrohodnotní poměr P. p p x x P. Obraz x zařadíme do třídy, když je věrohodnotní poměr větší než výraz na pravé traně, je-li menší pak obraz x zařadíme do třídy.

VĚOHODNOSTNÍ POMĚ I. Sumarizuje veškerou informaci zíkanou experimentem. Pravděpodobnot, že jev data natane za daných podmínek hypotéza děleno pravděpodobnotí, že tejný jev natane za jiných podmínek. Podmínky jou vzájemně e vylučující.

VĚOHODNOSTNÍ POMĚ II. Věrohodnotní poměr likelihood ratio L udává podíl pravděpodobnoti, že e vykytne nějaký jev A za určité podmínky jev B, k pravděpodobnoti, že e jev A vykytne, když podmínka neplatí jev nonb. Má-li například pacient náhlou ztrátu paměti jev A, chceme znát věrohodnotní poměr výkytu jevu A v případě, že má mozkový nádor jev B, tj. podíl pravděpodobnoti, jakou ztráta paměti vzniká při nádoru mozku, k pravděpodobnoti, jakou vzniká v otatních případech. Věrohodnotní poměr je tedy podíl podmíněných pravděpodobnotí L PAB PAnonB

KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ Díky obtížnému tanovení hodnot ztrátových funkcí r e kritérium minimální chyby zjednodušuje použitím jednotkových ztrátových funkcí definovaných Matice jednotkových ztrátových funkcí má pak tvar a celková ztráta je r λ J a 0 pror pror což je hodnota pravděpodobnoti chybného rozhodnutí. 0 0 r X- 0 p x. P dx

KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ Doadíme-li hodnoty jednotkových ztrátových funkcí do vztahu pro ztrátu při klaifikaci obrazu do chybné třídy Lx r p x r r r. P p x. P p x. P r a využitím Bayeova vztahu Lx r p x P x p x r. P r p x p x r. P r px nezávií na klaifikační třídě a tedy neovlivňuje výběr minima. Dikriminační funkci tedy můžeme určit jako g x p x r. P r

KITÉIUM MINIMÁLNÍ PAVDĚPODOBNOSTI CHYBNÉHO OZHODNUTÍ V případě dichotomického klaifikátoru je dikriminační funkce g x p x. P p x. P A věrohodnotní poměr je potom p x p x P P

KITÉIUM MAXIMÁLNÍ APOSTEIONÍ PAVDĚPODOBNOSTI Modifikujeme-li vztah pro ztrátu při chybné klaifikaci obrazu podle Bayeova vztahu Pω x.px = px ω.pω platí L x r r. p x. P x p x r. P x Hutota pravděpodobnoti px nezávií na klaifikační třídě a tedy míto L x ω r lze použít L' x r x r L p x r. P x a jednotkovými ztrátovými funkcemi je L' x r r P x P x P r x P r x

nebo KITÉIUM MAXIMÁLNÍ APOSTEIONÍ PAVDĚPODOBNOSTI Minimum ztráty L x ω r je právě tehdy, když Pω r x je maximální. Tzn. že jako dikriminační funkci můžeme zvolit právě hodnotu apoteriorní pravděpodobnoti třídy ω r, tj. g r x = Pω r x Pro případ dichotomického klaifikátoru je dikriminační funkce gx = Pω x - Pω x = 0. Z toho plyne, že hranicí mezi třídami určuje vztah Pω x = Pω x P x x P Podle tohoto kritéria zatřídíme obraz do té třídy, jejíž apoteriorní pravděpodobnot je při výkytu obrazu x větší.

KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI MINIMAX Neznáme-li apriorní pravděpodobnoti všech tříd, předpokládáme rovnoměrné rozložení pravděpodobnot všech tříd je táž Pω = Pω =/. Potom celková třední ztráta J a doáhne minima, když J a* x min a x Dikriminační funkci lze jako v předchozích případech definovat jako g r r. p x. p x dx dx r x L x r r. p x

KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI MINIMAX V případě dichotomie je věrohodnotní poměr p x p x Pokud jou ceny právného rozhodnutí nulové, tj. = = 0, je p x p x Obraz je zařazen do třídy, když je věrohodnotní poměr než poměr cen ztrát chybných zatřídění. Jou-li obě ceny tejné, je obraz zařazen do té třídy, pro kterou je hodnota px ω větší.

KITÉIUM MAXIMÁLNÍ PAVDĚPODOBNOSTI MINIMAX