ANALÝZA A KLASIFIKACE DAT pof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz
VI. VOLBA A VÝBĚR PŘÍ
ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pacnost, vysoké náklady; KOMPROMIS (potřebujeme kitéium)
ZAČÍNÁME KOMPROMIS (potřebujeme kitéium) přípustná mía spolehlivosti klasifikace (např. pavděpodobnost chybné klasifikace, odchylka obazu vytvořeného z vybaných příznaků vůči učitému efeenčnímu); učit ty příznakové poměnné, jejichž hodnoty nesou nejvíce infomace z hlediska řešené úlohy, tj. ty poměnné, kteou jsou nejefektivnější po vytvoření co nejoddělenějších klasifikačních tříd;
ZAČÍNÁME algoitmus po učení příznakových veličin nesoucích nejvíce infomace po klasifikáto není dosud teoeticky fomalizován - pouze dílčí suboptimální řešení spočívající: ve výběu nezbytného množství veličin z předem zvolené množiny; vyjádření původních veličin pomocí menšího počtu skytých nezávislých veličin, kteé zpavidla nelze přímo měřit, ale mohou nebo také nemusí mít učitou věcnou intepetaci
VOLBA PŘÍZNAKP počáteční volba příznakových veličin je z velké části empiická, vychází ze zkušeností získaných při empiické klasifikaci člověkem a závisí, komě ozbou podstaty poblému i na technických (ekonomických) možnostech a schopnostech hodnoty veličin učit
ZÁSADY PRO VOLBU PŘÍZNAKP výbě veličin s minimálním ozptylem uvnitř tříd
ZÁSADY PRO VOLBU PŘÍZNAKP výbě veličin s maximální vzdáleností mezi třídami
ZÁSADY PRO VOLBU PŘÍZNAKP výbě vzájemně nekoelovaných veličin pokud jsou hodnoty jedné příznakové veličiny závislé na příznacích duhé veličiny, pak použití obou těchto veličin nepřináší žádnou další infomaci po spávnou klasifikaci stačí jedna z nich, jedno kteá
ZÁSADY PRO VOLBU PŘÍZNAKP výbě veličin invaiantních vůči defomacím volba elementů fomálního popisu závisí na vlastnostech původních i předzpacovaných dat a může ovlivňovat způsob předzpacování
VÝBĚR R PŘÍZNAKP fomální popis objektu původně epezentovaný m ozměným vektoem se snažíme vyjádřit vektoem n ozměným tak, aby množství diskiminační infomace obsažené v původním vektou bylo v co největší míře zachováno Z: Y m X n
VÝBĚR R PŘÍZNAKP dva pincipiálně ůzné způsoby: selekce nalezení a odstanění těch příznakových funkcí, kteé přispívají k sepaabilitě klasifikačních tříd nejméně; extakce tansfomace původních příznakových poměnných na menší počet jiných příznakových poměnných
VÝBĚR R PŘÍZNAKP dva pincipiálně ůzné způsoby: selekce nalezení a odstanění těch příznakových funkcí, kteé přispívají k sepaabilitě klasifikačních tříd nejméně; extakce tansfomace původních příznakových poměnných na menší počet jiných příznakových poměnných Abychom dokázali ealizovat libovolný z obou způsobů výběu, je třeba definovat a splnit učité podmínky optimality.
VÝBĚR R PŘÍZNAKP PODMÍNKY OPTIMALITY Nechť J je kiteiální funkce, jejíž pomocí vybíáme příznakové veličiny. V případě selekce vybíáme vekto x= T (x 1,,x n ) ze všech možných n-tic χ příznaků y i, i=1,2,,m. Optimalizaci selekce příznaků fomálně zapíšeme jako Poblémy k řešení: Z( y) = ext J( χ) stanovení kiteiální funkce; stanovení nového ozměu kiteiální funkce; χ stanovení optimalizačního postupu
VÝBĚR R PŘÍZNAKP PODMÍNKY OPTIMALITY Nechť J je kiteiální funkce, jejíž pomocí vybíáme příznakové veličiny. V případě extakce tansfomujeme příznakový posto na základě výběu zobazení Z z množiny všech možných zobazení ζ postou Y m do X n, tj. Příznakový posto je pomocí optimálního zobazení Z dán vztahem x =Z(y) Poblémy k řešení: Z( y) = ext J( ζ) stanovení kiteiální funkce; stanovení nového ozměu kiteiální funkce; zvolení požadavků na vlastnosti zobazení; ζ stanovení optimalizačního postupu
SELEKCE PŘÍZNAKP KRITERIÁLN LNÍ FUNKCE po bayesovské klasifikátoy (to už jsme si říkali) je-li x = (x 1, x 2,, x n ) možná n-tice příznaků, vybaných ze všech možných m hodnot y i, i=1,,m, n m, pak pavděpodobnost chybného ozhodnutí P eme je po tento výbě ovna = χ min p( P eme = J(a*) = minj(a) = [ x) p( x ω ). P( ω ] = 1 χ a ) dx max = χ χ minl p( x)dx χ ( ω χ p( x ω ). P( ω )dx )dx = maxp( x ω ). P( ω )dx =
SELEKCE PŘÍZNAKP PRAVDĚPODOBNOSTN PODOBNOSTNÍ MÍRY po dichotomický bayesovský klasifikáto (R=2) je celková pavděpodobnost chybného ozhodnutí e 1 p( x ω1 ). P( ω1 ) p( x ω2 ). P( ω2 χ = ) dx pavděpodobnost chyby bude maximální, když integál bude nulový obě váhované hustoty pavděpodobnosti budou stejné, pavděpodobnost chyby bude minimální, když se obě hustoty nebudou překývat. Čím větší vzdálenost mezi klasifikačními třídami, tím menší pavděpodobnost chyby Integál může být považován za vyjádření pavděpodobnostní vzdálenosti
SELEKCE PŘÍZNAKP PRAVDĚPODOBNOSTN PODOBNOSTNÍ MÍRY po více klasifikačních tříd tzv. bayesovská vzdálenost J BA R 2 = P ( ω x).p( x) dx χ = 1
SELEKCE PŘÍZNAKP POMĚR R ROZPTYLŮ ozptyl uvnitř třídy pomocí dispezní matice D( x) = R = 1 P( ω ) χ ( x μ ). T ( x μ ). p( x ω )dx, kde μ = χ p( x ω )dx
SELEKCE PŘÍZNAKP POMĚR R ROZPTYLŮ ozptyl mezi třídami může být dán pokud B( x) μ 0 = B( x) = R 1 R = = 1 s= + 1 R kde = 1 P( ω P( ω μ P( ω s ).μ lze také psát R = 1 ).P( ω = μ = ).( μ χ s μ ). μ s ). s. T μ x. p( x)dx μ 0 T s, ( μ μ 0 ),
SELEKCE PŘÍZNAKP POMĚR R ROZPTYLŮ vyjádření vztahu obou ozptylů J 1 (x)=t(d -1 (x).b(x)) J 2 (x)=t(b(x)/t(d(x)) J 3 (x)= D -1 (x).b(x) = B(x) / D(x) J 4 (x) = ln(j 3 (x))
ALGORITMY SELEKCE PŘÍZNAKP výbě optimální podmnožiny obsahující n (n m) příznakových poměnných kombinatoický poblém (m!/(m-n)!n! možných řešení) hledáme jen kvazioptimální řešení
ALGORITMUS OHRANIČEN ENÉHO VĚTVENV TVENÍ předpoklad: monotónnost kitéia selekce - označíme-li X j množinu obsahující j příznaků, pak monotónnost kitéia znamená, že podmnožiny X 1 X 2 X j X m splňuje selekční kitéium vztah J(X 1 ) J(X 1 ) J(X m )
ALGORITMUS OHRANIČEN ENÉHO VĚTVENV TVENÍ uvažme případ selekce dvou příznaků z pěti
ALGORITMUS SEKVENČNÍ DOPŘEDN EDNÉ SELEKCE algoitmus začíná s pázdnou množinou, do kteé se vloží poměnná s nejlepší hodnotou selekčního kitéia; v každém následujícím koku se přidá ta poměnná, kteá s dříve vybanými veličinami dosáhla nejlepší hodnoty kitéia, tj. J({X k+1 })=max J({X k y j }), y j {Y-X k }
ALGORITMUS SEKVENČNÍ ZPĚTN TNÉ SELEKCE algoitmus začíná s množinou všech příznakových veličin; v každém následujícím koku se eliminuje ta poměnná, kteá způsobuje nejmenší pokles kiteiální funkce, tj. po (k+1). koku platí J({X m-k-1 })=max J({X m-k -y j }), y j {X m-k }
ALGORITMY SEKVENČNÍ SELEKCE SUBOPTIMALITA Suboptimalita nalezeného řešení sekvenčních algoitmů je způsobena: dopředná selekce - tím, že nelze vyloučit ty veličiny, kteé se staly nadbytečné po přiřazení dalších veličin; zpětná selekce neexistuje možnost opavy při neoptimálním vyloučení kteékoliv poměnné; Dopředný algoitmus je výpočetně jednodušší, potože pacuje maximálně v n-ozměném postou, naopak zpětný algoitmus umožňuje půběžně sledovat množství ztacené infomace.
ALGORITMUS PLUS P MÍNUS M Q po přidání p veličin se q veličin odstaní; poces pobíhá, dokud se nedosáhne požadovaného počtu příznaků; je-li p>q, pacuje algoitmus od pázdné množiny; je-li p<q, vaianta zpětného algoitmu
ALGORITMUS MIN - MAX Heuistický algoitmus vybíající příznaky na základě výpočtu hodnot kiteiální funkce pouze v jedno- a dvouozměném příznakovém postou. Předpokládejme, že bylo vybáno k příznakových veličin do množiny {X k } a zbývají veličiny z množiny {Y-X k }. Výbě veličiny y j {Y-X k }přináší novou infomaci, kteou můžeme ocenit elativně k libovolné veličině x i X k podle vztahu ΔJ(y j,x i ) = J(y j,x i ) - J(x i )
ALGORITMUS MIN - MAX Infomační příůstek ΔJ musí být co největší, ale musí být dostatečný po všechny veličiny již zahnuté do množiny X k. Vybíáme tedy veličinu y k+1, po kteou platí ΔJ(y k+1,x k ) = max j min i ΔJ(y j,x i ), x i X k
Přípava nových učebních mateiálů obou Matematická biologie je podpoována pojektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ