ANALÝZA A KLASIFIKACE DAT

Podobné dokumenty
ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

( + ) t NPV = NPV

Analýza a klasifikace dat

ELEKTŘINA A MAGNETIZMUS Řešené úlohy a postupy: Spojité rozložení náboje

ZÁKLADY ROBOTIKY Transformace souřadnic

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Duktilní deformace, část 1

ROZDĚLENÍ PŘÍJMŮ A JEHO MODELY. Jitka Bartošová

ANALÝZA A KLASIFIKACE DAT

Náhodný vektor a jeho charakteristiky

NÁHODNÁ VELIČINA. 3. cvičení

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Diferenciální operátory vektorové analýzy verze 1.1

Hlavní body. Keplerovy zákony Newtonův gravitační zákon. Konzervativní pole. Gravitační pole v blízkosti Země Planetární pohyby

UČENÍ BEZ UČITELE. Václav Hlaváč

4. cvičení z Matematické analýzy 2

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Detekce interakčních sil v proudu vozidel

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

ANALÝZA A KLASIFIKACE DAT

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

KGG/STG Statistika pro geografy

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

Kinematika. Hmotný bod. Poloha bodu

STATISTICKÉ ODHADY Odhady populačních charakteristik

Poznámky k předmětu Aplikovaná statistika, 4. téma

do strukturní rentgenografie e I

Intervalová data a výpočet některých statistik

PRAVDĚPODOBNOST A STATISTIKA

1 Báze a dimenze vektorového prostoru 1

Problém lineární komplementarity a kvadratické programování

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Stavový model a Kalmanův filtr


Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Výběrové charakteristiky a jejich rozdělení

Náhodné chyby přímých měření

1 Rozptyl a kovariance

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Markov Chain Monte Carlo. Jan Kracík.

6 Diferenciální operátory

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobně skoro správné. PAC učení 1

Poznámky k předmětu Aplikovaná statistika, 4. téma

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Vícerozměrná rozdělení

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

1.7.2 Moment síly vzhledem k ose otáčení

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

1 Determinanty a inverzní matice

Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]

ANALÝZA A KLASIFIKACE DAT

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

SIGNÁLY A LINEÁRNÍ SYSTÉMY

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan. 14.

2.1 Shrnutí základních poznatků

AVDAT Mnohorozměrné metody, metody klasifikace

1. Přednáška. Ing. Miroslav Šulai, MBA

Modely produkčních systémů. Plánování výroby. seminární práce. Autor: Jakub Mertl. Xname: xmerj08. Datum: ZS 07/08

Definice spojité náhodné veličiny zjednodušená verze

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Kinematika tuhého tělesa

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Klasifikace a rozpoznávání. Lineární klasifikátory

Teorie náhodných matic aneb tak trochu jiná statistika

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

12. Lineární programování

Učební texty k státní bakalářské zkoušce Matematika Diferenciální rovnice. študenti MFF 15. augusta 2008

Algoritmizace prostorových úloh

0.1 Úvod do lineární algebry

I. D i s k r é t n í r o z d ě l e n í

Úloha - rozpoznávání číslic

Státnice odborné č. 20

Náhodné (statistické) chyby přímých měření

FYZIKA I. Mechanická energie. Prof. RNDr. Vilém Mádr, CSc. Prof. Ing. Libor Hlaváč, Ph.D. Doc. Ing. Irena Hlaváčová, Ph.D. Mgr. Art.

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

p(x) = P (X = x), x R,

Moment síly, spojité zatížení

TECHNICKÁ UNIVERZITA V LIBERCI

5 Informace o aspiračních úrovních kritérií

Aplikovaná numerická matematika

6A Paralelní rezonanční obvod

Náhodné vektory a matice

Numerické metody optimalizace - úvod

Transkript:

ANALÝZA A KLASIFIKACE DAT pof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz

VI. VOLBA A VÝBĚR PŘÍ

ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pacnost, vysoké náklady; KOMPROMIS (potřebujeme kitéium)

ZAČÍNÁME KOMPROMIS (potřebujeme kitéium) přípustná mía spolehlivosti klasifikace (např. pavděpodobnost chybné klasifikace, odchylka obazu vytvořeného z vybaných příznaků vůči učitému efeenčnímu); učit ty příznakové poměnné, jejichž hodnoty nesou nejvíce infomace z hlediska řešené úlohy, tj. ty poměnné, kteou jsou nejefektivnější po vytvoření co nejoddělenějších klasifikačních tříd;

ZAČÍNÁME algoitmus po učení příznakových veličin nesoucích nejvíce infomace po klasifikáto není dosud teoeticky fomalizován - pouze dílčí suboptimální řešení spočívající: ve výběu nezbytného množství veličin z předem zvolené množiny; vyjádření původních veličin pomocí menšího počtu skytých nezávislých veličin, kteé zpavidla nelze přímo měřit, ale mohou nebo také nemusí mít učitou věcnou intepetaci

VOLBA PŘÍZNAKP počáteční volba příznakových veličin je z velké části empiická, vychází ze zkušeností získaných při empiické klasifikaci člověkem a závisí, komě ozbou podstaty poblému i na technických (ekonomických) možnostech a schopnostech hodnoty veličin učit

ZÁSADY PRO VOLBU PŘÍZNAKP výbě veličin s minimálním ozptylem uvnitř tříd

ZÁSADY PRO VOLBU PŘÍZNAKP výbě veličin s maximální vzdáleností mezi třídami

ZÁSADY PRO VOLBU PŘÍZNAKP výbě vzájemně nekoelovaných veličin pokud jsou hodnoty jedné příznakové veličiny závislé na příznacích duhé veličiny, pak použití obou těchto veličin nepřináší žádnou další infomaci po spávnou klasifikaci stačí jedna z nich, jedno kteá

ZÁSADY PRO VOLBU PŘÍZNAKP výbě veličin invaiantních vůči defomacím volba elementů fomálního popisu závisí na vlastnostech původních i předzpacovaných dat a může ovlivňovat způsob předzpacování

VÝBĚR R PŘÍZNAKP fomální popis objektu původně epezentovaný m ozměným vektoem se snažíme vyjádřit vektoem n ozměným tak, aby množství diskiminační infomace obsažené v původním vektou bylo v co největší míře zachováno Z: Y m X n

VÝBĚR R PŘÍZNAKP dva pincipiálně ůzné způsoby: selekce nalezení a odstanění těch příznakových funkcí, kteé přispívají k sepaabilitě klasifikačních tříd nejméně; extakce tansfomace původních příznakových poměnných na menší počet jiných příznakových poměnných

VÝBĚR R PŘÍZNAKP dva pincipiálně ůzné způsoby: selekce nalezení a odstanění těch příznakových funkcí, kteé přispívají k sepaabilitě klasifikačních tříd nejméně; extakce tansfomace původních příznakových poměnných na menší počet jiných příznakových poměnných Abychom dokázali ealizovat libovolný z obou způsobů výběu, je třeba definovat a splnit učité podmínky optimality.

VÝBĚR R PŘÍZNAKP PODMÍNKY OPTIMALITY Nechť J je kiteiální funkce, jejíž pomocí vybíáme příznakové veličiny. V případě selekce vybíáme vekto x= T (x 1,,x n ) ze všech možných n-tic χ příznaků y i, i=1,2,,m. Optimalizaci selekce příznaků fomálně zapíšeme jako Poblémy k řešení: Z( y) = ext J( χ) stanovení kiteiální funkce; stanovení nového ozměu kiteiální funkce; χ stanovení optimalizačního postupu

VÝBĚR R PŘÍZNAKP PODMÍNKY OPTIMALITY Nechť J je kiteiální funkce, jejíž pomocí vybíáme příznakové veličiny. V případě extakce tansfomujeme příznakový posto na základě výběu zobazení Z z množiny všech možných zobazení ζ postou Y m do X n, tj. Příznakový posto je pomocí optimálního zobazení Z dán vztahem x =Z(y) Poblémy k řešení: Z( y) = ext J( ζ) stanovení kiteiální funkce; stanovení nového ozměu kiteiální funkce; zvolení požadavků na vlastnosti zobazení; ζ stanovení optimalizačního postupu

SELEKCE PŘÍZNAKP KRITERIÁLN LNÍ FUNKCE po bayesovské klasifikátoy (to už jsme si říkali) je-li x = (x 1, x 2,, x n ) možná n-tice příznaků, vybaných ze všech možných m hodnot y i, i=1,,m, n m, pak pavděpodobnost chybného ozhodnutí P eme je po tento výbě ovna = χ min p( P eme = J(a*) = minj(a) = [ x) p( x ω ). P( ω ] = 1 χ a ) dx max = χ χ minl p( x)dx χ ( ω χ p( x ω ). P( ω )dx )dx = maxp( x ω ). P( ω )dx =

SELEKCE PŘÍZNAKP PRAVDĚPODOBNOSTN PODOBNOSTNÍ MÍRY po dichotomický bayesovský klasifikáto (R=2) je celková pavděpodobnost chybného ozhodnutí e 1 p( x ω1 ). P( ω1 ) p( x ω2 ). P( ω2 χ = ) dx pavděpodobnost chyby bude maximální, když integál bude nulový obě váhované hustoty pavděpodobnosti budou stejné, pavděpodobnost chyby bude minimální, když se obě hustoty nebudou překývat. Čím větší vzdálenost mezi klasifikačními třídami, tím menší pavděpodobnost chyby Integál může být považován za vyjádření pavděpodobnostní vzdálenosti

SELEKCE PŘÍZNAKP PRAVDĚPODOBNOSTN PODOBNOSTNÍ MÍRY po více klasifikačních tříd tzv. bayesovská vzdálenost J BA R 2 = P ( ω x).p( x) dx χ = 1

SELEKCE PŘÍZNAKP POMĚR R ROZPTYLŮ ozptyl uvnitř třídy pomocí dispezní matice D( x) = R = 1 P( ω ) χ ( x μ ). T ( x μ ). p( x ω )dx, kde μ = χ p( x ω )dx

SELEKCE PŘÍZNAKP POMĚR R ROZPTYLŮ ozptyl mezi třídami může být dán pokud B( x) μ 0 = B( x) = R 1 R = = 1 s= + 1 R kde = 1 P( ω P( ω μ P( ω s ).μ lze také psát R = 1 ).P( ω = μ = ).( μ χ s μ ). μ s ). s. T μ x. p( x)dx μ 0 T s, ( μ μ 0 ),

SELEKCE PŘÍZNAKP POMĚR R ROZPTYLŮ vyjádření vztahu obou ozptylů J 1 (x)=t(d -1 (x).b(x)) J 2 (x)=t(b(x)/t(d(x)) J 3 (x)= D -1 (x).b(x) = B(x) / D(x) J 4 (x) = ln(j 3 (x))

ALGORITMY SELEKCE PŘÍZNAKP výbě optimální podmnožiny obsahující n (n m) příznakových poměnných kombinatoický poblém (m!/(m-n)!n! možných řešení) hledáme jen kvazioptimální řešení

ALGORITMUS OHRANIČEN ENÉHO VĚTVENV TVENÍ předpoklad: monotónnost kitéia selekce - označíme-li X j množinu obsahující j příznaků, pak monotónnost kitéia znamená, že podmnožiny X 1 X 2 X j X m splňuje selekční kitéium vztah J(X 1 ) J(X 1 ) J(X m )

ALGORITMUS OHRANIČEN ENÉHO VĚTVENV TVENÍ uvažme případ selekce dvou příznaků z pěti

ALGORITMUS SEKVENČNÍ DOPŘEDN EDNÉ SELEKCE algoitmus začíná s pázdnou množinou, do kteé se vloží poměnná s nejlepší hodnotou selekčního kitéia; v každém následujícím koku se přidá ta poměnná, kteá s dříve vybanými veličinami dosáhla nejlepší hodnoty kitéia, tj. J({X k+1 })=max J({X k y j }), y j {Y-X k }

ALGORITMUS SEKVENČNÍ ZPĚTN TNÉ SELEKCE algoitmus začíná s množinou všech příznakových veličin; v každém následujícím koku se eliminuje ta poměnná, kteá způsobuje nejmenší pokles kiteiální funkce, tj. po (k+1). koku platí J({X m-k-1 })=max J({X m-k -y j }), y j {X m-k }

ALGORITMY SEKVENČNÍ SELEKCE SUBOPTIMALITA Suboptimalita nalezeného řešení sekvenčních algoitmů je způsobena: dopředná selekce - tím, že nelze vyloučit ty veličiny, kteé se staly nadbytečné po přiřazení dalších veličin; zpětná selekce neexistuje možnost opavy při neoptimálním vyloučení kteékoliv poměnné; Dopředný algoitmus je výpočetně jednodušší, potože pacuje maximálně v n-ozměném postou, naopak zpětný algoitmus umožňuje půběžně sledovat množství ztacené infomace.

ALGORITMUS PLUS P MÍNUS M Q po přidání p veličin se q veličin odstaní; poces pobíhá, dokud se nedosáhne požadovaného počtu příznaků; je-li p>q, pacuje algoitmus od pázdné množiny; je-li p<q, vaianta zpětného algoitmu

ALGORITMUS MIN - MAX Heuistický algoitmus vybíající příznaky na základě výpočtu hodnot kiteiální funkce pouze v jedno- a dvouozměném příznakovém postou. Předpokládejme, že bylo vybáno k příznakových veličin do množiny {X k } a zbývají veličiny z množiny {Y-X k }. Výbě veličiny y j {Y-X k }přináší novou infomaci, kteou můžeme ocenit elativně k libovolné veličině x i X k podle vztahu ΔJ(y j,x i ) = J(y j,x i ) - J(x i )

ALGORITMUS MIN - MAX Infomační příůstek ΔJ musí být co největší, ale musí být dostatečný po všechny veličiny již zahnuté do množiny X k. Vybíáme tedy veličinu y k+1, po kteou platí ΔJ(y k+1,x k ) = max j min i ΔJ(y j,x i ), x i X k

Přípava nových učebních mateiálů obou Matematická biologie je podpoována pojektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ