Klasifikace a predikce. Roman LUKÁŠ

Podobné dokumenty

Využití logistické regrese pro hodnocení omaku

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY BAKALÁŘSKÁ PRÁCE Radka Luštincová

BAYESŮV PRINCIP ZDENĚK PŮLPÁN

4.4 Exploratorní analýza struktury objektů (EDA)

Algoritmus Minimax. Tomáš Kühr. Projektový seminář 1

Stromy. Karel Richta a kol. Katedra počítačů Fakulta elektrotechnická České vysoké učení technické v Praze Karel Richta a kol.

IB108 Sada 1, Příklad 1 Vypracovali: Tomáš Krajča (255676), Martin Milata (256615)

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce

Regresní a korelační analýza

Regresní a korelační analýza

STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA

Tématické celky { kontrolní otázky.

Obsah přednášky 1. Bayesův teorém 6. Naivní Bayesovský klasifikátor (NBK)

Seminář z IVT Algoritmizace. Slovanské gymnázium Olomouc Tomáš Kühr

A NUMERICKÉ METODY. Matice derivací: ( ) ( ) Volím x 0 = 0, y 0 = -2.

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky

1. Pravděpodobnost a statistika (MP leden 2010)

ALGORITMIZACE 2010/03 STROMY, BINÁRNÍ STROMY VZTAH STROMŮ A REKURZE ZÁSOBNÍK IMPLEMENTUJE REKURZI PROHLEDÁVÁNÍ S NÁVRATEM (BACKTRACK)

OSTRAVSKÁ UNIVERZITA V OSTRAVĚ NEURONOVÉ SÍTĚ 1 EVA VOLNÁ

Cvičení 3. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Vícekriteriální rozhodování. Typy kritérií

1. Úvod do genetických algoritmů (GA)

Heuristické řešení problémů. Seminář APS Tomáš Müller

Databázové systémy II. KIV/DB2 LS 2007/2008. Zadání semestrální práce

Podmíněná pravděpodobnost, spolehlivost soustav

Teorie elektrických ochran

PL/SQL. Jazyk SQL je jazykem deklarativním, který neobsahuje procedurální příkazy jako jsou cykly, podmínky, procedury, funkce, atd.

Numerické metody optimalizace

LINEÁRNÍ PROGRAMOVÁNÍ

ALGORITMIZACE 2010/03 STROMY, BINÁRNÍ STROMY VZTAH STROMŮ A REKURZE ZÁSOBNÍK IMPLEMENTUJE REKURZI PROHLEDÁVÁNÍ S NÁVRATEM (BACKTRACK)

ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB. Vladimír Hanta 1, Ivan Gros 2

2) Napište algoritmus pro vložení položky na konec dvousměrného seznamu. 3) Napište algoritmus pro vyhledání položky v binárním stromu.

Interpret jazyka IFJ2011

Základy matematiky kombinované studium /06

6. T e s t o v á n í h y p o t é z

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ. Matematika 3. RNDr. Břetislav Fajmon, PhD. Autoři textu:

3. Polynomy Verze 338.

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Katedra textilních materiálů ENÍ TEXTILIÍ PŘEDNÁŠKA 6

Semestrální práce z předmětu. Jan Bařtipán / A03043 bartipan@studentes.zcu.cz

1. Úvod. Cílem teorie her je popsat situaci, která nás zajímá, jako hru. Klasickým případem

EKONOMICKO-MATEMATICKÉ METODY

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

Dynamic programming. Optimal binary search tree

Matematika I A ukázkový test 1 pro 2018/2019

Západočeská univerzita v Plzni Katedra informatiky a výpočetní techniky. 9. června krovacek@students.zcu.cz

DYNAMICKÉ PROGRAMOVÁNÍ A PROBLÉM BATOHU

Obsah. Část I Začínáme s jazykem AppleScript

MANAŽERSKÉ ROZHODOVÁNÍ

APLIKACE MATEMATICKÉHO PROGRAMOVÁNÍ PŘI NÁVRHU STRUKTURY DISTRIBUČNÍHO SYSTÉMU

Distribuovaná synchronizace. Paralelní a distribuované systémy. 11. Přednáška Vzájemné vyloučení. Centralizovaný algoritmus - fronta procesů

a) Θ(1) b) závislou na hloubce uzlu u c) mezi O(1) a Ω (log n) Jméno:... St. Sk.:. Cvičící:.. Bodů ze cv.: a) Ο(n) b) Θ(n) d) Ο(n 2 )

Postřehová hra. Zadání projektu. 1 Moje cíle

REGRESNÍ ANALÝZA. 13. cvičení

Poznámky k předmětu Aplikovaná statistika, 9.téma

Kapitola 7: Neurčitý integrál. 1/14

Téma je podrobně zpracováno ve skriptech [1], kapitola

DC circuits with a single source

Kapitola 1. Naivní Bayesův klasifikátor

Logika XI. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Y36BEZ Bezpečnost přenosu a zpracování dat. Úvod. Róbert Lórencz. lorencz@fel.cvut.cz

Dolování znalostí z rozsáhlých statistických souborů lékařských dat

Dopravní plánování a modelování (11 DOPM )

. Určete hodnotu neznámé x tak, aby

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

5 Rekurze a zásobník. Rekurzivní volání metody

IB109 Návrh a implementace paralelních systémů. Kolektivní komunikační primitava. RNDr. Jiří Barnat, Ph.D.

POLYMERNÍ BETONY Jiří Minster Ústav teoretické a aplikované mechaniky AV ČR, v. v. i.

Rozhodovací stromy a jejich konstrukce z dat

Programování. s omezujícími podmínkami. Roman Barták. roman.bartak@mff.cuni.cz

Břetislav Fajmon, UMAT FEKT, VUT Brno. Poznámka 1.1. A) první část hodiny (cca 50 minut): představení všech tří metod při řešení jednoho příkladu.

KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d

Paralelní LU rozklad

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Dnešní program odvozování v Bayesovských sítích exaktní metody (enumerace, eliminace proměnných) aproximační metody y( (vzorkovací techniky)

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

3. Derivace funkce Definice 3.1. Nechť f : R R je definována na nějakém okolí U(a) bodu a R. Pokud existuje limita f(a + h) f(a) lim

Mária Sadloňová. Fajn MATIKA. 150 řešených příkladů (vzorek)

OCHRANA VOJENSKÝCH OBJEKTŮ PROTI ÚČINKŮM VÝKONOVÝCH ELEKTROMAGNETICKÝCH POLÍ, SIMULACE EMC FILTRŮ

Evaluation of the Inner Detector with Muon Tracks

alternativní rozdělení Statistika binomické rozdělení bi(n, π)(2)

Rozptyl. Pozn.: rozptyl je nezávislý na posunu hustoty pravděpodobnosti na ose x, protože Var(X) mi určuje jen šířku rozdělení.

Cvičení ze statistiky - 4. Filip Děchtěrenko

Matematický ústav v Opavě. Studijní text k předmětu. Softwarová podpora matematických metod v ekonomice

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

Definice uživatelského typu. Uživatelem definované typy. Součinové datové typy. Součtové datové typy. FLP - Uživatelem definované typy

2. Řešení úloh hraní her Hraní her (Teorie a algoritmy hraní her)

z možností, jak tuto veličinu charakterizovat, je určit součet

Hraní her. (Teorie a algoritmy hraní her) Řešení úloh hraní her. Václav Matoušek /

Regresní lineární model symboly

Programování v C++ 1, 16. cvičení

Náhodný pokus každá opakovatelná činnost, prováděná za stejných nebo přibližně stejných podmínek, jejíž výsledek je nejistý a závisí na náhodě.

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Transkript:

1/28 Klasfkace a predkce Roman LUKÁŠ

2/28 Základní pomy Klasfkace = zařazení daného obektu do sté skupny na základě eho vlastností Dvě fáze klasfkace: I. Na základě trénovacích vzorů (u nchž víme, do aké skupny patří) určení pravdel, podle nchž bude klasfkace prováděna II. Pravdla z kroku I. sou testována na ných vzorech, následně použta pro zařazování nových dat Predkce = předpověď sté hodnoty (ze spoté funkce) pro daný obekt

3/28 I. Fáze: Klasfkace: Ilustrace Trénovací data Klasfkační algortmus Jméno Jan Novák Ota Tesař Vít Tomšů Leoš Nový Věk <= 30 31..40 > 40 31..40 Příem malý velký střední velký Úvěryschopnost špatná dobrá špatná dobrá Klasfkační pravdla: If Věk = 31..40 and Příem = velký then Úvěryschopnost = dobrá II. Fáze: Trénovací data Klasfkační pravdla Nová data Jméno Věk Příem Úvěryschopnost (Jan Ryba, 31..40, velký,?) Petr Malý 31..40 velký dobrá Jakub Král <= 30 malý špatná? = dobrá

4/28 Příprava dat pro klasfkac Čštění dat = Redukce šumu v datech, upravení dat z chyběící hodnotou Významnostní analýza = odstranění nepotřebných atrbutů v datech pro danou klasfkac Transformace dat = zobecnění dat, například číselných na dskrétní hodnoty Příklad: Konkrétní zsk malý/velký Specální případ transformace: Normalzace dat Příklad: obecný nterval nterval <0, 1>

5/28 Porovnávání klasfkačních metod Přesnost předpovědí = schopnost dobře třídt neznámá data Rychlost = výpočetní složtost pro vygenerování a používání klasfkačních pravdel Robustnost = schopnost vytvořt správný model, pokud daná data obsahuí šum a chyběící hodnoty Stablta = schopnost vytvořt správný model pro velké množství dat Interpretovatelnost = ak e model složtý pro pochopení

6/28 Příklad: Rozhodovací strom Zařazení osoby do tříd: (Koupí počítač/nekoupí počítač) Věk <= 30 31..40 > 40 Student ANO Příem ne ano malý velký NE ANO NE ANO

7/28 Vytvoření rozhodovacího stromu functon nduce_tree(example_set, Propertes) : TTree; begn f all entres n Example_set are n the same class then return leaf node labeled wth ths class else f Propertes s empty then return leaf node labeled wth most common class else begn select a property P, delete t from Propertes and make t the root of the current tree; for each value V of P do begn create a branch of the tree labeled wth V; Ex_V = elements of Example_set wth V for property P call nduce_tree(ex_v, Propertes) and attach result to branch V; end; end;

8/28 Výběr vhodné vlastnost P Nechť S e množna vzorků rozdělovaných do tříd C 1,, C m Nechť s e počet vzorků z množny S ve třídě C Defnume očekávanou nformac I(s 1,, s m ) ako: m = 1,..., sn) p log2( p ) = 1 I( s p = s / S Nechť stá vlastnost P má může nabývat hodnot a 1,, a v. Proveďme rozklad S na vzáemně dsunktní podmnožny S 1,, S v S S, S ={x: vlastnost P prvku x má hodnotu a } pro = 1..v Nechť s e počet vzorků ze třídy C ve množně S Defnume entrop E(P) ako: v s1 +... + m ( ) sm E P = ( p log2 p ) p = s / S S = 1 = 1 Vybereme vlastnost P s nevětší hodnotou I(s 1,, s m ) E(P)!

9/28 Ořezání stromu 2 metody pro ořezání stromu: Preprunng = ž v průběhu vytváření stromu nesou generovány větve, které maí malý význam pro rozhodování Postprunng = nedříve vytvořen strom ako celek, teprve pak sou větve s malým významem odstraněny

10/28 Rozhodovací strom klasf. pravdla Příklad: Věk <= 30 31..40 > 40 Student ANO Příem ne ano malý Zařazení osoby do tříd: (Koupí počítač/nekoupí počítač) velký NE ANO NE ANO f Věk = <= 30 and Student = ne f Věk = <= 30 and Student = ano f Věk = 31..40 f Věk = > 40 and Příem = malý f Věk = > 40 and Příem = velký then result = NE then result = ANO then result = NE then result = NE then result = ANO

11/28 Bayesova klasfkace 1/3 Označení pravděpodobností P(X) = pravděpodobnost evu X P(H X) = pravděpodobnost evu H, pokud víme, že nastal ev X Bayessův teorém: P ( H X ) = P( X H ) P( H P( X ) )

12/28 Bayesova klasfkace 2/3 Nechť e dán stý vzorek dat X = (x 1,, x n ), který má být zařazen do edné z tříd C 1,, C m. Zařadíme e do třídy C, pro kterou platí: P(C X ) e maxmální. Protože P( X C ) P( C ) P( C X ) =, kde P(X) e konst. P( X ) hledáme maxmální P(C X) P(C )

13/28 Bayesova klasfkace 3/3 P( C ) = s s s = počet trénovacích vzorů ve třídě C s = počet všech trénovacích vzorů P( X C P(x k C ) ) = n k = 1 P( x k C ) x k e dskrétní atrbut: P ( x C ) = kde s k e počet trénovacích vzorů ze třídy C splňuící podmínku, že eho k-tý atrbut = x k x k e spotý atrbut: k s s P(x k C ) = g(x k, µ C, σ C ) kde g(x k, µ C, σ C ) e Gaussova normální funkce k

14/28 Klasfkace: NS Backpropagaton Čnnost ednoho neuronu: x 1 x 2 w 2 x n w n w 1 θ Schéma neuronové sítě: x 1 n = 1 x w + θ f x 2 O O k x w w k

15/28 NS Backpropagaton: Algortmus 1/2 Incalzační část: Incalzu všechny váhy w a basy θ lbovolným malým hodnotam Šíření vstupu k výstupu: Postupně pro každý trénovací vzor děle: Pro každý neuron ve skryté vrstvě spočíte: I = w Pro každý neuron ve výstupní vrstvě spočíte: O = O 1 I + θ

16/28 NS Backpropagaton: Algortmus 2/2 Zpětné šíření chyby: Pro každý neuron výstupní vrstvy spočíte: Err = O ( 1 O )( T O Poznámka: T e výstup, který měl vyít Pro každý neuron skryté vrstvy spočíte: Err = O (1 O ) Errk Každou váhu w modfku následovně: w = ( l) Err θ = (l) Err O w Každý bas θ modfku následovně: θ = w = θ k + w + θ Poznámka: (l) <0, 1> e tzv. koefcent učení ) w k

17/28 Další metody klasfkace k-shlukování Založeno na vytvoření k-tříd. Každá třída má svého reprezentanta. Neznámý prvek e zařazen do té třídy ehož reprezentant e nepodobněší neznámému prvku. Genercké algortmy využtí myšlenek přírodního vývoe. Fuzzy logka pravdla pro rozdělování do tříd nemaí dskrétní charakter ale spotý.

18/28 Predkce: Lneární regrese 1/2 Metoda nemenších čtverců: Y = ax + b = skutečné hodnoty x 1 x 2 x 3 x 4 Snaha naít koefcenty a, b tak, aby součet znázorněných čtverců dosáhl co nemenší hodnoty:

Predkce: Lneární regrese 2/2 19/28 = = = s s x x y y x x a 1 2 1 ) ( ) )( ( Soubor hodnot: (x 1, y 1 ), (x 2, y 2 ),, (x s, y s ) Výpočet koefcentů a, b pro regresní přímku Y = ax + b: x a y b = Poznámka: = = s x s x 1 1 = = s y s y 1 1

20/28 Y = ax 1 + bx 2 + cx 3 + d Kde: X 1 = X 3, X 2 = X 2, X 1 = X Vícenásobná a nelneární regrese Vícenásobná regrese výsledná hodnota y e závslá na více parametrech x 1, x 2,, x n Regresní funkce e potom ve tvaru: Y = a 1 X 1 + a 2 X 2 + + a n X n + b Nelneární regrese většnou transformueme na lneární regres Příklad: Y = ax 3 + bx 2 + cx + d

21/28 Testování vytvořených modelů Bloková metoda Data sou náhodně rozdělena do dvou množn: Data z 1. množny sou použta k trénovaní Data z 2. množny sou použta k testování Křížová metoda Data sou náhodně rozdělena do k množn S 1, S 2,, S k. Data z S 2,, S k sou použta k trénovaní a testování e prováděno na datech z množny S 1 Data z S 1, S 3,, S k sou použta k trénovaní a testování e prováděno na datech z množny S 2 Data z S 1,, S k-1 sou použta k trénovaní a testování e prováděno na datech z množny S k

22/28 Ukázka SAS-EM: Defnce problému Defnce problému: Předmět IFJ měl v letošním roce celkem 383 studentů. Bodové rozdělení tohoto předmětu e následuící: 1) Půlsemestrální zkouška 20b. 2) Proekt 25b. 3) Závěrečná zkouška 55b. Úkoly: 1) Pokusíme se předpovědět zda student udělal kvaltně proekt (dostal za ně mnmálně 20 bodů) pouze za předpokladu znalostí eho výsledků z 1) & 3) 2) Pokusíme se předpovědět zda student dostane z IFJ ednčku (celkový počet bodů 90) pouze za předpokladu znalostí eho výsledků z 1) & 2)

23/28 Celkový náhled na mplementac Úkol 2 Úkol 1

24/28 Data a transformace dat Dopočítané proměnné Proměnné získané z DB

25/28 Nastavení atrbutů Nastavení atrbutů pro úkol 1. Nastavení atrbutů pro úkol 2.

26/28 Úkol 1: Výsledky

27/28 Úkol 2: Výsledky

28/28 Zhodnocení výsledků Pro řešení obou úloh e nehorší alternatva použít rozhodovací strom (dskrétní charakter!) Použtí neuronové sítě regresní funkce e srovnatelné Příčny nepřesnost predkce: 1) Student má dostatečný počet bodů během semestru a nenaučí se na závěrečnou zkoušku 2) Student má naopak málo bodů během semestru a o to více se na závěrečnou zkoušku přpraví 3) Student zvládá učvo en teoretcky (hodně bodů ze zkoušek), ale neovládá prax (málo bodů z proektu)