Rozhodovací pravidla



Podobné dokumenty
Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Bayesovská klasifikace

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)

Dobývání dat a strojové učení

UČENÍ BEZ UČITELE. Václav Hlaváč

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

5.1 Rozhodovací stromy

DATA MINING KLASIFIKACE DMINA LS 2009/2010

5.8 Induktivní logické programování

LISp-Miner: systém pro získávání znalostí z dat 1

Předzpracování dat. Lenka Vysloužilová

Pravidlové znalostní systémy

Metody založené na analogii

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Úvod do dobývání. znalostí z databází

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Analytické procedury v systému LISp-Miner

Dynamické datové struktury IV.

Znalosti budeme nejčastěji vyjadřovat v predikátové logice prvního řádu. Metody:

Základy vytěžování dat

IB108 Sada 1, Příklad 1 Vypracovali: Tomáš Krajča (255676), Martin Milata (256615)

Strojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement).

Pravidlové systémy. Klasifikační pravidla. Asociační pravidla.

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

11. Tabu prohledávání

3.1 Úvod do problematiky

Rozhodovací stromy a jejich konstrukce z dat

Stromy, haldy, prioritní fronty

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

pseudopravděpodobnostní Prospector, Fel-Expert

Pravděpodobně skoro správné. PAC učení 1

Jednoduché cykly

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Katedra kybernetiky, FEL, ČVUT v Praze.

Rozhodovací stromy a jejich konstrukce z dat

Usuzování za neurčitosti

Kapitola 7: Návrh relačních databází. Nástrahy relačního návrhu. Příklad. Rozklad (dekompozice)

Statistická teorie učení

POČÍTAČOVÁ FORMALIZACE MENTÁLNÍCH MODELŮ METODAMI PRAVDĚPODOBNOSTNÍHO JAZYKOVÉHO MODELOVÁNÍ

Učící se klasifikátory obrazu v průmyslu

Optimalizace & soft omezení: algoritmy

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Kontingenční tabulky. (Analýza kategoriálních dat)

Dynamické datové struktury III.

Strojové učení Marta Vomlelová

Použití dalších heuristik

Jednoznačné a nejednoznačné gramatiky

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

Dolování asociačních pravidel

Činnost: 1) Vyhodnotí se výraz E. 2) Jeho hodnota se uloží do proměnné V.

8. Strojové učení. Strojové učení. 16. prosince Václav Matoušek. 8-1 Úvod do znalostního inženýrství, ZS 2014/15

Globální matice konstrukce

Rekonstrukce diskrétního rozdělení psti metodou maximální entropie

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Hanojská věž. T2: prohledávání stavového prostoru. zadání [1 1 1] řešení [3 3 3] dva možné první tahy: [1 1 2] [1 1 3]

Projekt LISp-Miner. M. Šimůnek

Hledáme efektivní řešení úloh na grafu

Funkce - pro třídu 1EB

Vzdálenost uzlů v neorientovaném grafu

State Space Search Step Run Editace úloh Task1 Task2 Init Clear Node Goal Add Shift Remove Add Node Goal Node Shift Remove, Add Node

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Zpracování neurčitosti

Asociační i jiná. Pravidla. (Ch )

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

5.5 Evoluční algoritmy

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.

Prohledávání do šířky = algoritmus vlny

Doplňování chybějících hodnot v kategoriálních datech 2.00

FUNKCE POJEM, VLASTNOSTI, GRAF

NPRG030 Programování I 3/2 Z --- NPRG031 Programování II --- 2/2 Z, Zk

Základní datové struktury III: Stromy, haldy

Moderní systémy pro získávání znalostí z informací a dat

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

ANALÝZA A KLASIFIKACE DAT

Změkčování hranic v klasifikačních stromech

Markov Chain Monte Carlo. Jan Kracík.

6. prosince 2011 J. Vomlel (ÚTIA AV ČR) Aplikace bayesovských sítí 6. prosince / 3

oddělení Inteligentní Datové Analýzy (IDA)

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

Úvod do expertních systémů

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Vypracoval: Mgr. Lukáš Bičík TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY

Matematická funkce. Kartézský součin. Zobrazení. Uspořádanou dvojici prvků x, y označujeme [x, y] Uspořádané dvojice jsou si rovny, pokud platí:

Kapitola 1. Úvod. 1.1 Značení. 1.2 Výroky - opakování. N... přirozená čísla (1, 2, 3,...). Q... racionální čísla ( p, kde p Z a q N) R...

Automatické vyhledávání informace a znalosti v elektronických textových datech

Hledání správné cesty

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

Jan Březina. Technical University of Liberec. 30. dubna 2013

ADT prioritní fronta. Haldy. Další operace nad haldou. Binární halda. Binomické stromy. Časová složitost jednotlivých operací.

Trénování sítě pomocí učení s učitelem

Přednáška 13 Redukce dimenzionality

Vytěžování znalostí z dat

Transkript:

Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj) hledáme hypotézy, které pokrývají příklady téže třídy a oddělují je od příkladů třídy jiné. Algoritmus pokrývání množin 1. najdi pravidlo, které pokrývá nějaké pozitivní příklady a žádný negativní, 2. odstraň pokryté příklady z trénovací množiny D TR, 3. pokud v D TR zbývají nějaké nepokryté pozitivní příklady, vrať se k bodu 1, jinak skonči. Rozšíření algoritmu pro více tříd: pro každou třídu C i se data rozdělí na příklady a protipříklady této třídy Rozšíření algoritmu pro práci s daty zatíženými šumem: v kroku 1 nepožadujeme, aby pravidlo pokrývalo příklady pouze jedné třídy P. Berka, 2011 1/22

Základem algoritmu nalezení jednoho pravidla = učení jako prohledávání prostoru pravidel (hypotéz) 2 možnosti pohybu v prostoru hypotéz: zdola nahoru (AQ - Michalski, FindS - Mitchell) shora dolů (CN2 - Clark, Niblett, CN4 - Bruha) Pokrývání množin zdola nahoru: 1. vezmi jeden pozitivní příklad jako jádro (seed), 2. najdi jeho generalizaci, která pokrývá nějaké pozitivní příklady a žádný negativní. Pokrývání množin shora dolů: 1. vezmi pravidlo s prázdným předpokladem, 2. najdi jeho specializaci, která pokrývá nějaké pozitivní příklady a žádný negativní. P. Berka, 2011 2/22

Pokrývání množin zdola nahoru klient příjem konto pohlaví Nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne k12 nízký střední muž ne ano (Neuspořádaná) pravidla nalezená algoritmem tedy budou: If konto(vysoké) then úvěr(ano) (k1, k2, k4, k5) If příjem(vysoký) then úvěr(ano) (k7, k8, k10) If konto(střední) nezaměstnaný(ne) then úvěr(ano) (k12) Klasifikace: nalezení prvního aplikovatelného pravidla P. Berka, 2011 3/22

Rozhodovací pravidla vybírají v prostoru atributů (mnoharozměrné) hranoly rovnoběžné s osami souřadné soustavy: P. Berka, 2011 4/22

Rozhodovací seznam uspořádaný seznam pravidel If then, Else if then, Else if then Příklad: Systém CN2 [Clark, Nibblet, 1989], resp. CN4 [Bruha, Kočková, 1994] Pokrývání množin shora dolů (paralelní heuristické) funkce Search(Ant,D TR ) 1. nechť Star je množina obsahující prázdnou kombinaci [ ] 2. nechť Ant je prázdná kombinace 3. nechť Sel je množina všech kategorií A(v) vyskytujících se v D TR 4. dokud Star je prázdné nebo dokud nebyly testovány všechny kategorie A(v) v Sel 4.1. nechť NewStar je prázdné 4.2. pro každou kombinaci Comb Star 4.2.1. proveď specializaci přidáním kategorie A(v) ze Sel 4.2.2. vyhodnoť kvalitu kombinace CombA = Comb A(v) pomocí funkce F(CombA) 4.2.3. zařaď kombinaci CombA do NewStar 4.3. pro každou kombinaci Comb NewStar 4.3.1. pokud Comb je (signifikantně) lepší než Ant, přiřaď Ant := Comb 4.4. pokud počet kombinací v NewStar překročí zadaný práh, vyhoď nejhorší kombinaci 4.5. přiřaď Star := NewStar P. Berka, 2011 5/22

Nejlepší pravidlo (krok 4.2.2) se hledá na základě negativní entropie F(Ant) = T t=1 a t a t + b log 2 a t a t + b, na základě Laplaceova odhadu očekávané spolehlivosti F(Ant) = a t + 1 a t + b + T, nebo na základě m-odhadu (m-prob) F(Ant) = a t + m f t a t + b + m, kde T je počet tříd, a t je počet příkladů třídy t pokrytých pravidlem, a t + b je počet všech příkladů pokrytých pravidlem, f t = (a t + c t )/n je relativní četnost třídy t a m je parametr. C(v t ) Ostatní třídy Ant a t b r Ant c t d s k t l n Ve všech těchto případech vyšší hodnota znamená lepší pravidlo. P. Berka, 2011 6/22

V případě neuspořádaných pravidel systém hledá pravidla pro jednotlivé třídy odděleně. Algoritmus CN4 rozhodovací pravidla 1. nechť ListOfRules je prázdný seznam 2. pro každou třídu C(v t ), t=1,..,t 2.1. dokud množina pozitivních příkladů této třídy D TRt není prázdná 2.1.1. pomocí funkce Search(Ant,D TRt ) nalezni nejlepší kombinaci Ant 2.1.2. přiřaď D TRt := D TRt D TRt (Ant), kde D TRt (Ant) jsou příklady pokryté kombinací Ant 2.1.3. do ListOfRules přidej pravidlo IF Ant THEN C(v t ) V případě uspořádaných pravidel (rozhodovacího seznamu) se hledají pravidla ke všem třídám najednou Algoritmus CN4 rozhodovací seznam 1. nechť ListOfRules je prázdný seznam 2. dokud trénovací množina D TR není prázdná 2.1. pomocí funkce Search(Ant,D TR ) nalezni nejlepší kombinaci Ant 2.2. přiřaď D TR := D TR D TR (Ant), kde D TR (Ant) jsou příklady pokryté kombinací Ant 2.3. do ListOfRules přidej pravidlo IF Ant THEN C, kde C je majoritní třída příkladů v D TR (Ant) P. Berka, 2011 7/22

if příjem=vysoký then class is ano; Kr=[ 5 0]; signif=5.850; quality=0.925; cost=1 if konto=vysoké then class is ano; Kr=[ 4 0]; signif=4.680; quality=0.900; cost=1 if příjem=nízký && konto=nízké then class is ne; Kr=[ 0 2]; signif=6.340; quality=0.900; cost=2 if konto=střední && nezaměstnaný=ano then class is ne; Kr=[ 0 2]; signif=6.340; quality=0.900; cost=2 if konto=střední && nezaměstnaný=ne then class is ano; Kr=[ 2 0]; signif=2.340; quality=0.850; cost=2 if true then class is ano; Kr=[ 8 4]; signif=0.000; quality=0.733; cost=0 (neuspořádaná) Rozhodovací pravidla if příjem=vysoký then class is ano; Kr=[ 5 0]; signif=5.850; quality=0.925; cost=1 else if konto=vysoké then class is ano; Kr=[ 2 0]; signif=2.340; quality=0.850; cost=1 else if nezaměstnaný=ano then class is ne; Kr=[ 0 3]; signif=9.510; quality=0.950; cost=1 else if konto=střední then class is ano; Kr=[ 1 0]; signif=1.170; quality=0.825; cost=0 else if true then class is ne; Kr=[ 0 1]; signif=3.170; quality=0.850; cost=0 (uspořádaný) Rozhodovací seznam P. Berka, 2011 8/22

Implementované algoritmy (weka) PART pokrývání množin založené na částečných rozhodovacích stromech, z dat se vytvoří prořezaný strom a pro list s největším pokrytím se vytvoří jedno pravidlo (Frank, Witten, 1998) Prism pokrývání množin shora dolů, hledají se pravidla s přesností rovnou 1 (Cendrowska, 1987) P. Berka, 2011 9/22

JRip (RIPPER) pokrývání množin shora dolů po kterém následuje prořezávání pravidel (Cohen, 1995) Ridor pokrývání množin shora dolů, hledají se if-true a if-false pravidla, která nemusí mít spolehlivost rovnou 1 (Gaines, Compton, 1995) P. Berka, 2011 10/22

B. Pravděpodobnostní pravidla Pravidla doplněná neurčitostí ITRule (Goodman, Smyth, 1989) pravidla Ant C (p), kde Ant je předpoklad (konjunkce hodnot atributů), C je závěr (hodnota atributu), p je podmíněná pravděpodobnost cíle, nastane-li a předpoklad, tedy hodnota počítaná ze čtyřpolní a + b tabulky. P. Berka, 2011 11/22

ESOD (Ivánek, Stejskal, 1988) pravidla Ant C (w), kde Ant je kombinace (konjunkce) hodnot atributů C je atribut, nebo konjunkce hodnot atributů, která nese informaci o zařazení objektu do třídy, w z intervalu [0,1] je váha vyjadřující neurčitost pravidla. platnost pravidla P(C Ant) = a/(a+b) (ze čtyřpolní tabulky) Inferenční mechanismus Přímé řetězení pravidel za použití pseudobayesovské kombinační funkce x y x * y x * y ( 1 x) *( 1 y) Získávání znalostí zpřesňování a zjemňování již existujících znalostí (knowledge refinement) postupem shora dolů (počínaje prázdným vztahem). vložit pravidlo s platností, kterou nelze odvodit z báze znalostí, P. Berka, 2011 12/22

např. 7a11a ==> 1+ C non C Ant 11 14 non Ant c d čtyřpolní tabulka ==> 1+ (0.6800) 11a ==> 1+ (0.2720) 7a ==> 1+ (0.3052) pravidla platnost = 11 11+14 = 0.44 naskládaná váha = 0.2586 platnost a naskládaná váha se od sebe liší (dle 2 testu) 7a11a ==> 1+ je pravidlo s vahou w takovou, že w 0 2586 0 44.., tedy w = 0.6926. u w 1, u u P( C Ant) 1 P( C Ant) cw( C, Ant) 1 cw( C, Ant) První verze algoritmu ([Ivánek, Stejskal, 1988]) předpokládala: pouze kategoriální data, zařazení objektů do dvou tříd (příklady a protipříklady). P. Berka, 2011 13/22

Algoritmus ESOD Inicializace 1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle četnosti 2. vytvoř OPEN - seznam implikací A(v) C uspořádaný sestupně dle četnosti levé strany implikace 3. přiřaď do KB prázdné pravidlo C (w), kde w je relativní četnost třídy C v datech Hlavní cyklus 1. Dokud OPEN není prázdný seznam 1.1. vezmi první implikaci ze seznamu OPEN (označ ji Ant C ) 1.2. spočítej platnost této implikace P(C Ant) 1.3. pokud P(C Ant) P min P(C Ant) (1 - P min ) potom 1.3.1.spočítej pomocí kombinační funkce váhu cw(c,ant) naskládanou z vah pravidel v bázi KB aplikovatelných na Ant 1.3.2.pokud se platnost implikace P(C Ant) signifikantně liší (na základě 2 testu) od naskládané váhy cw(c,ant) potom 1.3.2.1. přidej do KB pravidlo Ant C (w), kde w cw(c,ant) = P(C Ant) 1.4. pokud délka(a) d max 1.4.1. pro každé A(v) ze seznamu CAT takové, že A(v) je v CAT před všemi hodnotami atributů z COMB (Tedy platí, že četnost A(v) je větší nebo rovna četnosti COMB) 1.4.2.pokud se atribut A nevyskytuje v COMB potom 1.4.2.1. generuj novou kombinaci COMB A(v) 1.4.2.2. přidej COMB A(v) do seznamu OPEN za poslední kombinaci C takovou, že četnost(c) četnost(comb A(v)) 1.5. odstraň COMB ze seznamu OPEN P. Berka, 2011 14/22

Modifikace pro více tříd Váha = 0.5 odpovídá platnosti 1/R kde R je počet tříd modifikace algoritmu: váha prázdného vztahu je relativní četnosti převedené na váhu (krok 3 inicializace), 2 do testu vstupuje platnost implikace a naskládaná váha převedená na platnost (krok 1.3.2 hlavního cyklu), váha pravidla se spočítá ze vztahu w cw(c,ant) = P (C Ant), kde P (C Ant) je platnost převedená na váhu (krok 1.3.2.1 hlavního cyklu). P. Berka, 2011 15/22

Implementace algoritmu KEX v systému LISp-Miner Uvedená pravidla odpovídají zadání d max = 4, f min = 1 a P min = 0.9. Strategie volby parametrů: plná analýza (d max = počet všech atributů, které se nevyskytují v cíli, f min = 1, P min = 0), minimální analýza (d max = 1, f min = 1, P min = 0), analýza "bez šumu" (P min = 100); toto zadání znamená, že se do báze zařadí pouze 100% vztahy. P. Berka, 2011 16/22

prediction accuracy (%) # classified cases Dobývání znalostí z databází Práh pro provedení klasifikace: je-li výsledná váha >, pak příklad patří do třídy je-li výsledná váha < 1-, pak příklad nepatří do třídy je-li výsledná váha [1-, ], pak nelze rozhodnout Prediction performance of the KEX system # of classified cases by the KEX system 99 97 250 200 95 93 150 91 89 87 85 0.4 0.6 0.8 1 alpha 100 50 0 0.4 0.6 0.8 1 alpha Rozdíl oproti algoritmům pokrývání množin: 1. je potřeba dostatečný počet příkladů, 2. pro jeden příklad lze nalézt více použitelných pravidel, 3. v bázi pravidel se může objevit pravidlo i jeho specializace, 4. při konzultaci může systém pro jeden příklad doporučit více cílů. P. Berka, 2011 17/22

Numerické atributy Příklad CN4 (On-line diskretizace v průběhu učení) Algoritmus SetBounds(a) 1. nechť PoleMezí je prázdné 2. pro každou hodnotu v j atributu a 2.1. spočítej pro každou třídu C r (r=1,..,r) četnosti Dlevá r, (Dpravá r ) hodnot v takových, že v v j (v v j ) 2.2. spočítej hodnotu funkce Hlevá(v j ) pro případ, že v j je potenciální horní mez, tedy že a v j bude selektor 2.3. spočítej hodnotu funkce Hpravá(v j ) pro případ, že v j je potenciální dolní mez, tedy že a v j bude selektor 3. pro každou hodnotu v j atributu a 3.1. pokud Hlevá(v j ) je nerostoucí lokální maximum, tedy Hlevá(v j-1 ) Hlevá(v j ) Hlevá(v j+1 ) přidej selektor a v j do PoleMezí v pořadí podle hodnoty Hlevá(v j ) 3.2. pokud Hpravá(v j ) je neklesající lokální maximum, tedy Hpravá(v j-1 ) Hpravá(v j ) Hpravá(v j+1 ) přidej selektor a v j do PoleMezí v pořadí podle hodnoty Hpravá(v j ) 4. pro každou dvojci hodnot v 1, v 2 PoleMezí 4.1. spočítej pro každou třídu C r četnost D r hodnot v takových, že v 1 v v 2 4.2. spočítej hodnotu funkce H(v 1,v 2 ) pro četnosti D r 4.3. přidej selektor v a v 2 do PoleMezí v pořadí podle hodnoty H(v 1,v 2 ) P. Berka, 2011 18/22

Příklad: 7 pozitivních příkladů (s hodnotami 45, 46, 50, 50, 100, 100, 120), 5 negativních příkladů (s hodnotami 51, 51, 51, 99, 99). entropie 0 horni meze dolni meze ww <= 50 ww > 99 ww > 50-0.95 -- -0.99 -- -1 45 46 50 51 99 100 120 ww Lokální maxima entropie pro diskretizaci 50<ww<=99; ww<=50; ww>99; 45<ww<=50; ww>50; 45<ww<=99; ww>45; entropy=0.000; maxfreq=5 entropy=0.000; maxfreq=4 entropy=0.000; maxfreq=3 entropy=0.000; maxfreq=3 entropy=-0.954; maxfreq=5 entropy=-0.954; maxfreq=5 entropy=-0.994; maxfreq=6 P. Berka, 2011 19/22

Numerické třídy Příklad CN4 pravidla Ant avg A (C), Mvar A (C) kde Ant je předpoklad (konjunkce hodnot atributů), avg A (C) je průměrná hodnota cílového atributu, Mvar A (C) je rozptyl tohoto průměru P. Berka, 2011 20/22

Chybějící hodnoty Příklad CN4 1) ignoruje příklad s nějakou chybějící hodnotou, 2) nahradí chybějící hodnotu novou hodnotou nevím, 3) nahradí chybějící hodnotu některou z existujících hodnot atributu a sice: a) nejčetnější hodnotou, b) proporcionálním podílem všech hodnot, c) libovolnou hodnotou. P. Berka, 2011 21/22

Hierarchie hodnot atributů příklad pro algoritmus ESOD (Svátek 1996) Hierarchie vstupních atributů any vlastní družstevní nájemní vlastní dům vlastní byt Nájemní byt státní Nájemní byt s majitelem Hierarchie tříd any nestanovena stanovena imunní neimunní neinfikován infikován P. Berka, 2011 22/22