Rozhodovací pravidla

Transkript

1 Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj) hledáme hypotézy, které pokrývají příklady téže třídy a oddělují je od příkladů třídy jiné. Algoritmus pokrývání množin 1. najdi pravidlo, které pokrývá nějaké pozitivní příklady a žádný negativní, 2. odstraň pokryté příklady z trénovací množiny D TR, 3. pokud v D TR zbývají nějaké nepokryté pozitivní příklady, vrať se k bodu 1, jinak skonči. Rozšíření algoritmu pro více tříd: pro každou třídu C i se data rozdělí na příklady a protipříklady této třídy Rozšíření algoritmu pro práci s daty zatíženými šumem: v kroku 1 nepožadujeme, aby pravidlo pokrývalo příklady pouze jedné třídy P. Berka, /22

2 Základem algoritmu nalezení jednoho pravidla = učení jako prohledávání prostoru pravidel (hypotéz) 2 možnosti pohybu v prostoru hypotéz: zdola nahoru (AQ - Michalski, FindS - Mitchell) shora dolů (CN2 - Clark, Niblett, CN4 - Bruha) Pokrývání množin zdola nahoru: 1. vezmi jeden pozitivní příklad jako jádro (seed), 2. najdi jeho generalizaci, která pokrývá nějaké pozitivní příklady a žádný negativní. Pokrývání množin shora dolů: 1. vezmi pravidlo s prázdným předpokladem, 2. najdi jeho specializaci, která pokrývá nějaké pozitivní příklady a žádný negativní. P. Berka, /22

3 Pokrývání množin zdola nahoru klient příjem konto pohlaví Nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne k12 nízký střední muž ne ano (Neuspořádaná) pravidla nalezená algoritmem tedy budou: If konto(vysoké) then úvěr(ano) (k1, k2, k4, k5) If příjem(vysoký) then úvěr(ano) (k7, k8, k10) If konto(střední) nezaměstnaný(ne) then úvěr(ano) (k12) Klasifikace: nalezení prvního aplikovatelného pravidla P. Berka, /22

4 Rozhodovací pravidla vybírají v prostoru atributů (mnoharozměrné) hranoly rovnoběžné s osami souřadné soustavy: P. Berka, /22

5 Rozhodovací seznam uspořádaný seznam pravidel If then, Else if then, Else if then Příklad: Systém CN2 [Clark, Nibblet, 1989], resp. CN4 [Bruha, Kočková, 1994] Pokrývání množin shora dolů (paralelní heuristické) funkce Search(Ant,D TR ) 1. nechť Star je množina obsahující prázdnou kombinaci [ ] 2. nechť Ant je prázdná kombinace 3. nechť Sel je množina všech kategorií A(v) vyskytujících se v D TR 4. dokud Star je prázdné nebo dokud nebyly testovány všechny kategorie A(v) v Sel 4.1. nechť NewStar je prázdné 4.2. pro každou kombinaci Comb Star proveď specializaci přidáním kategorie A(v) ze Sel vyhodnoť kvalitu kombinace CombA = Comb A(v) pomocí funkce F(CombA) zařaď kombinaci CombA do NewStar 4.3. pro každou kombinaci Comb NewStar pokud Comb je (signifikantně) lepší než Ant, přiřaď Ant := Comb 4.4. pokud počet kombinací v NewStar překročí zadaný práh, vyhoď nejhorší kombinaci 4.5. přiřaď Star := NewStar P. Berka, /22

6 Nejlepší pravidlo (krok 4.2.2) se hledá na základě negativní entropie F(Ant) = T t=1 a t a t + b log 2 a t a t + b, na základě Laplaceova odhadu očekávané spolehlivosti F(Ant) = a t + 1 a t + b + T, nebo na základě m-odhadu (m-prob) F(Ant) = a t + m f t a t + b + m, kde T je počet tříd, a t je počet příkladů třídy t pokrytých pravidlem, a t + b je počet všech příkladů pokrytých pravidlem, f t = (a t + c t )/n je relativní četnost třídy t a m je parametr. C(v t ) Ostatní třídy Ant a t b r Ant c t d s k t l n Ve všech těchto případech vyšší hodnota znamená lepší pravidlo. P. Berka, /22

7 V případě neuspořádaných pravidel systém hledá pravidla pro jednotlivé třídy odděleně. Algoritmus CN4 rozhodovací pravidla 1. nechť ListOfRules je prázdný seznam 2. pro každou třídu C(v t ), t=1,..,t 2.1. dokud množina pozitivních příkladů této třídy D TRt není prázdná pomocí funkce Search(Ant,D TRt ) nalezni nejlepší kombinaci Ant přiřaď D TRt := D TRt D TRt (Ant), kde D TRt (Ant) jsou příklady pokryté kombinací Ant do ListOfRules přidej pravidlo IF Ant THEN C(v t ) V případě uspořádaných pravidel (rozhodovacího seznamu) se hledají pravidla ke všem třídám najednou Algoritmus CN4 rozhodovací seznam 1. nechť ListOfRules je prázdný seznam 2. dokud trénovací množina D TR není prázdná 2.1. pomocí funkce Search(Ant,D TR ) nalezni nejlepší kombinaci Ant 2.2. přiřaď D TR := D TR D TR (Ant), kde D TR (Ant) jsou příklady pokryté kombinací Ant 2.3. do ListOfRules přidej pravidlo IF Ant THEN C, kde C je majoritní třída příkladů v D TR (Ant) P. Berka, /22

8 if příjem=vysoký then class is ano; Kr=[ 5 0]; signif=5.850; quality=0.925; cost=1 if konto=vysoké then class is ano; Kr=[ 4 0]; signif=4.680; quality=0.900; cost=1 if příjem=nízký && konto=nízké then class is ne; Kr=[ 0 2]; signif=6.340; quality=0.900; cost=2 if konto=střední && nezaměstnaný=ano then class is ne; Kr=[ 0 2]; signif=6.340; quality=0.900; cost=2 if konto=střední && nezaměstnaný=ne then class is ano; Kr=[ 2 0]; signif=2.340; quality=0.850; cost=2 if true then class is ano; Kr=[ 8 4]; signif=0.000; quality=0.733; cost=0 (neuspořádaná) Rozhodovací pravidla if příjem=vysoký then class is ano; Kr=[ 5 0]; signif=5.850; quality=0.925; cost=1 else if konto=vysoké then class is ano; Kr=[ 2 0]; signif=2.340; quality=0.850; cost=1 else if nezaměstnaný=ano then class is ne; Kr=[ 0 3]; signif=9.510; quality=0.950; cost=1 else if konto=střední then class is ano; Kr=[ 1 0]; signif=1.170; quality=0.825; cost=0 else if true then class is ne; Kr=[ 0 1]; signif=3.170; quality=0.850; cost=0 (uspořádaný) Rozhodovací seznam P. Berka, /22

9 Implementované algoritmy (weka) PART pokrývání množin založené na částečných rozhodovacích stromech, z dat se vytvoří prořezaný strom a pro list s největším pokrytím se vytvoří jedno pravidlo (Frank, Witten, 1998) Prism pokrývání množin shora dolů, hledají se pravidla s přesností rovnou 1 (Cendrowska, 1987) P. Berka, /22

10 JRip (RIPPER) pokrývání množin shora dolů po kterém následuje prořezávání pravidel (Cohen, 1995) Ridor pokrývání množin shora dolů, hledají se if-true a if-false pravidla, která nemusí mít spolehlivost rovnou 1 (Gaines, Compton, 1995) P. Berka, /22

11 B. Pravděpodobnostní pravidla Pravidla doplněná neurčitostí ITRule (Goodman, Smyth, 1989) pravidla Ant C (p), kde Ant je předpoklad (konjunkce hodnot atributů), C je závěr (hodnota atributu), p je podmíněná pravděpodobnost cíle, nastane-li a předpoklad, tedy hodnota počítaná ze čtyřpolní a + b tabulky. P. Berka, /22

12 ESOD (Ivánek, Stejskal, 1988) pravidla Ant C (w), kde Ant je kombinace (konjunkce) hodnot atributů C je atribut, nebo konjunkce hodnot atributů, která nese informaci o zařazení objektu do třídy, w z intervalu [0,1] je váha vyjadřující neurčitost pravidla. platnost pravidla P(C Ant) = a/(a+b) (ze čtyřpolní tabulky) Inferenční mechanismus Přímé řetězení pravidel za použití pseudobayesovské kombinační funkce x y x * y x * y ( 1 x) *( 1 y) Získávání znalostí zpřesňování a zjemňování již existujících znalostí (knowledge refinement) postupem shora dolů (počínaje prázdným vztahem). vložit pravidlo s platností, kterou nelze odvodit z báze znalostí, P. Berka, /22

13 např. 7a11a ==> 1+ C non C Ant non Ant c d čtyřpolní tabulka ==> 1+ (0.6800) 11a ==> 1+ (0.2720) 7a ==> 1+ (0.3052) pravidla platnost = = 0.44 naskládaná váha = platnost a naskládaná váha se od sebe liší (dle 2 testu) 7a11a ==> 1+ je pravidlo s vahou w takovou, že w , tedy w = u w 1, u u P( C Ant) 1 P( C Ant) cw( C, Ant) 1 cw( C, Ant) První verze algoritmu ([Ivánek, Stejskal, 1988]) předpokládala: pouze kategoriální data, zařazení objektů do dvou tříd (příklady a protipříklady). P. Berka, /22

14 Algoritmus ESOD Inicializace 1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle četnosti 2. vytvoř OPEN - seznam implikací A(v) C uspořádaný sestupně dle četnosti levé strany implikace 3. přiřaď do KB prázdné pravidlo C (w), kde w je relativní četnost třídy C v datech Hlavní cyklus 1. Dokud OPEN není prázdný seznam 1.1. vezmi první implikaci ze seznamu OPEN (označ ji Ant C ) 1.2. spočítej platnost této implikace P(C Ant) 1.3. pokud P(C Ant) P min P(C Ant) (1 - P min ) potom spočítej pomocí kombinační funkce váhu cw(c,ant) naskládanou z vah pravidel v bázi KB aplikovatelných na Ant pokud se platnost implikace P(C Ant) signifikantně liší (na základě 2 testu) od naskládané váhy cw(c,ant) potom přidej do KB pravidlo Ant C (w), kde w cw(c,ant) = P(C Ant) 1.4. pokud délka(a) d max pro každé A(v) ze seznamu CAT takové, že A(v) je v CAT před všemi hodnotami atributů z COMB (Tedy platí, že četnost A(v) je větší nebo rovna četnosti COMB) pokud se atribut A nevyskytuje v COMB potom generuj novou kombinaci COMB A(v) přidej COMB A(v) do seznamu OPEN za poslední kombinaci C takovou, že četnost(c) četnost(comb A(v)) 1.5. odstraň COMB ze seznamu OPEN P. Berka, /22

15 Modifikace pro více tříd Váha = 0.5 odpovídá platnosti 1/R kde R je počet tříd modifikace algoritmu: váha prázdného vztahu je relativní četnosti převedené na váhu (krok 3 inicializace), 2 do testu vstupuje platnost implikace a naskládaná váha převedená na platnost (krok hlavního cyklu), váha pravidla se spočítá ze vztahu w cw(c,ant) = P (C Ant), kde P (C Ant) je platnost převedená na váhu (krok hlavního cyklu). P. Berka, /22

16 Implementace algoritmu KEX v systému LISp-Miner Uvedená pravidla odpovídají zadání d max = 4, f min = 1 a P min = 0.9. Strategie volby parametrů: plná analýza (d max = počet všech atributů, které se nevyskytují v cíli, f min = 1, P min = 0), minimální analýza (d max = 1, f min = 1, P min = 0), analýza "bez šumu" (P min = 100); toto zadání znamená, že se do báze zařadí pouze 100% vztahy. P. Berka, /22

17 prediction accuracy (%) # classified cases Dobývání znalostí z databází Práh pro provedení klasifikace: je-li výsledná váha >, pak příklad patří do třídy je-li výsledná váha < 1-, pak příklad nepatří do třídy je-li výsledná váha [1-, ], pak nelze rozhodnout Prediction performance of the KEX system # of classified cases by the KEX system alpha alpha Rozdíl oproti algoritmům pokrývání množin: 1. je potřeba dostatečný počet příkladů, 2. pro jeden příklad lze nalézt více použitelných pravidel, 3. v bázi pravidel se může objevit pravidlo i jeho specializace, 4. při konzultaci může systém pro jeden příklad doporučit více cílů. P. Berka, /22

18 Numerické atributy Příklad CN4 (On-line diskretizace v průběhu učení) Algoritmus SetBounds(a) 1. nechť PoleMezí je prázdné 2. pro každou hodnotu v j atributu a 2.1. spočítej pro každou třídu C r (r=1,..,r) četnosti Dlevá r, (Dpravá r ) hodnot v takových, že v v j (v v j ) 2.2. spočítej hodnotu funkce Hlevá(v j ) pro případ, že v j je potenciální horní mez, tedy že a v j bude selektor 2.3. spočítej hodnotu funkce Hpravá(v j ) pro případ, že v j je potenciální dolní mez, tedy že a v j bude selektor 3. pro každou hodnotu v j atributu a 3.1. pokud Hlevá(v j ) je nerostoucí lokální maximum, tedy Hlevá(v j-1 ) Hlevá(v j ) Hlevá(v j+1 ) přidej selektor a v j do PoleMezí v pořadí podle hodnoty Hlevá(v j ) 3.2. pokud Hpravá(v j ) je neklesající lokální maximum, tedy Hpravá(v j-1 ) Hpravá(v j ) Hpravá(v j+1 ) přidej selektor a v j do PoleMezí v pořadí podle hodnoty Hpravá(v j ) 4. pro každou dvojci hodnot v 1, v 2 PoleMezí 4.1. spočítej pro každou třídu C r četnost D r hodnot v takových, že v 1 v v spočítej hodnotu funkce H(v 1,v 2 ) pro četnosti D r 4.3. přidej selektor v a v 2 do PoleMezí v pořadí podle hodnoty H(v 1,v 2 ) P. Berka, /22

19 Příklad: 7 pozitivních příkladů (s hodnotami 45, 46, 50, 50, 100, 100, 120), 5 negativních příkladů (s hodnotami 51, 51, 51, 99, 99). entropie 0 horni meze dolni meze ww <= 50 ww > 99 ww > ww Lokální maxima entropie pro diskretizaci 50<ww<=99; ww<=50; ww>99; 45<ww<=50; ww>50; 45<ww<=99; ww>45; entropy=0.000; maxfreq=5 entropy=0.000; maxfreq=4 entropy=0.000; maxfreq=3 entropy=0.000; maxfreq=3 entropy=-0.954; maxfreq=5 entropy=-0.954; maxfreq=5 entropy=-0.994; maxfreq=6 P. Berka, /22

20 Numerické třídy Příklad CN4 pravidla Ant avg A (C), Mvar A (C) kde Ant je předpoklad (konjunkce hodnot atributů), avg A (C) je průměrná hodnota cílového atributu, Mvar A (C) je rozptyl tohoto průměru P. Berka, /22

21 Chybějící hodnoty Příklad CN4 1) ignoruje příklad s nějakou chybějící hodnotou, 2) nahradí chybějící hodnotu novou hodnotou nevím, 3) nahradí chybějící hodnotu některou z existujících hodnot atributu a sice: a) nejčetnější hodnotou, b) proporcionálním podílem všech hodnot, c) libovolnou hodnotou. P. Berka, /22

22 Hierarchie hodnot atributů příklad pro algoritmus ESOD (Svátek 1996) Hierarchie vstupních atributů any vlastní družstevní nájemní vlastní dům vlastní byt Nájemní byt státní Nájemní byt s majitelem Hierarchie tříd any nestanovena stanovena imunní neimunní neinfikován infikován P. Berka, /22