Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Save this PDF as:
 WORD  PNG  TXT  JPG

Rozměr: px
Začít zobrazení ze stránky:

Download "Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017"

Transkript

1 Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

2 Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka

3 Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení

4 Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení if teplota=zvýšená then nachlazení

5 Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení if teplota=zvýšená then nachlazení if teplota=normální then hypochondr Pravidla lze ale hledat i přímo z dat.

6 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí

7 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & bydliště = Praha & pohlaví = M then splácí

8 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & bydliště = Praha & pohlaví = M then splácí

9 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & pohlaví = M then splácí

10 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & pohlaví = M then splácí

11 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

12 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

13 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

14 Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

15 Zobecňování podmínek

16 Zobecňování podmínek

17 Zobecňování podmínek

18 Zobecňování podmínek

19 Zobecňování podmínek

20 Alternativa: specializace podmínek

21 Alternativa: specializace podmínek Nemá smysl dále specializovat.

22 Specializace bez předem zvoleného příkladu

23 Specializace bez předem zvoleného příkladu

24 Specializace bez předem zvoleného příkladu Mnohem větší prohledávací prostor, ale pravidlo může být nakonec lepší.

25 Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí

26 Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí

27 Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí

28 Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí 2. if příjem = střední then splácí

29 Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí 2. if příjem = střední then splácí

30 Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí 2. if příjem = střední then splácí Pokrývací strategie 1. Vygeneruj co nejobecnější konzistentní pravidlo a vymaž pokryté příklady. 2. Opakuj krok 1, dokud jsou některé příklady nepokryté. Tyto kroky postupně uplatni na každou třídu.

31 Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Zvolen jeden modrý příklad

32 Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Zobecnění s použítím hraničních hodnot (předchozí diskretizace)

33 Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Přidání dalšího pravidla

34 Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Výsledek pokrývacího algoritmu

35 Neúplnost klasifikace podle pravidel Některé instance seznam pravidel nemusí rozhodnout! Narozdíl od rozhodovacího stromu

36 Neúplnost klasifikace podle pravidel Řeší se zavedením implicitního (default) pravidla if true then většinová třída které se použije, pokud podmínky žádného jiného pravidla neplatí.

37 Konflikt pravidel Pravidlo pro modrou třídu

38 Konflikt pravidel Potom pravidlo pro zelenou třídu. Překrytí - konflikt!

39 Konflikt pravidel Jak seznamem klasifikovat novou instanci?

40 Konflikt pravidel Modře, protože modré pravidlo je v seznamu dřív.

41 Konflikt pravidel Modře, protože modré pravidlo je v seznamu dřív.

42 Konflikt pravidel Při obráceném pořadí pravidel klasifikujeme instanci zeleně.

43 Konflikt pravidel Na pořadí pravidel záleží!

44 Konflikt pravidel Důsledek: implicitní pravidlo vždy na konec seznamu. if true then většinová třída

45 Rozhodovací pravidla a asociace Hledání nejlepších podmínek rozhodovacího pravidla je vlastně hledání častých asociací v dané třídě instancí. if příjem=vysoký & bydliště=praha }{{} častá asociace then Asociace konjunkce současně platných podmínek splácí }{{} v této třídě Chceme, aby platila v co nejvíce instancích dané třídy a žádné instanci ostatních tříd. Co kdybychom jako třídu chápali všechny instance v datech? Cíl se zjednoduší: chceme asociace platné v co nejvíce instancích dat.