Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Podobné dokumenty
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Základy vytěžování dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

oddělení Inteligentní Datové Analýzy (IDA)

Základy umělé inteligence

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)

Genetické programování

Moderní systémy pro získávání znalostí z informací a dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Chybějící atributy a postupy pro jejich náhradu

Předzpracování dat. Lenka Vysloužilová

Výroková a predikátová logika - III

Jan Březina. Technical University of Liberec. 30. dubna 2013

Rozhodovací pravidla

Znalosti budeme nejčastěji vyjadřovat v predikátové logice prvního řádu. Metody:

Algoritmy výpočetní geometrie

Ochutnávka strojového učení

Jan Březina. Technical University of Liberec. 21. dubna 2015

Přednáška 13 Redukce dimenzionality

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Metody odvozování. matematická východiska: logika, Prolog

Algoritmizace a programování. Ak. rok 2012/2013 vbp 1. ze 44

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Standardní algoritmy vyhledávací.

Basic256 - úvod do programování Příklady. ing. petr polách

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Programování II. Úvod do dědičnosti 2018/19

IB015 Neimperativní programování. Časová složitost, Typové třídy, Moduly. Jiří Barnat Libor Škarvada

Pravděpodobně skoro správné. PAC učení 1

Binární vyhledávací strom pomocí směrníků Miroslav Hostaša L06620

Rozhodovací procesy 3

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Použití dalších heuristik

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Metody založené na analogii

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

MQL4 COURSE. By Coders guru -5 Smyčky & Rozhodnutí Část 2

Programování v jazyce JavaScript

ANOTACE vytvořených/inovovaných materiálů

Unbounded Model Checking

Aktivní detekce chyb

Pokročilé neparametrické metody. Klára Kubošová

AVDAT Mnohorozměrné metody, metody klasifikace

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Dynamické datové struktury IV.

DATA MINING KLASIFIKACE DMINA LS 2009/2010

Rekurentní rovnice, strukturální indukce

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Strojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement).

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

Rekurentní rovnice, strukturální indukce

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Složitost her. Herní algoritmy. Otakar Trunda

TGH09 - Barvení grafů

Pravidlové znalostní systémy

Grafové algoritmy. Programovací techniky

Hranová konzistence. Arc consistency AC. Nejprve se zabýváme binárními CSP. podmínka odpovídá hraně v grafu podmínek

Grafové algoritmy. Programovací techniky

ROZHODOVACÍ PROCEDURY A VERIFIKACE PAVEL SURYNEK, KTIML

1. Dědičnost a polymorfismus

u odpovědí typu A, B, C, D, E: Obsah: jako 0) CLP Constraint Logic Programming

Vytěžování dat přednáška I

Povědomí o homeopatii

Implementace seznamů do prostředí DELPHI pomocí lineárního seznamu

Drsná matematika III 10. demonstrovaná cvičení Kostry grafů

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Kompetence zdravotních pojišťoven při úhradě zdravotních služeb. MUDr. Pavel Frňka

Násobení pomocí sčítání

x 2 = a 2 + tv 2 tedy (a 1, a 2 ) T + [(v 1, v 2 )] T A + V Příklad. U = R n neprázdná množina řešení soustavy Ax = b.

1 PRVOCISLA: KRATKY UKAZKOVY PRIKLAD NA DEMONSTRACI BALIKU WEB 1

FINANČNÍ ŘÍZENÍ A ROZHODOVÁNÍ PODNIKU

bfs, dfs, fronta, zásobník

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

Dijkstrův algoritmus

Vector datový kontejner v C++.

Rozhodovací stromy a jejich konstrukce z dat

Nepravidlové a hybridní znalostní systémy

OSA. maximalizace minimalizace 1/22

Problém batohu. Zdeněk Hanzálek ČVUT FEL Katedra řídicí techniky. 5. dubna 2011

Usuzování za neurčitosti

PROGRAMY PRO GIS. Formovat/formulovat problém pro aplikaci v počítači. Fungování GIS programů na základní úrovni - "uvažovat" jako počítač

UČEBNÍ OSNOVA EKONOMIKA

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

Nelineární rovnice. Numerické metody 6. května FJFI ČVUT v Praze

Problémy třídy Pa N P, převody problémů

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague


Support Vector Machines (jemný úvod)

Lekce 01 Úvod do algoritmizace

ELEKTRONICKÁ PORODNÍ KNIHA POPIS APLIKACE Michal Huptych, Petr Janků, Lenka Lhotská

Získávání znalostí z dat

Nalezněte obecné řešení diferenciální rovnice (pomocí separace proměnných) a řešení Cauchyho úlohy: =, 0 = 1 = 1. ln = +,

Strojové učení se zaměřením na vliv vstupních dat

KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Numerické řešení nelineárních rovnic

popel, glum & nepil 16/28

Transkript:

Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení if teplota=zvýšená then nachlazení

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení if teplota=zvýšená then nachlazení if teplota=normální then hypochondr Pravidla lze ale hledat i přímo z dat.

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & bydliště = Praha & pohlaví = M then splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & bydliště = Praha & pohlaví = M then splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & pohlaví = M then splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & pohlaví = M then splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí

Zobecňování podmínek

Zobecňování podmínek

Zobecňování podmínek

Zobecňování podmínek

Zobecňování podmínek

Alternativa: specializace podmínek

Alternativa: specializace podmínek Nemá smysl dále specializovat.

Specializace bez předem zvoleného příkladu

Specializace bez předem zvoleného příkladu

Specializace bez předem zvoleného příkladu Mnohem větší prohledávací prostor, ale pravidlo může být nakonec lepší.

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí 2. if příjem = střední then splácí

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí 2. if příjem = střední then splácí

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1. if příjem = vysoký then splácí 2. if příjem = střední then splácí Pokrývací strategie 1. Vygeneruj co nejobecnější konzistentní pravidlo a vymaž pokryté příklady. 2. Opakuj krok 1, dokud jsou některé příklady nepokryté. Tyto kroky postupně uplatni na každou třídu.

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Zvolen jeden modrý příklad

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Zobecnění s použítím hraničních hodnot (předchozí diskretizace)

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Přidání dalšího pravidla

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Výsledek pokrývacího algoritmu

Neúplnost klasifikace podle pravidel Některé instance seznam pravidel nemusí rozhodnout! Narozdíl od rozhodovacího stromu

Neúplnost klasifikace podle pravidel Řeší se zavedením implicitního (default) pravidla if true then většinová třída které se použije, pokud podmínky žádného jiného pravidla neplatí.

Konflikt pravidel Pravidlo pro modrou třídu

Konflikt pravidel Potom pravidlo pro zelenou třídu. Překrytí - konflikt!

Konflikt pravidel Jak seznamem klasifikovat novou instanci?

Konflikt pravidel Modře, protože modré pravidlo je v seznamu dřív.

Konflikt pravidel Modře, protože modré pravidlo je v seznamu dřív.

Konflikt pravidel Při obráceném pořadí pravidel klasifikujeme instanci zeleně.

Konflikt pravidel Na pořadí pravidel záleží!

Konflikt pravidel Důsledek: implicitní pravidlo vždy na konec seznamu. if true then většinová třída

Rozhodovací pravidla a asociace Hledání nejlepších podmínek rozhodovacího pravidla je vlastně hledání častých asociací v dané třídě instancí. if příjem=vysoký & bydliště=praha }{{} častá asociace then Asociace konjunkce současně platných podmínek splácí }{{} v této třídě Chceme, aby platila v co nejvíce instancích dané třídy a žádné instanci ostatních tříd. Co kdybychom jako třídu chápali všechny instance v datech? Cíl se zjednoduší: chceme asociace platné v co nejvíce instancích dat.