Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 Využití doménových znalostí (c) prof. RNDr. Jan Rauch, CSc. KIZI, Fakulta informatiky a statistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Využití doménových znalostí Jsou naznačeny možnosti využití doménových znalostí při dobývání znalostí z databází. K prezentaci jsou využita medicínská data STULONG. Projekt STULONG byl realizován na II. interní klinice 1. lékařské fakulty Univerzity Karlovy a ve Všeobecné fakultní nemocnice v Praze pod vedením Prof. MUDr. F. Boudíka, DrSc. ve spolupráci s MUDr. M. Tomečkovou, CSc. a Prof. MUDr. J. Bultasem, CSc. Data byla převedena do elektronické podoby Evropským centrem pro medicínskou informatiku, statistiku a epidemiologii Univerzity Karlovy a Akademie věd ČR pod vedením Prof. RNDr. Jany Zvárové,DrSc., viz euromise.vse.cz/challenge2004/. 2
Využití doménových znalostí Vytvořeno s využitím článku Rauch, J. - Šimůnek, M.: Applying Domain Knowledge in Association Rules Mining Process - First Experience. In: Foundations of Intelligent Systems Lecture Notes in Computer Science, 2011, Volume 6804/2011, 113-122. (viz též http://www.springerlink.com/content/x311835h07j27503/ ) 3
Využití doménových znalostí Data STULONG - použité skupiny atributů Příklad analytické otázky a její řešení pomocí procedury 4ft-Miner Znalosti o vzájemném vlivu atributů uchovávané v systému LISp-Miner Odfiltrování důsledků známého vzájemném vlivu atributů příklad 4
Data STULONG matice dat Entry 1417 pacientů, viz http://euromise.vse.cz/challenge2004/data/entry/ 5
Data STULONG použité skupiny atributů Osobní charakteristiky Marital_status Marital_status Education Responsibility BMI 13 Problémy Diabetes yes/30, no/1378 Hypertension yes/220, no/1192 Infarction yes/34, no/1378 Hyperlipidemia yes/54, no/815 Výsledky vyšetření Diast 7 Syst 9 Cholesterol 10 6
Analytická otázka příklad Jsou v matici dat Entry nějaké zajímavé vztahy mezi kombinacemi osobních charakteristik a problémů pacienta na straně jedné a výsledků vyšetření na straně druhé??: Entry; Charakteristiky Problémy Vyšetření? Entry; B (Charakteristiky) B (Problémy) 0.85, 30 B (Vyšetření) 7
Zadání pravidel relevantních k analytické otázce B(Charakteristiky) B(Problémy) 0.85,30 B(Vyšetření) B(Charakteristiky) 0.85,30 B(Problémy) B(Vyšetření) 8
Zadání pravidel relevantních k analytické otázce BMI 13 Intervaly délky 1 4 46 = 13+12+11+10 Intervaly délky 1 Intervaly délky 2 Intervaly délky 3 13 12 11 Intervaly délky 4 10 9
Zadání pravidel relevantních k analytické otázce Diabetes(yes) Diabetes(yes) Hyperilipidemia (yes) Diabetes(yes) Hyperilipidemia (yes) Hypertension(yes) Diabetes(yes) Hyperilipidemia (yes) Hypertension(yes) Infarction(yes) Diabetes(yes) Hyperilipidemia (yes) Infarction(yes) Diabetes(yes) Hypertension(yes) Diabetes(yes) Hypertension(yes) Infarction(yes) Diabetes(yes) Infarction(yes) Hyperilipidemia (yes) Hyperilipidemia (yes) Hypertension(yes) Hyperilipidemia (yes) Hypertension(yes) Infarction(yes) Hyperilipidemia (yes) Infarction(yes) Hypertension(yes) Hypertension(yes) Infarction(yes) Infarction(yes) 10
Zadání pravidel relevantních k analytické otázce Interval Interval Interval Interval Interval Interval Interval Interval Interval Interval Interval Interval Interval Interval Interval 11
Aplikace procedury 4ft-Miner Entry generation + verification 12
Výstup procedury 4ft-Miner 180* 10 6 verifikací 112 minut 123 pravidel Problém mnoho důsledků známého faktu: Když roste BMI, tak roste i diastolický tlak. BMI Diast 13
Detail výstupu Vzdělání (vyučen, maturita) BMI(23;27 Hyperlipidemie Infarkt 0.87,41 Diastolic 70,100) 14
Znalosti o vzájemném vlivu atributů uchovávané v systému LISp-Miner příklady Když roste BMI tak roste i diastolický krevní tlak Když roste BMI tak roste i šance na infarkt Není známo Pacienti s vyšším vzděláním mají nižší diastolický krevní tlak Pacienti s vyšším vzděláním mají nižší BMI 15
Doménové znalosti - příklady využití Formulace analytické otázky Formalizované prvky doménové znalosti převedeme na množiny asociačních pravidel které lze chápat jako jejich důsledky. K tomu použijeme: konzultace s doménovými experty dedukci mezi asociačními pravidly Množiny asociačních pravidel důsledky prvků doménových znalostí využíváme k odfiltrování nezajímavých pravidel z výstupu syntéze nových prvků doménové znalosti (ale opatrně) 16
Analytická otázka s využitím doménové znalosti Jsou v matici dat Entry nějaké zajímavé vztahy mezi kombinacemi osobních charakteristik a problémů pacienta na straně jedné a výsledků vyšetření na straně druhé? Nezajímají nás však důsledky známého faktu, že když roste BMI tak roste také diastolický krevní tlak.?: Entry; (BMI Diast) Charakteristiky Problémy Vyšetření?: Entry; (BMI Diast) B (Charakteristiky) B (Problémy) 0.85, 30 B (Vyšetření) 17
Převod doménové znalosti na množinu pravidel Prvek doménové znalosti se převede na množinu pravidel, které lze chápat jako jeho důsledky. Jsou to: a) atomické důsledky velmi jednoduchá pravidla určená expertem b) logické důsledky atomických důsledků s využitím dedukčních pravidel v logickém kalkulu asociačních pravidel c) přijímané důsledky tedy pravidla, která expert určí jako nic nového neříkající pravidla a která lze chápat jako důsledky a) nebo b) i když z nich logicky nevyplývají. 18
Atomické důsledky BMI Diastolic pro 0.85, 30 p 0.85, Base 30 BMI(low) p, Base Diastolic(low) BMI(medium) p, Base Diastolic(medium) BMI(high) p, Base Diastolic(hi BMI(low) Diast(low) BMI(16;21 0.85,30 Diast 50;70) BMI(21;22 0. 95,35 Diast( 50;70), 70;80) BMI((21;22, (22;23 ) 0. 87,32 Diast 50;70) 19
Logický důsledek atomického důsledku - příklady atomický důsledek: BMI(24,28 0.86, 32 Diast 80,100) BMI(24,28 0.86,32 Diast 80,110) logicky plyne z BMI(24,28 0.86, 32 Diast 80,100) Entry Diast 80;100) Diast 80;100) Entry Diast 80;110) Diast 80;110) BMI(24,28 a b BMI(24,28 a b BMI(24,28 c d BMI(24,28 c d a a b b: a a b a' 0.86 a 32 0.86 a' a' b' 32 BMI(24,28 0.86,32 Diast 80,110) Diabetes (yes) logicky plyne z BMI(24,28 0.86, 32 Diast 80,100) 20
Přijímaný důsledek - příklad Atomický důsledek: BMI(24,26 0.875, 42 Diast 70,100) BMI(24,26 Hyperlipidemia(yes) Infarction(yes) 0.875, 42 Diast 70,100) neplyne logicky z BMI(24,28 0.875,42 Diast 70,100) ale neříká nic nového: - má stejné parametry (konfidence = 0.875 and Base = 42 - týká se podmnožiny pacientů jichž se týká výchozí atomický důsledek 21
Výstup procedury (připomenutí) 180* 10 6 verifikací 112 minut 123 pravidel Problém mnoho důsledků známého faktu: Když roste BMI, tak roste i diastolický tlak. BMI Diast 22
26 pravidel po odfiltrování důsledků BMI Diast 16 důsledků BMI Syst Další výzkum pro potvrzení BMI Syst (pokud považováno za dosud neznáme, viz výše) 23
Při tvorbě těchto elektronických podkladů pro výuku byly využity výsledky těchto projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází 24