Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner (c) prof. RNDr. Jan Rauch, CSc. KIZI, Fakulta informatiky a statistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner Vytvořeno na základě článku J. Rauch, M. Šimůnek: GUHA Method and Granular Computing. In: HU, Xiaohua, LIU, Qing, SKOWRON, Andrzej, LIN, Tsau Young, YAGER, Ronald R., ZANG, Bo (ed.). Proceedings of Granular computing. Piscataway: IEEE, 2005, pp. 630 635. Viz též http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1547368 2
Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner Je prezentována GUHA procedura SD4ft-Miner určená pro hledání zajímavých podmnožin objektů reprezentovaných řádky analyzované matice dat. K prezentaci jsou využita medicínská data STULONG. Projekt STULONG byl realizován na II. interní klinice 1. lékařské fakulty Univerzity Karlovy a ve Všeobecné fakultní nemocnice v Praze pod vedením Prof. MUDr. F. Boudíka, DrSc. ve spolupráci s MUDr. M. Tomečkovou, CSc. a Prof. MUDr. J. Bultasem, CSc. Data byla převedena do elektronické podoby Evropským centrem pro medicínskou informatiku, statistiku a epidemiologii Univerzity Karlovy a Akademie věd ČR pod vedením Prof. RNDr. Jany Zvárové,DrSc., viz euromise.vse.cz/challenge2004/. 3
Motivace data STULONG 1417 pacientů, viz http://euromise.vse.cz/challenge2004/data/entry/ 4
Příklady atributů Systolic blood pressure [mm Hg] (systolický krevní tlak) Beer amount / day (množství piva za den) Skinfold_riceps [mm] (kožní řasa na tricepsu) 5
Přehled atributů Body Weight; Skinfold_subscapularis (kožní řasa pod lopatkou); Skinfold_ triceps (kožní řasa na tricepsu) Social characteristics Education; Marital_status; Responsibility_job (zodpovědnost v zaměstnání) Physical activity Activity_job (fyzická aktivita v zaměstnání); Activity_after_job (fyzická aktivita po zaměstnání) Blood pressure systolic, diastolic Alcohol consumption bier, wine, liquers, Group normal, risk, pathological 6
Analytická otázka - příklad Jaké dvojice skupin pacientů (normal, risk, pathological) a za jakých podmínek se v datech STULONG významně liší co se týče vztahu charakteristik těla a výše krevního tlaku? 7
Vztah charakteristik těla a výše krevního tlaku Vyjádření pomocí konfidence asociačního pravidla jednoduchý příklad: Weight(50 60) Systolic(140 160) STULONG a c b d Konfidence asociačního pravidla = Conf( ) = a /(a+b) viz též přednášku o asociačních pravidlech 8
Risk a normal pacienti se liší ohledně Weight(50 60) Systolic(140 160) Princip: Conf( ) pro rizikové pacienty a pro normální pacienty se liší alespoň o 0.4 risk normal a 2 b 2 c 2 d 2 a 2 b 2 c 2 d 2 a 1 /(a 1 +b 1 ) - a 2 /(a 2 +b 2 ) 0.4 a 1 40 a 2 40 9
SD4ft Pattern 1. množina 2. množina SD4ft-kvantifikátor : / antecedent sukcedent podmínka 1. a 2. množina objektů se liší co se týče vztahu antecedentu a sukcedentu pokud je splněna podmínka. Způsob je dán SD4ft-kvantifikátorem. 10
SD4ft Pattern - příklad verifikace v matici dat M M / M / = podmatice matice M skládající se z řádků splňujících = podmatice matice M skládající se z řádků splňujících M M a 1 b 1 c 1 d 1 a 2 b 2 c 2 d 2 Příklad SD4ft-kvantifikátoru: a 1 /(a 1 +b 1 ) - a 2 /(a 2 +b 2 ) 0.4 a 1 40 a 2 40 DiffConf 0.4 a 1 40 a 2 40 11
GUHA procedura SD4ft-Miner Matice dat M Definice množiny relevantních SD4ft - pattern Generování a verifikace jednotlivých relevantních SD4ft - pattern Všechny SD4ft pattern pravdivé v M 12
Množina relevantních SD4ft Pattern Normal / Risk / Pathological 1. množina 2. množina DiffConf 0.4 a 1 40 a 2 40 : / Body(?) Blood presssure(?) Alcohol(?) Jaké dvojice skupin pacientů (normal, risk, pathological) a za jakých podmínek se v datech STULONG významně liší co se týče vztahu charakteristik těla a výše krevního tlaku? 13
Vstup procedury SD4ft-Miner příklad Patient(?) DiffConf 0.4 a 1 40 a 2 40 Blood presssure(?) Normal / Risk / Pathological Alcohol(?) 14
Výstup procedury SD4ft-Miner příklad 52,4 * 10 6 verifikací 17 nalezených SD4ft pattern 35 minut 47 vteřin 2GB RAM, Intel T7200 processor s 2 GHz 15
SD4ft-Miner příklad detailu výstupu 16
SD4ft-Miner komentář k detailu výstupu Antecedent: Skinfold_subscapularis(0-30 University Married Succedent: Diastolic 60-90) Systolic 110-140) První skupina: Normální pacienti Druhá skupina: Rizikoví pacienti Podmínka: Beer- up to 1 litre / day Normální Suc Suc Ant 45 4 Ant 74 32 Rizikoví Suc Suc Ant 45 55 Ant 172 207 a 1 a 1 b 1 45 45 4 0,92 DiffConf = 0.47 a 2 a 2 b 2 45 45 55 0,45 17
Při tvorbě těchto elektronických podkladů pro výuku byly využity výsledky těchto projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází 18