Dobývání znalostí z databází- mnohostranná interpretace dat Petr Berka VŠE Praha berka@vse vse.cz
Dobývání znalostí z databází Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data. (Fayyad a kol., 1996) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner. (Hand, Manilla,, Smyth, 2001)
Úlohy dobývání znalostí deskripce dat a sumarizace segmentace deskripce konceptů klasifikace predikce analýza závislostí
Aplikační oblasti Segmentace a klasifikace klientů banky, pojišťovny apod. Predikce vývoje kursů akcií, Predikce spotřeby elektrické energie, Analýza příčin poruch v telekomunikačních sítích, Analýza důvodů změny poskytovatele nějakých služeb, Určení příčin poruch automobilů, Rozbor databáze pacientů v nemocnici, Analýza nákupního košíku:
Dobývání znalostí z databází metodika CRISP-DM Porozumění problematice Porozumění datům Příprava dat Využití výsledků DATA Modelování Vyhodnocení výsledků data mining
Metody a algoritmy regresní í metody diskriminační analýza shluková analýza tvorba rozhodovacích stromů tvorba rozhodovacích pravidel tvorba asociačních pravidel neuronové sítě genetické algoritmy bayesovské sítě učení založené na analogii induktivní logické programování
Mnohostranná interpretace dat případové studie z oblastí financí mediciny e-commerce Reálná data analyzovaná v rámci tzv. Discovery Challenge workshopů http://lisp. ://lisp.vse.cz/challenge
I. Data o klientech banky použitá data: 4500 účtů, 5369 klientů, 6471 trvalých příkazů, 682 záznamů o úvěrech, 892 záznamů o kreditních kartách, 1056320 záznamů o transakcích ch.
Porozumění datům multirelační data statická (klienti) i časovč asově závislá data (transakce) převaha numerických atributů nevyvážené třídy (úvěry, karty) Status úvěru absolutní počet relativně vůči všem úvěrům relativně vůči všem účtům žádný úvěr 3818-84.84% A 203 29.77% 4.51% B 31 4.55% 0.69% C 403 59.09% 8.95% D 45 6.6% 1%
Příprava dat Vhodné atributy ve vhodné reprezentaci spojení tabulek (např. počty trvalých příkazů, počty oprávněných osob ) agregování hodnot (např. měsíční souhrny transakcí) vytváření atributů (např. věk a pohlaví z rodného čísla)
Jednoduchá deskripce hledání souvislostí mezi typem úvěru a dalšími charakteristikami účtu asociační pravidla vizualizace časových řad # předpoklad loan.status Fisher podpora spolehlivost 1 prům_sankční_úrok:ne good 6.12144e-024 603 0.9234 2 prům_sankční_úrok:ano bad 6.12144e-024 26 0.8966 3 trvalý_příkaz_sipo:ano good 5.0375e-013 421 0.9546 4 trvalý_příkaz_sipo:ne bad 5.0375e-013 56 0.2324 5 kreditní_karta:ano good 1.38617e-005 165 0.9706 6 výše_splátky<2000 good 3.3309e-004 125 0.9690
Jednoduchá klasifikace klasifikace úvěrů jako bezproblémové a rizikové strom pro určení důležitosti atributů strom pro klasifikaci uvažuje se různá cena chyb
Segmentace a deskripce/klasifikace členění klientů z hlediska výše debetu a jejich charakterizace
Podpora zavádění kreditních karet (cross-selling, up-selling selling) deskripce - nalezení charakteristik klientů majících kreditní kartu metoda detekce odchylek klasifikace - určení, zda je klient držitelem karty metoda k-nejbližších k sousedů
Vytváření profilů klientů segmentace a deskripce klientů na základě transakcí Kohonenova mapa + pravidla Rule #1 for Cluster 3 If ATTR5 > 9945 and ATTR13 > 0 Then -> 3 (115, 0.983)
II. Data z oblasti medicíny Dlouhodobá primárn rně preventivní studie rizikových faktorů aterosklerózy u mužů středn edního věkuv (realizována v letech 1975-2000 na II. interní klinice 1. lékařské fakulty Univerzity Karlovy a VšeobecnV eobecné fakultní nemocnice v Praze) výsledky vstupního vyšet etření (~ ~ 1400 pacientů rozděleno do třít skupin z hlediska rizika) výsledky kontrolních vyšet etření případná informace o příčinp ině úmrtí
Control 10572x66 Entry 1417x64 Letter 403x62 Death 389x5
Asociace mezi hodnotami atributů pokud pacient pravidelně konzumoval pivo (do 1 litru),, pak pravidelně konzumoval i vínov pokud měl m l pacient vzdělání VŠ a měřm ěřil 176-180 180 cm, pak příčina úmrtí byla tumor pokud pacient nemá v současnosti zvýšenou hladinu cholesterolu a občas drží dietu, pak nebude mít m zvýšenou hladinu cholesterolu ani během b následujících ch 40 měsícům pokud pacient pravidelně konzumoval pivo, pak se u něj snižovalo riziko aterosklerózy s rostoucím vzděláním klesal počet kuřáků
Klasifikace klasifikace do původnp vodních třít skupin (normáln lní, riziková,, patologická) klasifikace do skupin odvozených z dat predikce výskytu kardiovaskulárn rní choroby v budoucnosti (+ (+ (+ (+ (- (- (- alcohol vzdelani) (- (* (* (+ moc chlst) (+ kysmoc (+ (+ (* (- dusnost pivo12) (- alcohol kysmoc)) (- syst1 (- hypll HTD))) (* ldl glykemie)))) (+ (* -3.33355 (* glykemie HT)) (+ (+ (+ (+ imtrv (* -3.33355 (* glykemie HT))) (+ (* glykemie HT) (+ (+ (- hypll HTD) (* ldl glykemie)) (* ldl glykemie)))) (- alcohol vzdelani)) (+ (* ldl glykemie) glykemie)))) (+ (+ (- ICT vinomn) (+ (+ (- (* -3.33355 byvkurak) HT) (* -3.33355 (* glykemie HT))) hypll)) (* (- vyska HTD) (+ dusnost alcohol))))) HT) (* -3.33355 (* glykemie HT))) dobakour) (+ (* (+ imtrv (* -3.33355 (* glykemie HT))) byvkurak) syst2)) (+ (+ (+ vzdelani (+ (* vinomn byvkurak) smoking)) (* (- dusnost pivo12) (- dusnost pivo12))) (+ (+ (+ glykemie (* glykemie HT)) (- hypll HTD)) (* ldl glykemie))))
Analýza závislostí korelace mezi Body Mass Index a tlouštkou kožní řasy je odlišná pro jednotlivé skupiny mužů
III. Click-stream data click-stream - sekvence stránek navštívených jedním uživatelem při jedné seanci na webu unix time ;IP address ; session ID ; page request; referee 1074589200;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/dp/?id=124 ;www.google.cz; 1074589201;194.213.35.234;3995b2c0599f1782e2b40582823b1c94;/dp/?id=182 ; 1074589202;194.138.39.56 ;2fd3213f2edaf82b27562d28a2a747aa;/ ;www.seznam.cz; 1074589233;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/dp/?id=148 ;/dp/?id=124; 1074589245;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/sb/ ;/dp/?id=148; 1074589248;194.138.39.56 ;2fd3213f2edaf82b27562d28a2a747aa;/contacts/ ; /; 1074589290;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/sb/ ;/sb/; ~3 milion liony záznamů z www shop web serveru informace o nabízeném zboží informace o typu stránky
Vizualizace návštěvnost internetového obchodu v průběhu týdne 6000 300 5000 250 Visits 4000 3000 2000 Monday Tuesday Wednesday Thursday Friday Saturday Sunday Group s 200 150 100 50 1000 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Hour 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Hour
Shluková analýza segmentace nabízených produktů
Deskripce ochota nakupovat podle typu zboží Purchasing possibility # of customers
Asociace mezi navštívenými stránkami lidé používající fulltextové vyhledávání se méně dívají na detaily zboží
Predikce následující stránky Lze na základě pozorované sekvence A 1 A 2 A n-1 určit následující stránku A n? Markovský model pravidla n 1 2... An ) = P( Ai Ai k + 1... Ai 1) i= 1 P( A A dp, sb -> sb (0.93)
Podobnost mezi sekvencemi
Segmentace navštěvníků (1/2) vytváření profilů na základě typů navštívených stránek Celkový přehled produktů Cílené hledání Potenciální zákazníci Hledání podle parametrů
Segmentace navštěvníků (2/ 2/2) 2) analýza přechodů mezi profily
Předpoklady úspěchu reálné úlohy spolupracovat s experty (na danou problematiku i na data) i s uživateli co nejvíce využívat i externí data předzpracovávat data na základě porozumění dané aplikaci analyzovat data na vhodné úrovni obecnosti začít od jednoduchých modelů hledat srozumitelné modely brát do úvahy škálovatelnost modelů hodnotit modely z hlediska návratnosti investic využít nalezené modely v rámci organizace
Otevřené problp roblémy schopnost převést obchodní problém na požadované datové transformace efektivní algoritmy zpracovávající rozličné typy dat a poskytující srozumitelné výsledky větší integrace do standardně používaných technologií a nástrojů