znalostí z databází- mnohostranná interpretace dat

Podobné dokumenty
Dobývání znalostí z databází

Dobývání znalostí z webu web mining

Získávání dat z databází 1 DMINA 2010

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Segmentace bankovních zákazníků algoritmem k- means

Získávání znalostí z dat

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání dat a strojové učení

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí

9. Dobývání znalostí v praxi

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Moderní systémy pro získávání znalostí z informací a dat

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Profitabilita klienta v kontextu Performance management

Získávání znalostí z databází. Alois Kužela

BA_EM Electronic Marketing. Pavel

Analytické procedury v systému LISp-Miner

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Dobývání a vizualizace znalostí

1. Dobývání znalostí z databází

VYUŽITÍ PROGRAMU DATA MINING V ANALÝZE NÁKUPNÍHO CHOVÁNÍ

Úvod do dobývání. znalostí z databází

Základy vytěžování dat

Efektivní informační služby NTK pro veřejnost a státní správu. 25. dubna 2012

Využití metod strojového učení v bioinformatice David Hoksza

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

Předzpracování dat. Lenka Vysloužilová

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Vytěžování dat přednáška I

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Úvodem Dříve les než stromy 3 Operace s maticemi

Dolování asociačních pravidel

Chybějící atributy a postupy pro jejich náhradu

Objektová tvorba SW, Analýza požadavků 2006 UOMO 53

Dolování z textu. Martin Vítek

Produktový list Letáky

asné trendy rizikových faktorů KVO

Dobývání znalostí z textů text mining

1. Data mining. Strojové učení. Základní úlohy.

Datové sklady. Zdeněk Kouba

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

NTERNETOVÝ OBCHOD- PRO RETAILING

Jak využít data o zákaznících ke zvýšení příjmů z prodeje

8.2 Používání a tvorba databází

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Úloha 1. Úloha 2. Úloha 3. Text úlohy. Text úlohy. Text úlohy

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Státnice odborné č. 20

Program výhod Martin Techman ředitel úseku rozvoj obchodu České spořitelny

Uživatelská podpora v prostředí WWW

Nová Koncepce ekonomického zpravodajství resortu zdravotnictví Seminář: Rekonstrukce Národního zdravotnického informačního systému

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Úvod Funkcionalita modulu Záchyt pacienta s DM Zápis a prohlížení záznamů pacienta s DM

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

TNÍ POKLADNA. tní pokladny (IISSP) Hradec Králové 2. dubna 2012

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Okruhy ke státním závěrečným zkouškám Platnost: od leden 2017

Katedra kybernetiky, FEL, ČVUT v Praze.

Datové modelování II

Klasifikace analytických účtů vypořádání zaslaných připomínek. Ing. Markéta Bartůňková

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

Vznik NEKUŘÁCKÉ NEMOCNICE ve FN Hradec Králové

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Data Science projekty v telekomunikační společnosti

Neuronové časové řady (ANN-TS)

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Přednáška 13 Redukce dimenzionality

Kategorie údajů. Podskupina domén osobních údajů. Skupina domén osobních údajů. Domény osobních údajů

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

OSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA

OSA. maximalizace minimalizace 1/22

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

Metody založené na analogii

Big Data Science Petr Paščenko

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

JESTLIŽE Poruchy druhu p j Vykazují v období záruky odchylku S > P resp. S < P POTOM Potenciální příčinou poruch je závada Z s vahou w

OBECNÁ NABÍDKA. Realizace energetických úspor ve spolupráci s BASE-ING. GmbH. Jindřich Ertner jednatel ENEUS s.r.o. Červenec 2010

Genetické programování

Současná teorie finančních služeb cvičení č Úvod do teorií finančních služeb rekapitulace základních pojmů a jejich interpretace

Essox: Upgrade systému Microsoft Dynamics CRM

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Snadný a efektivní přístup k informacím

C82,C83,C84,C85 - Ne-Hodgkinův lymfom

MBI - technologická realizace modelu

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

DNSSEC Validátor - doplněk prohlížečů proti podvržení domény

Téma dizertační práce - Strategie ŠKODA AUTO pro čínský trh

Využití mobilní technologie O2 pro dohledové systémy a sběr medicínských dat

Transkript:

Dobývání znalostí z databází- mnohostranná interpretace dat Petr Berka VŠE Praha berka@vse vse.cz

Dobývání znalostí z databází Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data. (Fayyad a kol., 1996) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner. (Hand, Manilla,, Smyth, 2001)

Úlohy dobývání znalostí deskripce dat a sumarizace segmentace deskripce konceptů klasifikace predikce analýza závislostí

Aplikační oblasti Segmentace a klasifikace klientů banky, pojišťovny apod. Predikce vývoje kursů akcií, Predikce spotřeby elektrické energie, Analýza příčin poruch v telekomunikačních sítích, Analýza důvodů změny poskytovatele nějakých služeb, Určení příčin poruch automobilů, Rozbor databáze pacientů v nemocnici, Analýza nákupního košíku:

Dobývání znalostí z databází metodika CRISP-DM Porozumění problematice Porozumění datům Příprava dat Využití výsledků DATA Modelování Vyhodnocení výsledků data mining

Metody a algoritmy regresní í metody diskriminační analýza shluková analýza tvorba rozhodovacích stromů tvorba rozhodovacích pravidel tvorba asociačních pravidel neuronové sítě genetické algoritmy bayesovské sítě učení založené na analogii induktivní logické programování

Mnohostranná interpretace dat případové studie z oblastí financí mediciny e-commerce Reálná data analyzovaná v rámci tzv. Discovery Challenge workshopů http://lisp. ://lisp.vse.cz/challenge

I. Data o klientech banky použitá data: 4500 účtů, 5369 klientů, 6471 trvalých příkazů, 682 záznamů o úvěrech, 892 záznamů o kreditních kartách, 1056320 záznamů o transakcích ch.

Porozumění datům multirelační data statická (klienti) i časovč asově závislá data (transakce) převaha numerických atributů nevyvážené třídy (úvěry, karty) Status úvěru absolutní počet relativně vůči všem úvěrům relativně vůči všem účtům žádný úvěr 3818-84.84% A 203 29.77% 4.51% B 31 4.55% 0.69% C 403 59.09% 8.95% D 45 6.6% 1%

Příprava dat Vhodné atributy ve vhodné reprezentaci spojení tabulek (např. počty trvalých příkazů, počty oprávněných osob ) agregování hodnot (např. měsíční souhrny transakcí) vytváření atributů (např. věk a pohlaví z rodného čísla)

Jednoduchá deskripce hledání souvislostí mezi typem úvěru a dalšími charakteristikami účtu asociační pravidla vizualizace časových řad # předpoklad loan.status Fisher podpora spolehlivost 1 prům_sankční_úrok:ne good 6.12144e-024 603 0.9234 2 prům_sankční_úrok:ano bad 6.12144e-024 26 0.8966 3 trvalý_příkaz_sipo:ano good 5.0375e-013 421 0.9546 4 trvalý_příkaz_sipo:ne bad 5.0375e-013 56 0.2324 5 kreditní_karta:ano good 1.38617e-005 165 0.9706 6 výše_splátky<2000 good 3.3309e-004 125 0.9690

Jednoduchá klasifikace klasifikace úvěrů jako bezproblémové a rizikové strom pro určení důležitosti atributů strom pro klasifikaci uvažuje se různá cena chyb

Segmentace a deskripce/klasifikace členění klientů z hlediska výše debetu a jejich charakterizace

Podpora zavádění kreditních karet (cross-selling, up-selling selling) deskripce - nalezení charakteristik klientů majících kreditní kartu metoda detekce odchylek klasifikace - určení, zda je klient držitelem karty metoda k-nejbližších k sousedů

Vytváření profilů klientů segmentace a deskripce klientů na základě transakcí Kohonenova mapa + pravidla Rule #1 for Cluster 3 If ATTR5 > 9945 and ATTR13 > 0 Then -> 3 (115, 0.983)

II. Data z oblasti medicíny Dlouhodobá primárn rně preventivní studie rizikových faktorů aterosklerózy u mužů středn edního věkuv (realizována v letech 1975-2000 na II. interní klinice 1. lékařské fakulty Univerzity Karlovy a VšeobecnV eobecné fakultní nemocnice v Praze) výsledky vstupního vyšet etření (~ ~ 1400 pacientů rozděleno do třít skupin z hlediska rizika) výsledky kontrolních vyšet etření případná informace o příčinp ině úmrtí

Control 10572x66 Entry 1417x64 Letter 403x62 Death 389x5

Asociace mezi hodnotami atributů pokud pacient pravidelně konzumoval pivo (do 1 litru),, pak pravidelně konzumoval i vínov pokud měl m l pacient vzdělání VŠ a měřm ěřil 176-180 180 cm, pak příčina úmrtí byla tumor pokud pacient nemá v současnosti zvýšenou hladinu cholesterolu a občas drží dietu, pak nebude mít m zvýšenou hladinu cholesterolu ani během b následujících ch 40 měsícům pokud pacient pravidelně konzumoval pivo, pak se u něj snižovalo riziko aterosklerózy s rostoucím vzděláním klesal počet kuřáků

Klasifikace klasifikace do původnp vodních třít skupin (normáln lní, riziková,, patologická) klasifikace do skupin odvozených z dat predikce výskytu kardiovaskulárn rní choroby v budoucnosti (+ (+ (+ (+ (- (- (- alcohol vzdelani) (- (* (* (+ moc chlst) (+ kysmoc (+ (+ (* (- dusnost pivo12) (- alcohol kysmoc)) (- syst1 (- hypll HTD))) (* ldl glykemie)))) (+ (* -3.33355 (* glykemie HT)) (+ (+ (+ (+ imtrv (* -3.33355 (* glykemie HT))) (+ (* glykemie HT) (+ (+ (- hypll HTD) (* ldl glykemie)) (* ldl glykemie)))) (- alcohol vzdelani)) (+ (* ldl glykemie) glykemie)))) (+ (+ (- ICT vinomn) (+ (+ (- (* -3.33355 byvkurak) HT) (* -3.33355 (* glykemie HT))) hypll)) (* (- vyska HTD) (+ dusnost alcohol))))) HT) (* -3.33355 (* glykemie HT))) dobakour) (+ (* (+ imtrv (* -3.33355 (* glykemie HT))) byvkurak) syst2)) (+ (+ (+ vzdelani (+ (* vinomn byvkurak) smoking)) (* (- dusnost pivo12) (- dusnost pivo12))) (+ (+ (+ glykemie (* glykemie HT)) (- hypll HTD)) (* ldl glykemie))))

Analýza závislostí korelace mezi Body Mass Index a tlouštkou kožní řasy je odlišná pro jednotlivé skupiny mužů

III. Click-stream data click-stream - sekvence stránek navštívených jedním uživatelem při jedné seanci na webu unix time ;IP address ; session ID ; page request; referee 1074589200;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/dp/?id=124 ;www.google.cz; 1074589201;194.213.35.234;3995b2c0599f1782e2b40582823b1c94;/dp/?id=182 ; 1074589202;194.138.39.56 ;2fd3213f2edaf82b27562d28a2a747aa;/ ;www.seznam.cz; 1074589233;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/dp/?id=148 ;/dp/?id=124; 1074589245;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/sb/ ;/dp/?id=148; 1074589248;194.138.39.56 ;2fd3213f2edaf82b27562d28a2a747aa;/contacts/ ; /; 1074589290;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/sb/ ;/sb/; ~3 milion liony záznamů z www shop web serveru informace o nabízeném zboží informace o typu stránky

Vizualizace návštěvnost internetového obchodu v průběhu týdne 6000 300 5000 250 Visits 4000 3000 2000 Monday Tuesday Wednesday Thursday Friday Saturday Sunday Group s 200 150 100 50 1000 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Hour 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Hour

Shluková analýza segmentace nabízených produktů

Deskripce ochota nakupovat podle typu zboží Purchasing possibility # of customers

Asociace mezi navštívenými stránkami lidé používající fulltextové vyhledávání se méně dívají na detaily zboží

Predikce následující stránky Lze na základě pozorované sekvence A 1 A 2 A n-1 určit následující stránku A n? Markovský model pravidla n 1 2... An ) = P( Ai Ai k + 1... Ai 1) i= 1 P( A A dp, sb -> sb (0.93)

Podobnost mezi sekvencemi

Segmentace navštěvníků (1/2) vytváření profilů na základě typů navštívených stránek Celkový přehled produktů Cílené hledání Potenciální zákazníci Hledání podle parametrů

Segmentace navštěvníků (2/ 2/2) 2) analýza přechodů mezi profily

Předpoklady úspěchu reálné úlohy spolupracovat s experty (na danou problematiku i na data) i s uživateli co nejvíce využívat i externí data předzpracovávat data na základě porozumění dané aplikaci analyzovat data na vhodné úrovni obecnosti začít od jednoduchých modelů hledat srozumitelné modely brát do úvahy škálovatelnost modelů hodnotit modely z hlediska návratnosti investic využít nalezené modely v rámci organizace

Otevřené problp roblémy schopnost převést obchodní problém na požadované datové transformace efektivní algoritmy zpracovávající rozličné typy dat a poskytující srozumitelné výsledky větší integrace do standardně používaných technologií a nástrojů