Získávání znalostí z databází Alois Kužela
Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37
Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního objevování implicitních, dopedu neznámých a potenciáln použitelných znalostí v datech související pojmy: Datové sklady, datové trhy Topíme se v datech, ale trpíme nedostatkem znalosti. OLAP 3/37
Pro data mining? roste objem dat uložený v databázích vznikají rychlejší, levnjší a pokroilejší databázové technologie neustále generujeme nová data obchodní a bankovní transakce výzkum, astronomie, biologie, z rozsáhlých dat se obtížn vyvozují závry dát uloženým datm význam 4/37
Data, informace, znalosti? data (údaje) surové hodnoty, fakta 25, erná informace data, která mají smysl a pínos prmrný plat zákazník v tisících, nejprodávanjší barva telefonu znalosti (poznatky) informace + objevování, analýzy, zákazník si pravdpodobn koupí i notebook 5/37
Definice informace (Oracle) máme údaje víme, že máme údaje víme, kde tyto údaje máme máme k nim pístup zdroji údaj mžeme dvovat 6/37
Vztah údaje informace znalosti Moudrost znalosti informace údaje Business Inteligence proces transformace údaj na informace a pevod informací na poznatky prostednictvím objevování. 7/37
Data Mining a Business Intelligence 8/37 Rostoucí potenciál podpory rozhodování Rozhodování Prezentace dat Vizualizaní techniky Dolování dat Objevování informace Zkoumání dat analýza, dotazování, sestavy Datové sklady / datová tržišt OLAP techniky Datové zdroje Papír, soubory, databázové systémy, OLTP systémy Koncový uživatel Obchodní analytik Datový analytik DBA
Co je získávání znalostí z databází? extrakce zajímavých model dat a vzor z velkých objem dat hledané modely jsou: netriviální skryté díve neznámé platné potenciáln užitené 9/37
Píklady aplikací prmysl (diagnostika poruch, predikce spoteby, ) obchod (marketing, bankovnictví) vda (charakterizace karcinogenních látek, hypotézy, ) medicína (mapování lidského genomu) 10/37
Proces získávání znalostí z dat Stanovení cíl Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádt? Je problém ešitelný? Budou získané výsledky užitené v praxi? V jakém tvaru a form chceme výsledky získávání znalostí zobrazit? Výbr zdroj dat 11/37
Proces získávání znalostí z dat 1) ištní dat 2) integrace dat 3) výbr dat 4) transformace dat 5) dolování dat 6) hodnocení model a vzor 7) prezentace znalostí pedzpracování dat 12/37
Pedzpracování dat Je tato fáze nezbytná? Objemné databáze je poteba vybrat relevantní data Nesprávná, nekonzistentní data, chybjící hodnoty Zvýší efektivitu a usnadní proces získávání znalostí nejpracnjšíást celého procesu asto se provádí opakovan 13/37
Pedzpracování dat píprava dat selekce atribut výbr relevantních atribut ištní dat získávání odvozených atribut pevod typ dat transformace dat do jedné velké tabulky formátování pro jednotlivé modelovací techniky 14/37
Dolování dat Aplikace zvoleného algoritmu na pedzpracovaná data, dle typu znalosti a dat Typy znalostí Asocianí pravidla - hledání vazeb mezi objekty Shlukování - seskupování podobných objekt Klasifikace - piazení tídy objektu Predikce - pedpov chování objektu v ase 15/37
Vyhodnocení zhodnocení dosažených výsledk zhodnocení výsledk z pohledu zadání asto návrat zpt na zaátek celého procesu a stanovení nových cíl (úprava zadaní) vizualizace 16/37
Typy dolovacích úloh prediktivní: regrese klasifikace deskriptivní: shlukování / sdružování podobností asocianí pravidla a jejich varianty detekce odchylek 17/37
Asocianí pravidla hledání zajímavých asociacíi korelací ve velkém množství dat pvodn pro transakní data obchodní transakce analýza nákupního košíku podpora rozhodování 18/37
Základní pojmy pravidla tvaru T, A!! " 19/37
Dležité metriky udávají významnost nalezených pravidel #$% #% $ spolehlivost c (confidence) kolik % ze všech transakcí tvaru A & " 20/37
Metriky Zápis s využitím pravdpodobnosti s(a %'# % c(a%'#(% 21/37
Píklad analýzy košíku získané pravidlo o nákupu položek poíta )*+,-$./$ význam: 8 % všech nákup obsahovalo ob položky pi koupi poítae se kupoval v 60 % také OS závry 60 % poctivých uživatel OS Windows návrh akcí, katalog na základ tchto informací 22/37
Další pojmy silné asocianí pravidlo má podporu a spolehlivost vyšší než uživatelem zadaná hodnota frekventovaná množina množina položek, která má podporu vyšší než minimální hodnota 23/37
Hledání asocianích pravidel výpoet frekventovaných množin na základ minimální podpory asov náronjší krok generování silných asocianích pravidel z frekventovaných množin na základ minimální spolehlivosti 24/37
Apriori Transakní databáze 0 " princip postupného generování kandidát na frekventované množiny zaíná se u množin velikosti 1 spojovací fáze: spojení dvou stejn velkých množin, které se liší pouze v jednom prvku vyluovací fáze: odstranní množin, jejichž libovolná podmnožina není frekventovaná 25/37
Píklad s min = 22 % (2 výskyty) TID T100 T200 T300 T400 T500 T600 T700 T800 T900 Položky I1, I2, I5 I2, I4 I2, I3 I1, I2, I4 I1, I3 I2, I3 I1, I3 I1, I2, I3, I5 I1, I2, I3 26/37
Píklad 1. iterace C i Poet L 1 Poet {I1} 6 {I1} 6 {I2} 7 {I2} 7 {I3} 6 {I3} 6 {I4} 2 {I4} 2 {I5} 2 {I5} 2 zjistíme všechny kandidáty porovnáme s min. podporou 27/37
Píklad 2. iterace C 2 Poet L 2 Poet {I1, I2} 4 {I1, I2} 4 {I1, I3} 4 {I1, I3} 4 {I1, I4} 1 {I1, I5} 2 {I1, I5} 2 {I2, I3} 4 {I2, I3} 4 {I2, I4} 2 {I2, I4} 2 {I2, I5} 2 28/37 generujeme kandidáty C 1 + výpoet podpory porovnáme s min. podporou
Píklad 3. iterace C 3 Poet L 3 Poet {I1, I2, I3} {I1, I2, I5} {I1, I3, I5} {I2, I3, I4} {I2, I3, I5} {I2, I4, I5} 2 2 1 0 1 0 {I1, I2, i3} {I1, I2, i5} 2 2 generujeme kandidáty C 3 + výpoet podpory porovnáme s min. podporou 29/37
Píklad 4. iterace C 4 Poet L 4 Poet {I1, I2, i3, I5} 1 generujeme kandidáty C 4 + výpoet podpory porovnáme s min. podporou 30/37
Generování asocianích pravidel spolehlivo st( A B) = P( B A) = podpora ( A B) podpora ( A) pro každou frekventovanou množinu l, generuj všechny její neprázdné podmnožiny pro každou podmnožinu x, generuj pravidlo x# 1%2 3! 31/37
Píklad 32/37 Frekventovaná množina {I1, I2, I5} Neprázdné podmnožiny: {I1, I2}, {I1, I5}, {I2, I5}, {I1}, {I2}, {I5} T100 I1, I2, I5 Vygenerovaná pravidla: T200 I2, I4 I1 I2 I5; c = 2/4 = 50 % T300 I2, I3 I2 I5I1; c = 2/2 = 100 % T400 I1, I2, I4 I2I1 I5; c = 2/7 = 29 % T500 I1, I3 I1 I5I2; c = 2/2 = 100 % T600 I2, I3 I1 I2 I5; c = 2/6 = 33 % I5I1 I2; c = 2/2 = 100 % T700 I1, I3 T800 T900 I1, I2, I3, I5 I1, I2, I3
Zvýšení efektivity algoritmu hašování redukce transakcí vzorkování odstranit generování kandidát metoda vzrstu generovaných množin 33/37
Další algoritmy hledání víceúrovových asocianích pravidel multidimenzionální asocianí pravidla asocianí pravidla založená na omezeních 34/37
Další využití data miningu sekvenní vzory podobné asociaím pravidlm, závisí ale na ase klasifikace rozdlení dat do koneného potu tíd na základ vlastností predikce pedpovídání hodnoty dat na základ znalostí získaných z již známých dat 35/37
Existujícíešení MS SQL Server Oracle SAS Bee Bizgres 36/37
Využití data miningu Analýza nákupního košíku Nalezení závislostí mezi rzným zbožím, které si zákazník koupí lenní (segmentace) zákazník Cíl: porozumt zákazníkovi a jeho chování Management rizik Odhalení rizikových zákazník (nap. u pojišoven) Detekce podvod Nap. hledání extrémních útrat na kreditní kart Odhalování zloinnosti Odhalení potenciálních neplati pjek Predikce požadavk Pedpov zájmu zákazník o rzné zboží 37/37