Získávání znalostí z databází. Alois Kužela

Podobné dokumenty

Dolování asociačních pravidel

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Získávání dat z databází 1 DMINA 2010

Základy business intelligence. Jaroslav Šmarda

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Dobývání a vizualizace znalostí

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

BA_EM Electronic Marketing. Pavel

Profitabilita klienta v kontextu Performance management

Analýza a vizualizace dat

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Dobývání a vizualizace znalostí

10. Datové sklady (Data Warehouses) Datový sklad

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

Uživatelská podpora v prostředí WWW

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

4IT218 Databáze. 4IT218 Databáze

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Instalace multiimportu

Základy vytěžování dat

Business Intelligence

Datová věda (Data Science) akademický navazující magisterský program

VYSOKÉ UENÍ TECHNICKÉ V BRN BRNO UNIVERSITY OF TECHNOLOGY

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Informační systémy 2006/2007

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Infor Performance management. Jakub Urbášek

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

! " " # ( '&! )'& "#!$ %&!%%&! '() '& *!%+$, - &./,,*% 0, " &

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Internetový mapový server Karlovarského kraje

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Business Intelligence

Operátory ROLLUP a CUBE

Metodický materiál Ma

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Získávání znalostí z dat

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Databáze Bc. Veronika Tomsová

Datový sklad. Datový sklad

Systémy pro podporu rozhodování. Datové sklady, OLAP

ORACLE DISCRETE MANUFACTURING ORACLE DISKRÉTNÍ VÝROBA

ORACLE ÍZENÍ VÝROBY ORACLE WORK IN PROCESS KLÍOVÉ FUNKCE ORACLE WORK IN PROCESS

SEGMENTACE ZÁKAZNÍKŮ PRO E-COMMERCE. Jan Matoušek

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Úvodní studie (pokraov

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

Elektronický obchod pístroj ABB s.r.o., Divize Výrobky nízkého naptí ABB Group April 27, 2012 Slide 1

TÉMATA BAKALÁSKÝCH PRACÍ OBORU 6208R123 EKONOMIKA A MANAGEMENT V PRMYSLU PRO AKADEMICKÝ ROK 2009/2010

Moderní systémy pro získávání znalostí z informací a dat

Novinky SQL Serveru 2005 v oblasti Business Intelligence

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Snadný a efektivní přístup k informacím

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Jak využít data o zákaznících ke zvýšení příjmů z prodeje

Stručný obsah. K2118.indd :15:27

O spole nosti OSAM TRADE s.r.o.

Využití metod strojového učení v bioinformatice David Hoksza

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Segmentace bankovních zákazníků algoritmem k- means

Jak úspěšně bojovat s ekonomickou krizí pomocí CI

Business Intelligence Hlavní témata, která budou v roce 2015 určovat vývoj business intelligence řešení a služeb.

Obohacení dat o statistické výsledky a potenciál jejich využití

Inteligentní zpracování prostorových dat

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

Sítání dopravy na silnici II/432 ul. Hulínská Osvoboditel v Kromíži

HR reporting aneb kouzla s daty Jan Pavelka

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Problémové domény a jejich charakteristiky

Zbytky zákaznického materiálu

7.2 Model použití (jednání) (Use Case)

ORACLE MANUFACTURING SCHEDULING ORACLE HLAVNÍ PLÁNOVÁNÍ VÝROBY

PÍRUKA A NÁVODY PRO ÚELY: - RUTINNÍ PRÁCE S DATY

Zhodnocení architektury podniku. Jiří Mach

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

PowerOPTI Řízení účinnosti tepelného cyklu

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

VYUŽITÍ PROGRAMU DATA MINING V ANALÝZE NÁKUPNÍHO CHOVÁNÍ

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

ZPRÁVA O REALIZACI PROJEKTU

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Hledání prostorových asociačních pravidel v prostorových databázích. Discovery of Spatial Association Rules in Geographic Information Databases

Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.

Základní informace o co se jedná a k čemu to slouží

PostgreSQL jako platforma pro datové sklady

Role BI v e-business řešeních pohled do budoucnosti

ORACLE ŘÍZENÍ FINANCÍ

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Transkript:

Získávání znalostí z databází Alois Kužela

Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37

Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního objevování implicitních, dopedu neznámých a potenciáln použitelných znalostí v datech související pojmy: Datové sklady, datové trhy Topíme se v datech, ale trpíme nedostatkem znalosti. OLAP 3/37

Pro data mining? roste objem dat uložený v databázích vznikají rychlejší, levnjší a pokroilejší databázové technologie neustále generujeme nová data obchodní a bankovní transakce výzkum, astronomie, biologie, z rozsáhlých dat se obtížn vyvozují závry dát uloženým datm význam 4/37

Data, informace, znalosti? data (údaje) surové hodnoty, fakta 25, erná informace data, která mají smysl a pínos prmrný plat zákazník v tisících, nejprodávanjší barva telefonu znalosti (poznatky) informace + objevování, analýzy, zákazník si pravdpodobn koupí i notebook 5/37

Definice informace (Oracle) máme údaje víme, že máme údaje víme, kde tyto údaje máme máme k nim pístup zdroji údaj mžeme dvovat 6/37

Vztah údaje informace znalosti Moudrost znalosti informace údaje Business Inteligence proces transformace údaj na informace a pevod informací na poznatky prostednictvím objevování. 7/37

Data Mining a Business Intelligence 8/37 Rostoucí potenciál podpory rozhodování Rozhodování Prezentace dat Vizualizaní techniky Dolování dat Objevování informace Zkoumání dat analýza, dotazování, sestavy Datové sklady / datová tržišt OLAP techniky Datové zdroje Papír, soubory, databázové systémy, OLTP systémy Koncový uživatel Obchodní analytik Datový analytik DBA

Co je získávání znalostí z databází? extrakce zajímavých model dat a vzor z velkých objem dat hledané modely jsou: netriviální skryté díve neznámé platné potenciáln užitené 9/37

Píklady aplikací prmysl (diagnostika poruch, predikce spoteby, ) obchod (marketing, bankovnictví) vda (charakterizace karcinogenních látek, hypotézy, ) medicína (mapování lidského genomu) 10/37

Proces získávání znalostí z dat Stanovení cíl Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádt? Je problém ešitelný? Budou získané výsledky užitené v praxi? V jakém tvaru a form chceme výsledky získávání znalostí zobrazit? Výbr zdroj dat 11/37

Proces získávání znalostí z dat 1) ištní dat 2) integrace dat 3) výbr dat 4) transformace dat 5) dolování dat 6) hodnocení model a vzor 7) prezentace znalostí pedzpracování dat 12/37

Pedzpracování dat Je tato fáze nezbytná? Objemné databáze je poteba vybrat relevantní data Nesprávná, nekonzistentní data, chybjící hodnoty Zvýší efektivitu a usnadní proces získávání znalostí nejpracnjšíást celého procesu asto se provádí opakovan 13/37

Pedzpracování dat píprava dat selekce atribut výbr relevantních atribut ištní dat získávání odvozených atribut pevod typ dat transformace dat do jedné velké tabulky formátování pro jednotlivé modelovací techniky 14/37

Dolování dat Aplikace zvoleného algoritmu na pedzpracovaná data, dle typu znalosti a dat Typy znalostí Asocianí pravidla - hledání vazeb mezi objekty Shlukování - seskupování podobných objekt Klasifikace - piazení tídy objektu Predikce - pedpov chování objektu v ase 15/37

Vyhodnocení zhodnocení dosažených výsledk zhodnocení výsledk z pohledu zadání asto návrat zpt na zaátek celého procesu a stanovení nových cíl (úprava zadaní) vizualizace 16/37

Typy dolovacích úloh prediktivní: regrese klasifikace deskriptivní: shlukování / sdružování podobností asocianí pravidla a jejich varianty detekce odchylek 17/37

Asocianí pravidla hledání zajímavých asociacíi korelací ve velkém množství dat pvodn pro transakní data obchodní transakce analýza nákupního košíku podpora rozhodování 18/37

Základní pojmy pravidla tvaru T, A!! " 19/37

Dležité metriky udávají významnost nalezených pravidel #$% #% $ spolehlivost c (confidence) kolik % ze všech transakcí tvaru A & " 20/37

Metriky Zápis s využitím pravdpodobnosti s(a %'# % c(a%'#(% 21/37

Píklad analýzy košíku získané pravidlo o nákupu položek poíta )*+,-$./$ význam: 8 % všech nákup obsahovalo ob položky pi koupi poítae se kupoval v 60 % také OS závry 60 % poctivých uživatel OS Windows návrh akcí, katalog na základ tchto informací 22/37

Další pojmy silné asocianí pravidlo má podporu a spolehlivost vyšší než uživatelem zadaná hodnota frekventovaná množina množina položek, která má podporu vyšší než minimální hodnota 23/37

Hledání asocianích pravidel výpoet frekventovaných množin na základ minimální podpory asov náronjší krok generování silných asocianích pravidel z frekventovaných množin na základ minimální spolehlivosti 24/37

Apriori Transakní databáze 0 " princip postupného generování kandidát na frekventované množiny zaíná se u množin velikosti 1 spojovací fáze: spojení dvou stejn velkých množin, které se liší pouze v jednom prvku vyluovací fáze: odstranní množin, jejichž libovolná podmnožina není frekventovaná 25/37

Píklad s min = 22 % (2 výskyty) TID T100 T200 T300 T400 T500 T600 T700 T800 T900 Položky I1, I2, I5 I2, I4 I2, I3 I1, I2, I4 I1, I3 I2, I3 I1, I3 I1, I2, I3, I5 I1, I2, I3 26/37

Píklad 1. iterace C i Poet L 1 Poet {I1} 6 {I1} 6 {I2} 7 {I2} 7 {I3} 6 {I3} 6 {I4} 2 {I4} 2 {I5} 2 {I5} 2 zjistíme všechny kandidáty porovnáme s min. podporou 27/37

Píklad 2. iterace C 2 Poet L 2 Poet {I1, I2} 4 {I1, I2} 4 {I1, I3} 4 {I1, I3} 4 {I1, I4} 1 {I1, I5} 2 {I1, I5} 2 {I2, I3} 4 {I2, I3} 4 {I2, I4} 2 {I2, I4} 2 {I2, I5} 2 28/37 generujeme kandidáty C 1 + výpoet podpory porovnáme s min. podporou

Píklad 3. iterace C 3 Poet L 3 Poet {I1, I2, I3} {I1, I2, I5} {I1, I3, I5} {I2, I3, I4} {I2, I3, I5} {I2, I4, I5} 2 2 1 0 1 0 {I1, I2, i3} {I1, I2, i5} 2 2 generujeme kandidáty C 3 + výpoet podpory porovnáme s min. podporou 29/37

Píklad 4. iterace C 4 Poet L 4 Poet {I1, I2, i3, I5} 1 generujeme kandidáty C 4 + výpoet podpory porovnáme s min. podporou 30/37

Generování asocianích pravidel spolehlivo st( A B) = P( B A) = podpora ( A B) podpora ( A) pro každou frekventovanou množinu l, generuj všechny její neprázdné podmnožiny pro každou podmnožinu x, generuj pravidlo x# 1%2 3! 31/37

Píklad 32/37 Frekventovaná množina {I1, I2, I5} Neprázdné podmnožiny: {I1, I2}, {I1, I5}, {I2, I5}, {I1}, {I2}, {I5} T100 I1, I2, I5 Vygenerovaná pravidla: T200 I2, I4 I1 I2 I5; c = 2/4 = 50 % T300 I2, I3 I2 I5I1; c = 2/2 = 100 % T400 I1, I2, I4 I2I1 I5; c = 2/7 = 29 % T500 I1, I3 I1 I5I2; c = 2/2 = 100 % T600 I2, I3 I1 I2 I5; c = 2/6 = 33 % I5I1 I2; c = 2/2 = 100 % T700 I1, I3 T800 T900 I1, I2, I3, I5 I1, I2, I3

Zvýšení efektivity algoritmu hašování redukce transakcí vzorkování odstranit generování kandidát metoda vzrstu generovaných množin 33/37

Další algoritmy hledání víceúrovových asocianích pravidel multidimenzionální asocianí pravidla asocianí pravidla založená na omezeních 34/37

Další využití data miningu sekvenní vzory podobné asociaím pravidlm, závisí ale na ase klasifikace rozdlení dat do koneného potu tíd na základ vlastností predikce pedpovídání hodnoty dat na základ znalostí získaných z již známých dat 35/37

Existujícíešení MS SQL Server Oracle SAS Bee Bizgres 36/37

Využití data miningu Analýza nákupního košíku Nalezení závislostí mezi rzným zbožím, které si zákazník koupí lenní (segmentace) zákazník Cíl: porozumt zákazníkovi a jeho chování Management rizik Odhalení rizikových zákazník (nap. u pojišoven) Detekce podvod Nap. hledání extrémních útrat na kreditní kart Odhalování zloinnosti Odhalení potenciálních neplati pjek Predikce požadavk Pedpov zájmu zákazník o rzné zboží 37/37