Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce



Podobné dokumenty
Získávání znalostí z databází. Alois Kužela

Dolování asociačních pravidel

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Získávání dat z databází 1 DMINA 2010

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Profitabilita klienta v kontextu Performance management

Uživatelská podpora v prostředí WWW

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Business Intelligence

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Dolování v objektových datech. Ivana Rudolfová

BA_EM Electronic Marketing. Pavel

Moderní systémy pro získávání znalostí z informací a dat

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

10. Datové sklady (Data Warehouses) Datový sklad

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Základy business intelligence. Jaroslav Šmarda

Chybějící atributy a postupy pro jejich náhradu

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

kapitola 2 Datové sklady, OLAP

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

Dobývání znalostí z databází

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Informační systémy 2006/2007

Dolování z textu. Martin Vítek

Příprava dat v softwaru Statistica

Segmentace bankovních zákazníků algoritmem k- means

3 zdroje dat. Relační databáze EIS OLAP

Datový sklad. Datový sklad

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Operátory ROLLUP a CUBE

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Získávání znalostí z dat

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Využití metod strojového učení v bioinformatice David Hoksza

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.

MBI - technologická realizace modelu

odlehlých hodnot pomocí algoritmu k-means

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

PRODUKTY. Tovek Tools

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

ANALÝZA A KLASIFIKACE DAT

Databázové systémy. 10. přednáška

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Algoritmy pro shlukování prostorových dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Dobývání a vizualizace znalostí

IBM SPSS Decision Trees

Dotazovací jazyky I. Datová krychle. Soběslav Benda

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Databázové a informační systémy

NÁSTROJE BUSINESS INTELLIGENCE

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Dobývání znalostí z textů text mining

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Databázové patterny. MI-DSP 2013/14 RNDr. Ondřej Zýka,

Databáze Bc. Veronika Tomsová

Základní informace o co se jedná a k čemu to slouží

Analýza a vizualizace dat

Ing. Roman Danel, Ph.D. 2010

Dobývání znalostí z webu web mining

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATOVÝCH SKLADŮ KNOWLEDGE DISCOVERY OVER DATA WAREHOUSES

Architektury Informačních systémů. Jaroslav Žáček

Datová kvalita. RNDr. Ondřej Zýka

Vytěžování znalostí z dat

Katedra kybernetiky, FEL, ČVUT v Praze.

IBM SPSS Modeler Professional

Analýza a modelování dat. Přednáška 8

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

PRODUKTY. Tovek Tools

Obohacení dat o statistické výsledky a potenciál jejich využití

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Business Intelligence. Adam Trčka

Architektury Informačních systémů. Jaroslav Žáček


Business Intelligence

Infor Performance management. Jakub Urbášek

Stručný obsah. K2118.indd :15:27

Hledání prostorových asociačních pravidel v prostorových databázích. Discovery of Spatial Association Rules in Geographic Information Databases

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

StatSoft Úvod do data miningu

Nová dimenze rozhodovacího procesu

Analýza a modelování dat. Přednáška 9

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Návrh datového skladu z hlediska zdrojů

4IT218 Databáze. 4IT218 Databáze

Transkript:

Stále větší mžství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce Biologická, astromická data atd Ukládáme stále více dat Úvod do problematiky Databázové techlogie jsou stále rychlejší a levnější Databázové systémy jsou schopny pracovat se stále rozsáhlejšími daty Data jsou stále rozsáhlejší, ale vyvodit z nich užitečné závěry je stále složitější Velké mžství nákupů v supermarketech Miliony hovorů denně u telekomunikačních operátorů Netriviální proces identifikace Smysl: Dát uloženým datům význam Data Mining Hledání zcela vých vzorů, znalostí, které v datech nejsou explicitně uvedeny Znalostí je dosahová pomocí sofistikovaných algoritmů OLAP Soubor operací (drill-down, roll-up ) poskytující různé pohledy na data Výsledků je dosahová pomocí sumačních a předdefivaných operací Zavedení pojmu: 1991 Frawley Definice vých, platných, potenciálně použitelných a snad pochopitelných vzorů v datech Zahrnuje poznatky z několika oborů matematiky a informatiky OLAP Multidimenzionální datové kostky Interaktivní analýza Data Mining Předzpracovaná data Získané zajímavé znalosti Spuštění nástroje pro Data mining

OLAP Data Mining Motivace použití Co se děje v podniku? Predikce budoucsti, skryté znalosti Granularita dat Sumační data Data na úrovni záznamu Počet obchodních dimenzí Omezený počet dimenzí Velký (až nekonečný) počet dimenzí Počet vstupních atributů Spíše velmi nízký počet atributů Mho atributů Velikost dat pro jednu dimenzi Ne velká pro každou dimenzi Obvykle velmi rozsáhlá pro každou dimenzi Umělá inteligence Vlastst OLAP Data Mining Přístup k analýze Řízený uživatelem, interaktivní analýza Autma Aut matický, tický, řízený daty Techniky analýzy Multidimenzionální, drilldrilldown, sliceslice-and and--dice Příprava dat, použití nástrojů pro získávání znalostí Stav techlogie Známý a rozsáhle využívaný Stále se vyvíjející, některé metody jsou již využívané v praxi Výsledné vzory (pravidla) Vizualizace Stavení cílů Výběrr dat Vlastst Data Mining, získávání znalostí z dat Databázové systémy Statistika End User Decision Making Data Presentation Visualization Techniques Pochopení DB (Datový sklad) ZNALOST Vstupní data Increasing potential to support business decisions Prezentace znalostí Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA

Stavení cílů Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádět? Je problém řešitelný? Budou získané výsledky užitečné v praxi? V jakém tvaru a formě chceme výsledky získávání znalostí zobrazit? Jsou naše data vhodná pro dau dolovací metodu vhodná? Výběr zdrojů dat Výběr zdrojů dat Typy dat pro data mining z hlediska zaměření Demografická data (charakteristika osob - pohlaví, věk, vzdělání) jsou levná, ale často neúplná Behaviorální data (nákupy, prodeje atd.) jsou dražší, ale z hlediska data miningu nejcennější Psychografická data (typicky získaná průzkumem veřejného mínění) pomáhají při analýze chování zákazníka Typy databází z hlediska obsahu Výběr zdrojů dat Typy dat z hlediska formátu Zákaznické databáze údaje o zákazníka, případně o jeho aktivitách Transakční databáze údaje o aktivitách zákazníků (většiu anymních) Databáze historie nabídek databáze o oslovování zákazníků kampaněmi Datový sklad Relační a transakční databáze Objektově-orientované databáze Multimediální databáze WWW Textové dokumenty Prostorová, časová data Externí data Proč předzpracování? Objemné databáze je potřeba vybrat relevantní data Nesprávná, nekonzistentní data, chybějící hodty Zvýší efektivitu a usnadní proces získávání znalostí Položky obsahující neúplné hodty Zanedbání záznamu, doplnění průměru hodtou nebo konstantou unkwn, ruční zadání, predikce Položky obsahující chybné hodty Binding vyhlazení na základě sousedních hodt Shlukování podobné hodty jsou organizovány do skupin, ostatní jsou chybné Regresní metody Kombinace lidské a počítačové kontroly

Nekonzistentní data Vznikají při vkládání dat do databáze Při integraci dat (např. různé názvy atributů) Integrace více zdrojů do jedné databáze Redundance Jak určit ekvivalentní entity z více zdrojů? Detekce a řešení konfliktů hodt atributů Řešení např. různé kódování, měrné jedtky nebo různé vyjádření hodty Ruční opravení Opravné rutiny Transformace dat do formátu vhodného pro dolování dat Přidávání vých atributů (odvozených) Diskretizace hodt numerických atributů Slučující techniky Sumační operace atd (z více hodt jedna hodta) Generalizace Data nižší úrovně nahrazena úrovní vyšší (např. ulice město) Rozdělení numerických hodt na intervaly Ekvidistantní Do hloubky Pokročilé metody Normalizace Přepočítání hodt do daného intervalu Agregace v kostce Redukce dat sumačními operacemi Redukce rozměrů Nadbytečné a nepoužívané atributy jsou detekovány a odstraněny Komprese dat Numerosity Zmenšení objemu dat Data jsou nahrazena alternativní menší reprezentací Aplikace zvoleného algoritmu na předzpracovaná data, dle typu znalosti a dat Typy znalostí Asociační pravidla Shlukování Klasifikace Predikce

Původně pro transakční data Pravidlo ve tvaru A B A, B mžiny položek s podpora c spolehlivost Interpretace asociačního pravidla: Jestliže transakce obsahuje položky z mžiny A, pak také pravděpodobně obsahuje položky z B Zajímavost pravidla A B určují tyto ukazatele: Pravidlo, které má podporu a spolehlivost vyšší než je uživatelem zadaná hodta, nazveme silné asociační pravidlo. Mžina položek, která má podporu vyšší než minimální hodta, se nazývá frekventovaná mžina. podpora (support) - pravděpodobst, že se vyskytují v databázi položky z obou stran asociačního pravidla spolehlivost (confidence) - podmíněná pravděpodobst, že se vyskytuje v transakci mžina položek B, za předpokladu, že se tam vyskytují položky z A Výpočet frekventovaných mžin na základě minimální podpory časově náročnější krok Generování silných asociačních pravidel z frekventovaných mžin na základě minimální spolehlivosti Založe na postupném generování kandidátů na frekventované položky Začíná se u mžin o velikosti 1, postupně se generují mžiny větší. spojovací fáze: spojují se dvě stejně velké mžiny, které se liší pouze v jedm prvku vylučovací fáze: vylučují se ty mžiny, jejichž některá podmžina není frekventovaná

Vstup: Transakční databáze Výstup: Frekventované mžiny Apriori vlastst: Podpora kmžiny nemůže být vyšší než podpora její podmžiny, tj. frekventovaná (k+1)-mžina může vznikut pouze z frekventované k-mžiny Založe na výpočtu spolehlivosti confidence ( A B ) = P ( B A) = support ( A B ) support ( A) Důvod: málo silných asociačních pravidel Položky se sdružují do skupin (konceptů), musí být defivána tzv. konceptuální hierarchie položek Pro každou frekventovau mžinu se zjistí všechny její podmžiny Pro každou podmžinu s frekventované mžiny se generuje Potraviny Nápoje s (l s) Kontrola minimální spolehlivosti Kategorické atributy Mají konečný počet hodt Lze na ně použít známé modifikované metody pro transakční data, např. algoritmus Apriori Džus Cola Základní metody Pokročilé metody Postupné spojování menších intervalů ve větší Shlukovací metody jsou hledány shluky hodt ležící blízko sebe, ty pak vytvoří interval Kvantitativní atributy Nemají konečný počet hodt Nutst diskretizace základní problém asociačních pravidel v relačních datech Pečivo Diskretizovaný atribut už lze považovat za kategorický a lze použít některou z metod

Podobné jako frekventované mžiny, ale hraje zde důležitou roli čas Př.: Koupí-li si zákazník tebook, pak si později koupí také mobil. Odpovídá to sekvenčnímu vzoru ( tebook, mobil ) Důležité je tedy pořadí položek sekvenčního vzoru Nejstarší nástroje data miningu Roztřídění skupiny objektů do skupin (shluků), které nejsou předem staveny Rozdíly objektů uvnitř shluků musí být minimální, rozdíly jedtlivých shluků musí být maximální Problém: Jakou metriku použít pro měření rozdílu? Shluky nejsou předem dány a nemají tedy význam ten je potřeba zjistit ne vždy se to podaří Při 2-3 atributech je možné použít jedduché metody, pro více atributů je potřeba použít pokročilé metody Např. je možné nyní oslovit kampaní skupinu zákazníků tvořících shluk Rozdělovací metody Rozdělení objektů na předem daný počet shluků Např. algoritmus K-means, který optimalizuje těžiště jedtlivých shluků a dané prvky pak přiřadí k nejbližšímu těžišti V každé iteraci se počítají vzdálesti prvků od těžiště. Tato hodta musí pro každý shluk (těžiště) minimální

Ukázka použití algoritmu K-means Hierarchické metody Postupné rozdělování velkých shluků nebo postupné slučování malých shluků Vzniká tím hierarchická struktura shluků Ukončení procesu rozdělování (slučování) při splnění určité podmínky (např. určitý minimální počet shluků) Marketing možst identifikace skupin zákazníků, použití cílených reklam Plávání města identifikace skupin domů na základě typu, ceny a polohy Studie zemětřesení shlukování epicenter zemětřesení dle jejich vlaststí Pojištění hledání potenciálních zákazníků s vysokým povinným ručením Geografie hledání shluků pozemků na základě jeho typu Training Data NAM E M ike M ary Bill Jim Dave Anne RANK YEARS TENURED Assistant Prof 3 Assistant Prof 7 Professor 2 Associate Prof 7 Assistant Prof 6 Associate Prof 3 Klasifikační algoritmy Další metody (neurové sítě, mřížky apod.) Rozdělování objektů do předem známých skupin Nejčastěji se využívají rozhodovací stromy 1. krok: konstrukce rozhodovacího stromu na základě vzorku dat 2. krok: klasifikace objektů na základě vytvořeného rozhodovacího stromu Úspěšst se měří procentem úspěšně klasifikovaných objektů Pravidla Ve tvaru: if (podmínka atributu) then result = Lze je převést na rozhodovací strom Klasifikátor (Model) IF rank = professor OR years > 6 THEN tenured = Rozhodovací stromy Vnitřní uzel test hodty jistého atributu Koncový uzel třída, do které je objekt klasifikován Neurové sítě

Určení, zda je možné zákazníkovi možné poskytut úvěr na základě několika atributů (věk, příjem ) Určení pohlaví zákazníka na základě toho, jaký tebook si koupí to např. umožňuje směrovat kampaň age? <=30 student? >40 credit rating? excellent fair OLAP systém Data Mining hraje důležitou roli v prostředí datového skladu. Společné znaky Velké mžství dat, většiu na detailní úrovni ale ne vždy jsou tam všechna data Data Mining nejlépe pracuje s integrovanými a vyčištěnými daty Máme-li datový sklad, není potřeba investovat do HW pro data mining overcast 30..40 Oblast přípravy dat Zdrojové DB Soubory s extrahovanými a transformovanými daty Soubory s daty pro nahrání do datového skladu Možst extrakce dat Datový sklad Data připravená pro data mining DATA MINING Členění (segmentace) zákazníků Analýza nákupního košíku Cíl: porozumět zákazníkovi a jeho chování Nalezení závislostí mezi různým zbožím, které si zákazník koupí Management rizik Odhalení rizikových zákazníků (např. u pojišťoven) Detekce podvodů Např. hledání extrémních útrat na kreditní kartě Odhalování zločinsti Predikce požadavků Dodavatel Hlavní produkt Kontakt pro ČR SAS Institute, Inc. Enterprise Miner SAS Institute ČR, s.r.o; www.sas.com IBM Corporation DB2Intelligent Miner for Data IBM ČR, spol.s r.o.; www.ibm.cz SPSS, Inc. Clementine SPSS ČR, spol. s r.o; www.spss.cz Silicon Graphics, Inc. Mine Set Silicon Graphics, s.r.o.; www.sgi.cz Angoss Software Corp. Kwledge Studio Speedware, s.r.o.; www.speedware.cz StatSoft, Inc. STATISTICA Data Miner StatSoft CR, s.r.o; www.statsoft.cz Odhalení potenciálních neplatičů půjček Předpověď zájmu zákazníků o různé zboží

Data mining by měl být interaktivním procesem Základ pro uživatelské rozhraní Standardizace Součásti dotazu pro data mining Relevantní data Typ znalosti Domévá znalost Metriky zajímavosti Vizualizace/prezentace získaných znalostí Domévá znalost Příklad dotazu jazyka DMQL Jmé databáze/datového skladu Databázové tabulky/kostky Podmínky pro selekci dat Relevantní atributy nebo dimenze Kritéria pro seskupování dat Typ získávané znalosti Asociační pravidla, shlukování, klasifikace, Typické využití: Konceptuální hierarchie Stromová hierarchie: město kraj země světadíl Seskupovací hierarchie: Např.: (15-39) mladý; (4059) střední věk Hierarchie založená na pravidlech: nízký_zisk(x) = cena(x) = p AND náklady(x) = q AND p-q < 50$ Hierarchie odvozená z operace: emailová adresa: hagonzal@cs.uiuc.edu login ústav univerzita země Relevantní data Metriky zajímavosti Jedduchost počet prvků pravidla, velikost rozhodovacího stromu Použitelst např. podpora a spolehlivost Jedinečst odstranění podobných znalostí Prezentace/Vizualizace Různé formy reprezentace grafy, tabulky Reprezentace konceptuální hierarchie Vizualizace různých typů znalostí Prostorové databáze Nutst předzpracování Příklad asociačního pravidla is_a(x, large_town) ^ intersect(x, highway) adjacent_to(x, water) Multimediální databáze Konstrukce vektoru rysů Histogramy Identifikace objektů v obrázku

Časová a sekvenční data Obsahují sekvence hodt a událostí závislých na čase Použití v meteorologii, lékařství (krevní tlak), burza (inflace, ceny akcií) Textové databáze Velké kolekce dokumentů Hledání podobných kolekcí dokumentů obsahujících zadaná slova Asociační pravidla založená na klíčových slovech Klasifikace dokumentů World-Wide-Web WWW dokumenty Databáze s informacemi o přístupu Web Page Content Mining Web Content Mining Search Result Mining Web Mining Web Structure Mining General Access Pattern Tracking Web Usage Mining Customized Usage Tracking Objektové databáze Lze použít upravené metody pro získávání znalostí z relačních dat XML