Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze



Podobné dokumenty
Analýza dat z otevřených zdrojů

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

Radim Navrátil. Robust 24. ledna 2018

Dolování asociačních pravidel

Základy vytěžování dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Tvorba asociačních pravidel a hledání. položek

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Informační systémy pro podporu rozhodování

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Usuzování za neurčitosti

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Základy umělé inteligence

Algoritmizace prostorových úloh

15. OTC KONFERENCE

SEMESTRÁLNÍ PRÁCE UNIVERZITA PARDUBICE. Fakulta chemicko - technologická Katedra analytické chemie

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Triangulace. Význam triangulace. trojúhelník je základní grafický element aproximace ploch předzpracování pro jiné algoritmy. příklad triangulace

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Dan Svoboda Partner, Business Ottima as

Bezpečnostní systémy - rychlostní kamery Identifikace SPZ a RZ.

Disková pole (RAID) 1

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Hledání správné cesty

Vzdálenost uzlů v neorientovaném grafu

Disková pole (RAID) 1

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE. Teze diplomové práce

Struktura e-learningových výukových programù a možnosti jejího využití

Asociační i jiná. Pravidla. (Ch )

INFORMATIKA 6. ROČNÍK

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Výpočty spolehlivost chodu sítí

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Drsná matematika III 10. demonstrovaná cvičení Kostry grafů

Míra přerozdělování příjmů v ČR

Dijkstrův algoritmus

TGH09 - Barvení grafů

Kontingenční tabulky. (Analýza kategoriálních dat)

Inovace bakalářského studijního oboru Aplikovaná chemie

Model pro simulaci staví na výpočtu hrubého domácího produktu výdajovou metodou:

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

rok počet obyvatel 27,1 30,9 34,8 38,6 43,4 49,4 56,4 62,4 68,3 74,9 82,0

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Filosofie konstruování a dimenzování mechanických částí vozidel z hlediska jejich funkce a provozního zatěžování

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Sémantický web a extrakce

Získávání znalostí z databází. Alois Kužela

Vývoj IS - strukturované paradigma II

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

FORMÁTOVÁNÍ 3. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen Ročník: sedmý. Vzdělávací oblast: Informatika a výpočetní technika

BA_EM Electronic Marketing. Pavel

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Lekárenský reťazec cielená podpora OTC/DS predaja v prostredí Dr.Max a budúce výzvy a súvisiace riziká. Hotel Kaskády,

Případová studie produktové inzeráty

Efektivní hledání nejkratších cest v sítích hromadné přepravy osob

Příloha 4. Uživatelský manuál k provozování PC modelu EDD Ekonomika druhů dopravy. SBP Consult, s.r.o. MD ČR Výzkumná zpráva harmonizace 2005

ORIENTOVANÉ GRAFY, REPREZENTACE GRAFŮ

Metody analýzy dat I. Míry a metriky - pokračování

Zpracování neurčitosti

Paralelní grafové algoritmy

Jak použít dárkový voucher

Doplňování chybějících hodnot v kategoriálních datech 2.00

Moderní systémy pro získávání znalostí z informací a dat

ALGORITMY A DATOVÉ STRUKTURY

CELKOVÁ -souhrn všech zamýšlených prodejů, se kterými přichází výrobci na trh

Voronoiův diagram. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Semestrální práce z předmětu KMA/MM. Voroneho diagramy

Vybraná rozdělení náhodné veličiny

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Příklady ke cvičením. Modelování produkčních a logistických systémů

Národní informační středisko pro podporu kvality

Důvěrné. Draft k diskusi. Vladislav Severa Partner. Boris Mišun Senior Manager

Virální marketing. Diplomová práce. Akademický rok: 2008/2009 Vypracoval: Antonín Parma Vedoucí práce: Mgr. Pavel Hacker

You created this PDF from an application that is not licensed to print to novapdf printer (

Automatické vyhledávání informace a znalosti v elektronických textových datech

Marketingové aktivity B2B firem v ČR v roce 2012

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Téma 8: Optimalizační techniky v metodě POPV

S E M E S T R Á L N Í

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

Pokročilé operace s obrazem

Úvod do teorie grafů

Rozvoj tepla v betonových konstrukcích

Rekurzivní algoritmy

Dynamické programování

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Metodiky hodnocení a oceňování přírody a krajiny na AOPK ČR Jaromír Kosejk, Tomáš Görner, Pavel Štěrba

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

FINANČNÍ ZAJIŠTĚNÍ DOMÁCNOSTÍ A OBAVY Z EKONOMICKÉHO

Transkript:

Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí Asociační pravidla Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Analýza nákupního košíku (MBA: Market Basket Analysis) Analýza prodeje: Které položky jsou v košíku pohromadě? Výsledky: vyjádřené formou pravidel lze bezprostředně použít Použití: plánování a rozvržení obchodu nabídka kupónů, omezení slev balení produktů I. Mrázová: Dobývání znalostí 3

Asociační pravidla Jak spolu jednotlivé produkty navzájem souvisí? Asociační pravidla by měla být: snadno pochopitelná: jakmile je nějaký vztah nalezen, lze ho snadno ověřit použitelná: obsahují užitečné informace, které mohou vést k dalším intervencím Asociační pravidla by neměla být: triviální: výsledky už stejně každý zná nevysvětlitelná: neexistuje k nim žádné vysvětlení a nevedou k žádné akci I. Mrázová: Dobývání znalostí 4

MBA pro porovnání obchodů Virtuální položky: indikují typ obchodu, v němž proběhladanátransakce neodpovídají žádnému výrobku ani službě Porovnání nových a stávajících obchodů: 1 Pořídit data za určité období z nového obchodu 2 Pořídit zhruba stejné množství dat ze stávajících obchodů 3 Použít MBA k nalezení asociačních pravidel v obou sadách 4 Uvažovat především asociační pravidla s virtuálními položkami I. Mrázová: Dobývání znalostí 5

MBA - jak se to dělá? Položka - produkt nebo nabídka služeb Transakce obsahuje jednu nebo více položek Tabulka četností udává počet výskytů libovolných dvou položek v některé z provedených transakcí (t.j. kolikrát byly tyto dva produkty zakoupeny najednou) hodnoty na diagonále odpovídají počtu transakcí obsahujících příslušnou položku I. Mrázová: Dobývání znalostí 6

MBA - příklad Transakce v potravinách: Zákazník Položky 1 chléb, máslo 2 mléko, chléb, máslo 3 chléb, káva 4 chléb, máslo, káva 5 káva, máslo Četnost produktů: chléb máslo mléko káva chléb 4 3 1 2 máslo 3 4 1 2 mléko 1 1 1 0 káva 2 2 0 3 Typ prodeje patrný z tabulky četností: Chléb a máslo se nejspíš nakupují najednou. Mléko se nikdy nekupuje společně s kávou. I. Mrázová: Dobývání znalostí 7

MBA - asociační pravidla Pravidlo: IF Podmínka THEN Výsledek. ( Pravidlo_r : IF Položka_i THEN Položka_j. ) Otázky: Jak dobrá jsou nalezená asociační pravidla? podpora spolehlivost zlepšení Jak hledat asociační pravidla automaticky? I. Mrázová: Dobývání znalostí 8

Podpora a spolehlivost Podpora: Jak často lze pravidlo použít? Podpora(Pravidlo_r) = Nr_transakcí_obsahujících_i_a_j Nr_všech_transakcí 100 % Spolehlivost: Jak moc se můžeme na výsledky pravidla spolehnout? Spolehlivost(Pravidlo_r) = Nr_transakcí_obsahujících_i_a_j Nr_transakci_obsahujících_i 100 % I. Mrázová: Dobývání znalostí 9

Podpora a spolehlivost - příklad Pravidlo 1: If zákazník kupuje chléb then zákazník kupuje také máslo. Pravidlo 2: If zákazník kupuje kávu then zákazník kupuje také máslo. Podpora ( Pravidlo_1 ) = 3 / 5 100 % = 60 % Podpora ( Pravidlo_2 ) = 2 / 5 100 % = 40 % Spolehlivost ( Pravidlo_1 ) = 3 / 4 100 % = 75 % Spolehlivost ( Pravidlo_2 ) = 2 / 3 100 % = 66 % I. Mrázová: Dobývání znalostí 10

Zlepšení pravidla Zlepšení: Oč lepší je pravidlo připredikcipoužítnež jeho výsledek prostě předpokládat? Zlepšení(Pravidlo_r) = Pokud je Zlepšení < 1: p(i_a_j) p(i) p(j) pravidlo je při predikci horší než náhodná volba NEGACE výsledku může vést k lepšímu pravidlu IF Podmínka THEN NOT Výsledek. I. Mrázová: Dobývání znalostí 11

Zlepšení pravidla - příklad Pravidlo: If zákazník kupuje mléko then zákazník kupuje také máslo. Podpora ( Pravidlo_1 ) = 1 / 5 100 % = 20 % Spolehlivost ( Pravidlo_1 ) = 1 / 1 100 % = 100 % Zlepšení ( Pravidlo_1 ) = ( 1 / 5 ) / ( ( 1 / 5 ) ( 4 / 5 ) ) = = 5 / 4 = 1.25 I. Mrázová: Dobývání znalostí 12

Hlavní kroky MBA Zvolte odpovídající položky na adekvátní úrovni Vytvořte pravidla na základě údajů z tabulky četností spočítejte (podmíněné) pravděpodobnosti výskytu položek a jejich kombinací v transakcích omezte prohledávání prahovou hodnotou pro podporu Určete nejlepší pravidla analýzou vypočtených pravděpodobností překonat omezení daná počtem položek a jejich kombinací v zajímavých transakcích I. Mrázová: Dobývání znalostí 13

MBA - volba vhodných položek Pořízení transakčních dat: často horší kvalita, vyžaduje rozsáhlejší předzpracování relevance položek se časem může změnit adekvátní úroveň zpracování: rostoucí počet kombinací jednotlivých položek výsledky lze bezprostředně použít (specifické položky) pravidla s dostatečně vysokou podporou (častý výskyt v množině dat) I. Mrázová: Dobývání znalostí 14

Taxonomie: hierarchie kategorií MBA - Složitost generovaných pravidel: Na začátku použít obecnější položky Později generovat pravidla pro specifické položky výlučně na základě transakcí, které tyto položky obsahují MBA - Použitelné výsledky: Položky by měly být ve zhruba stejném počtu transakcí: přesunout řídké položky do vyšších úrovní taxonomie (kde budou častější) obvyklejší položky nechat na nižších úrovních (aby pravidlům nedominovaly nejčastější položky) I. Mrázová: Dobývání znalostí 15

Virtuální položky: přesahují rámec tradiční taxonomie Stírají hranice mezi jednotlivými typy výrobků u původních položek např. (firemní) značky - Calvin Klein mohou obsahovat informatice o transakci samotné anonymní (den v týdnu, čas, atd.) signované (informace o zákaznících a jejich chování) mohou být vést k redundancím v pravidlech položkám z taxonomie odpovídá jen jedna jediná virtuální položka ( If výrobek_škoda then Škoda. ) virtuální a obecné položky se v pravidle objeví najednou ( If výrobek_škoda a malé auto then stan namísto If Fabia then stan ) I. Mrázová: Dobývání znalostí 16

MBA - generování pravidel Výpočet tabulky četností: udává informace o tom, které kombinace jednotlivých položek se v transakcích vyskytují nejčastěji lze použít k určení základních pravděpodobností potřebných k posouzení významu generovaných pravidel Získat užitečná pravidla: zlepšení by mělo být větší než 1 malé zlepšení lze zvětšit negací pravidel negovaná pravidla mohou být hůře použitelná než ta původní redukce počtu generovaných pravidel - PROŘEZÁVÁNÍ I. Mrázová: Dobývání znalostí 17

Prořezávání podle minimální podpory Eliminace méněčastých položek podniknuté akce by se měly týkat dostatečného počtu transakcí dvě možnosti: eliminace řídkých položek (a následná eliminace příslušných asociačních pravidel) použití taxonomie k vytvoření obecných položek (generalizované položky by měly vyhovovat nastaveným kritériím - prahu) variabilní minimální podpora - kaskádový efekt I. Mrázová: Dobývání znalostí 18

Algoritmus APRIORI (R. Agrawal) Generování asociačních pravidel Hledání často se pakujících množin položek ~ Frequent itemsets: Kombinace (~ konjunkce) kategorií, které dosahují předem zadané četnosti na datech ~ minsup podpora Při hledání kombinací délky k využíváme znalosti kombinací délky k 1 ~ generování kombinací do šířky Pro vytvoření kombinace délky k požadujeme, aby všechny její podkombinace délky k 1 splňovaly požadavek na četnost I. Mrázová: Dobývání znalostí 19

Algoritmus APRIORI (pokračování) ~ Frequent itemsets (pokračování): Po nalezení kombinací, které vyhovují četností, se vytvářejí asociační pravidla ( četnost_nadkombinace četnost_kombinace ) Každá kombinace Comb se rozdělí na všechny možné dvojice podkombinací Ant a Suc takové, že Suc = Comb Ant ( Ant Suc = {} a Ant Suc = Comb ) Uvažované pravidlo Ant = > Suc pak má podporu odpovídající četnosti kombinace Comb, jeho spolehlivost odpovídá podílu četností kombinací Comb a Ant I. Mrázová: Dobývání znalostí 20

Algoritmus APRIORI Krok 1: Do L 1 přiřaď všechny kategorie, které dosahují alespoň požadované četnosti Krok 2: Polož k = 2 Krok 3: Dokud L k-1 {} Krok 3.1: Pomocí funkce APRIORI-GEN vygeneruj na základě L k-1 množinu kandidátů C k Krok 3.2: Do L k zařaď ty kombinace z C k, které dosáhly alespoň požadovanou četnost Krok 3.3: Zvětši počítadlo k I. Mrázová: Dobývání znalostí 21

Funkce APRIORI-GEN ( L k-1 ) Krok 1: Pro všechny dvojice kombinací Comb p, Comb q z L k-1 Krok 1.1: Pokud se Comb p a Comb q shodují v k - 2 kategoriích, přidej Comb p Comb q do C k Krok 2: Pro každou kombinaci Comb z C k Krok 2.1: Pokud některá z jejich podkombinací délky k - 1 není obsažena v L k-1, odstraň Comb z C k I. Mrázová: Dobývání znalostí 22

MBA - Disociační pravidla Pravidlo: IF A AND NOT B THEN C. Zavést nové položky inverzní k původním položkám V případě, že transakce neobsahuje původní položku, bude obsahovat položku znegovanou Nevýhody: dvojnásobný počet položek narůstá velikost transakcí negované položky se vyskytují častěji než ty původní (pravidla se všemi položkami negovanými lze hůř využít: IF NOT A AND NOT B THEN NOT C. ) I. Mrázová: Dobývání znalostí 23

Analýza časových řad pomocí MBA Analýza příčin a následků: informace o čase, resp. sledu událostí k určení toho, kdy transakce nastaly (jedna vzhledem ke druhé) obvykle vyžaduje nějakou identifikaci zákazníka Převedení problému na MBA: zavedení nových položek do transakcí před sledovanou událostí (pro příčiny) a po sledované události (pro následky); následně odstranění duplicitních položek z transakcí okénko: snímek veškerých údajů, které se vyskytly během určitého období (např. všechny transakce za uplynulý měsíc) trendy pro řídké položky I. Mrázová: Dobývání znalostí 24

Výhody MBA Dává jasné a srozumitelné výsledky IF - THEN - pravidla s bezprostředním použitím Dobývání znalostí (bez požadovaných výstupů) důležité při zpracovávání velkého množství dat bez dalších apriorních znalostí Umožňuje zpracovávat data s variabilní délkou Snadné a srozumitelné výpočty Výpočetní nároky rostou exponenciálně s počtem položek! I. Mrázová: Dobývání znalostí 25

Nevýhody MBA Exponenciální nárůst výpočetních nároků potřeba taxonomií a virtuálních položek Omezená podpora některých položek prořezávání méně použitelných obecných položek Obtížné určení adekvátního počtu položek položky by měly mít zhruba stejnou četnost Znevýhodňuje řídké položky variabilní hodnoty prahu připrořezávání podle minimální podpory vyšší úrovně položek v taxonomii I. Mrázová: Dobývání znalostí 26

Dobývání znalostí Analýza linků Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Analýza linků (vazeb) Cíle: nalezení vztahů mezi údaji vizualizace linků a vztahů Aplikace: telekomunikace kriminalistika a právo - skupiny zločinců jsou navzájem propojené, analýza těchto vztahů je může pomoci rozkrýt marketing - vztahy mezi zákazníky I. Mrázová: Dobývání znalostí 28

SF-sítě (Scale-Free Networks) Některé uzly mají extrémně velký počet vazeb (hran) na další uzly - hub Většina uzlů má jen několik málo vazeb na další uzly Odolné proti náhodným poruchám Zranitelné při koordinovaném útoku Nové oblasti použití: ochrana před (počítačovými) viry šířenými po Internetu medicína (očkování) byznys (marketing) I. Mrázová: Dobývání znalostí 29

SF-sítě Náhodný graf SF-síť rozložení hran rozložení hran počet uzlů počet hran počet uzlů počet hran Převzato z A. L. Barabasi and E. Bonabeau: Scale-Free Networks, Scientific American, May 2003 I. Mrázová: Dobývání znalostí 30

Příklady SF-sítí Sociální sítě vědecká spolupráce (vědci, spoluautorstcí článků) Hollywood (herci, natáčení ve stejném filmu) Biologické sítě buněčný metabolismus (molekuly zůčastněné při produkci energie, účast v téže biologické reakci) proteinové regulační sítě (proteiny řídící aktivitu buněk, interakce mezi proteiny) Socio-technické sítě Internet (routery, optická a další spojení) World Wide Web (webové stránky a URL) I. Mrázová: Dobývání znalostí 31

SF-sítě: základní charakteristiky Dva základní mechanizmy: růst preferenční napojení Bohatí bohatnou (hubs): nové uzly mají tendenci připojovat se k uzlům s větším počtem vazeb populární lokality časem získají více vazeb než jejich sousedi s menším počtem vazeb Spolehlivost náhodná selhání (80% náhodně zvolených uzlů může selhat aniž by to vedlo k fragmentaci klastru) koordinované útoky (eliminace 5-15% všech hubů může vést k selhání celého systému) I. Mrázová: Dobývání znalostí 32

SF-sítě Náhodná síť: selhání náhodného uzlu uzel SF-síť: selhání náhodného uzlu hub SF-síť: koordinovaný útok na huby hub před před před poškoz. uzel pošk.uzel atakov. hub po po po převzato z A. L. Barabasi and E. Bonabeau: Scale-Free Networks, Scientific American, May 2003 I. Mrázová: Dobývání znalostí 33

Využití SF-sítí Computing sítě se SF-architekturou Medicína očkovací kampaně a nové léky Byznys kaskádové finanční krachy marketing I. Mrázová: Dobývání znalostí 34

Využití SF-sítí Computing počítačové sítě se SF-architekturou (např. WWW) extrémně odolné vůči náhodným selháním velmi zranitelné při koordinovaném útoku nebo sabotáži vymýcení internetových virů je v podstatě nemožné I. Mrázová: Dobývání znalostí 35

Využití SF-sítí Medicína očkovací kampaně zacílené na huby lidé s mnoha kontakty a styky obtížná identifikace těchto lidí nové léky zacílené na klíčové molekuly (huby) zúčastněné v příslušných chorobách ovlivnění vedlejších účinků léků prostřednitvím zmapovaných sítí uvnitř buněk I. Mrázová: Dobývání znalostí 36

Využití SF-sítí Byznys finanční krachy pochopení vzájemných vazeb mezi společnostmi, průmyslem a ekonomikou monitorování a eliminace kaskádových finančních krachů marketing studium šíření nákazy v SF-sítích efektivnější reklama pro nové výrobky I. Mrázová: Dobývání znalostí 37