Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 7: Bayesovská klasifikace BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 2/27 Bayesův klasifikátor Bayesův vzorec
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 3/27 Bayesovská klasifikace -co to je? Statistická metoda klasifikace. Umožňuje vyjádřit jistotu, s jakou byly data správně oklasifikovány. Pojmenovaná po ThomasuBayesovi(1702-1761), který popsal Bayesovu větu.
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 4/27 Proč Bayes? Poskytuje praktický způsob učení. opř: Naivní Bayes Apriorní pravděpodobnosta pozorovaná data mohou být kombinovány. Vypočítá explicitní pravděpodobnost hypotézy. Poskytuje náhled pro pochopení složitějších učících algoritmů. Poskytuje zlatý standard, proti kterému se nechají porovnávat ostatní kladifikátory. Odolný na šum v datech.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 5/27 Bayesův klasifikátor Pravděpodobnost Pravděpodobnost není nic jiného, než selský rozum zredukovaný na matematiku Pierre-Simon Laplace 1814
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 6/27 Bayesův klasifikátor Podmíněná pravděpodobnost Pr(A) je pravděpodobnost že nastal jev A. P(B A) je pravděpodobnost jevu B, za podmínky, že nastal jev A. P(A B) je pravděpodobnost že nastal jev A i B. P(A B)=P(B A) P(A)
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 7/27 Bayesův klasifikátor Pravděpodobnost prezence na přednášce P(A) 2/5 P(B A) 1/3 2/3 P(B A) P(Slunečno a P)=2/5*1/3=2/15 P(Slunečno a N)=2/5*2/3=4/15 3/5 9/10 P(Prší a P)=3/5*9/10=27/50 1/10 P(Prší a N)=3/5*1/10=3/50 Slunečno Prší Přítomen Nepřítomen
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 8/27 Bayesův klasifikátor Odvození Bayesovi věty ( )= ( ) ( ) ( )= ( ) ( ) Protože platí = : =
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 9/27 Bayesovavěta Bayesův klasifikátor Věrohodnost (pravděpodobnost dat B, když hypotéza A je pravda) Apriorní pravděpodobnost (pravděpodobnost hypotézy A před tím, než vidíme data) ( )= ( ) ( ) ( ) Posteriorní pravděpodobnost (pravděpodobnost hypotézy A poté, co jsme viděli data B) Normalizační konstanta (pravděpodobnost dat B. Zajišťujě, že opět dostaneme pravděpodobnost) = ( )
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 10/27 Příklad P(A/B): Chceme zjistit pravděpodobnost, že zákazník si od nás koupí počítač (A), když známe jeho věk B (Posteriorní pravděpodobnost). P(A): Pravděpodobnost, že zákazník si od nás koupil počítač bez ohledu na věk(apriorní pravděpodobnost). P(B/A): Pravděpodobnost, že zákazníkovi je 35 let, když si odnás koupil počítač(věrohodnost). P(B): Pravděpodobnost, že zákazníkovi je 35 let (Normalizační konstanta).
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 11/27 Maximální Posteriorní Pravděpodobnost (MPP) Chceme najít nejvíce pravděpodobný jev A na základě trénovacích dat B. =max ( ) =max ( ) =max ( ) ( ) koupí si počítač nekoupí si počítač Protože ( )je pro všechny stejné, můžeme ji ignorovat
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 12/27 Maximální Věrohodnost Můžeme předpokládat ( )= ( ) Nejsme tedy nijak dopředu zaujatí V našem příkladu předpokládáme, že polovička zákazníků si počítač koupí To vede ke zjednodušení: =max ( ) ( ) =max ( )
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 13/27 Bayesův klasifikátor Příklad Zákazník id Věk Příjem Vysoké vzdělání Vlastní auto Koupí počítač 1 35 Střední Ano Ano Ano 2 30 Vysoký Ne Ano Ne 3 40 Nízký Ano Ne Ne 4 35 Střední Ne Ne Ano 5 45 Nízký Ne Ne Ano 6 35 Vysoký Ne Ano Ano 7 35 Střední Ne Ano Ne 8 25 Nízký Ne Ano Ne 9 28 Vysoký Ne Ano Ne 10 35 Střední Ano Ano Ano
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 14/27 Příklad (pokračování..) P(koupí počítač = ano) = 5/10 = 0,5 P(koupí počítač= ne) = 5/10 = 0,5 P(zákazníkovi je 35& střední příjem) = =4/10 = 0,4 P(zákazníkovi je 35& střední příjem koupí počítač= ano) = 3/5 =0,6 P(zákazníkovi je 35& střední příjem koupí počítač= ne) = 1/5 = 0,2 Koupí zákazník počítač, nebo ne?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 15/27 Bayesův klasifikátor Příklad (pokračování..) Zákazník si koupí počítačp(a1/b) = P(A1) * P (B A1)/ P(B) = 0,5 * 0,6 / 0,4 Zákazník si nekoupí počítačp(a2/b) = P(A2) * P (B A2)/ P(B) = 0,5 * 0,2 / 0,4 Výsledek= max {P(A1 B), P(A2 B)} = max(0,6;0,2) Zákazník si počítač koupí
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 16/27 Příklad (pokračování..) Co když máme zákazníka: 40 let, vysoký příjem? Zákazník id Věk Příjem Vysoké vzdělání Vlastní auto Koupí počítač 1 35 Střední Ano Ano Ano 2 30 Vysoký Ne Ano Ne 3 40 Nízký Ano Ne Ne 4 35 Střední Ne Ne Ano 5 45 Nízký Ne Ne Ano 6 35 Vysoký Ne Ano Ano 7 35 Střední Ne Ano Ne 8 25 Nízký Ne Ano Ne 9 28 Vysoký Ne Ano Ne 10 35 Střední Ano Ano Ano
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 17/27 Bayes Apriorní pravděpodobnost, že někdo má základní vzdělání Věk nad 21? - 0.7 Základní vzdělání? - 0.98 Střední vzdělání? ZŠNe 0 ZŠ Ano 0.4 <21,bez SŠ 0 >21,bez SŠ 0 <21, s SŠ 0.02 >21,s SŠ 0.2 Vysoké vzdělání? Podmíněná pravděpodobnost, že někdo má střední vzdělání
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 18/27 Bayes Výborný model, ale obvykle nevíme, jak jsou jevy navzájem závislé. Závyslosti se nechají odhadnout z trénovacích dat, ale obvykle jich na to nemáme dostatek. Proto se používá Naivní Bayes...
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 19/27 Naivní Bayes Věk nad 21? - 0.7 Základní vzdělání? Střední vzdělání? - 0.98-0.39 Vysoké vzdělání? <21,bez ZŠ, bez SŠ 0 >21,bez ZŠ, bez SŠ 0 Co se změnilo? <21,s ZŠ, bez SŠ 0 >21,s ZŠ, bez SŠ 0 <21,s ZŠ, s SŠ 0.02 >21,s ZŠ, s SŠ 0.20
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 20/27 NaivníBayes Naivní Bayes předpokládá P ( 1 X1, K, X N C) = P( X C) LP( X N C) tedy nezávislost parametrů. KaždýatributX i je nezávislý na ostatních atributech, jakmile známe hodnotuc.
Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 21/27 Kernelovský odhad Pro každý vzorek se vytvoří Gausovka, a následně se sečtou.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 22/27 Bayesův klasifikátor Kernelovský odhad Výsledná hustota pravděpodobnosti
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 23/27 Bayesův klasifikátor Volba rozptylu Gausovky σ=0,50 σ=0,15
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 24/27 Bayesův klasifikátor Výhody a nevýhody Naivního Bayese Předpoklad nezávislosti atributů Předpoklad normální distribuce Při hojnosti dat dávají ostatní metody obvykle lepší výsledky + Jednoduchý na implementaci + Na naučení stačí málo dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 25/27 Porovnání Porovnání klasifikátorů Vlastnost Stromy k-nn Naivní Bayes Neuronové sítě Mix typů atributů ano ne ano ne Chybějící data ano některé ano ne Outliers ano ano diskuze ano Škálovatelné ano ne ano ano Interpretovatelné ano ne ano ne Přesné ne ne ano ano
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 26/27 Otázky Otázky Proč je naivní Bayes nazýván naivní?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 27/27 Zdroje Online zdroje http://www.statsoft.com/textbook/naive-bayes-classifier/ http://en.wikipedia.org/wiki/bayes%27_theorem