Vytěžování znalostí z dat

Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Pravděpodobnost, náhoda, kostky

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Pravděpodobnost, náhoda, kostky

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Bayesovské metody. Mnohorozměrná analýza dat

oddělení Inteligentní Datové Analýzy (IDA)

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Vytěžování znalostí z dat

TECHNICKÁ UNIVERZITA V LIBERCI

Vytěžování znalostí z dat

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Odhady - Sdružené rozdělení pravděpodobnosti

Vytěžování znalostí z dat

Bayesovská klasifikace

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Intervalové Odhady Parametrů

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

3. Podmíněná pravděpodobnost a Bayesův vzorec

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Statistika. Jindřich Soukup. University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems

PRAVDĚPODOBNOST A STATISTIKA

Úloha - rozpoznávání číslic

Kybernetika a umělá inteligence, cvičení 10/11

Intuitivní pojem pravděpodobnosti

Vytěžování znalostí z dat

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Statistická teorie učení

Informační a znalostní systémy

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Usuzování za neurčitosti

Základy teorie pravděpodobnosti

UČENÍ BEZ UČITELE. Václav Hlaváč

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Pravděpodobně skoro správné. PAC učení 1

AVDAT Mnohorozměrné metody, metody klasifikace

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Obsah. Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Pravděpodobnost. Pravděpodobnost. Děj pokus jev

Pravděpodobnost a aplikovaná statistika

Aplikovaná numerická matematika

Měření dat Filtrace dat, Kalmanův filtr

Cvičení 3. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Úvodem Dříve les než stromy 3 Operace s maticemi

Implementace Bayesova kasifikátoru

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Stavový model a Kalmanův filtr

Testování a spolehlivost. 4. Laboratoř Spolehlivostní modely 1

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Umělá inteligence II

VK CZ.1.07/2.2.00/

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Náhodný jev a definice pravděpodobnosti

Měření dat Filtrace dat, Kalmanův filtr

cv3.tex. Vzorec pro úplnou pravděpodobnost

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Ústav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28

Řešení rekurentních rovnic 3. Základy diskrétní matematiky, BI-ZDM ZS 2011/12, Lekce 12

Přednáška 13 Redukce dimenzionality

Pracovní list č. 4 Počítáme s pravděpodobností

SRE 03 - Statistické rozpoznávání

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Pravděpodobnost a statistika (BI-PST) Cvičení č. 1

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Automatické vyhledávání informace a znalosti v elektronických textových datech

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

= = 2368

Intervalová data a výpočet některých statistik

Náhodné vektory a matice

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Cvičení 1. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Vlastnosti a modelování aditivního

Normální (Gaussovo) rozdělení

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Zimní semestr akademického roku 2014/ prosince 2014

Bayesian Networks. The graph represents conditional independencies of the join probability distribution Π X V P(X pa(x)).

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Odhad parametrů N(µ, σ 2 )

Jednofaktorová analýza rozptylu

Transkript:

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 7: Bayesovská klasifikace BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 2/27 Bayesův klasifikátor Bayesův vzorec

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 3/27 Bayesovská klasifikace -co to je? Statistická metoda klasifikace. Umožňuje vyjádřit jistotu, s jakou byly data správně oklasifikovány. Pojmenovaná po ThomasuBayesovi(1702-1761), který popsal Bayesovu větu.

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 4/27 Proč Bayes? Poskytuje praktický způsob učení. opř: Naivní Bayes Apriorní pravděpodobnosta pozorovaná data mohou být kombinovány. Vypočítá explicitní pravděpodobnost hypotézy. Poskytuje náhled pro pochopení složitějších učících algoritmů. Poskytuje zlatý standard, proti kterému se nechají porovnávat ostatní kladifikátory. Odolný na šum v datech.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 5/27 Bayesův klasifikátor Pravděpodobnost Pravděpodobnost není nic jiného, než selský rozum zredukovaný na matematiku Pierre-Simon Laplace 1814

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 6/27 Bayesův klasifikátor Podmíněná pravděpodobnost Pr(A) je pravděpodobnost že nastal jev A. P(B A) je pravděpodobnost jevu B, za podmínky, že nastal jev A. P(A B) je pravděpodobnost že nastal jev A i B. P(A B)=P(B A) P(A)

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 7/27 Bayesův klasifikátor Pravděpodobnost prezence na přednášce P(A) 2/5 P(B A) 1/3 2/3 P(B A) P(Slunečno a P)=2/5*1/3=2/15 P(Slunečno a N)=2/5*2/3=4/15 3/5 9/10 P(Prší a P)=3/5*9/10=27/50 1/10 P(Prší a N)=3/5*1/10=3/50 Slunečno Prší Přítomen Nepřítomen

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 8/27 Bayesův klasifikátor Odvození Bayesovi věty ( )= ( ) ( ) ( )= ( ) ( ) Protože platí = : =

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 9/27 Bayesovavěta Bayesův klasifikátor Věrohodnost (pravděpodobnost dat B, když hypotéza A je pravda) Apriorní pravděpodobnost (pravděpodobnost hypotézy A před tím, než vidíme data) ( )= ( ) ( ) ( ) Posteriorní pravděpodobnost (pravděpodobnost hypotézy A poté, co jsme viděli data B) Normalizační konstanta (pravděpodobnost dat B. Zajišťujě, že opět dostaneme pravděpodobnost) = ( )

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 10/27 Příklad P(A/B): Chceme zjistit pravděpodobnost, že zákazník si od nás koupí počítač (A), když známe jeho věk B (Posteriorní pravděpodobnost). P(A): Pravděpodobnost, že zákazník si od nás koupil počítač bez ohledu na věk(apriorní pravděpodobnost). P(B/A): Pravděpodobnost, že zákazníkovi je 35 let, když si odnás koupil počítač(věrohodnost). P(B): Pravděpodobnost, že zákazníkovi je 35 let (Normalizační konstanta).

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 11/27 Maximální Posteriorní Pravděpodobnost (MPP) Chceme najít nejvíce pravděpodobný jev A na základě trénovacích dat B. =max ( ) =max ( ) =max ( ) ( ) koupí si počítač nekoupí si počítač Protože ( )je pro všechny stejné, můžeme ji ignorovat

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 12/27 Maximální Věrohodnost Můžeme předpokládat ( )= ( ) Nejsme tedy nijak dopředu zaujatí V našem příkladu předpokládáme, že polovička zákazníků si počítač koupí To vede ke zjednodušení: =max ( ) ( ) =max ( )

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 13/27 Bayesův klasifikátor Příklad Zákazník id Věk Příjem Vysoké vzdělání Vlastní auto Koupí počítač 1 35 Střední Ano Ano Ano 2 30 Vysoký Ne Ano Ne 3 40 Nízký Ano Ne Ne 4 35 Střední Ne Ne Ano 5 45 Nízký Ne Ne Ano 6 35 Vysoký Ne Ano Ano 7 35 Střední Ne Ano Ne 8 25 Nízký Ne Ano Ne 9 28 Vysoký Ne Ano Ne 10 35 Střední Ano Ano Ano

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 14/27 Příklad (pokračování..) P(koupí počítač = ano) = 5/10 = 0,5 P(koupí počítač= ne) = 5/10 = 0,5 P(zákazníkovi je 35& střední příjem) = =4/10 = 0,4 P(zákazníkovi je 35& střední příjem koupí počítač= ano) = 3/5 =0,6 P(zákazníkovi je 35& střední příjem koupí počítač= ne) = 1/5 = 0,2 Koupí zákazník počítač, nebo ne?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 15/27 Bayesův klasifikátor Příklad (pokračování..) Zákazník si koupí počítačp(a1/b) = P(A1) * P (B A1)/ P(B) = 0,5 * 0,6 / 0,4 Zákazník si nekoupí počítačp(a2/b) = P(A2) * P (B A2)/ P(B) = 0,5 * 0,2 / 0,4 Výsledek= max {P(A1 B), P(A2 B)} = max(0,6;0,2) Zákazník si počítač koupí

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 16/27 Příklad (pokračování..) Co když máme zákazníka: 40 let, vysoký příjem? Zákazník id Věk Příjem Vysoké vzdělání Vlastní auto Koupí počítač 1 35 Střední Ano Ano Ano 2 30 Vysoký Ne Ano Ne 3 40 Nízký Ano Ne Ne 4 35 Střední Ne Ne Ano 5 45 Nízký Ne Ne Ano 6 35 Vysoký Ne Ano Ano 7 35 Střední Ne Ano Ne 8 25 Nízký Ne Ano Ne 9 28 Vysoký Ne Ano Ne 10 35 Střední Ano Ano Ano

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 17/27 Bayes Apriorní pravděpodobnost, že někdo má základní vzdělání Věk nad 21? - 0.7 Základní vzdělání? - 0.98 Střední vzdělání? ZŠNe 0 ZŠ Ano 0.4 <21,bez SŠ 0 >21,bez SŠ 0 <21, s SŠ 0.02 >21,s SŠ 0.2 Vysoké vzdělání? Podmíněná pravděpodobnost, že někdo má střední vzdělání

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 18/27 Bayes Výborný model, ale obvykle nevíme, jak jsou jevy navzájem závislé. Závyslosti se nechají odhadnout z trénovacích dat, ale obvykle jich na to nemáme dostatek. Proto se používá Naivní Bayes...

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 19/27 Naivní Bayes Věk nad 21? - 0.7 Základní vzdělání? Střední vzdělání? - 0.98-0.39 Vysoké vzdělání? <21,bez ZŠ, bez SŠ 0 >21,bez ZŠ, bez SŠ 0 Co se změnilo? <21,s ZŠ, bez SŠ 0 >21,s ZŠ, bez SŠ 0 <21,s ZŠ, s SŠ 0.02 >21,s ZŠ, s SŠ 0.20

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 20/27 NaivníBayes Naivní Bayes předpokládá P ( 1 X1, K, X N C) = P( X C) LP( X N C) tedy nezávislost parametrů. KaždýatributX i je nezávislý na ostatních atributech, jakmile známe hodnotuc.

Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 21/27 Kernelovský odhad Pro každý vzorek se vytvoří Gausovka, a následně se sečtou.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 22/27 Bayesův klasifikátor Kernelovský odhad Výsledná hustota pravděpodobnosti

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 23/27 Bayesův klasifikátor Volba rozptylu Gausovky σ=0,50 σ=0,15

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 24/27 Bayesův klasifikátor Výhody a nevýhody Naivního Bayese Předpoklad nezávislosti atributů Předpoklad normální distribuce Při hojnosti dat dávají ostatní metody obvykle lepší výsledky + Jednoduchý na implementaci + Na naučení stačí málo dat

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 25/27 Porovnání Porovnání klasifikátorů Vlastnost Stromy k-nn Naivní Bayes Neuronové sítě Mix typů atributů ano ne ano ne Chybějící data ano některé ano ne Outliers ano ano diskuze ano Škálovatelné ano ne ano ano Interpretovatelné ano ne ano ne Přesné ne ne ano ano

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 26/27 Otázky Otázky Proč je naivní Bayes nazýván naivní?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 27/27 Zdroje Online zdroje http://www.statsoft.com/textbook/naive-bayes-classifier/ http://en.wikipedia.org/wiki/bayes%27_theorem