Vytěžování znalostí z dat
|
|
- Helena Krausová
- před 6 lety
- Počet zobrazení:
Transkript
1 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 7: Bayesovská klasifikace BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
2 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 2/27 Bayesův klasifikátor Bayesův vzorec
3 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 3/27 Bayesovská klasifikace -co to je? Statistická metoda klasifikace. Umožňuje vyjádřit jistotu, s jakou byly data správně oklasifikovány. Pojmenovaná po ThomasuBayesovi( ), který popsal Bayesovu větu.
4 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 4/27 Proč Bayes? Poskytuje praktický způsob učení. opř: Naivní Bayes Apriorní pravděpodobnosta pozorovaná data mohou být kombinovány. Vypočítá explicitní pravděpodobnost hypotézy. Poskytuje náhled pro pochopení složitějších učících algoritmů. Poskytuje zlatý standard, proti kterému se nechají porovnávat ostatní kladifikátory. Odolný na šum v datech.
5 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 5/27 Bayesův klasifikátor Pravděpodobnost Pravděpodobnost není nic jiného, než selský rozum zredukovaný na matematiku Pierre-Simon Laplace 1814
6 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 6/27 Bayesův klasifikátor Podmíněná pravděpodobnost Pr(A) je pravděpodobnost že nastal jev A. P(B A) je pravděpodobnost jevu B, za podmínky, že nastal jev A. P(A B) je pravděpodobnost že nastal jev A i B. P(A B)=P(B A) P(A)
7 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 7/27 Bayesův klasifikátor Pravděpodobnost prezence na přednášce P(A) 2/5 P(B A) 1/3 2/3 P(B A) P(Slunečno a P)=2/5*1/3=2/15 P(Slunečno a N)=2/5*2/3=4/15 3/5 9/10 P(Prší a P)=3/5*9/10=27/50 1/10 P(Prší a N)=3/5*1/10=3/50 Slunečno Prší Přítomen Nepřítomen
8 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 8/27 Bayesův klasifikátor Odvození Bayesovi věty ( )= ( ) ( ) ( )= ( ) ( ) Protože platí = : =
9 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 9/27 Bayesovavěta Bayesův klasifikátor Věrohodnost (pravděpodobnost dat B, když hypotéza A je pravda) Apriorní pravděpodobnost (pravděpodobnost hypotézy A před tím, než vidíme data) ( )= ( ) ( ) ( ) Posteriorní pravděpodobnost (pravděpodobnost hypotézy A poté, co jsme viděli data B) Normalizační konstanta (pravděpodobnost dat B. Zajišťujě, že opět dostaneme pravděpodobnost) = ( )
10 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 10/27 Příklad P(A/B): Chceme zjistit pravděpodobnost, že zákazník si od nás koupí počítač (A), když známe jeho věk B (Posteriorní pravděpodobnost). P(A): Pravděpodobnost, že zákazník si od nás koupil počítač bez ohledu na věk(apriorní pravděpodobnost). P(B/A): Pravděpodobnost, že zákazníkovi je 35 let, když si odnás koupil počítač(věrohodnost). P(B): Pravděpodobnost, že zákazníkovi je 35 let (Normalizační konstanta).
11 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 11/27 Maximální Posteriorní Pravděpodobnost (MPP) Chceme najít nejvíce pravděpodobný jev A na základě trénovacích dat B. =max ( ) =max ( ) =max ( ) ( ) koupí si počítač nekoupí si počítač Protože ( )je pro všechny stejné, můžeme ji ignorovat
12 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 12/27 Maximální Věrohodnost Můžeme předpokládat ( )= ( ) Nejsme tedy nijak dopředu zaujatí V našem příkladu předpokládáme, že polovička zákazníků si počítač koupí To vede ke zjednodušení: =max ( ) ( ) =max ( )
13 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 13/27 Bayesův klasifikátor Příklad Zákazník id Věk Příjem Vysoké vzdělání Vlastní auto Koupí počítač 1 35 Střední Ano Ano Ano 2 30 Vysoký Ne Ano Ne 3 40 Nízký Ano Ne Ne 4 35 Střední Ne Ne Ano 5 45 Nízký Ne Ne Ano 6 35 Vysoký Ne Ano Ano 7 35 Střední Ne Ano Ne 8 25 Nízký Ne Ano Ne 9 28 Vysoký Ne Ano Ne Střední Ano Ano Ano
14 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 14/27 Příklad (pokračování..) P(koupí počítač = ano) = 5/10 = 0,5 P(koupí počítač= ne) = 5/10 = 0,5 P(zákazníkovi je 35& střední příjem) = =4/10 = 0,4 P(zákazníkovi je 35& střední příjem koupí počítač= ano) = 3/5 =0,6 P(zákazníkovi je 35& střední příjem koupí počítač= ne) = 1/5 = 0,2 Koupí zákazník počítač, nebo ne?
15 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 15/27 Bayesův klasifikátor Příklad (pokračování..) Zákazník si koupí počítačp(a1/b) = P(A1) * P (B A1)/ P(B) = 0,5 * 0,6 / 0,4 Zákazník si nekoupí počítačp(a2/b) = P(A2) * P (B A2)/ P(B) = 0,5 * 0,2 / 0,4 Výsledek= max {P(A1 B), P(A2 B)} = max(0,6;0,2) Zákazník si počítač koupí
16 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 16/27 Příklad (pokračování..) Co když máme zákazníka: 40 let, vysoký příjem? Zákazník id Věk Příjem Vysoké vzdělání Vlastní auto Koupí počítač 1 35 Střední Ano Ano Ano 2 30 Vysoký Ne Ano Ne 3 40 Nízký Ano Ne Ne 4 35 Střední Ne Ne Ano 5 45 Nízký Ne Ne Ano 6 35 Vysoký Ne Ano Ano 7 35 Střední Ne Ano Ne 8 25 Nízký Ne Ano Ne 9 28 Vysoký Ne Ano Ne Střední Ano Ano Ano
17 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 17/27 Bayes Apriorní pravděpodobnost, že někdo má základní vzdělání Věk nad 21? Základní vzdělání? Střední vzdělání? ZŠNe 0 ZŠ Ano 0.4 <21,bez SŠ 0 >21,bez SŠ 0 <21, s SŠ 0.02 >21,s SŠ 0.2 Vysoké vzdělání? Podmíněná pravděpodobnost, že někdo má střední vzdělání
18 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 18/27 Bayes Výborný model, ale obvykle nevíme, jak jsou jevy navzájem závislé. Závyslosti se nechají odhadnout z trénovacích dat, ale obvykle jich na to nemáme dostatek. Proto se používá Naivní Bayes...
19 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 19/27 Naivní Bayes Věk nad 21? Základní vzdělání? Střední vzdělání? Vysoké vzdělání? <21,bez ZŠ, bez SŠ 0 >21,bez ZŠ, bez SŠ 0 Co se změnilo? <21,s ZŠ, bez SŠ 0 >21,s ZŠ, bez SŠ 0 <21,s ZŠ, s SŠ 0.02 >21,s ZŠ, s SŠ 0.20
20 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 20/27 NaivníBayes Naivní Bayes předpokládá P ( 1 X1, K, X N C) = P( X C) LP( X N C) tedy nezávislost parametrů. KaždýatributX i je nezávislý na ostatních atributech, jakmile známe hodnotuc.
21 Bayesův klasifikátor Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 21/27 Kernelovský odhad Pro každý vzorek se vytvoří Gausovka, a následně se sečtou.
22 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 22/27 Bayesův klasifikátor Kernelovský odhad Výsledná hustota pravděpodobnosti
23 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 23/27 Bayesův klasifikátor Volba rozptylu Gausovky σ=0,50 σ=0,15
24 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 24/27 Bayesův klasifikátor Výhody a nevýhody Naivního Bayese Předpoklad nezávislosti atributů Předpoklad normální distribuce Při hojnosti dat dávají ostatní metody obvykle lepší výsledky + Jednoduchý na implementaci + Na naučení stačí málo dat
25 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 25/27 Porovnání Porovnání klasifikátorů Vlastnost Stromy k-nn Naivní Bayes Neuronové sítě Mix typů atributů ano ne ano ne Chybějící data ano některé ano ne Outliers ano ano diskuze ano Škálovatelné ano ne ano ano Interpretovatelné ano ne ano ne Přesné ne ne ano ano
26 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 26/27 Otázky Otázky Proč je naivní Bayes nazýván naivní?
27 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 27/27 Zdroje Online zdroje
Vytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 1 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 1/21 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
VícePRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady
PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský
VíceBayesovské metody. Mnohorozměrná analýza dat
Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A
Víceoddělení Inteligentní Datové Analýzy (IDA)
Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {
VíceJiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Definice P(A/B) pravděpodobnost nastoupení jevu A za předpokladu, že nastal jev B (P(B) > 0) definujeme vztahem
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 1/14 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceBAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni
BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Slunce Řidiči IQ Regrese Přežití Obvyklý model Pozorování X = (X 1,..., X
VíceKlasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka
VíceOdhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
VíceVytěžování znalostí z dat
Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical
VíceBayesovská klasifikace
Bayesovská klasifikace založeno na Bayesově větě P(H E) = P(E H) P(H) P(E) použití pro klasifikaci: hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J E) = max i P(E H i) P(H
Vícepravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.
3.1 Základy teorie pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti. Co se dozvíte Náhodný pokus a náhodný jev. Pravděpodobnost, počítání s pravděpodobnostmi.
VíceIntervalové Odhady Parametrů
Parametrů Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze
VícePředzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond
Více3. Podmíněná pravděpodobnost a Bayesův vzorec
3. Podmíněná pravděpodobnost a Bayesův vzorec Poznámka: V některých úlohách řešíme situaci, kdy zkoumáme pravděpodobnost náhodného jevu za dalších omezujících podmínek. Nejčastěji má omezující podmínka
VíceMiroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)
VíceStatistika. Jindřich Soukup. University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems
Statistika Jindřich Soukup 2013-07-24 University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems Statistika umí: Předpovídat budoucnost? "...
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Náhodný výběr Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
VíceÚloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
VíceKybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
VíceIntuitivní pojem pravděpodobnosti
Pravděpodobnost Intuitivní pojem pravděpodobnosti Intuitivní pojem pravděpodobnosti Pravděpodobnost zkoumaného jevu vyjadřuje míru naděje, že tento jev nastane. Řekneme-li, že má nějaký jev pravděpodobnost
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceInženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.
Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je
VíceStatistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VíceInformační a znalostní systémy
Informační a znalostní systémy Teorie pravděpodobnosti není v podstatě nic jiného než vyjádření obecného povědomí počítáním. P. S. de Laplace Pravděpodobnost a relativní četnost Pokusy, výsledky nejsou
VíceMgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.
Náhodné veličiny III Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc. Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman
VíceUsuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
VíceZáklady teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 15. srpna 2012 Statistika
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceLékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)
Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 1/10 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VícePravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
VíceAVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
VíceRozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
VíceObsah. Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Pravděpodobnost. Pravděpodobnost. Děj pokus jev
Obsah Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Definice pojmů Náhodný jev Pravděpodobnost Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi;-) roman.biskup(at)email.cz
VícePravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
VíceAplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
VíceMěření dat Filtrace dat, Kalmanův filtr
Měření dat Filtrace dat, Matematické metody pro ITS (11MAMY) Jan Přikryl Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní 3. přednáška 11MAMY čtvrtek 28. února 2018 verze: 2018-03-21 16:45 Obsah
VíceCvičení 3. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.
Cvičení 3 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceVšechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
VícePředzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
VícePředzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 1/23 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
VíceCvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.
10 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VíceImplementace Bayesova kasifikátoru
Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6
VíceMinikurz aplikované statistiky. Minikurz aplikované statistiky p.1
Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1 Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev.
VíceStavový model a Kalmanův filtr
Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,
VíceTestování a spolehlivost. 4. Laboratoř Spolehlivostní modely 1
Testování a spolehlivost ZS 2011/2012 4. Laboratoř Spolehlivostní modely 1 Martin Daňhel Katedra číslicového návrhu Fakulta informačních technologí ČVUT v Praze Příprava studijního programu Informatika
Víceprof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií
prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman Kotecký, 2011 Pravděpodobnost
VíceObr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.
Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.
VíceUmělá inteligence II
Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními
VíceVK CZ.1.07/2.2.00/
Robotika Tvorba map v robotice - MRBT 3. března 2015 Ing. František Burian Komplexní inovace studijních programů a zvyšování kvality výuky na FEKT VUT v Brně OP VK CZ.1.07/2.2.00/28.0193 v pojetí mobilní
VíceEM algoritmus. Proč zahrnovat do modelu neznámé veličiny
EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost
VíceNáhodný jev a definice pravděpodobnosti
Náhodný jev a definice pravděpodobnosti Obsah kapitoly Náhodný jev. Vztahy mezi náhodnými jevy. Pravidla pro počítání s pravděpodobnostmi. Formule úplné pravděpodobnosti a Bayesův vzorec. Studijní cíle
VíceMěření dat Filtrace dat, Kalmanův filtr
Měření dat Filtrace dat, Matematické metody pro ITS (11MAMY) Jan Přikryl Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní 3. přednáška 11MAMY čtvrtek 28. února 2018 verze: 2018-02-28 12:20 Obsah
Vícecv3.tex. Vzorec pro úplnou pravděpodobnost
3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P
VíceStrukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
VíceÚstav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28
Úvod do bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace Akademie věd České republiky http://www.utia.cz/vomlel 30. října 2008 J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/2008
VíceŘešení rekurentních rovnic 3. Základy diskrétní matematiky, BI-ZDM ZS 2011/12, Lekce 12
Řešení rekurentních rovnic 3 doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky FIT České vysoké učení technické v Praze c Josef Kolar, 2011 Základy diskrétní matematiky, BI-ZDM ZS 2011/12, Lekce
VícePřednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
VícePracovní list č. 4 Počítáme s pravděpodobností
racovní list č. 4 očítáme s pravděpodobností Cíl cvičení: Tento pracovní list je určen pro cvičení předmětu Kvantitativní metody II (přednáška 3.1). Je zaměřen především pro práci s kalkulačkou, program
VíceSRE 03 - Statistické rozpoznávání
SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget ÚPGM FIT VUT Brno, burget@fit.vutbr.cz FIT VUT Brno SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 1/29 Opakování
VícePřednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky
řednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky Statistika vychází z pravděpodobnosti odmíněná pravděpodobnost, Bayesův vzorec Senzitivita, specificita, prediktivní hodnoty Frekventistická
VícePravděpodobnost a statistika (BI-PST) Cvičení č. 1
Pravděpodobnost a statistika (BI-PST) Cvičení č. 1 Katedra aplikované matematiky Fakulta informačních technologií České vysoké učení technické v Praze ZS 2014/2015 (FIT ČVUT) BI-PST, Cvičení č. 1 ZS 2014/2015
VíceCvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.
5 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v
VíceLEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR
LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR Ve většině případů pracujeme s výběrovým souborem a výběrové výsledky zobecňujeme na základní soubor. Smysluplné
VíceAutomatické vyhledávání informace a znalosti v elektronických textových datech
Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická
Vícepopulace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.
Populace a Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 1 populace soubor jednotek, o jejichž vlastnostech bychom
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
VíceIntervalová data a výpočet některých statistik
Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a
VíceNáhodné vektory a matice
Náhodné vektory a matice Jiří Militký Katedra textilních materiálů Technická Universita Liberec, Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Symbolika A B Jev jistý S (nastane
Více1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!
Výsledky příkladů na procvičení z NMSA0 Klasická pravděpodobnost. 5. ( 4( 43 ( 49 3. 8! 3! 0! = 5 Poslední změna (oprava:. května 08 4. (a! + 3! + ( n+ n! = n k= ( k+ /k! = n k=0 ( k /k!; (b n k=0 ( k
VíceCvičení 1. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.
1 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v
VíceVlastnosti a modelování aditivního
Vlastnosti a modelování aditivního bílého šumu s normálním rozdělením kacmarp@fel.cvut.cz verze: 0090913 1 Bílý šum s normálním rozdělením V této kapitole se budeme zabývat reálným gaussovským šumem n(t),
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VíceTESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě
VíceANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
VíceZimní semestr akademického roku 2014/ prosince 2014
Cvičení k předmětu BI-ZMA Tomáš Kalvoda Katedra aplikované matematiky FIT ČVUT Matěj Tušek Katedra matematiky FJFI ČVUT Obsah Cvičení Zimní semestr akademického roku 014/015. prosince 014 Předmluva iii
VíceBayesian Networks. The graph represents conditional independencies of the join probability distribution Π X V P(X pa(x)).
Bayesian Networks Definition (Bayesian Network) Bayesian network is a pair (G, P), where G = (V, E) is a DAG (directed acyclic graph with set of vertexes V and set of edges E) and P is a list of conditional
VíceStatistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
VíceHodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Více