oddělení Inteligentní Datové Analýzy (IDA)
|
|
- Blanka Kolářová
- před 4 lety
- Počet zobrazení:
Transkript
1 Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září / 25
2 Odhad rozdělení Úloha: Vstup: data D = { x 1, x 2,... x m }, x i X (1 i m), m N náhodně, navz. nezávisle vybraná z rozdělení P X na X Výstup: vzor h L reprezentující odhad P X, tj. generativní model dat Filip Železný (ČVUT) Vytěžování dat 22. září / 25
3 Odhad rozdělení: příklad úlohy 2 druhy bonbónů v baĺıčku Vybíráme náhodně (poslepu), dostaneme Jaký je poměr (pravděpodobnost) zelených bonbónů v baĺıčku? Filip Železný (ČVUT) Vytěžování dat 22. září / 25
4 Odhad rozdělení: příklad úlohy (pokr.) P X lze reprezentovat jedním číslem θ Tedy prostor vzorů je reálný interval X = {, } P ( ) = θ, P ( ) = 1 θ L = [0; 1] Pozn.: ve skutečnosti konečná podmnožina [0; 1], nebot reálná čísla se reprezentují konečným počtem číslic. Filip Železný (ČVUT) Vytěžování dat 22. září / 25
5 Odhad dle četnosti Data Odhad dle relativní četnosti: D = { } (m = 10) P ( ) = θ 9 10 Odůvodnění: četnost konverguje k pravděpodobnosti pro m. Filip Železný (ČVUT) Vytěžování dat 22. září / 25
6 Odhad dle maximální věrohodnosti Obecnější metoda odhadu. Používá podmíněnou pravděpodobnost P (D θ) tj.: má-li parametr hodnotu θ, budeme data D pozorovat s touto pravděpodobností. Nazývá se věrohodnost (likelihood). Parametr odhadneme tak, že věrohodnost maximalizujeme θ = arg max P (D θ) θ Data x i D jsou vybírána navzájem nezávisle, tedy: P (D θ) = Π m i=1p (x i θ) Filip Železný (ČVUT) Vytěžování dat 22. září / 25
7 Věrohodnost: příklad D = { } (m = 10) Pro θ = P ( ) = 0.6 P (D θ) = P ( 0.6) 9 P ( 0.6) 1 = Pro θ = P ( ) = 0.8 P (D θ) = P ( 0.8) 9 P ( 0.8) 1 = Tedy θ = 0.8 je věrohodnější než θ = 0.6. Obecně: jak najít θ, které věrohodnost maximalizuje? Filip Železný (ČVUT) Vytěžování dat 22. září / 25
8 Logaritmus věrohodnosti Pro snazší výpočet používáme logaritmus věrohodnosti tedy L(D θ) = log P (D θ) V příkladě s bonbóny: L(D θ) = log Π m i=1p (x i θ) = m log P (x i θ) i=1 L(D θ) = log θ z + log(1 θ) c = c log θ + z log(1 θ) kde c a z je počet červených resp. zelených bonbónů v datech Filip Železný (ČVUT) Vytěžování dat 22. září / 25
9 Hledání maxima věrohodnosti θ maximalizuje věrohodnost právě tehdy, když maximalizuje její logaritmus. Hledáme maximum L(D θ), tedy položíme V příkladě s bonbóny: Řešení: d dθ L(D θ) = 0 d dθ (c log θ + z log(1 θ)) = c θ z 1 θ = 0 θ = c c + z = c m Tedy stejný výsledek jako u odhadu dle relativní četnosti. Metoda maximální věrohodnosti je ale obecnější - uvidíme dále. Filip Železný (ČVUT) Vytěžování dat 22. září / 25
10 Omezená množina vzorů Tentokrát víme, že se vyrábí jen 5 typů baĺıčků: 1 100% zelených 2 75% zelených, 25% červených 3 50% zelených, 50% červených 4 25% zelených, 75% červených 5 100% červených Každý typ představuje jeden vzor pro generování dat (losování bonbónů), označme je po řadě L = {h 1, h 2, h 3, h 4, h 5 }. Filip Železný (ČVUT) Vytěžování dat 22. září / 25
11 Vzor s maximální věrohodnostní Odhad dle četností již není použitelný, metoda maximální věrohodnosti je. P (D h 1 ) = 1 z 0 c P (D h 1 ) = 0.75 z 0.25 c P (D h 3 ) = 0.5 z 0.5 c P (D h 4 ) = 0.25 z 0.75 c P (D h 5 ) = 0 z 1 c (z, c... počet zelených resp. červených bonbónů v datech) Dostáváme samé zelené: D = {...}, který vzor je nejvěrohodnější? Filip Železný (ČVUT) Vytěžování dat 22. září / 25
12 Apriorní pravděpodobnosti Marginální rozdělení pravděpodobnosti P L (h i ) vzorů může být známo před obdržením dat. Např: 1 100% zelených 2 75% zelených, 25% červených 3 50% zelených, 50% červených 4 25% zelených, 75% červených 5 100% červených Filip Železný (ČVUT) Vytěžování dat 22. září / 25
13 Apriorní pravděpodobnosti Marginální rozdělení pravděpodobnosti P L (h i ) vzorů může být známo před obdržením dat. Např: 1 100% zelených 10% výroby 2 75% zelených, 25% červených 20% výroby 3 50% zelených, 50% červených 40% výroby 4 25% zelených, 75% červených 20% výroby 5 100% červených 10% výroby Tedy P L (h 1 ) = 0.1, P L (h 2 ) = 0.2, P L (h 3 ) = 0.4, P L (h 4 ) = 0.2, P L (h 5 ) = 0.1 Tyto pravděpodobnosti se nazývají apriorní. Filip Železný (ČVUT) Vytěžování dat 22. září / 25
14 Aposteriorní pravděpodobnost Známe-li rozdělení P L a (po obdržení dat) P (D h i ) pro každý vzor h i můžeme podle Bayesova pravidla spočítat P (h i D) = P (D h i)p L (h i ) P (D) P (h i D) je aposteriorní pravděpodobnost vzoru h i po obdržení dat D. Jmenovatel nezávisí na h i. Z tohoto důvodu L P (D) = P (D h j )P (h j ) j=1 arg max P (h i D) = arg max P (D h i )P L (h i ) h i h i Filip Železný (ČVUT) Vytěžování dat 22. září / 25
15 Odhad dle MAP Metoda maximální aposteriorní pravděpodobnosti (MAP) vybírá vzor h h = arg max P (h i D) = arg max P (D h i )P L (h i ) h i h i Srov. s metodou maximální věrohodnosti, kde h = arg max h i P (D h i ) MAP tedy bere navíc úvahu informaci nesenou apriorním rozdělením P L (h i ). Ta je významná pro malé množství dat, ale s rostoucím množstvím dat její význam klesá: arg max P (D h i )P L (h i ) m arg max P (D h i ) h i h i Filip Železný (ČVUT) Vytěžování dat 22. září / 25
16 Aposteriorní pravděpodobnost jako funkce množství dat 1 P (h 1 d) P (h 2 D) P (h 3 D) P (h 4 D) P (h 5 D) P L (h 3 ) D = {...} (dostáváme samé zelené) P L (h 2 ) = P L (h 4 ) P L (h 1 ) = P L (h 5 ) 0 10 m Filip Železný (ČVUT) Vytěžování dat 22. září / 25
17 Odhad parametrů normálního rozdělení Data D = {x 1, x 2,... x m } vybrána navz. nezávisle z rozdělení P X (x) = 1 σ (x µ) 2 2π e 2σ 2 Z dat odhadujeme parametry µ, σ. Aplikace metody max. věrohodnosti: L(D µ, σ) = m log P (x i µ, σ) = m( log m (x i µ) 2 2π log σ) 2σ 2 i=1 i=1 d dµ L(D θ) = 1 σ 2 d dσ L(D θ) = m σ + 1 σ 3 m m i=1 (x i µ) = 0 µ = x i m i=1 m m (x i µ) 2 i=1 = 0 σ = (x i µ) 2 m i=1 Filip Železný (ČVUT) Vytěžování dat 22. září / 25
18 Směs normálních rozdělení (pokr.) pohlaví výška žena 171 žena 164 muž 182 žena 169 muž 178 muž X = P V = {muž, žena} R + D = { x 1, x 2, x 3,...} = {(p 1, v 1 ), (p 2, v 2 ), (p 3, v 3 ),...} = {(žena, 171), (žena, 164), (muž, 182),...} Filip Železný (ČVUT) Vytěžování dat 22. září / 25
19 Směs normálních rozdělení (pokr.) Rozdělení výšek je součtem dvou normálních rozdělení (muži, ženy) Každé má svoji střední hodnotu a rozptyl Rozdělení P X na X lze vyjádřit jako P X ( x) = P X ([p, v]) = P P (muž)p V P (v muž) + P P (žena)p V P (v žena) 1 P V P (v muž) = exp ( (x µ muž) 2 ) σ muž 2π 2σmuž 2 1 P V P (v žena) = exp ( (x µ žena) 2 ) σžena 2π 2σ 2 žena Filip Železný (ČVUT) Vytěžování dat 22. září / 25
20 Směs normálních rozdělení (pokr.) Odhady dle maximální věrohodnosti, zvlášt pro každé pohlaví: µžena σžena pohlaví výška žena 171 žena 164 žena 169 m i=1 x i m = = pohlaví výška muž 182 muž 173 muž 188 m i=1 µ muž x i m = = σ muž Filip Železný (ČVUT) Vytěžování dat 22. září / 25
21 Skrytá proměnná Víme, že v populaci jsou muži a ženy, ale proměnná (příznak) pohlaví v datech není. pohlaví výška žena 171 žena 164 muž 182 žena 169 muž 178 muž 184 Jak nyní odhadnout P X, tedy parametry µ muž, σ muž, µžena, σžena a P (žena)? Filip Železný (ČVUT) Vytěžování dat 22. září / 25
22 Algoritmus EM 1 Nastřel počáteční hodnoty parametrů, např. µžena = 150, σžena = 10 µ muž = 200, σ muž = 10 P (žena) = 0.5, P (muž) = Krok E (expectation): Se stanovenými parametry spočti pravděpodobnosti hodnot skryté proměnné pro každou instanci, např. P (žena 171) = P (171 žena)p (žena)/p (171) = 1 exp ( (171 µ žena) 2 ) 0.5/P (171) 2πσžena 2σ 2 žena = /P (171) Filip Železný (ČVUT) Vytěžování dat 22. září / 25
23 Algoritmus EM (pokr.) 2 Krok E (pokr.) P (muž 171) = P (171 muž)p (muž)/p (171) = 1 exp ( (171 µ muž) 2 ) 0.5/P (171) 2πσmuž 2σ 2 muž = /P (171) P (žena 171) + P (muž 171) = P (žena 171) = = 0.88 P (muž 171) = = 0.12 Filip Železný (ČVUT) Vytěžování dat 22. září / 25
24 Algoritmus EM (pokr.) 3 Krok M (maximization): Se spočtenými pravděpodobnostmi pro hodnoty skrytých proměnných znovu odhadni parametry rozdělení σžena µžena 1 Nžena m P (žena v i )v i i=1 1 m P (žena v i )(v i µžena ) 2 Nžena i=1 P (žena) 1 m m P (žena v i ) Nžena = m i=1 P (žena v i)... normalizační konstanta, zaručuje, že součet P (žena v i ) přes všechny instance je 1. Analogicky spočteme pro muže. 4 Opakuj krokem 2 (dokud změny nejsou dostatečně malé) i=1 Filip Železný (ČVUT) Vytěžování dat 22. září / 25
25 Poznámka ke kroku M Pozorujte: 1 m m i=1 je průměrná výška v celém vzorku dat. Odhad v kroku M 1 Nžena v i m P (žena v i )v i i=1 je vlastně vážený průměr. Vahou je pravděpodobnost P (žena v i ), že osoba s výškou v i je žena. Přitom m i=1 P (žena v i) = Nžena. Analogicky pro odhad σžena Analogicky pro muže Filip Železný (ČVUT) Vytěžování dat 22. září / 25
26 Algoritmus EM (pokr.) Konvergence algoritmu EM iterace µžena µ muž (správné hodnoty) Filip Železný (ČVUT) Vytěžování dat 22. září / 25
EM algoritmus. Proč zahrnovat do modelu neznámé veličiny
EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
VíceOdhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
VíceKlasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka
VícePRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady
PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský
VíceObr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.
Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.
VíceMATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
VíceZáklady teorie odhadu parametrů bodový odhad
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Odhady parametrů Úkolem výběrového šetření je podat informaci o neznámé hodnotě charakteristiky základního souboru
VíceStatistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I
Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Příklad Tahová síla papíru používaného pro výrobu potravinových sáčků je důležitá charakteristika kvality. Je známo, že síla
VíceUmělá inteligence II
Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními
VíceNestranný odhad Statistické vyhodnocování exp. dat M. Čada
Nestranný odhad 1 Parametr θ Máme statistický (výběrový) soubor, který je realizací náhodného výběru 1, 2, 3,, n z pravděpodobnostní distribuce, která je kompletně stanovena jedním nebo více parametry
Více3 Bodové odhady a jejich vlastnosti
3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe
VíceAVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
VíceAVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceImplementace Bayesova kasifikátoru
Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6
VíceBAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni
BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Slunce Řidiči IQ Regrese Přežití Obvyklý model Pozorování X = (X 1,..., X
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Náhodný výběr Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
VícePraktická statistika. Petr Ponížil Eva Kutálková
Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo
VíceAVDAT Nelineární regresní model
AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných
Více, 1. skupina (16:15-17:45) Jméno: se. Postup je třeba odůvodnit (okomentovat) nebo uvést výpočet. Výsledek bez uvedení jakéhokoliv
42206, skupina (6:5-7:45) Jméno: Zápočtový test z PSI Nezapomeňte podepsat VŠECHNY papíry, které odevzdáváte Škrtejte zřetelně a stejně zřetelně pište i věci, které platí Co je škrtnuto, nebude bráno v
VíceAVDAT Náhodný vektor, mnohorozměrné rozdělení
AVDAT Náhodný vektor, mnohorozměrné rozdělení Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování, náhodná veličina, rozdělení Náhodná veličina zobrazuje elementární
VíceMinikurz aplikované statistiky. Minikurz aplikované statistiky p.1
Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1 Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev.
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceOdhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
VíceInformační a znalostní systémy
Informační a znalostní systémy Teorie pravděpodobnosti není v podstatě nic jiného než vyjádření obecného povědomí počítáním. P. S. de Laplace Pravděpodobnost a relativní četnost Pokusy, výsledky nejsou
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceZáklady teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 15. srpna 2012 Statistika
VíceZáklady vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceBayesovské metody. Mnohorozměrná analýza dat
Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A
VícePřijímací zkouška na navazující magisterské studium 2014
Přijímací zkouška na navazující magisterské studium 24 Příklad (25 bodů) Spočtěte Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A M x 2 dxdy, kde M = {(x, y) R 2 ;
VíceÚVOD DO TEORIE ODHADU. Martina Litschmannová
ÚVOD DO TEORIE ODHADU Martina Litschmannová Obsah lekce Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti (Chí-kvadrát (Pearsonovo),
VíceNáhodné vektory a matice
Náhodné vektory a matice Jiří Militký Katedra textilních materiálů Technická Universita Liberec, Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Symbolika A B Jev jistý S (nastane
VícePříklady - Bodový odhad
Příklady - odový odhad 5. října 03 Pražské metro Přijdu v pražském metru na nástupiště a tam zjistím, že metro v mém směru jelo před :30 a metro v opačném směru před 4:0. Udělejte bodový odhad, jak dlouho
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceStatistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VíceBodové odhady parametrů a výstupů
Bodové odhady parametrů a výstupů 26. listopadu 2013 Máme rozdělení s neznámými parametry a chceme odhadnout jeden nebo několik příštích výstupů. Již víme, že úplnou informaci v této situaci nese sdružené
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceKlasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce příznaků 3 25 2 Granáty Jablka Četnost 15 1 5 2 3 4 5 6 7 8 Váha [dkg] Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky
VíceApriorní rozdělení. Jan Kracík.
Apriorní rozdělení Jan Kracík jan.kracik@vsb.cz Apriorní rozdělení Apriorní rozdělení (spolu s modelem) reprezentuje informaci o neznámém parametru θ, která je dostupná předem, tj. bez informace z dat.
VíceJiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou
VíceOdhad - Problémy se sdruženým rozdělením pravděpodobnosti
Odhad - Problémy se sdruženým rozdělením pravděpodobnosti 20. listopadu 203 V minulém materiálu jsme si ukázali, jak získat sdružené rozdělení pravděpodobnosti. Bylo to celkem jednoduché: Věrohodnostní
VíceLimitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jestliže opakujeme nezávisle nějaký pokus, můžeme z pozorovaných hodnot sestavit rozdělení relativních četností
VíceKlasifikace a rozpoznávání. Lineární klasifikátory
Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber
VíceTesty. Pavel Provinský. 19. listopadu 2013
Testy Pavel Provinský 19. listopadu 2013 Test a intervalový odhad Testy a intervalové odhady - jsou vlastně to samé. Jiný je jen úhel pohledu. Lze přecházet od jednoho k druhému. Například: Při odvozování
VíceMarkov Chain Monte Carlo. Jan Kracík.
Markov Chain Monte Carlo Jan Kracík jan.kracik@vsb.cz Princip Monte Carlo integrace Cílem je (přibližný) výpočet integrálu I(g) = E f [g(x)] = g(x)f (x)dx. (1) Umíme-li generovat nezávislé vzorky x (1),
VíceX = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní
..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
VíceInstance based learning
Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění
Více1. Statistická analýza dat Jak vznikají informace Rozložení dat
1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl
Více1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení. 31.3.2006 Seminář z aktuárských věd. Slides by LATEX.
1/30 31.3.2006 Seminář z aktuárských věd Slides by LATEX Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení 2/30 Obsah 1 Zobecněné lineární modely (GLZ 1 ) Obecný lineární model (GLM)
VícePravděpodobnost a statistika (BI-PST) Cvičení č. 9
Pravděpodobnost a statistika (BI-PST) Cvičení č. 9 R. Blažek, M. Jiřina, J. Hrabáková, I. Petr, F. Štampach, D. Vašata Katedra aplikované matematiky Fakulta informačních technologií České vysoké učení
Více12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
VíceKVADRATICKÁ KALIBRACE
Petra Širůčková, prof. RNDr. Gejza Wimmer, DrSc. Finanční matematika v praxi III. a Matematické modely a aplikace 4. 9. 2013 Osnova Kalibrace 1 Kalibrace Pojem kalibrace Cíle kalibrace Předpoklady 2 3
VíceKatedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017 Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka
VícePSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady
PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným
VíceCvičení ze statistiky - 7. Filip Děchtěrenko
Cvičení ze statistiky - 7 Filip Děchtěrenko Minule bylo.. Probrali jsme spojité modely Tyhle termíny by měly být známé: Rovnoměrné rozdělení Střední hodnota Mccalova transformace Normální rozdělení Přehled
Více1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!
Výsledky příkladů na procvičení z NMSA0 Klasická pravděpodobnost. 5. ( 4( 43 ( 49 3. 8! 3! 0! = 5 Poslední změna (oprava:. května 08 4. (a! + 3! + ( n+ n! = n k= ( k+ /k! = n k=0 ( k /k!; (b n k=0 ( k
VíceČasové řady, typy trendových funkcí a odhady trendů
Časové řady, typy trendových funkcí a odhady trendů Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Jiří Neubauer (Katedra ekonometrie UO Brno) Časové
VíceANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní
VíceNejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. y + y = 4 sin t.
1 Variace konstanty Nejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. Příklad 1 Najděte obecné řešení rovnice: y + y = 4 sin t. Co
VíceČasové řady, typy trendových funkcí a odhady trendů
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceStatistika II. Jiří Neubauer
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Zaměříme se především na popis dvourozměrných náhodných veličin (vektorů). Definice Nechť X a Y jsou
VíceStrukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
VíceCharakterizace rozdělení
Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf
VíceLIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení
LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení Způsoby statistického šetření Vyčerpávající šetření prošetření všech jednotek statistického souboru (populace) Výběrové šetření ze základního souboru
VíceLEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR
LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR Ve většině případů pracujeme s výběrovým souborem a výběrové výsledky zobecňujeme na základní soubor. Smysluplné
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VíceÚvod do teorie odhadu. Ing. Michael Rost, Ph.D.
Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost
VíceZákladní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada
Základní statistické modely 1 Statistika Matematická statistika se zabývá interpretací získaných náhodných dat. Snažíme se přiřadit statistickému souboru vhodnou distribuční funkci a najít základní číselné
Více3. Podmíněná pravděpodobnost a Bayesův vzorec
3. Podmíněná pravděpodobnost a Bayesův vzorec Poznámka: V některých úlohách řešíme situaci, kdy zkoumáme pravděpodobnost náhodného jevu za dalších omezujících podmínek. Nejčastěji má omezující podmínka
VíceSTATISTICKÉ ZJIŠŤOVÁNÍ
STATISTICKÉ ZJIŠŤOVÁNÍ ÚVOD Základní soubor Všechny ryby v rybníce, všechny holky/kluci na škole Cílem určit charakteristiky, pravděpodobnosti Průměr, rozptyl, pravděpodobnost, že Maruška kápne na toho
VíceStatistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
VíceCvičení ze statistiky - 8. Filip Děchtěrenko
Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly
VíceRegresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel
Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23
VíceZáklady vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
VíceVybraná rozdělení náhodné veličiny
3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.
VíceMgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.
Náhodné veličiny III Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc. Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman
VíceVlastnosti odhadů ukazatelů způsobilosti
Vlastnosti odhadů ukazatelů způsobilosti Jiří Michálek CQR při Ústavu teorie informace a automatizace AV ČR v Praze Úvod Ve výzkumné zprávě č 06 Odhady koeficientů způsobilosti a jejich vlastnosti viz
VíceVYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi
Vícez Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin
Příklady k procvičení z Matematické statistiky Poslední úprava. listopadu 207. Konvergence posloupnosti náhodných veličin. Necht X, X 2... jsou nezávislé veličiny s rovnoměrným rozdělením na [0, ]. Definujme
VíceRekonstrukce diskrétního rozdělení psti metodou maximální entropie
Rekonstrukce diskrétního rozdělení psti metodou maximální entropie Příklad Lze nalézt četnosti nepozorovaných stavů tak, abychom si vymýšleli co nejméně? Nechť n i, i = 1, 2,..., N jsou známé (absolutní)
VícePojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.
6. NÁHODNÝ VEKTOR Průvodce studiem V počtu pravděpodobnosti i v matematické statistice se setkáváme nejen s náhodnými veličinami, jejichž hodnotami jsou reálná čísla, ale i s takovými, jejichž hodnotami
VíceFunkce komplexní proměnné a integrální transformace
Funkce komplexní proměnné a integrální transformace Fourierovy řady I. Marek Lampart Text byl vytvořen v rámci realizace projektu Matematika pro inženýry 21. století (reg. č. CZ.1.07/2.2.00/07.0332), na
VíceVšechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
VíceKapitola 1. Logistická regrese. 1.1 Model
Kapitola Logistická regrese Předpokládám, že už jsme zavedli základní pojmy jako rysy a že už máme nějaké značení Velkost trenovacich dat a pocet parametru Motivační povídání... jeden z nejpoužívanějších
VícePravděpodobnost a statistika
Pravděpodobnost a statistika 1 Náhodné pokusy a náhodné jevy Činnostem, jejichž výsledek není jednoznačně určen podmínkami, za kterých probíhají, a které jsou (alespoň teoreticky) neomezeně opakovatelné,
VíceINTEGRÁLY S PARAMETREM
INTEGRÁLY S PARAMETREM b a V kapitole o integraci funkcí více proměnných byla potřeba funkce g(x) = f(x, y) dy proměnné x. Spojitost funkce g(x) = b a f(x, y) dy proměnné x znamená vlastně prohození limity
VíceÚvod do mobilní robotiky AIL028
SLAM - souběžná lokalizace a mapování {md zw} at robotika.cz http://robotika.cz/guide/umor07/cs 10. ledna 2008 1 2 3 SLAM intro Obsah SLAM = Simultaneous Localization And Mapping problém typu slepice-vejce
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
Více