Základy vytěžování dat
|
|
- Jaroslava Bártová
- před 9 lety
- Počet zobrazení:
Transkript
1 Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
2 Odhady pravděpodobnostních rozdělení Odkaz na výukové materiály: (oddíl 2) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
3 Vytěžování dat, přednáška 2: Pravděpodobnostní rozdělení Filip Železný Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 24 Pravděpodobnostní rozdělení
4 Odhad rozdělení Úloha: Vstup: data D = { x 1, x 2,... x m }, x i X (1 i m), m N náhodně, navz. nezávisle vybraná z rozdělení P X na X Výstup: vzor h L reprezentující odhad P X, tj. generativní model dat 2 / 24 Pravděpodobnostní rozdělení
5 Odhad rozdělení: příklad úlohy 2 druhy bonbónů v balíčku Vybíráme náhodně (poslepu), dostaneme. Jaký je poměr (pravděpodobnost) zelených bonbónů v balíčku? 3 / 24 Pravděpodobnostní rozdělení
6 Odhad rozdělení: příklad úlohy (pokr.) X = {.,. } P X lze reprezentovat jedním číslem θ P(. ) = θ, P(. ) = 1 θ Tedy prostor vzorů je reálný interval L = [0; 1] Pozn.: ve skutečnosti konečná podmnožina [0; 1], neboť reálná čísla se reprezentují konečným počtem číslic. 4 / 24 Pravděpodobnostní rozdělení
7 Odhad dle četnosti Data D = {. } (m = 10) Odhad dle relativní četnosti: P(. ) = θ 9 10 Odůvodnění: četnost konverguje k pravděpodobnosti pro m. 5 / 24 Pravděpodobnostní rozdělení
8 Odhad dle maximální věrohodnosti Obecnější metoda odhadu. Používá podmíněnou pravděpodobnost P(D θ) tj.: má-li parametr hodnotu θ, budeme data D pozorovat s touto pravděpodobností. Nazývá se věrohodnost (likelihood). Parametr odhadneme tak, že věrohodnost maximalizujeme θ = arg max P(D θ) θ Data x i D jsou vybírána navzájem nezávisle, tedy: P(D θ) = Π m i=1p(x i θ) 6 / 24 Pravděpodobnostní rozdělení
9 Věrohodnost: příklad D = {. } (m = 10) Pro θ = P(. ) = 0.6 P(D θ) = P(. 0.6) 9 P(. 0.6) 1 = Pro θ = P(. ) = 0.8 P(D θ) = P(. 0.8) 9 P(. 0.8) 1 = Tedy θ = 0.8 je věrohodnější než θ = 0.6. Obecně: jak najít θ, které věrohodnost maximalizuje? 7 / 24 Pravděpodobnostní rozdělení
10 Logaritmus věrohodnosti Pro snazší výpočet používáme logaritmus věrohodnosti tedy L(D θ) = log P(D θ) V příkladě s bonbóny: L(D θ) = log Π m i=1p(x i θ) = m log P(x i θ) i=1 L(D θ) = log θ z + log(1 θ) c = c log θ + z log(1 θ) kde c a z je počet červených resp. zelených bonbónů v datech 8 / 24 Pravděpodobnostní rozdělení
11 Hledání maxima věrohodnosti θ maximalizuje věrohodnost právě tehdy, když maximalizuje její logaritmus. Hledáme maximum L(D θ), tedy položíme V příkladě s bonbóny: Řešení: d dθ L(D θ) = 0 d dθ (c log θ + z log(1 θ)) = c θ z 1 θ = 0 θ = c c + z = c m Tedy stejný výsledek jako u odhadu dle relativní četnosti. Metoda maximální věrohodnosti je ale obecnější - uvidíme dále. 9 / 24 Pravděpodobnostní rozdělení
12 Omezená množina vzorů Tentokrát víme, že se vyrábí jen 5 typů balíčků: % zelených 2. 75% zelených, 25% červených 3. 50% zelených, 50% červených 4. 25% zelených, 75% červených % červených Každý typ představuje jeden vzor pro generování dat (losování bonbónů), označme je po řadě L = {h 1, h 2, h 3, h 4, h 5 }. 10 / 24 Pravděpodobnostní rozdělení
13 Vzor s maximální věrohodnostní Odhad dle četností již není použitelný, metoda maximální věrohodnosti je. P(D h 1 ) = 1 z + 0 c P(D h 1 ) = 0.75 z c P(D h 3 ) = 0.5 z c P(D h 4 ) = 0.25 z c P(D h 5 ) = 0 z + 1 c (z, c... počet zelených resp. červených bonbónů v datech) Dostáváme samé zelené: D = {. nejvěrohodnější?...}, který vzor je 11 / 24 Pravděpodobnostní rozdělení
14 Apriorní pravděpodobnosti Marginální rozdělení pravděpodobnosti P L (h i ) vzorů může být známo před obdržením dat. Např: % zelených 10% výroby 2. 75% zelených, 25% červených 20% výroby 3. 50% zelených, 50% červených 40% výroby 4. 25% zelených, 75% červených 20% výroby % červených 10% výroby Tedy P L (h 1 ) = 0.1, P L (h 2 ) = 0.2, P L (h 3 ) = 0.4, P L (h 4 ) = 0.2, P L (h 5 ) = 0.1 Tyto pravděpodobnosti se nazývají apriorní. 12 / 24 Pravděpodobnostní rozdělení
15 Aposteriorní pravděpodobnost Známe-li rozdělení P L a (po obdržení dat) P(D h i ) pro každý vzor h i můžeme podle Bayesova pravidla spočítat P(h i D) = P(D h i)p L (h i ) P(D) P(h i D) je aposteriorní pravděpodobnost vzoru h i po obdržení dat D. Jmenovatel L P(D) = P(D h j )P(h j ) j=1 nezávisí na h i. Z tohoto důvodu arg max P(h i D) = arg max P(D h i )P L (h i ) h i h i 13 / 24 Pravděpodobnostní rozdělení
16 Odhad dle MAP Metoda maximální aposteriorní pravděpodobnosti (MAP) vybírá vzor h h = arg max P(h i D) = arg max P(D h i )P L (h i ) h i h i Srov. s metodou maximální věrohodnosti, kde h = arg max h i P(D h i ) MAP tedy bere navíc úvahu informaci nesenou apriorním rozdělením P L (h i ). Ta je významná pro malé množství dat, ale s rostoucím množstvím dat její význam klesá: arg max P(D h i )P L (h i ) m arg max P(D h i ) h i h i 14 / 24 Pravděpodobnostní rozdělení
17 Aposteriorní pravděpodobnost jako funkce množství dat.1.p(h 1 d).p(h 2 D).P(h 3 D).P(h 4 D).P(h 5 D).P L (h 3 ).D = {....}.(dostáváme samé zelené).p L (h 2 ) = P L (h 4 ).P L (h 1 ) = P L (h 5 )..m / 24 Pravděpodobnostní rozdělení
18 Odhad parametrů normálního rozdělení Data D = {x 1, x 2,... x m } vybrána navz. nezávisle z rozdělení P X (x) = 1 e (x µ)2 2σ 2 2πσ Z dat odhadujeme parametry µ, σ. Aplikace metody max. věrohodnosti: L(D µ, σ) = m log P(x i µ, σ) = m( log m (x i µ) 2 2π log σ) 2σ 2 i=1 i=1 d dµ L(D θ) = 1 σ 2 d dσ L(D θ) = m σ + 1 σ 3 m m i=1 (x i µ) = 0 µ = x i m i=1 m m (x i µ) 2 i=1 = 0 σ = (x i µ) 2 m i=1 16 / 24 Pravděpodobnostní rozdělení
19 Směs normálních rozdělení (pokr.) pohlaví výška žena 171 žena 164 muž 182 žena 169 muž 178 muž 184 X = P V = {muž, žena} R + D = { x 1, x 2, x 3,...} = {(p 1, v 1 ), (p 2, v 2 ), (p 3, v 3 ),...} = {(žena, 171), (žena, 164), (muž, 182),...} 17 / 24 Pravděpodobnostní rozdělení
20 Směs normálních rozdělení (pokr.) Rozdělení výšek je součtem dvou normálních rozdělení (muži, ženy) Každé má svoji střední hodnotu a rozptyl Rozdělení P X na X lze vyjádřit jako P X ( x) = P X ([p, v]) = P P (muž)p V P (v muž)+p P (žena)p V P (v žena) 1 P V P (v muž) = exp ( (x µ muž) 2 ) 2πσmuž 2σ 2 muž 1 P V P (v žena) = exp ( (x µ žena) 2 ) 2πσžena 2σ 2 žena 18 / 24 Pravděpodobnostní rozdělení
21 Směs normálních rozdělení (pokr.) Odhady dle maximální věrohodnosti, zvlášť pro každé pohlaví: pohlaví výška žena 171 žena 164 žena 169 m i=1 µ žena x i m = = σ žena pohlaví výška muž 182 muž 173 muž 188 m i=1 µ muž x i m = = σ muž / 24 Pravděpodobnostní rozdělení
22 Skrytá proměnná Víme, že v populaci jsou muži a ženy, ale proměnná (příznak) pohlaví v datech není. pohlaví výška žena 171 žena 164 muž 182 žena 169 muž 178 muž 184 Jak nyní odhadnout P X, tedy parametry µ muž, σ muž, µ žena, σ žena a P(žena)? 20 / 24 Pravděpodobnostní rozdělení
23 Algoritmus EM 1. Nastřel počáteční hodnoty parametrů, např. µ žena = 150, σ žena = 10 µ muž = 200, σ muž = 10 P(žena) = 0.5, P(muž) = Krok E (expectation): Se stanovenými parametry spočti pravděpodobnosti hodnot skryté proměnné pro každou instanci, např. P(žena 171) = P(171 žena)p(žena)/p(171) = 1 exp ( (171 µ žena) 2 ) 0.5/P(171) 2πσžena 2σ 2 žena = /P(171) 21 / 24 Pravděpodobnostní rozdělení
24 Algoritmus EM (pokr.) 2. Krok E (pokr.) P(muž 171) = P(171 muž)p(muž)/p(171) = 1 exp ( (171 µ muž) 2 ) 0.5/P(171) 2πσmuž 2σ 2 muž = /P(171) P(žena 171) + P(muž 171) = P(žena 171) = = 0.88 P(muž 171) = = / 24 Pravděpodobnostní rozdělení
25 Algoritmus EM (pokr.) 3. Krok M (maximization): Se spočtenými pravděpodobnostmi pro hodnoty skrytých proměnných znovu odhadni parametry rozdělení σ žena 1 N žena µ žena 1 N žena m P(žena v i )v i i=1 m P(žena v i )(v i µ žena ) 2 i=1 P(žena) 1 m m P(žena v i ) N žena = m i=1 P(žena v i)... normalizační konstanta, zaručuje, že součet P(žena v i ) přes všechny instance je 1. Analogicky spočteme pro muže. 4. Opakuj krokem 2 (dokud změny nejsou dostatečně malé) 23 / 24 Pravděpodobnostní rozdělení i=1
26 Algoritmus EM (pokr.) Konvergence algoritmu EM iterace µ žena µ muž (správné hodnoty) / 24 Pravděpodobnostní rozdělení
27 Vytěžování dat, přednáška 3: Grafické pravděpodobnostní modely Filip Železný Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 25 Grafické pravděpodobnostní modely
28 Mnoharozměrné rozdělení Minulá přednáška: odhad rozdělení pro data s jedním příznakem x = x resp. dvěma příznaky x = (x 1, x 2 ) jednorozměrné resp. dvourozměrné rozdělení P( x) V této přednášce: odhadujeme rozdělení pro více příznaků (rozměrů) P( x) = P(x1, x 2,... x n ) Příklad: x 1 : x 2 : x 3 : x 4 : Věk Pohlaví Kuřák Rakovina 56 muž žena 48 žena muž / 25 Grafické pravděpodobnostní modely
29 Značení náhodných veličin Věk Pohlaví Kuřák Rakovina 56 muž žena 48 žena muž + + Vektorové/maticové značení x 3 = (48, žena,, ) x 3,2 = žena Pomocí prvních písmen příznaků (= náhodných veličin) Obor hodnot (V 3, P 3, K 3, R 3 ) = (48, žena,, ) P 3 = žena X = V P K R = {1, 2, } {muž, žena} {+, -} {+, -} 3 / 25 Grafické pravděpodobnostní modely
30 Odvozování ze sdruženého rozdělení Známe-li sdružené rozdělení všech příznaků, můžeme odvodit rozdělení (sdružené i podmíněné) přes kteroukoliv podmnožinu příznaků. Např. pravděpodobnost, že osoba je muž - kuřák P P,K (muž, +) = v V P V,P,K,R (v, muž, +, r) r R pravděpodobnost, že kouřící muž má rakovinu P R P,K (+ muž, +) = P R,P,K(+, muž, +) P P,K (muž, +) v V = P V,P,K,R(v, muž, +, +) v V r R P V,P,K,R(v, muž, +, r) 4 / 25 Grafické pravděpodobnostní modely
31 Reprezentace sdruženého rozdělení Parametrická: např. mnoharozměrné normální rozdělení s parametry: vektor µ středních hodnot a matice Σ tzv. kovariancí. (Mimo rozsah tohoto předmětu) Neparametrická: jedno číslo [0; 1] pro každou kombinaci hodnot příznaků. V našem příkladě tedy: V P K R = = 800 (Odpovídá 4-rozměrné kontingenční tabulce.) Ve skutečnosti stačí 799 čísel. Proč? P V,P,K,R (v, p, k, r) = 1 v V p P k K r R tedy jednu pravděpodobnost dopočítáme z ostatních. 5 / 25 Grafické pravděpodobnostní modely
32 Kombinatorická exploze Problémy s neparametrickým sdruženým rozdělelním: Paměťová náročnost. I kdyby všechny příznaky byly pouze binární, potřebujeme pro reprezentaci sdruženého rozdělení 2 n 1 čísel, kde n je počet příznaků. Exponenciální nárůst! Např. pro n = 40, jedno číslo - float - 4 bajty potřebujeme přes 4 TB Datová náročnost. Pro odhad každého čísla (pravděpodobnosti) z relativní četnosti, např. P V,P,K,R (30, muž, -, -) počet 30-letých zdravých nekuřáků v datech počet dat roste potřebný počet dat také exponenciálně. (Pro danou spolehlivost odhadu) Jak z toho ven? 6 / 25 Grafické pravděpodobnostní modely
33 Využití nezávislosti Kdyby byly všechny příznaky navzájem nezávislé, tak P V,P,K,R = P V P P P K P R a stačí tak znát jen 4 marginální rozdělení, zde tedy (100 1) + (2 1) + (2 1) + (2 1) = 102 čísel (místo původních 799). Obecně pro binární příznaky: n čísel místo 2 n 1 čísel. Většinou ale všechny příznaky navzájem nezávislé nejsou! 7 / 25 Grafické pravděpodobnostní modely
34 Využití nezávislosti (pokr.) I nezávislost jedné veličiny na ostatních znamená značné ulehčení: Věk Pohlaví Kuřák Rakovina Měsíc narození 56 muž žena 2 48 žena muž P V,P,K,R,M } {{ } = P V,P,K,R P M } {{ } =9599 čísel =810 čísel Ale ani nezávislost jediné veličiny nelze obvykle předpokládat. 8 / 25 Grafické pravděpodobnostní modely
35 Podmíněná nezávislost Pozorování: výskyt rakoviny R je závislý na pohlaví P, tj. P R P P R, ekvivalentně: P P R P P ale pouze proto, že muži častěji kouří. Tedy jakmile víme, zda osoba kouří, na pohlaví už nezáleží P R P,K = P R K, ekvivalentně: P P R,K = P P K R a P jsou tedy podmíněně nezávislé, přičemž podmínkou je K. Totéž jinými slovy: V celé populaci mají častěji rakovinu muži: P R P (+ muž) > P R (+) U kuřáků už na pohlaví nezáleží: P R P,K (+ muž, +) = P R K (+ +) Totéž u nekuřáků: P R P,K (+ muž, ) = P R K (+ ) 9 / 25 Grafické pravděpodobnostní modely
36 Grafické znázornění podmíněných nezávislostí Pro dané rodiče uzlu je uzel podmíněně nezávislý na všech uzlech, které nejsou jeho potomky..v..p.k.r Orientovaný graf bez cyklů Pro dané rodiče uzlu je uzel podmíněně nezávislý na všech uzlech, které nejsou jeho potomky. Kouření (K) závisí na všech ostatních příznacích. Výskyt rakoviny (R) závisí na kouření (K) a věku (V), ale pro dané K a V nezávisí na pohlaví P. 10 / 25 Grafické pravděpodobnostní modely
37 Výpočet sdruženého rozdělení.v..p..k.r P R,K,V,P =P R K,V,P P K,V,P =P R K,V P K,V,P =P R K,V P K V,P P V,P =P R K,V P K V,P P V P P (nezávislost V a P) 11 / 25 Grafické pravděpodobnostní modely
38 Výpočet sdruženého rozdělení (pokr.).v.p..k.r Obecně pro příznaky X = X 1 X 2... X n : P X = Π n i=1p Xi rodiče(x i ) rodiče(x i ): v nezávislostním grafu, např. rodiče(r) = {K, V} 12 / 25 Grafické pravděpodobnostní modely
39 Příklad s binárními příznaky V: vloupání do domu Z: zemětřesení A: ozval se alarm P: volá soused Pepa M: volá sousedka Marie.V.Z.A..P.M 13 / 25 Grafické pravděpodobnostní modely
40 Podmíněné nezávislosti.v.z.a..p.m V nezávisí na Z. Z nezávisí na V. A závisí na všech ostatních. A závisí na všech ostatních. Při daném A nezávisí P na V ani Z. Při daném A nezávisí P na V, Z ani M. Při daném A nezávisí M na V, Z, ani P. 14 / 25 Grafické pravděpodobnostní modely
41 Výpočet sdruženého rozdělení.v.z.a..p.m P X = Π n i=1p Xi rodiče(x i ) P V,Z,A,P,M = P P A P M A P A V,Z P V P Z 15 / 25 Grafické pravděpodobnostní modely
42 Tabulky podmíněných pravděpodobností P V,Z,A,P,M = P P A P M A P A V,Z P V P Z P V,Z,A,P,M jsme dekomponovali na rozdělení P P A, P M A, P A V,Z, P V, P Z. Každé z nich popíšeme tabulkou podmíněných pravděpodobností (TPP). P P A (+ a) a P V (+) P M A (+ a) a P Z (+) P A V,Z (+ v, z) v z čísel (místo 2 5 = 32) 16 / 25 Grafické pravděpodobnostní modely
43 Bayesovská síť. P V (+) V.Z. PZ(+) P A V,Z (+ v, z) v z A PP A (+ a) a P.M. PM A (+ a) a Graf + TPP = Bayesovská síť 17 / 25 Grafické pravděpodobnostní modely
44 Příčinné vztahy v BS Hrany v tomto grafu odpovídají příčinným (kauzálním) vzahům mezi uzly. Příčinnost = vodítko pro návrh grafu BS Graf BS ale obecně nemusí odpovídat příčinnosti!.v.z.a..p.m 18 / 25 Grafické pravděpodobnostní modely
45 Sestavení grafu BS Algoritmus pro sestavení grafu BS bez znalosti příčinných vztahů 1. Zvol pořadí příznaků X 1, X 2,... X n /* šťastná volba kompaktní síť */ 2. Pro i = 1 až n: přidej X i jako uzel do grafu vyber co nejmenší množinu rodičů z X 1,... X i 1 tak, že P Xi rodiče(x i ) = P Xi X 1,...X i 1 vyveď hrany z rodičů do X i 19 / 25 Grafické pravděpodobnostní modely
46 Příklad sestavení grafu BS Bez znalosti příčinných vztahů volíme např. pořadí M, P, A, V, Z.M.P.A..V.Z žádné rodiče P P M = P P? Ne, M musí být rodičem. P A P,M = P A P nebo P A P,M = P A M nebo P A P,M = P A? Ne, M i P musí být rodiči. P V A,P,M = P V? Ne. P V A,P,M = P V A? Ano. P Z V,A,P,M = P Z? Ne. P Z V,A,P,M = P Z A? 20 / 25 Grafické pravděpodobnostní modely
47 Ekvivalentní BS Dvě BS. Různé grafy, různé TPP. Reprezentují totéž sdružené rozdělení..v.z.a..p.m Graf sestaven na základě příčinných vztahů. TPP vyžadují = 10 čísel..m.p.a..v.z Graf sestaven obecným algoritmem. TPP vyžadují = 13 čísel. 21 / 25 Grafické pravděpodobnostní modely
48 Odvozování z BS Příklad: Volá Pepa, Marie nevolá, nevíme, zda zvonil alarm, zemětřesení není. Jaká je pravděpodobnost vloupání? P V Z,P,M (+, +, ) = P V,Z,P,M(+,, +, ) P Z,P,M (, +, ) = αp V,Z,P,M (+,, +, ) = α P V,Z,A,P,M (+,, a, +, ) a {+, } dosadíme dle P V,Z,A,P,M = P P A P M A P A V,Z P V P Z = αp V (+)P Z ( ) P P A (+ a)p M A ( a)p A V,Z (a +, ) a {+, } = α ( ) α / 25 Grafické pravděpodobnostní modely
49 Odvozování z BS (pokr.) Analogicky P V Z,P,M (, +, ) = αp V ( )P Z ( ) P P A (+ a)p M A ( a)p A V,Z (a, ) a {+, } = α ( ) α Protože P V Z,P,M (+, +, ) + P V Z,P,M (, +, ) = 1, máme: P V Z,P,M (+, +, ) = α α α Apriorní pravděpodobnost vloupání je 0.001, ale volá-li soused Pepa a není zemětřesení, vzroste na / 25 Grafické pravděpodobnostní modely
50 Příklad využití BS: Diagnóza poruchy auta [Russel, Norvig] červený uzel: počáteční příznak, zelené: testovatelné příznaky, oranžové: opravitelné příznaky, šedivé: skryté příznaky - zjednodušují graf, snižují potřebný počet parametrů. battery age alternator broken fanbelt broken battery dead no charging battery meter battery flat no oil no gas fuel line blocked starter broken lights oil light gas gauge car won t start dipstick 24 / 25 Grafické pravděpodobnostní modely
51 Příklad využití BS: Pojištění auta [Russel, Norvig] Age GoodStudent RiskAversion SeniorTrain SocioEcon Mileage VehicleYear ExtraCar DrivingSkill MakeModel DrivingHist Antilock DrivQuality Airbag CarValue HomeBase AntiTheft Ruggedness Accident OwnDamage Theft Cushioning OtherCost OwnCost MedicalCost LiabilityCost PropertyCost 25 / 25 Grafické pravděpodobnostní modely
52 Vytěžování dat, cvičení 3: EM algoritmus Radomír Černoch Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 13 EM algoritmus
53 Ochutnávka EM ExpectationMaximizationForGaussianMixtureDistributions Bishop: Pattern Recognition and Machine Learning, str / 13 EM algoritmus
54 Gaussovské rozdělení Hustota pravděpodobnosti: P(x µ, σ) = ( 1 x µ exp 2 π σ 2 2 σ 2 Odhad parametrů: Střední hodnota z aritmetického průměru: ˆµ = 1 N N n=1 Variance ze střední kvadratické odchylky: ˆσ 2 = 1 N x n N (x n ˆµ) 2 Vygenerujte si v Matlabu náhodné vzorky z P(x µ = 10, σ 2 = 5) pomocí normpdf a zpětně odhadněte jejich parametry, tentokrát použití bez mean a var. 3 / 13 EM algoritmus n=1 ) 2
55 Směs Gaussovských rozdělení (GMM) Mějme 2 normální rozdělení: P(x µ m = 180, σ m = 10) a P(x µ z = 170, σ z = 8) s následujícímí směsnými koeficienty: P(m) = 0.9 a P(z) = 0.1 Výsledná hustota pravděpodobnosti: P(x...) = P(m) P(x µ m, σ m ) + P(z) P(x µ z, σ z ) Zkuste si z této distribuce vygenerovat vzorky pomocí randn a zobrazit je v histogramu pomocí hist. 4 / 13 EM algoritmus
56 GMM: Odhady parametrů Dokáži ze své výšky odhadnout, jestli jsem muž nebo žena? Souhlasíte s následující úvahou: P(m x) P(m) P(x µ m, σ m )? (pro P(z x) obdobně) Aby platil součet P(m x) + P(z x) = 1, používá se normalizační konstanta (jmenovatel je stejný pro P(m x) i P(z x)): P(m x) = P(m) P(x µ m, σ m ) P(m) P(x µ m, σ m ) + P(z) P(x µ z, σ z ) Zjistěte, zda platí P(m x = 160) > P(z x = 160) (pozn.: normalizační konstantu lze pro účel porovnání vynechat). 5 / 13 EM algoritmus
57 EM algoritmus Inicializace Expectation Maximization 6 / 13 EM algoritmus
58 EM: 3 fáze 1. Inicializace náhodně nastaví parametry P(m), P(z), µ m, σ z, Expectation přiřadí instance oběma normálním rozdělením. 3. Maximization odhadne parametry rodělení na základě přiřazení z E fáze: µ z 1 N P(z x n ) x n N z σ 2 z 1 N z P(z) 1 N n=1 N n=1 P(z x n ) (x n µ z ) 2 N P(z x n ) n=1 N z = N n=1 P(z x n)... normalizační konstanta 7 / 13 EM algoritmus
59 Úloha (1/3) 1. Seznamte se s daty v souboru height.csv, který obsahuje tělesnou výšku vzorku 100 lidí, Američanů ve věku mezi 20 a 29 lety. Kromě výšky lidí (1. sloupec) obsahují data i jejich pohlaví (2. sloupec). Každý záznam tvoří jeden řádek tabulky. 2. Prohlédněte si dokumentaci k přiložené funkci dataplot(data), která načtená data vykreslí do grafu: >> data = csvread('height.csv'); dataplot(data); 8 / 13 EM algoritmus
60 Úloha (2/3) 4. Implementujte EM algoritmus pro maximum-likelihood optimalizaci parametrů směsi dvou normalních rozdělení. Popis algoritmu naleznete ve třetí přednášce (str ). Vstupem algorimu bude první sloupec načtených dat (druhý sloupec můžete použít pro zpětnou kontrolu). Vhodně zvolte počáteční parametry obou rozložení. Pokud Váš algoritmus vrátí matici 2 2 ve formátu ( ) µženy σ params = ženy µ muži σ muži můžete pro vykreslení obou rozdělení použít příkaz >> dataplot(data, params); 9 / 13 EM algoritmus
61 Úloha (3/3) 5. Vyvořte protokol o rozsahu cca. 1 strany A4, která shrne Vaši práci a analyzuje výsledky. Doporučený obsah: grafy obou gaussovských rozložení v několika počátečních iteracích algoritmu a stav po konvergenci počet iterací algoritmu (dochází-li k velkému rozptylu hodnot pro různá počáteční nastaveni, spustťe algoritmus několikrat a výsledek vyhodnoťte statisticky) diskuze o vlivu prvotního přiřazení parametrů na jejich výsledné hodnoty. rozbor, zda lze mezi výškou mužů a žen pozorovat statisticky významný rozdíl (využijte druhý sloupec vstupních dat a závěry z předchozích bodů) poznámky k implementaci 6. Protokol odevzdejte do upload systému do Zdrojové kódy není nutné do systému nahrávat, ale můžete být požádáni o jejich ukázku a předvedení během následujícího cvičení. 10 / 13 EM algoritmus
62 Úloha: Možný výsledek (1/3) Frequency in population [%] Iteration Height of a person [cm] 11 / 13 EM algoritmus
63 Úloha: Možný výsledek (2/3) Frequency in population [%] Iteration Height of a person [cm] 12 / 13 EM algoritmus
64 Úloha: Možný výsledek (3/3) Frequency in population [%] Iteration Height of a person [cm] 13 / 13 EM algoritmus
65 Vytěžování dat, cvičení 4: Bayesovské sítě Radomír Černoch Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 14 Bayesovské sítě
66 Modelový příklad Consider the following situation. You have a new burglar alarm installed at home. It is fairly reliable at detecting a burglary, but also responds on occasion to minor earthquakes. 1 You also have two neighbors, John and Mary, who have promised to call you at work when they hear the alarm. John always calls when he hears the alarm, but sometimes confuses the telephone ringing with the alarm and calls then, too. Mary, on the other hand, likes rather loud music and sometimes misses the alarm altogether. Given the evidence of who has or has not called, we would like to estimate the probability of a burglary. Zdroj: AIMA 1 This example is due to Judea Pearl, a resident of Los Angeles; hence the acute interest in earthquakes. 2 / 14 Bayesovské sítě
67 Krok 1: Vytvoření struktury Bayesovské sítě Mějme 4 náhodné proměnné: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls. Základní princip: Šipka vede od X do Y právě tehdy když X má přímý vliv na Y. Navrhněte vazby mezi proměnnými! Applet: 3 / 14 Bayesovské sítě
68 Krok 1: Správná odpověď 4 / 14 Bayesovské sítě
69 Krok 3: Zadání parametrů 5 / 14 Bayesovské sítě
70 Krok 3: Data P(Burglary = true) = 1% P(Earthquake = true) = 0.2% P(Alarm = true Burglary = true, Earthquake = true) = 95% P(Alarm = true Burglary = true, Earthquake = false) = 94% P(Alarm = true Burglary = false, Earthquake = true) = 29% P(Alarm = true Burglary = false, Earthquake = false) = 0.1% P(JohnCalls = true Alarm = true) = 90% P(JohnCalls = true Alarm = false) = 5% P(MaryCalls = true Alarm = true) = 70% P(MaryCalls = true Alarm = false) = 1% 6 / 14 Bayesovské sítě
71 Krok 4: Evidence 7 / 14 Bayesovské sítě
72 Krok 4: Výpočet podm. p. 8 / 14 Bayesovské sítě
73 Krok 5: Ruční výpočet (1/3) P(MaryCalls Earthquake = true) = P(M E) = P(M, E) = A = A = A P(M, E) P(E) =... (1) P(B, E, A, M, J) (2) B J P(B) P(E) P(A B, E) P(M A) P(J A) (3) B = = P(E) A = P(E) A J P(M A) B P(B) P(E) P(A B, E) P(J A) (4) J P(M A) B P(M A) B P(B) P(A B, E) P(J A) (5) J P(B) P(A B, E) (6) Tahák: X P(X) = 1; X P(X, Y) = P(Y); P(M, E) = P(E) P(M E); Y f(x) g(y) = f(x) Y f(y). 9 / 14 Bayesovské sítě
74 Krok 5: Ruční výpočet (2/3) P(MaryCalls Earthquake = true) = P(M, E = true) P(E = true) = = P(E = true) A P(M A) B P(B) P(A B, E = true) P(E = true) = P(M A) P(B) P(A B, E = true) A B = P(M A) ( ) A true 0.01 B = true false false 0.99 true A B B = false = P(M A) A true false true A B B = false = A P(M A) true false A / 14 Bayesovské sítě
75 Krok 5: Ruční výpočet (2/3) = A = A P(M A) M = A true false A true false true false = A true false true A M = false ( ) true = M = false A true false / 14 Bayesovské sítě
76 Úloha: Popis dat Alt Bar Fri Hun Pat Price Rain Res Type Est Wait Yes No No Yes Some 3 No Yes French 0-10 Yes Yes No No Yes Full 1 No No Thai >30 No No Yes No No Some 1 No No Burger 0-10 Yes Yes No Yes Yes Full 1 No No Thai Yes Yes No Yes No Full 3 No Yes French >30 No No Yes No Yes Some 2 Yes Yes Italian 0-10 Yes No Yes No No None 1 Yes No Burger 0-10 No No No No Yes Some 2 Yes Yes Thai 0-10 Yes No Yes Yes No Full 3 No Yes Italian >30 No Yes Yes Yes Yes Full 3 No Yes Italian >30 No No No No No None 1 No No Thai 0-10 No Yes Yes Yes Yes Full 1 No No Burger >30 Yes 12 / 14 Bayesovské sítě
77 Úloha: Legenda 1. Alt: whether there is a suitable alternative restaurant nearby. 2. Bar: whether the restaurant has a comfortable bar area to wait in. 3. Fri: true on Fridays and Saturdays. 4. Hun: whether we are hungry. 5. Pat: how many people are in the restaurant (values are None, Some, and Full). 6. Price: the restaurant s price range ($, $$, $$$). 7. Rain: whether it is raining outside. 8. Res: whether we made a reservation. 9. Type: the kind of restaurant (French, Italian, Thai, or Burger). 10. Est: the wait estimated by the host (0-10 minutes, 10-30, 30-60, >60). 11. Wait: whether we decided to wait 13 / 14 Bayesovské sítě
78 Úloha: Zadání 1. Navrhněte strukturu Bayesovské sítě. Snažte se respektovat kauzální vazby mezi náhodnými proměnnými. 2. Z dodaných dat vypočtěte podmíněné pravděpodobnosti, které odpovídají struktuře BS. 3. Pomocí počítače vypočtěte následující pravděpodobnosti z Bayesovské sítě: 3.1 P(Est) 3.2 P(Est Pat) 3.3 P(Rain) 3.4 P(Rain Fri) 4. Podmíněnou pravděpodobnost 4 vypočtěte navíc ručně. 5. Porovnejte výsledky 1 s 2 a dále 3 s 4. Ovlivňuje dotazovanou proměnou informace o proměnné v podmínce? 6. Proč nelze počítat podmíněné pravděpodobnosti přímo z dat a je dobré využít mezikrok podmíněných pravděpodobností BS? 14 / 14 Bayesovské sítě
oddělení Inteligentní Datové Analýzy (IDA)
Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {
Dnešní program odvozování v Bayesovských sítích exaktní metody (enumerace, eliminace proměnných) aproximační metody y( (vzorkovací techniky)
Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Bayesovská síť zachycuje závislosti mezi náhodnými proměnnými Pro zopakování orientovaný acyklický graf
6. T e s t o v á n í h y p o t é z
6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně
Regresní a korelační analýza
Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)
Informační systémy pro podporu rozhodování
Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více
9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme
1. Pravděpodobnost a statistika (MP leden 2010)
1. Pravděpodobnost a statistika (MP leden 2010) Pravděpodobnost pojmy 1. Diskrétní pravděpodobnostní prostor(definice, vlastnosti, příklad). Diskrétní pravděpodobnostní prostor je trojice(ω, A, P), kde
STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA
Poslední aktualizace: 29. května 200 STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA PŘÍKLADY Pro zdárné absolvování předmětu doporučuji věnovat pozornost zejména příkladům označenými hvězdičkou. Příklady
Drsná matematika IV 7. přednáška Jak na statistiku?
Drsná matematika IV 7. přednáška Jak na statistiku? Jan Slovák Masarykova univerzita Fakulta informatiky 2. 4. 2012 Obsah přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.
2. Některá důležitá rozdělení Diskrétní rozdělení. Alternativní rozdělení Ap) Bernoulli) je diskrétní rozdělení, kdy náhodná veličina X nabývá pouze dvou hodnot a a pro její pravděpodobnostní funkci platí:
a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily
Testování hypotéz Testování hypotéz jsou klasické statistické úsudky založené na nějakém apriorním předpokladu. Vyslovíme-li předpoklad o hodnotě neznámého parametru nebo o zákonu rozdělení sledované náhodné
(Auto)korelační funkce. 2. 11. 2015 Statistické vyhodnocování exp. dat M. Čada www.fzu.cz/ ~ cada
(Auto)korelační funkce 1 Náhodné procesy Korelace mezi náhodnými proměnnými má široké uplatnění v elektrotechnické praxi, kde se snažíme o porovnávání dvou signálů, které by měly být stejné. Příkladem
Tématické celky { kontrolní otázky.
Tématické celky kontrolní otázky. Základy teorie pravdìpodobnosti..pravdìpodobnostní míra základní pojmy... Vysvìtlete pojem náhody, náhodného pokusu, náhodného jevu a jeho mno- ¾inovou interpretaci. Popi¹te
2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.
Varianta I 1. Definujte pravděpodobnostní funkci. 2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru. 3. Definujte Fisher-Snedecorovo rozdělení.
Neurčitost: Bayesovské sítě
Neurčitost: Bayesovské sítě 12. dubna 2018 1 Opakování: pravděpodobnost 2 Bayesovská síť 3 Sémantika sítě Zdroj: Roman Barták, přednáška přednáška Umělá inteligence II, Matematicko-fyzikální fakulta, Karlova
Úvod do mobilní robotiky AIL028
SLAM - souběžná lokalizace a mapování {md zw} at robotika.cz http://robotika.cz/guide/umor07/cs 10. ledna 2008 1 2 3 SLAM intro Obsah SLAM = Simultaneous Localization And Mapping problém typu slepice-vejce
Biostatistika a matematické metody epidemiologie- stručné studijní texty
Biostatistika a matematické metody epidemiologie- stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.
EM algoritmus. Proč zahrnovat do modelu neznámé veličiny
EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ. Matematika 3. RNDr. Břetislav Fajmon, PhD. Autoři textu:
FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Matematika 3 Garant předmětu: RNDr. Břetislav Fajmon, PhD Autoři textu: Mgr. Irena Růžičková RNDr. Břetislav Fajmon, PhD
Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny
Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny Ing. Jana Šenkapoulová VODÁRENSKÁ AKCIOVÁ SPOLEČNOST, a.s. Brno, Soběšická 156, 638 1 Brno ÚVOD Každé rekonstrukci
Zpracování a vyhodnocování analytických dat
Zpracování a vyhodnocování analytických dat naměřená data Zpracování a statistická analýza dat analytické výsledky Naměř ěřená data jedna hodnota 5,00 mg (bod 1D) navážka, odměřený objem řada dat 15,8;
Bayesovská klasifikace digitálních obrazů
Výzkumný ústav geodetický, topografický a kartografický Bayesovská klasifikace digitálních obrazů Výzkumná zpráva č. 1168/2010 Lubomír Soukup prosinec 2010 1 Úvod V průběhu nedlouhého historického vývoje
Pomůcka pro cvičení: 3. semestr Bc studia
Pomůcka pro cvičení: 3. semestr Bc studia Statistika Základní pojmy balíček: Statistics Pro veškeré výpočty je třeba načíst balíček Statistic. Při řešení můžeme použít proceduru infolevel[statistics]:=1,
4.2.4.2 Fixed management model s mûfienou heterogenitou
4.2.4.2 Fixed management model s mûfienou heterogenitou Odvození fixed management modelu s měřenou heterogenitou je založeno na tom, že managament, jak tento nepozorovaný fixní vstup nazývají Álvarez et
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009. Filip Železný (ČVUT) Vytěžování dat 9.
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 1 / 22 Rozhodovací pravidla Strom lze převést
Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost
Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost Registrační číslo: CZ.1.07/1. 5.00/34.0084 Šablona: II/2 Inovace a zkvalitnění výuky cizích jazyků na středních
EU peníze středním školám digitální učební materiál
EU peníze středním školám digitální učební materiál Číslo projektu: Číslo a název šablony klíčové aktivity: Tematická oblast, název DUMu: Autor: CZ.1.07/1.5.00/34.0515 III/2 Inovace a zkvalitnění výuky
Pravděpodobnost a statistika
Pravděpodobnost a statistika Diskrétní rozdělení Vilém Vychodil KMI/PRAS, Přednáška 6 Vytvořeno v rámci projektu 2963/2011 FRVŠ V. Vychodil (KMI/PRAS, Přednáška 6) Diskrétní rozdělení Pravděpodobnost a
Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Pro zopakování Pravděpodobnost je formální mechanismus pro zachycení neurčitosti. Pravděpodobnost každé
UČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Projekt MŠMT ČR Číslo projektu Název projektu školy Klíčová aktivita III/2 EU PENÍZE ŠKOLÁM CZ.1.07/1.4.00/21.2146
Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012
Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012 Osnova Úvod (Neparametrické) odhady hustoty pravděpodobnosti Bootstrap Použití logistické regresi při klasifikaci Odhady
A NUMERICKÉ METODY. Matice derivací: ( ) ( ) Volím x 0 = 0, y 0 = -2.
A NUMERICKÉ METODY Fourierova podmínka: f (x) > 0 => rostoucí, f (x) < 0 => klesající, f (x) > 0 => konvexní ᴗ, f (x) < 0 => konkávní ᴖ, f (x) = 0 ᴧ f (x)!= 0 => inflexní bod 1. Řešení nelineárních rovnic:
Jarníkův algoritmus. Obsah. Popis
1 z 6 28/05/2015 11:44 Jarníkův algoritmus Z Wikipedie, otevřené encyklopedie Jarníkův algoritmus (v zahraničí známý jako Primův algoritmus) je v teorii grafů algoritmus hledající minimální kostru ohodnoceného
Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?
Organizační pokyny k přednášce Matematická statistika 2012 2013 Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta UK hudecova@karlin.mff.cuni.cz http://www.karlin.mff.cuni.cz/
Teoretická rozdělení
Teoretická rozdělení Diskrétní rozdělení Obsah kapitoly Studijní cíle Doba potřebná ke studiu Pojmy k zapamatování Úvod Některá teoretická rozdělení diskrétních veličin: Alternativní rozdělení Binomické
Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.
3.1. 3.2. Třikrát vystřelíme na cíl. Pravděpodobnost zásahu při každém výstřelu je p = 0,7. Určete: a) pravděpodobnostní funkci počtu zásahů při třech nezávislých výsledcích, b) distribuční funkci a její
Přednáška 5. Výběrová šetření, Exploratorní analýza
Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce příznaků 3 25 2 Granáty Jablka Četnost 15 1 5 2 3 4 5 6 7 8 Váha [dkg] Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky
y = Spočtěte všechny jejich normy (vektor je také matice, typu n 1). Řádková norma (po řádcích sečteme absolutní hodnoty prvků matice a z nich
Normy matic Příklad 1 Je dána matice A a vektor y: A = 2 0 3 4 3 2 y = Spočtěte všechny jejich normy (vektor je také matice, typu n 1). Ověřte, že platí Ay A y (1) Ay = (4, 14, 2) T 2 2 Frobeniova norma
Neuropočítače. podnět. vnímání (senzory)
Neuropočítače Princip inteligentního systému vnímání (senzory) podnět akce (efektory) poznání plánování usuzování komunikace Typické vlastnosti inteligentního systému: schopnost vnímat podněty z okolního
Cvičení 3. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.
Cvičení 3 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické
ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ
ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ Ročník LII 6 Číslo 3, 2004 Gasser-Müllerův odhad J. Poměnková Došlo: 8.
PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION
PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION Lucie Váňová 1 Anotace: Článek pojednává o předpovídání délky kolony v křižovatce. Tato úloha je řešena v programu
Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika
Informace o písemných přijímacích zkouškách (úplné zadání zkušebních otázek či příkladů, které jsou součástí přijímací zkoušky nebo její části, a u otázek s výběrem odpovědi správné řešení) Doktorské studijní
Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:
Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst
IB108 Sada 1, Příklad 1 Vypracovali: Tomáš Krajča (255676), Martin Milata (256615)
IB108 Sada 1, Příklad 1 ( ) Složitost třídícího algoritmu 1/-Sort je v O n log O (n.71 ). Necht n = j i (velikost pole, které je vstupním parametrem funkce 1/-Sort). Lehce spočítáme, že velikost pole předávaná
Přítomný čas prostý a průběhový v angličtině
Přítomný čas prostý a průběhový v angličtině Přítomné časy v angličtině jsou: Present simple Přítomný čas prostý Present continuous Přítomný čas průběhový Present perfect Předpřítomný čas Present perfect
Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list
VY_32_INOVACE_AJ_133 Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list PhDr. Zuzana Žantovská Období vytvoření: květen 2013 Ročník: 1. 4. ročník SŠ Tematická oblast: Gramatika slovesa
Poznámky k předmětu Aplikovaná statistika, 9.téma
Poznámky k předmětu Aplikovaná statistika, 9téma Princip testování hypotéz, jednovýběrové testy V minulé hodině jsme si ukázali, jak sestavit intervalové odhady pro některé číselné charakteristiky normálního
Příloha P.1 Mapa větrných oblastí
Příloha P.1 Mapa větrných oblastí P.1.1 Úvod Podle metodiky Eurokódů se velikost zatížení větrem odvozuje z výchozí hodnoty základní rychlosti větru, definované jako střední rychlost větru v intervalu
Funkce zadané implicitně
Kapitola 8 Funkce zadané implicitně Začneme několika příklady. Prvním je známá rovnice pro jednotkovou kružnici x 2 + y 2 1 = 0. Tato rovnice popisuje křivku, kterou si však nelze představit jako graf
Zabezpečení datových přenosů pomocí CRC
Zabezpečení datových přenosů pomocí CRC Cílem úlohy je seznámit se s funkčními principy využití CRC (Cyclic Redundancy Check), tedy s jeho: - matematickým základem - vlastnostmi a detekčními schopnostmi
Rozptyl. Pozn.: rozptyl je nezávislý na posunu hustoty pravděpodobnosti na ose x, protože Var(X) mi určuje jen šířku rozdělení.
Rozptyl Základní vlastnosti disperze Var(konst) = 0 Var(X+Y) = Var(X) + Var(Y) (nezávislé proměnné) Lineární změna jednotek Y = rx + s, například z C na F. Jak vypočítám střední hodnotu a rozptyl? Pozn.:
Vybraná témata z mobilní robotiky
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Vybraná témata z mobilní robotiky Učební texty k semináři Autoři: RNDr. Miroslav Kulich Ph.D. (ČVUT v Praze) Dr.rer.nat. Martin Saska (ČVUT v Praze) Datum: 17. 2. 2011 Centrum
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
Aplikovaná numerická matematika - ANM
Aplikovaná numerická matematika - ANM 3 Řešení soustav lineárních rovnic iterační metody doc Ing Róbert Lórencz, CSc České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových
Kvantifikace operačního rizika v rámci Přistupu distribuce ztrát
Kvantifikace operačního rizika v rámci Přistupu distribuce ztrát Jiří Havlický 1 Abstrakt Článek je zaměřen na stanovení a zhodnocení citlivosti výše očekávané a neočekávané ztráty plynoucí z podstupovaného
Příjemce: Základní škola, Základní umělecká škola a Mateřská škola Lipnice nad Sázavou č. 213, 582 32 Lipnice nad Sázavou
Od dotace EU k proměně vyučovací hodiny registrační číslo projektu: CZ.1.07/1.4.00/21.0196 Příjemce: Základní škola, Základní umělecká škola a Mateřská škola Lipnice nad Sázavou č. 213, 582 32 Lipnice
Pro bodový odhad při základním krigování by soustava rovnic v maticovém tvaru vypadala následovně:
KRIGING Krigování (kriging) označujeme interpolační metody, které využívají geostacionární metody odhadu. Těchto metod je celá řada, zde jsou některé příklady. Pro krigování se používá tzv. Lokální odhad.
Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1
Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1 Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev.
Měření dat Filtrace dat, Kalmanův filtr
Měření dat Filtrace dat, Matematické metody pro ITS (11MAMY) Jan Přikryl Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní 3. přednáška 11MAMY čtvrtek 28. února 2018 verze: 2018-02-28 12:20 Obsah
, 1. skupina (16:15-17:45) Jméno: se. Postup je třeba odůvodnit (okomentovat) nebo uvést výpočet. Výsledek bez uvedení jakéhokoliv
42206, skupina (6:5-7:45) Jméno: Zápočtový test z PSI Nezapomeňte podepsat VŠECHNY papíry, které odevzdáváte Škrtejte zřetelně a stejně zřetelně pište i věci, které platí Co je škrtnuto, nebude bráno v
ÚSTAV ORGANICKÉ TECHNOLOGIE
LABORATOŘ OBORU I ÚSTAV ORGANICKÉ TECHNOLOGIE () A Určování binárních difúzních koeficientů ve Stefanově trubici Vedoucí práce: Ing. Pavel Čapek, CSc. Umístění práce: laboratoř 74 Určování binárních difúzních
Číslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky
Číslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky Autor: Mgr. Libuše Matulová Název materiálu: Education Označení materiálu: VY_32_INOVACE_MAT27 Datum vytvoření: 10.10.2013
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
Klasifikace a rozpoznávání. Lineární klasifikátory
Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber
Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Po(λ) je možné použít jako model náhodné veličiny, která nabývá hodnot 0, 1, 2,... a udává buď počet událostí,
z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin
Příklady k procvičení z Matematické statistiky Poslední úprava. listopadu 207. Konvergence posloupnosti náhodných veličin. Necht X, X 2... jsou nezávislé veličiny s rovnoměrným rozdělením na [0, ]. Definujme
1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!
Výsledky příkladů na procvičení z NMSA0 Klasická pravděpodobnost. 5. ( 4( 43 ( 49 3. 8! 3! 0! = 5 Poslední změna (oprava:. května 08 4. (a! + 3! + ( n+ n! = n k= ( k+ /k! = n k=0 ( k /k!; (b n k=0 ( k
LBP, HoG Ing. Marek Hrúz Ph.D. Plzeň Katedra kybernetiky 29. října 2015
LBP, HoG Ing. Marek Hrúz Ph.D. Plzeň Katedra kybernetiky 29. října 2015 1 LBP 1 LBP Tato metoda, publikovaná roku 1996, byla vyvinuta za účelem sestrojení jednoduchého a výpočetně rychlého nástroje pro
Ant Colony Optimization
Ant Colony Optimization I am lost! Where is the line?! A Bug s Life, Walt Disney, 1998 ACO je metaheuristika, shrnující poznatky ze studia společenstev různých druhů mravenců. Heuristické algoritmy postavené
Uni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
Cvičení ze statistiky - 4. Filip Děchtěrenko
Cvičení ze statistiky - 4 Filip Děchtěrenko Minule bylo.. Dokončili jsme deskriptivní statistiku Tyhle termíny by měly být známé: Korelace Regrese Garbage in, Garbage out Vícenásobná regrese Pravděpodobnost
Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi
Evoluční algoritmy Použítí evoluční principů, založených na metodách optimalizace funkcí a umělé inteligenci, pro hledání řešení nějaké úlohy. Populace množina jedinců, potenciálních řešení Fitness function
Bayesovská klasifikace
Bayesovská klasifikace založeno na Bayesově větě P(H E) = P(E H) P(H) P(E) použití pro klasifikaci: hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J E) = max i P(E H i) P(H
AVDAT Nelineární regresní model
AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných
Paralelní LU rozklad
Paralelní LU rozklad Lukáš Michalec Katedra fyziky, Přírodovědecká fakulta Univerzity J.E. Purkyně v ročník, specializace Ústí n.l. Abstract Seminární práce se zabývá řešení soustavy lineárních rovnic
1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.
Moje hlavní město Londýn řešení: 1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení. Klíčová slova: capital, double decker bus, the River Thames, driving
Bodové odhady parametrů a výstupů
Bodové odhady parametrů a výstupů 26. listopadu 2013 Máme rozdělení s neznámými parametry a chceme odhadnout jeden nebo několik příštích výstupů. Již víme, že úplnou informaci v této situaci nese sdružené
Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/21.3688 EU PENÍZE ŠKOLÁM
ZÁKLADNÍ ŠKOLA OLOMOUC příspěvková organizace MOZARTOVA 48, 779 00 OLOMOUC tel.: 585 427 142, 775 116 442; fax: 585 422 713 email: kundrum@centrum.cz; www.zs-mozartova.cz Projekt: ŠKOLA RADOSTI, ŠKOLA
aneb Will Smith nebo Will Scarlet?
aneb Will Smith nebo Will Scarlet? 2013 Angličtina nemá žádný gramatický budoucí čas, tak jak ho známe z jiných jazyků. Pomáhá si tedy různými gramatickými konstrukcemi, které mají budoucí význam. Každou
I prefer a small shop in front of shopping centers it is comfortable and not there many people.
Otázka: Shopping Jazyk: Angličtina Přidal(a): Maoam 1)DO YOU PREFER SMALL SHOPS TO SHOPPING CENTERS? UPŘEDNOSTŇUJETE MALÉ OBCHODY PŘED NÁKUPNÍMI CENTRY? I prefer a small shop in front of shopping centers
přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat
Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního
Získávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
Výukový materiál zpracovaný v rámci projektu EU peníze do škol. Test
Výukový materiál zpracovaný v rámci projektu EU peníze do škol ZŠ Litoměřice, Ladova Ladova 5 412 01 Litoměřice www.zsladovaltm.cz vedeni@zsladovaltm.cz Pořadové číslo projektu: CZ.1.07/1.4.00/21.0948
VŠB Technická univerzita Ostrava BIOSTATISTIKA
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: BIOSTATISTIKA Zadání 11 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1: DOMÁCÍ ÚKOL
CZ.1.07/1.5.00/
Projekt: Příjemce: Digitální učební materiály ve škole, registrační číslo projektu CZ.1.07/1.5.00/34.0527 Střední zdravotnická škola a Vyšší odborná škola zdravotnická, Husova 3, 371 60 České Budějovice
VÝROBCE STAVEBNÍCH PROFILŮ KATALOG VÝROBKŮ
VÝROBCE STAVEBNÍCH PROFILŮ KATALOG VÝROBKŮ OBJEDNACÍ KÓD P4A201 - P4A202 Ochranné rohy 50 ks Zakončovací profil s okapničkou a tkaninou OBJEDNACÍ KÓD P7D201 - P7D202 OBJEDNACÍ KÓD P4A101 - P4A102 Rohová
Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek 2-36. Oponenti: Patrik Novotný 2-36. Jakub Nováček 2-36. Click here to buy 2
Semestrální projekt do předmětu Statistika Vypracoval: Adam Mlejnek 2-36 Oponenti: Patrik Novotný 2-36 Jakub Nováček 2-36 Úvod Pro vypracování projektu do předmětu statistika jsem si zvolil průzkum kvality
UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE
UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE Testy dobré shody Vedoucí diplomové práce: RNDr. PhDr. Ivo
METODY REPREZENTACE A ZPRACOVÁNÍ ZNALOSTÍ V UMĚLÉ INTELIGENCI
METODY REPREZENTACE A ZPRACOVÁNÍ ZNALOSTÍ V UMĚLÉ INTELIGENCI Radim Jiroušek 2 Obsah 0 Úvod 7 1 Řešení úloh ve stavových prostorech 9 1.1 Definice stavového prostoru........................ 9 1.2 Příklad....................................
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
(n, m) (n, p) (p, m) (n, m)
48 Vícerozměrná kalibrace Podobně jako jednorozměrná kalibrace i vícerozměrná kalibrace se používá především v analytické chemii Bude vysvětlena na příkladu spektroskopie: cílem je popis závislosti mezi
Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97. Vybrané části Excelu. Ing. Petr Adamec
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97 Vybrané části Excelu Ing. Petr Adamec Brno 2010 Cílem předmětu je seznámení se s programem Excel
Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci