Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

Podobné dokumenty
Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Teorie rozhodování (decision theory)

Markovské metody pro modelování pravděpodobnosti

Umělá inteligence II

Úvod do zpracování signálů

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

SIGNÁLY A LINEÁRNÍ SYSTÉMY

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

3. Vícevrstvé dopředné sítě

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

Usuzování za neurčitosti

Markovovy modely v Bioinformatice

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Pravděpodobnost, náhoda, kostky

Univerzita Karlova v Praze procesy II. Zuzana. funkce

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Pravděpodobnost, náhoda, kostky

Cíle lokalizace. Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí

AVDAT Klasický lineární model, metoda nejmenších

Náhodné signály. Honza Černocký, ÚPGM

Odhady - Sdružené rozdělení pravděpodobnosti

Statistická teorie učení

Apriorní rozdělení. Jan Kracík.

oddělení Inteligentní Datové Analýzy (IDA)

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

UČENÍ BEZ UČITELE. Václav Hlaváč

1 LPC. Jan Černocký, FIT VUT Brno, 15. května 2007

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Hammingovy kódy. dekódování H.kódů. konstrukce. šifrování. Fanova rovina charakteristický vektor. princip generující a prověrková matice

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

Predikce roční spotřeby zemního plynu po ceníkových pásmech

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Výpočet marginálních podmíněných pravděpodobností v bayesovské síti

Obraz matematický objekt. Spojitý obraz f c : (Ω c R 2 ) R

intenzitu příchodů zákazníků za čas t intenzitu obsluhy (průměrný počet obsloužených) za čas t

Metody výpočtu limit funkcí a posloupností

Úvod do analýzy časových řad

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

Bayesovské metody. Mnohorozměrná analýza dat

Náhodné chyby přímých měření

Náhodné (statistické) chyby přímých měření

Biofyzikální ústav LF MU Brno. jarní semestr 2011

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Konvoluční model dynamických studií ledvin. seminář AS UTIA

4. Aplikace matematiky v ekonomii

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Základy počtu pravděpodobnosti a metod matematické statistiky

Modelování systémů a procesů (11MSP) Bohumil Kovář, Jan Přikryl, Miroslav Vlček. 8. přednáška 11MSP pondělí 20. dubna 2015

Miroslav Hanzelka, Václav Rozhoň června 2013

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

1. Přednáška. Ing. Miroslav Šulai, MBA

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

1 Modelování systémů 2. řádu

I. D i s k r é t n í r o z d ě l e n í

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

p(x) = P (X = x), x R,

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

Stavový model a Kalmanův filtr

Číslicové zpracování signálů a Fourierova analýza.

SRE 03 - Skryté Markovovy modely HMM

Grafika na počítači. Bc. Veronika Tomsová

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

Počítačové sítě. Lekce 5: Základy datových komunikací

Akvizice dat. Dekonvoluce Registrace. zobrazení INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Multimediální systémy

Jasové transformace. Karel Horák. Rozvrh přednášky:

Vlastnosti a modelování aditivního

Diskretizace. 29. dubna 2015

Binární vyhledávací stromy pokročilé partie

[1] samoopravné kódy: terminologie, princip

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Měření dat Filtrace dat, Kalmanův filtr

Simulace pohybu chodců pomocí celulárních modelů

Kvantová informatika pro komunikace v budoucnosti

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

4 HMM a jejich trénov

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

1 Odvození poptávkové křivky

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

11 Analýza hlavních komponet

Klasifikace a rozpoznávání. Lineární klasifikátory

8 Střední hodnota a rozptyl

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

NPGR032 CVIČENÍ III. Šum a jeho odstranění teorie&praxe. Adam Novozámský (novozamsky@utia.cas.cz)

Charakterizují kvantitativně vlastnosti předmětů a jevů.

( + ) ( ) f x x f x. x bude zmenšovat nekonečně přesný. = derivace funkce f v bodě x. nazýváme ji derivací funkce f v bodě x. - náš základní zápis

Pravděpodobnost a její vlastnosti

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Transkript:

Pravděpodobnostní usuzování v čase Markovské procesy příklad: diabetický pacient, hladina inzulinu, léky, jídlo předpokládáme, že se množina možných stavů S nemění v průběhu času předpokládáme diskrétní čas předpokládáme stacionární proces pravidla přechodu z času t na t + 1 nezáleží na čase

Markovská vlastnost Markovská vlastnost: aktuální stav závisí jen na konečném počtu předchozích kroků (n krocích, n > 0 ), tj. stav v čase t + 1 je nezávislý na stavu v čase t n, při znalosti stavů v mezičase t,...,t (i 1), tj. S t+1 S t n S t,..., S t (n 1) Pro Markovský model 1. řádu (často jen Markovský proces, Markovský model) Pro Markovský proces 2. řádu: S t+1 S t 1 S t S t+1 S t 2 S t, S t 1 Pro zadání MP 1. řádu tedy potřebujeme: P(S 0 ) P(S t S t 1 ) pro jedno t, pro ostatní stejná

Skrytý Markovský proces (HMM) = částečně pozorovaný markovský proces Aktuální stav S nemůžeme pozorovat přímo, ale jen částečně pozorování O závisí pouze na aktuálním stavu, nikoli na minulosti či budoucnosti pro zadání definujeme P(O t S t ) Za daných předpokladů máme vlastně speciální bayesovskou síť, tj. pro každé konečné t P(S 0, S 1,..., S t, O 1,..., O t ) = P(S 0 ) Π t i=1p(s t S t 1 ) P(O t S t )

Je proces markovský? jak který, často ano, nebo zhruba náhodná procházka, stav pacienta, pozice robota pokud ne, tak buď můžeme zkusit zvýšit řád Markovského procesu nebo rozšířit množinu stavů nové stavy ale musíme také predikovat, tj. potřebujeme porozumět procesu, který modelujeme nebo mít dobré senzory, které nám dobře určí aktuální stav Příklad: Chřipka trvá 7 dní. Robot v mřížce: pozice, rychlost, stav baterie.

Inference Vše je specielní případ propagace v bayesovské síti. Filtrování (=monitorování) zajímá mě pravděpodobnostní rozložení (marginála) na aktuálním stavu P(S t o 1,..., o t ) predikce zajímá nás budoucí stav, P(S t+k o 1,..., o t ),k > 0 vyhlazování, pohled zpět: nová evidence nám přináší informace o tom, kde jsme byli v minulém čase, P(S k o 1,..., o t ),t > k 0 nejpravděpodobnější průchod (vysvětlení) argmax s0,...,s t P(s 0,..., s t o 0,..., o t )

Filtrování Definuji: o 1:t = o 1,..., o t. Pravděpodobnost nového stavu při rozložení na starém: P(S t+1 o 1:t ) = P(S t+1 s t, o 1:t ) P(s t o 1:t ) s t Zapracovnání pozorování: = s t P(S t+1 s t ) P(s t o 1:t ) P(S t+1 o 1:t, o t+1 ) = 1 P(o t+1 o 1:t ) P(o t+1, S t+1 o 1,..., o t ) = α P(o t+1 S t+1, o 1:t ) P(S t+1 o 1:t ) Dohromady: = α P(o t+1 S t+1 ) P(S t+1 o 1:t ) P(S t+1 o 1:t, o t+1 ) = α P(o t+1 S t+1 ) P(S t+1 s t ) P(s t o 1:t ) s t

Vyhlazování (zpět) Pro k: 0 k < t. P(S k o 1:t ) = P(S k o 1:k, o (k+1):t ) = α P(S k o 1:k ) P(o (k+1):t S k, o 1:k ) = α f 1:k b (k+1):t kde f 1:k je zpráva zleva (před k), b (k+1):t zpráva zprava (po k). Zpětná zpráva: P(o (k+1):t S k ) = s k+1 P(o (k+1):t S k, s k+1 ) P(s k+1 S k ) = P(o (k+1):t s k+1 ) P(s k+1 S k ) s k+1 = P(o (k+1), o (k+2):t s k+1 ) P(s k+1 S k ) s k+1 = P(s k+1 S k ) P(o (k+1) s k+1 ) P(o (k+2):t s k+1 ) s k+1

Maticový zápis T = P(S t+1 S t ) { P(ok S O k = i ) na diagonále 0 jinak f, b bereme jako sloupcové vektory. Potom se dá psát: f 1:(t+1) = α O t+1 Tf 1:t b (k+1):t = T T O k+1 b (k+2):t Navíc se dá počítat i v protisměru, tj.: αt 1 Ot+1 1 1:(t+1) = f 1:t Ot+1 1 ) 1 b (k+1):t = b (k+2):t

Vyhlazování s konstantním zpožděním např. sledování letadla na radaru Mám pevné zpoždění d. Zajímá mě P(S t d o 1:t ), aniž bych propagovala od začátku a konce. tj. P(S t d o 1:t ) = αf 1:(t d) b (t d+1):t Dopředná zpráva jako dříve. Zpětná zpráva d krát dosadím: ) b (t d+1):t = (Π t i=t d+1 T T O i b (t+1):t = B (t d+1):t 1 ( ) b (t d+2):(t+1) = Π t+1 i=t d+2 T T O i b (t+2):(t+1) = B (t d+2):(t+1) 1 Odtud vidíme, že B můžeme průběžně aktualizovat: B (t d+2):(t+1) = O 1 t d+1 (T T ) 1 B (t d+1):t (T T )O t+1

Nalezení nejpravděpodobnějšího průchodu Pozorované pozice:[a1, a2, b2, f 6, c3, d3]. Jaký je nejpravděpodobnější průchod? používá se např. při zpracování řeči NENÍ ekvivalentní najít pro každý krok maximálně pravděpodobný stav! Taková posloupnost může být nemožná, tj. pravděpodobnosti nula.

Viterbi algoritmus Nalezení nejpravděpodobnějšího průchodu Algoritmus Pro každý stav si pamatujeme pravděpodobnost nejpravděpodobnější cesty do něj. Na začátku známe apriorní P(s 1 ) jednotlivých stavů s 1. max s1,...,s t P(s 1,..., s t, S t+1 o 1:(t+1) ) = αp(o t+1 S t+1 )max st P(S t+1 s t )max s1,...,s t 1 P(s 1,..., s t, S t o 1:t ) čili dopředně šířená zpráva místo sumy používá maximalizaci, tj. zpráva je m 1:t = max s1,...,s t 1 P(s 1,..., s t 1, S t o 1:t ) vždy vynásobíme P(S t+1 s t ) a maximalizujeme přes s t.

Dynamické Bayesovské sítě Příklady jsme už viděli nákresy Markovských procesů Zadáme BN v jednom časovém řezu plus vazby pro přechod z jednoho řezu do druhého a příslušné podmíněné pravděpodobnosti předpokládáme, že model časového řezu a přechodu se nemění s časem Matematicky je (diskrétní) DBN ekvivalentí HMM. výhoda je v rozloženém zadání: pro 20 binárních proměnných, každý 3 rodiče v předchozím čase, máme 20 2 3 = 160 přechodových pravděpodobností, u HMM 2 20 2 20 = 2 40. HMM potřebuje více prostoru a více času při inferenci, musím matici vždy projít především, odhad takového množství parametrů je velmi diskutabilní (pokud není definován generujícím procesem) v rámci jednoho času je vztah DBN vs. HMM podobný, jako BN a plné rozložení na všech veličinách.

Návrh DBN Příklad: Baterie robota pozice, rychlost, stav baterie, GPS viz tabule model chyby senzorů klasicky gausovské rozložení okolo správné hodnoty přechodné selhání senzoru když někdo do robota narazí, senzor baterie hlásí nulu (vybitou baterii) gausovský chybový model hlásí vybitou baterii, robot přejde do krizového režimu a vypne se. přidáme do modelu: P(BMeter t = 0 Battery t = 5) = 0.03 modely viz obrázky výhoda: méně věří senzoru, vybitou baterii hlásí až po několika nulových měření, počet závisí na poměru predikce vybití baterie a pravděpodobnosti chyby senzoru.

Trvalé selhání Např. u auta jedoucího do prudkého kopce nefunguje měřák paliva předchozí model nepomůže, do kopce jedeme docela dlouho řešení: modelujeme vadný senzor

Přesná inference DBN rozvinout a spočítat jako BN; klasicky příliš velké smůla je, že mezivýsledné tabulky nemusí faktorizovat, tj. po čase máme jednu tabulku pro celý časový bod, tj. velikost O(d n+1 ) tabulky, složitost aktualizace O(d n+2 ), pořád lepší než O(d 2n ) u HMM, ale obojí příliš náročné.

Přibližný výpočet DBN částicové filtrování, particle filtering Pro BN se používá (mimo jiné) vážené vzorkování (likelihood weighting) s délkou času v DBN váhy exponencielně klesají k nule, tj. potřebujeme stále exponencielně větší vzorek; to nejde upravíme algoritmus

Částicové filtrování přibližný výpočet DBN vstup: o pozorování, N požadovaný počet vzorků, DBN model statické: S, vektor vzorků, na počátku dle P(S 0 ), W vektor vah for i = 1 to n S[i] sample from P(S 1 S 0 = S[i]) W [i] P(o S 1 = S[i]) S vážený vzorek s navracením(n, S, W ) Pro N jdoucí k nekonečnu konverguje ke přesnému vyhodnocení.

Zpracování řeči Nejmenší jednotka: foném Liší se podle způsobu a místa tvoření, artikulujícího orgánu nebo sluchového dojmu (fonologie). Celkem ve svět. jazycích jen cca. 12 diferenciálních příznaků. Počet fonémů v jazycích je 12 až 60. (ČJ 36, AJ 42, RJ 40). Fonémy se spojují co posloupností. Ty lze dělit na slabiky, slabiky tvoří slova. Slovanské jazyky cca. 2500 3000 slabik, 45000 50000 slov. Člověk při hovoru vysloví 80 130 slov za minutu, tj. cca 10 fonémů za sekundu. Při informaci 3 4 bity na foném je přenos informace 30 40 bit/s; člověk je schopen zpracovat informaci o rychlosti maximálně 50 bit/s. V češtině je fonologicky funkční symbol pauza pro hranici mezi slovy, v angličtině ne.

Zpracování signálu Snímáme v určité frekvenci (sampling) 8 20 khz kvantování diskretizujeme velikost signálu 12 14 bitů příznaky (features) např. krátkodobá energie či častěji krátkodobá intenzita, krátkodobá funkce středního poštu průchodů signálu nulou, autokorelační funkce, a Fourierovy transformace pro frekvenční oblast. vektorová kvantizace hodně kombinací příznaků reprezentuji jedním kódem, tím zmenším prostor, ve kterém pak budu pracovat (např. 256 kódů).

Pravděpodobnostní přístup Skryté Markovské procesy základ Vintsyuk každé slovo vlastní model, 40 50 stavů, odpovídajících pruměrnému počtu mikrosegmentů ve slově těžko by se trénovalo obecně, proto se učí modely pro jednotlivé fonémy; z modelů pro fonémy složím slovo (transkripce slova pro češtinu celkem snadná)

Viterbiův algoritmus Skrytý Markovský model P(S 1 ), P(S t+1 S t ), P(O t S t ) S má stavy i = 1,..., N hledám maximálně pravděpodobný průchod. 1 Inicializace: δ 1 (i) P(S 1 = i) P(O 1 = o 1 S 1 = i) ψ 1 = 0 2 Rekurze v čase t = 2,..., T a nový stav j = 1,..., N δ t (j) max i δ t 1 (i) P(S t+1 = j S t = i) P(O t = o t S t = j) ψ t = argmax i [δ t 1 (i) P(S t+1 = j S t = i)] 3 Výsledná pravděpodobnost a index maximálně pravděpodobného stavu v čase T jsou: P = max i [δ T (i)] i = argmax i [δ T (i)] O nejpravděpodobnější průchod zpětně vystopujeme z ψ, i t = ψ t+1 (i t+1 ) Pozn: nejpravděpodobnější průchod není to samé co nejpravděpodobnější posloupnost fonémů.

Učení modelu Baum Welchův algoritmus v zásadě EM algoritmus, klasická metoda učení modelu se skrytými parametry ve Strojovém učení.