Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.
|
|
- Peter Štěpánek
- před 8 lety
- Počet zobrazení:
Transkript
1 Jazykové modelování Pavel Smrž 27. listopadu 2006
2 Osnova 1 Úvod motivace, základní pojmy 2 Modely n-tic 3 Způsob vyhodnocování 4 Vyhlazování a stahování 5 Rozšíření modelů n-tic 6 Lingvisticky motivované modely
3 Motivace Úkol: předpovědět následující slovo na základě předchozích Použití: Rozpoznávání mluvené řeči Strojový překlad Obnovení diakritiky (doplnění háčků a čárek) Korektory pravopisu a gramatiky OCR rozpoznávání tištěného textu Rozpoznávání rukopisného textu Prediktivní psaní SMS Pravděpodobnostní syntaktická analýza Zjednoznačňování morfosyntaktických kategoríı Zjednoznačňování slovních významů Dlouhá historie Andrej A. Markov (1913) modelování řetězců znaků, Claude E. Shannon Shannonova hra (1951) odhad dalšího slova/písmene v textu
4 Základní pojmy Určujeme apriorní pravděpodobnost řetězců slov Vezmeme trénovací vzorek textových dat Použijeme statistickou inferenci bereme data (generovaná podle neznámého rozdělení pravděpodobnosti) a děláme závěry o tomto rozdělení Chceme se naučit rozdělení pravděpodobnosti, tj. funkci P takovou, že: P(x) = 1, P(x) 0 x V x V Obvykle předpokládáme, že trénovací vzorek je vybrán ze základního rozdělení pravděpodobnosti P, kterému se chceme pomocí P co nejvíce přibĺıžit.
5 Pravidlo zřetězení a Markovův předpoklad P(w 1, w 2,..., w n ) = P(w 1 START) P(w 2 START, w 1 ) P(w 3 START, w 1, w 2 )... P(w n START, w 1, w 2,..., w n 1) P(STOP START, w 1, w 2,..., w n 1, w n ) Markovův předpoklad nezávislosti další slovo záleží jen na k předchozích, např.: P(w i START, w 1, w 2,..., w i 1) = (w i w i 2, w i 1 ) Řád modelu na základě kolika předchozích slov (= historie) se rozhodujeme
6 Velikost modelů příklad Počet parametrů modelu předpokládejme slovník slov (slovních tvarů): model 1. řádu dvojice , model 2. řádu trojice , model 3. řádu čtveřice ,
7 Velikost modelů příklad Počet parametrů modelu předpokládejme slovník slov (slovních tvarů): model 1. řádu dvojice , model 2. řádu trojice , model 3. řádu čtveřice , Nejhorší případ počet různých n-tic je lineární vzhledem k velikosti korpusu
8 Velikost modelů příklad Počet parametrů modelu předpokládejme slovník slov (slovních tvarů): model 1. řádu dvojice , model 2. řádu trojice , model 3. řádu čtveřice , Nejhorší případ počet různých n-tic je lineární vzhledem k velikosti korpusu Reálný příklad 275 mil. slov z korpusu Gigaword různých slov různých dvojic různých trojic
9 Odhad největší věrohodnosti (MLE) MLE: P MLE (w i w 1 w 2... w i 1 ) = P MLE (w i w i n+1... w i 1 ) = C(w i n+1...w i ) Pj C(w i n+1...w i w j ) = C(w i n+1...w i ) C(w i n+1...w i 1 ) Vybíráme takové hodnoty parametrů, které dávají nejvyšší pravděpodobnost trénovacím datům (výskyt určité n-tice je brán jako náhodná proměnná s binominálním rozdělením, tzn. každá n-tice je nezávislá na dalších neplatí!!!)
10 Příklad unigramový model Trénovací množina: Honza má krásný velký byt Petr koupil krásný byt Franta koupil drahý nový byt Testovací věta: Franta koupil krásný velký byt Model M 0 : P(Honza) = 0,0714 P(má) = 0,0714 P(krásný) = 0,1429 P(velký) = 0,0714 P(byt) = 0,2143 P(Petr) = 0,0714 P(koupil) = 0,1429 P(Franta) = 0,0714 P(drahý) = 0,0714 P(nový) = 0,0714 P(S) = 0, , , , , 2143 = 0, } {{ } } {{ } } {{ } } {{ } } {{ } Franta koupil krásný velký byt
11 Příklad bigramový model Model M 1 : P(má Honza) = 1, 0 P(krásný má) = 1, 0 P(velký krásný) = 0, 5 P(byt krásný) = 0, 5 P(byt velký) = 1, 0 P(koupil Petr) = 1, 0 P(krásný koupil) = 0, 5 P(drahý koupil) = 0, 5 P(koupil Franta) = 1, 0 P(nový drahý) = 1, 0 P(byt nový) = 1, 0 P(Franta START ) = 0, 333 P(Honza START ) = 1, 0 P(Petr START ) = 0, 333 P(S) = 0, 333 1, 0 0, 5 } {{ } }{{} }{{} Franta koupil krásný 0, 5 }{{} velký 1, 0 = 0, 0833 }{{} byt
12 Vyhodnocování Nejpřesnější vyhodnocování v konkrétních aplikacích (citlivost na změny stylu, tématu, žánru 2 mil. > 140 mil.) Často nevhodné nezávislý vývoj nutnost samostatného vyhodnocování jazykového modelu perplexita Dobrý model dává vysokou pravděpodobnost skutečnému textu Entropie (neuspořádanost) H(P) = x P(x) log 2 P(x)
13 Entropie (1) Entropie přes posloupnosti slov w 1,..., w n jazyka L: H(w 1,..., w n ) = W n 1 L P(W n 1 ) log 2 P(W n 1 ) Entropie na posloupnostech silně závisí na jejich délce Abychom získali rozumnou míru, počítáme entropii na slovo míru entropie průměrný počet bitů na slovo potřebný k optimálnímu zakódování testovacích dat 1 n H(w 1,..., w n ) = 1 P(W1 n ) log n 2 P(W1 n ) W1 n L
14 Entropie (2) Entropii pro jazyk L potom získáme, pokud uvážíme posloupnosti nekonečné délky: 1 H(L) = lim n n H(w 1,..., w n ) = lim 1 n n W n 1 L P(W n 1 ) log 2 P(W n 1 ) Tento vztah lze na základě Shannonovy-McMillanovy-Breimanovy věty zjednodušit: H(L) = lim n 1 n log 2 P(W n 1 ) Intuitivně pokud je posloupnost nekonečná, nemusíme sčítat přes všechny možné posloupnosti, nebot nekonečná posloupnost obsahuje všechny podposloupnosti
15 Entropie (3) V praxi neznáme skutečné rozdělení pravděpodobnosti P pro jazyk L, máme pouze model M Definujeme vzájemnou entropii H(P, M) = lim n 1 n log 2 M(W n 1 ) Dále nemáme nekonečné posloupnosti, jsme omezeni testovací množinou (pokud je dostatečně velká, vypočtená vzájemná entropie je dobrým odhadem skutečné vzájemné entropie) Perplexita průměrný počet variant v každém bodě PP(P, M) = 2 H(P,M)
16 Příklad perplexita pro bigramový model P(S) = 0, 333 } {{ } Franta 1, 0 0, 5 0, 5 }{{} }{{} koupil krásný }{{} velký 1, 0 = 0, 0833 }{{} byt H(P, M) = 1 5 log 2 P(S) = 1 5 (log 2 0, log } {{ } 2 1, 0 + log }{{} 2 0, 5 }{{} Franta koupil krásný + log 2 0, 5 + log }{{} 2 1, 0 ) }{{} velký byt = 0, 7173 PP(P, M) = 2 H(P,M) = 1, 6441
17 Motivační příklad pro vyhlazování a stahování Testovací věta S 2 : Franta koupil krásný nový byt
18 Motivační příklad pro vyhlazování a stahování Testovací věta S 2 : Franta koupil krásný nový byt Dvojice krásný nový nebyla v trénovacích datech: P MLE (nový krásný) = 0 P MLE (S 2 ) = 0 Dvě příčiny nulové pravděpodobnosti: V trénovacích datech nebylo dané slovo neznámá slova token UNKNOWN V trénovacích datech nebyla daná n-tice vyhlazování přiřadí se jim nějaká nízká pravděpodobnost a/nebo stahování k nižším modelům
19 Vyhlazování odečítáním konstanty Řešení snížit pravděpodobnost n-tic z trénovacích dat (a nechat ji pro neviděné ), tzn. vyhladit funkci pravděpodobnosti (nebudou 0) discounting, smoothing Vyhlazování přičítáním jedničky (Laplaceovo): P MLE (w i w 1 w 2... w i 1 ) = C(w i n+1... w i ) + 1 C(w i n+1... w i 1 ) + B Odpovídá případu, kdy jsou všechny n-tice stejně pravděpodobné Závislé na velikosti slovníku!!! Pro řídká data nad velkým slovníkem dává příliš velkou pravděpodobnost nepozorovaným n-ticím
20 Vyhlazování odečítáním konstanty Řešení snížit pravděpodobnost n-tic z trénovacích dat (a nechat ji pro neviděné ), tzn. vyhladit funkci pravděpodobnosti (nebudou 0) discounting, smoothing Vyhlazování přičítáním jedničky (Laplaceovo): P Lap (w i w 1 w 2... w i 1 ) = C(w i n+1... w i ) + 1 C(w i n+1... w i 1 ) + B Odpovídá případu, kdy jsou všechny n-tice stejně pravděpodobné Závislé na velikosti slovníku!!! Pro řídká data nad velkým slovníkem dává příliš velkou pravděpodobnost nepozorovaným n-ticím
21 Vyhlazování odečítáním konstanty reálný příklad Experimenty Churche a Galea (1991) 22 mil. trénovacích a 22 mil. testovacích slov, ze stejné oblasti počty dvojic: Četnost Skutečná četnost Očekávaná četnost v trénovacích v testovacích v testovacích datech datech datech (přičítání jedničky) 0 0, , ,448 0, ,25 0, ,24 0, ,23 0, ,21 0,000822
22 Vyhlazování odečítáním konstanty hodnocení Nadhodnotili jsme neviděné (0, > 0, ), a protože je jich tak mnoho, sebrali nám příliš moc Pro řídká data nad velkým slovníkem dává příliš velkou pravděpodobnost nepozorovaným n-ticím Krichevski-Trofimov (přičítání 1/2): P KT (w i w 1 w 2... w i 1 ) = C(w i n+1... w i ) C(w i n+1... w i 1 ) B Hardy a Lidstone: P HL (w i w 1 w 2... w i 1 ) = C(w i n+1... w i ) + λ C(w i n+1... w i 1 ) + λb
23 Jeffreysův-Perksův odhad Jeffreysův-Perksův zákon lineární interpolace mezi MLE a uniformním rozdělením apriorní pravděpodobnosti odhad očekávané věrohodnosti P JP (w i w 1 w 2... w i 1 ) = µ C(w i n+1... w i ) N µ = N N+Bλ Vyhlazování na validačních datech + (1 µ) 1 B
24 Goodův-Turingův odhad I. J. Good a A. M. Turing chtěli rozlomit Enigmu... Good-Turing: n-tici, která se vyskytla r krát, bereme, jako by se vyskytla r krát: r = (r + 1) E(N r+1) E(N r ) Výborné výsledky pro málo frekventované, proto v praxi často: pro #(w 1,..., w n ) = r > 0 : P GT (w 1,..., w n ) = r N ; pro #(w 1,..., w n ) = 0 : P GT (w 1,..., w n ) = N 1 N 0 N r = (r + 1) S(r+1) S(r)
25 Modely založené na třídách slov n-tice, která se nevyskytla v trénovacích datech by měla dostat vyšší pravděpodobnost, pokud je složena z prvků, které jsou podobné prvkům vyskytujících se n-tic LM založené na třídách slov kombinace slov a značek tříd je méně než slov potřebujeme méně dat, máme menší modely výpočetně náročné, problematické určení počtu tříd, obtížně začlenitelné do dekodéru, lingvisticky motivované třídy vs. čistě statistický přístup morfologické třídy LSI pro nalezení sémantických tříd
26 Automaticky generované třídy slovo v 1 třídě Shlukovací algoritmus nemusí existovat snadná interpretace Například maximalizace průměrné vzájemné informace: ( ) P(c(wi ), c(w j )) arg max P(c(w i ), c(w j ))log {c} P(c(w i ))P(c(w j )) c(w i ),c(w j ) kde c(w i ) je třída i tého slova Spojení s modely n-tic slov P(w n w n 1 n N+1 ) = P(w n c n )P(c n c n 1 n N+1 ) kde c n je třída, do níž patří n té slovo a P(c n c n 1 n N+1 ) = C(cn n N+1 ) P(w n c n ) = C(w n) C(c n ) C(c n 1 n N+1 )
27 Automaticky generované třídy slovo v n třídách P(w n w n 1 n N+1 ) = c n P(w n c n )P(c n c n 1 n N+1 ) Spojení s modely n-tic slov pomocí lineární interpolace P(w h) = λ 0 P g (w h) + M λ m P c (w c(w), S)P m (c(w) c(h)) m=i kde w je dané slovo, P g je obecný jazykový model trénovaný na celém korpusu, h je historie n-tic, P m je jedna z M tříd, λ m je váha přiřazená každému modelu tak, že λ m = 1 (λ m > 0), P c je třída daná slovu unigramovým modelem a S je zdroj adaptačních dat použitý k trénování P c
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VíceDiskrétní matematika. DiM /01, zimní semestr 2016/2017
Diskrétní matematika Petr Kovář petr.kovar@vsb.cz Vysoká škola báňská Technická univerzita Ostrava DiM 470-2301/01, zimní semestr 2016/2017 O tomto souboru Tento soubor je zamýšlen především jako pomůcka
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceAlgoritmy komprese dat
Algoritmy komprese dat Úvod do teorie informace Claude Shannon (1916 2001) 5.11.2014 NSWI072-7 Teorie informace Informace Co je to informace? Můžeme informaci měřit? Existují teoretické meze pro délku
VícePravděpodobnostní algoritmy
Pravděpodobnostní algoritmy 17. a 18. přednáška z kryptografie Alena Gollová 1/31 Obsah 1 Diskrétní rozdělení náhodné veličiny Algoritmus Generate and Test 2 Alena Gollová 2/31 Diskrétní rozdělení náhodné
VíceVzdálenost jednoznačnosti a absolutně
Vzdálenost jednoznačnosti a absolutně bezpečné šifry Andrew Kozlík KA MFF UK Značení Pracujeme s šifrou (P, C, K, E, D), kde P je množina otevřených textů, C je množina šifrových textů, K je množina klíčů,
VíceDiskrétní matematika. DiM /01, zimní semestr 2018/2019
Diskrétní matematika Petr Kovář petr.kovar@vsb.cz Vysoká škola báňská Technická univerzita Ostrava DiM 470-2301/01, zimní semestr 2018/2019 O tomto souboru Tento soubor je zamýšlen především jako pomůcka
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceDefinice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují
Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují 1. u + v = v + u, u, v V 2. (u + v) + w = u + (v + w),
VíceImplementace Bayesova kasifikátoru
Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
VíceAutomatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz
Automatická segmentace slov s pomocí nástroje Affisix Michal Hrušecký, Jaroslava Hlaváčová Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz Motivace Při zpracování přirozeného jazyka nikdy nemůžeme mít
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VíceMarkovské metody pro modelování pravděpodobnosti
Markovské metody pro modelování pravděpodobnosti rizikových stavů 1 Markovský řetězec Budeme uvažovat náhodný proces s diskrétním časem (náhodnou posloupnost) X(t), t T {0, 1, 2,... } s konečnou množinou
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
VíceSložitost algoritmů. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava
Složitost algoritmů doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 27. prosince 2015 Jiří Dvorský (VŠB TUO) Složitost algoritmů
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl
VíceÚvod do teorie informace
PEF MZLU v Brně 24. září 2007 Úvod Výměna informací s okolím nám umožňuje udržovat vlastní existenci. Proces zpracování informací je trvalý, nepřetržitý, ale ovlivnitelný. Zabezpečení informací je spojeno
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
Vícejevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.
Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment
VíceTéma 22. Ondřej Nývlt
Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené
VícePočítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman
Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/ Úloha Rozpoznat slovo, které není ve slovníku Triviální Těžší je rozpoznat slovo, které ve slovníku je,
VíceVýběrové charakteristiky a jejich rozdělení
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistické šetření úplné (vyčerpávající) neúplné (výběrové) U výběrového šetření se snažíme o to, aby výběrový
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VícePoužití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *
Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek * Tomáš Mikolov, Ilya Oparin, Ondřej Glembek, Lukáš Burget, Martin arafiát, Jan Černocký Speech@FIT, Ústav počítačové grafiky
VíceMatematické modelování Náhled do ekonometrie. Lukáš Frýd
Matematické modelování Náhled do ekonometrie Lukáš Frýd Výnos akcie vs. Výnos celého trhu - CAPM model r it = r ft + β 1. (r mt r ft ) r it r ft = α 0 + β 1. (r mt r ft ) + ε it Ekonomický (finanční model)
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Náhodný výběr Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
VícePravděpodobnostní model významových zápisů vět
Matematicko-fyzikální fakulta Univerzity Karlovy Ústav formální a aplikované lingvistiky Pravděpodobnostní model významových zápisů vět Diplomová práce Daniel Zeman Vedoucí: RNDr. Jan Hajič, Dr. Praha
VíceNáhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy
Teorie pravděpodobnosti Náhodný pokus skončí jedním z řady možných výsledků předem nevíme, jak skončí (náhoda) příklad: hod kostkou, zítřejší počasí,... Pravděpodobnost zkoumá náhodné jevy (mohou, ale
VíceUmělá inteligence II
Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními
VíceNáhodné (statistické) chyby přímých měření
Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně
VíceRozdělování dat do trénovacích a testovacích množin
Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném
VíceOdhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
VíceNáhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
VíceANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
VíceIB112 Základy matematiky
IB112 Základy matematiky Základy kombinatoriky a kombinatorická pravděpodobnost Jan Strejček Obsah IB112 Základy matematiky: Základy kombinatoriky a kombinatorická pravděpodobnost 2/57 Výběry prvků bez
VíceMKI Funkce f(z) má singularitu v bodě 0. a) Stanovte oblast, ve které konverguje hlavní část Laurentova rozvoje funkce f(z) v bodě 0.
MKI -00 Funkce f(z) má singularitu v bodě 0. a) Stanovte oblast, ve které konverguje hlavní část Laurentova rozvoje funkce f(z) v bodě 0. V jakém rozmezí se může pohybovat poloměr konvergence regulární
VíceTeorie informace. Mirko Navara. katedra kybernetiky FEL ČVUT Karlovo náměstí, budova G, místnost 104a navara/psi 3. 1.
Teorie informace Mirko Navara Centrum strojového vnímání katedra kbernetik FEL ČVUT Karlovo náměstí, budova G, místnost 4a http://cmp.felk.cvut.cz/ navara/psi.. 7 Obsah Informace Entropie. Entropie jako
VíceUsuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
VíceFP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci OBSAH A CÍLE SEMINÁŘE: Opakování a procvičení vybraných
VíceAlgoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VíceKOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.
1/24 KOMPRESE OBRAZŮ Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD 2/24 Cíl:
VíceNeparametrické odhady hustoty pravděpodobnosti
Neparametrické odhady hustoty pravděpodobnosti Václav Hlaváč Elektrotechnická fakulta ČVUT Katedra kybernetiky Centrum strojového vnímání 121 35 Praha 2, Karlovo nám. 13 hlavac@fel.cvut.cz Statistické
VíceEM algoritmus. Proč zahrnovat do modelu neznámé veličiny
EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost
VíceLineární algebra : Úvod a opakování
Lineární algebra : Úvod a opakování (1. přednáška) František Štampach, Karel Klouda LS 013/014 vytvořeno: 19. února 014, 13:15 1 0.1 Lineární prostory R a R 3 V této přednášce si na jednoduchém příkladu
VíceCvičení ze statistiky - 9. Filip Děchtěrenko
Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz
VícePřednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky
řednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky Statistika vychází z pravděpodobnosti odmíněná pravděpodobnost, Bayesův vzorec Senzitivita, specificita, prediktivní hodnoty Frekventistická
VíceÚvod do praxe stínového řečníka. Automatické rozpoznávání řeči
Úvod do praxe stínového řečníka Automatické rozpoznávání řeči Systém rozpoznávání řeči Řečník akustický řečový signál Akustická analýza O Akustický model Jazykový model p( O W) PW ( ) Dekodér W^ rozpoznaná
Více1 Analytické metody durace a konvexita aktiva (dluhopisu) $)*
Modely analýzy a syntézy plánů MAF/KIV) Přednáška 10 itlivostní analýza 1 Analytické metody durace a konvexita aktiva dluhopisu) Budeme uvažovat následující tvar cenové rovnice =, 1) kde jsou současná
VíceVektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u
Více11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
VícePravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
Více1. Statistická analýza dat Jak vznikají informace Rozložení dat
1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení
VíceProfilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
VíceMarkovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo
Pravděpodobnostní usuzování v čase Markovské procesy příklad: diabetický pacient, hladina inzulinu, léky, jídlo předpokládáme, že se množina možných stavů S nemění v průběhu času předpokládáme diskrétní
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
VíceProjekt OPVK - CZ.1.07/1.1.00/ Matematika pro všechny. Univerzita Palackého v Olomouci
Projekt OPVK - CZ.1.07/1.1.00/26.0047 Matematika pro všechny Univerzita Palackého v Olomouci Tematický okruh: Práce s daty, kombinatorika a pravděpodobnost Gradovaný řetězec úloh Téma: Pravděpodobnost
VíceNLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
VíceTeorie rozhodování (decision theory)
Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Teorie pravděpodobnosti (probability theory) popisuje v co má agent věřit na základě pozorování. Teorie
VíceKomprese dat (Komprimace dat)
Komprese dat (Komprimace dat) Př.: zakódovat slovo ARARAUNA K K 2 četnost absolutní relativní A 4,5 N,25 R 2,25 U,25 kód K : kód K 2 :... 6 bitů... 4 bitů prefixový kód: žádné kódové slovo není prefixem
VíceKorpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
VíceÚvod do predikátové logiky. (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/ / 1
Úvod do predikátové logiky (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/28.0216 2013 1 / 1 Relace Neuspořádaná vs. uspořádaná dvojice {m, n} je neuspořádaná dvojice. m, n je uspořádaná dvojice. (FLÚ AV ČR) Logika:
VíceAlgoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
VíceAlgoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19
Algoritmy I Číselné soustavy přečíst!!! Číselné soustavy Každé číslo lze zapsat v poziční číselné soustavě ve tvaru: a n *z n +a n-1 *z n-1 +. +a 1 *z 1 +a 0 *z 0 +a -1 *z n-1 +a -2 *z -2 +.. V dekadické
VíceROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY
ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/ hlavac 1/31 PLÁN PŘEDNÁŠKY
Více2 Hlavní charakteristiky v analýze přežití
2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student
VíceStatSoft Úvod do neuronových sítí
StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem
VíceTVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH Autoreferát dizertační práce Jindra Drábková Liberec 2005 Tvorba jazykového
VíceTino Haderlein, Elmar Nöth
Interakce člověk počítač v přirozeném jazyce (ICP) LS 2013 Jazykové modely Tino Haderlein, Elmar Nöth Katedra informatiky a výpočetní techniky (KIV) Západočeská univerzita v Plzni Lehrstuhl für Mustererkennung
VíceP(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i
n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah:
VíceZápadočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky Bakalářská práce
Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky Bakalářská práce Plzeň, 2015 Ondřej Duspiva PROHLÁŠENÍ Předkládám tímto k posouzení a obhajobě bakalářskou práci zpracovanou
VíceLékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)
Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik
VíceInženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.
Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceKOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.
1/25 KOMPRESE OBRAZŮ Václav Hlaváč, Jan Kybic Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD
Vícea způsoby jejího popisu Ing. Michael Rost, Ph.D.
Podmíněná pravděpodobnost, náhodná veličina a způsoby jejího popisu Ing. Michael Rost, Ph.D. Podmíněná pravděpodobnost Pokud je jev A vázán na uskutečnění jevu B, pak tento jev nazýváme jevem podmíněným
Víceoddělení Inteligentní Datové Analýzy (IDA)
Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VícePoznámky k předmětu Aplikovaná statistika, 4. téma
Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické
VíceMatematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 4. října 2018 Podmíněná pravděpodobnost Při počítání pravděpodobnosti můžeme k náhodnému pokusu přidat i nějakou dodatečnou podmínku. Podmíněná pravděpodobnost
VíceSíla a významnost asociace mezi proměnnými v systému
Síla a významnost asociace mezi proměnnými v systému Program 1. Entropie jako míra neuspořádanosti. 2. Entropie jako míra informace. 3. Entropie na rozkladu množiny elementárních jevů. 4. Vlastnosti entropie.
VíceVýběr báze. u n. a 1 u 1
Výběr báze Mějme vektorový prostor zadán množinou generátorů. To jest V = M, kde M = {u,..., u n }. Pokud je naším úkolem najít nějakou bázi V, nejpřímočařejším postupem je napsat si vektory jako řádky
VíceIntuitivní pojem pravděpodobnosti
Pravděpodobnost Intuitivní pojem pravděpodobnosti Intuitivní pojem pravděpodobnosti Pravděpodobnost zkoumaného jevu vyjadřuje míru naděje, že tento jev nastane. Řekneme-li, že má nějaký jev pravděpodobnost
VícePRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady
PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský
Více( ) ( ) 9.2.10 Binomické rozdělení. Předpoklady: 9209
9..1 Binomické rozdělení Předpoklady: 99 Př. 1: Basketbalista hází trestný hod (šestku) s pravděpodobností úspěchu,9. Urči pravděpodobnosti, že z pěti hodů: a) dá košů; b) dá alespoň jeden koš; c) dá nejdříve
VícePoznámky k předmětu Aplikovaná statistika, 4. téma
Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické
VíceBayesovské metody. Mnohorozměrná analýza dat
Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
VíceDiskrétní náhodná veličina. November 12, 2008
Diskrétní náhodná veličina November 12, 2008 (Náhodná veličina (náhodná proměnná)) Náhodná veličina (nebo též náhodná proměnná) je veličina X, jejíž hodnota je jednoznačně určena výsledkem náhodného pokusu.
Více12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
VíceTestování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
VíceZáklady teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
VíceStavový model a Kalmanův filtr
Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
Vícecv3.tex. Vzorec pro úplnou pravděpodobnost
3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P
VíceDatové struktury 2: Rozptylovací tabulky
Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy
VíceLimitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jestliže opakujeme nezávisle nějaký pokus, můžeme z pozorovaných hodnot sestavit rozdělení relativních četností
Více