Algoritmy komprese dat

Podobné dokumenty
Teorie informace: řešené příklady 2014 Tomáš Kroupa

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa

Vzdálenost jednoznačnosti a absolutně

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

PRAVDĚPODOBNOST A STATISTIKA

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Odhady Parametrů Lineární Regrese

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

NMAI059 Pravděpodobnost a statistika

Úvod do teorie kódování

Pravděpodobnost a její vlastnosti

17. Posloupnosti a řady funkcí

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

Diskrétní náhodná veličina. November 12, 2008

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Kybernetika

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Základy teorie pravděpodobnosti

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

SHANNONOVA TEORIE TAJNÉ KOMUNIKACE

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Náhodné (statistické) chyby přímých měření

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

Hammingovy kódy. dekódování H.kódů. konstrukce. šifrování. Fanova rovina charakteristický vektor. princip generující a prověrková matice

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a statistika

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Úvod do teorie informace

Cvičení ze statistiky - 5. Filip Děchtěrenko

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Úvod do teorie informace

Informatika Kódování. Obsah. Kód. Radim Farana Podklady předmětu Informatika pro akademický rok 2007/2008

1. Základy teorie přenosu informací

Téma 22. Ondřej Nývlt

7. Rozdělení pravděpodobnosti ve statistice

Intuitivní pojem pravděpodobnosti

Pravděpodobnost a aplikovaná statistika

Statistika II. Jiří Neubauer

Rekonstrukce diskrétního rozdělení psti metodou maximální entropie

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.

Náhodná veličina a rozdělení pravděpodobnosti

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat

Statistická teorie učení

1 Báze a dimenze vektorového prostoru 1

NÁHODNÁ VELIČINA. 3. cvičení

Komprese dat (Komprimace dat)

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Apriorní rozdělení. Jan Kracík.

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

Základy teorie pravděpodobnosti

Obsah. I. Objektivní pravděpodobnosti. 1. Pravděpodobnost a relativní četnosti... 23

Náhodný vektor a jeho charakteristiky

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

III. Úplná pravděpodobnost. Nezávislé pokusy se dvěma výsledky. Úplná pravděpodobnost Nezávislé pokusy se dvěma výsledky Náhodná veličina

Vybraná rozdělení náhodné veličiny

2016 Česká republika ŽENY (aktuální k )

Česká republika - ŽENY

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Automatizační technika. Obsah

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Přijímací zkouška na navazující magisterské studium 2018

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Teorie kódování aneb jak zhustit informaci

Náhodné chyby přímých měření

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

2. Entropie a Informace. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

[1] samoopravné kódy: terminologie, princip

Síla a významnost asociace mezi proměnnými v systému

10. N á h o d n ý v e k t o r

Kapitola 1. Úvod. 1.1 Značení. 1.2 Výroky - opakování. N... přirozená čísla (1, 2, 3,...). Q... racionální čísla ( p, kde p Z a q N) R...

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Převyprávění Gödelova důkazu nutné existence Boha

I. D i s k r é t n í r o z d ě l e n í

Kompresní metody první generace

19 Hilbertovy prostory

Pravděpodobně skoro správné. PAC učení 1

Přednáška 6, 6. listopadu 2013

Lineární zobrazení. V prvním z následujících tvrzení navíc uvidíme, že odtud plynou a jsou tedy pak rovněž splněny podmínky:

Chyby měření 210DPSM

METRICKÉ A NORMOVANÉ PROSTORY

Transkript:

Algoritmy komprese dat Úvod do teorie informace Claude Shannon (1916 2001) 5.11.2014 NSWI072-7

Teorie informace Informace Co je to informace? Můžeme informaci měřit? Existují teoretické meze pro délku zprávy nesoucí danou informaci? 2

Hartleyho vzorec Motivační hra: Informace obsažená ve zprávě minimální # otázek typu ANO/NE kterými lze odhalit obsah zprávy Ralph Hartley (1928) Je-li neznámá x prvkem n prvkové množiny, pak informace, kterou x nese, má hodnotu log2 n bitů. 3

Hartleyho vzorec H = n, (x 1,, x k ) H k Buď S k nejmenší # otázek, nutný k určení všech xi log 2 n k S k < log 2 n k +1 log 2 n S k / k log 2 n + 1/k Závěr S k / k = průměrný # otázek potřebných k určení jednoho prvku 4

Shannonův vzorec Buď X diskrétní náhodná veličina s oborem hodnot H a pravděpodobnostní funkcí p(x) = P(X=x) pro x H Pozorování: H = n, p(x) = 1/n pro každé x H log 2 n = log 2 1/p(x) = Σ x H p(x) log 2 1/p(x) Claude Shannon (1948): Entropie H(X) diskrétní náhodné veličiny X s oborem hodnot H je definována vztahem 5

Entropie Příklady motivační hra: H - množina hádaných osob kódování: H - abeceda zpráv, X - zdroj informace Zdůvodnění analogie ze statistické mechaniky (Ludwig Boltzmann, 1872) axiomatický přístup souvislost s kódováním 6

Základní vlastnosti Věta. H(X) 0. Lemma. Nechť. Pak a rovnost nastane právě když p i =q i pro každé 1 i k. Věta. Pro náhodnou veličinu X s konečným oborem hodnot H, H =n, platí H(X) log n, přičemž rovnost nastane právě tehdy, když p(x) = 1/n pro každé x H. 7

Entropie axiomatický přístup Věta. Nechť posloupnost funkcí H n (p 1, p 2,..., p n ), n=2,3,..., splňuje následující axiomy H 2 (1/2, 1/2) = 1 H 2 (p,1-p) je spojitá v oboru 0 p 1 H n+1 (p 1,...,p n-1,q 1,q 2 ) = H n (p 1,...,p n ) + p n H 2 (q 1 /p n, q 2 /p n ), kde p n =q 1 +q 2 >0, p i 0, p 1 +...+p n = 1. Pak pro n=2,3,... platí H n (p 1,p 2,...,p n )= nx p i log 2 p i i=1 8

Problémy ➀ Definujte entropii pro diskrétní náhodný vektor X ➁ Rozhodněte, zda platí: Pro n-rozměrný náhodný vektor X=(X 1,...,X n ), jehož složky jsou nezávislé náhodné veličiny se stejným rozdělením psti, platí H(X) = n H(X i ). 9

Teorie informace teorie kódování Kód C pro diskrétní náhodnou veličinu X s oborem hodnot H je zobrazení C: H {0,1} *. Kód C generuje kódování C * : H * {0,1} * definované C * (x 1...x k ) = C(x 1 )...C(x k ). Kód C je jednoznačně dekódovatelný, pokud u,v H *, C * (u)=c * (v) u = v. Průměrnou délku kódového slova L(C) kódu C pro diskrétní náhodnou veličinu X s pravděpodobnostní funkcí p(x) definujeme jako L(C)=Σ x H p(x) C(x). 10

Horní a dolní odhady Věta (Kraft-McMillan) Délky l 1,l 2, kódových slov jednoznačně dekódovatelného kódu C splňují i 2 -l i 1. Naopak, pokud přirozená čísla l 1,l 2, splňují tuto nerovnost, pak existuje prefixový kód s kódovými slovy o těchto délkách. Věta Buď C jednoznačně dekódovatelný kód pro náhodnou veličinu X. Pak H(X) L(C). 11

Horní a dolní odhady Věta. Pro libovolný optimální prefixový kód C pro náhodnou veličinu X platí H(X) L(C) < H(X) + 1. Důsledek. Pro průměrnou délku kódového slova L Huffmanova kódu platí H L < Η + 1. 12

Příklad znak četnost entropie Huffmanův kód E 20 1.26 bitu 1 bit A 20 1.26 bitu 2 bity X 3 4 bity 3 bity Y 3 4 bity 4 bity Z 2 4.58 bitu 4 bity 13

Huffmanův kód nad rozšířenou abecedou A = {a 1,...,a m } A (n) = {a 1 a 1...a 1,a 1 a 1...a 2,...,a m a m...a m } n-krát{ n-krát{ n-krát{ Problém odvoďte dolní a horní odhad pro průměrnou délku kódového slova Huffmanova kódu nad abecedou rozšířenou na bloky n znaků můžete předpokládat, že znaky zpráv jsou» nezávislé» se shodným rozdělením psti» a entropií H 14

Analýza aritmetického kódování Buď X diskrétní náhodná veličina s oborem hodnot H = {1,2,3,...} a pravděpodobnostní funkcí p Poznámka: Obor hodnot n.v. X = množina zpráv, které budeme kódovat Položme F(x) = P(X x) = Σ y x p(y) = ½(F(x-1) + F(x)) = 0.y 1 y 2 y 3... y i {0,1} Pro x H položme C(x) = y 1 y 2...y l(x) l(x) = log 2 1/p(x) + 1 Závěr: Pak C je prefixový kód pro X splňující H(X) L(C) < Η(X) + 2. 15

Analýza pravděpodobnostního modelu Při popisu algoritmu aritmetického kódování jsme použili následující předpoklad: C je kódování pro náhodný vektor X = (X 1,...,X m ) takový, že X 1,...,X m jsou nezávislé náhodné veličiny se stejným rozdělením pravděpodobností Pro X = (X,...,X) pak platí H(X) L(C) Η(X) + 2 H(X) L(C) / m Η(X) + 2 / m 16

Návrh pravděpodobnostního modelu p(x 1 x 2... x m ) = p(x 1 ) p(x 2 )... p(x m ) Problém: Jak odhadnout p(x i x 1 x 2... x i-1 )? Řešení: Předpoklad p(x i x 1 x 2... x i-1 ) = p(x i x i-k x i-k+1... x i-1 ) Model s konečným kontextem řádu k 17

Experimentální určení entropie anglického textu Anglický text - slovo nad abecedou A = {26 písmen bez rozlišení velikosti} {mezera} C.Shannon (1951) # pokusů 1 2 3 4 5 >5 četnost 79% 8% 3% 2% 2% 5% T.M.Cover, R.C.King (1978) Výsledek: 1.3b/symbol Pro srovnání anglický text bible (bible.txt, cca 4MB) PPMZ (C. Bloom): 1.47b/znak 18