Komprese dat (Komprimace dat)

Podobné dokumenty
Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37

Úvod do teorie informace

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

ZÁPADOČESKÁ UNIVERZITA V PLZNI

Algoritmy komprese dat

Kódy pro odstranění redundance, pro zabezpečení proti chybám. Demonstrační cvičení 5 INP

PV030 Textual Information Systems

Konvolučníkódy. MI-AAK(Aritmetika a kódy)


KOMPRESE DAT ARNOŠT VEČERKA KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO

Algoritmy komprese dat

Porovnání komprimačních metod grafických formátů z hlediska míry kvality obrazu

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Informační systémy ve zdravotnictví

UNIVERZITA PARDUBICE. Fakulta elektrotechniky a informatiky

1. Převeďte dané číslo do dvojkové, osmičkové a šestnáctkové soustavy: a) b)

Projekt z předmětu Kryptografie a počítačová bezpečnost

Komprese a dotazování nad XML dokumenty

Vzdálenost jednoznačnosti a absolutně

Hammingovy kódy. dekódování H.kódů. konstrukce. šifrování. Fanova rovina charakteristický vektor. princip generující a prověrková matice

Reprezentace aritmetického výrazu - binární strom reprezentující aritmetický výraz

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

ADT STROM Lukáš Foldýna

AVL stromy. pro každý uzel u stromu platí, že rozdíl mezi výškou jeho levého a pravého podstromu je nejvýše 1 stromy jsou samovyvažující

Kompresní algoritmy grafiky. Jan Janoušek F11125

TECHNICKÁ UNIVERZITA V LIBERCI

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ KOMPRESE DAT DIPLOMOVÁ PRÁCE FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘICÍ TECHNIKY

Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

III/ 2 Inovace a zkvalitnění výuky prostřednictvím ICT

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Kybernetika

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

DIPLOMOVÁ PRÁCE. Petr Uzel Entropické kodéry

Univerzita Karlova v Praze. Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Bc. Lukáš Unger. Vylepšení víceproudé komprese

Data v počítači. Informační data. Logické hodnoty. Znakové hodnoty

Teorie informace: řešené příklady 2014 Tomáš Kroupa

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Kódováni dat. Kódy používané pro strojové operace

Select sort: krok 1: krok 2: krok 3: atd. celkem porovnání. výběr nejmenšího klíče z n prvků vyžaduje 1 porovnání

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Komprese obrazů. Václav Hlaváč. České vysoké učení technické v Praze

Informatika Kódování. Obsah. Kód. Radim Farana Podklady předmětu Informatika pro akademický rok 2007/2008

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

Stromy, haldy, prioritní fronty

Komprese dat (KOD) Semestrální projekt Implementace RLE, BWT a LZW

Metodický koncept k efektivní podpoře klíčových odborných kompetencí s využitím cizího jazyka ATCZ62 - CLIL jako výuková strategie na vysoké škole

Úvod do teorie informace, kódování a komprese. Informační a komunikační technologie ve zdravotnictví 2009/2010

Dokumentace zápočtového programu (PRG030) KOMPRESE TEXTU

Použití dalších heuristik

součet cvičení celkem. známka. Úloha č.: max. bodů: skut. bodů:

Binární vyhledávací stromy pokročilé partie

Komprese obrazu. Úvod. Rozdělení metod komprese obrazů. Verze: 1.5, ze dne: 1. června Václav Hlaváč a Tomáš Svoboda

Katedra radioelektroniky K13137, FEL ČVUT Praha. zakódování dané informace. Tento trend postihl i oblast záznamu a přenosu širokopásmových

Informace, kódování a redundance

Formáty uložení dat Výpočetní technika I

[1] samoopravné kódy: terminologie, princip

přirozený algoritmus seřadí prvky 1,3,2,8,9,7 a prvky 4,5,6 nechává Metody řazení se dělí:

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

markov-midi Automatický generátor MIDI souborů podle vzoru Vít Novotný

Tel.: (+420)

Komprese obrazu. Verze: 1.5, ze dne: 1. června Václav Hlaváč a Tomáš Svoboda

Kódování signálu. Problémy při návrhu linkové úrovně. Úvod do počítačových sítí. Linková úroveň

TGH07 - Chytré stromové datové struktury

uvedení do problematiky i Bezpečnostní kódy: detekční kódy = kódy zjišťující chyby samoopravné kódy = kódy opravující chyby příklady kódů:

Archivační a komprimační programy

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

E. Pohyblivářádováčárka

Osnova přednášky. Formáty uložení dat. Vyjádření hodnot datového typu. Vyjádření hodnot datového typu. Datové formáty. Výpočetní technika I

Samoopravné kódy. Katedra matematiky a Institut teoretické informatiky Západočeská univerzita

Dynamické datové struktury IV.

Komprimace a šifrování

Komprese dat s použitím wavelet transformace

aneb jak se to tam všechno vejde?

Testování a spolehlivost. 6. Laboratoř Ostatní spolehlivostní modely

Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

III přednáška Toky v sítích

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

kryptosystémy obecně další zajímavé substituční šifry klíčové hospodářství kryptografická pravidla Hillova šifra Vernamova šifra Knižní šifra

Tabulka. Datová struktura, která umožňuje vkládat a později vybírat informace podle identifikačního klíče. Mohou být:

Kompresní metody první generace

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Elegantní algoritmus pro konstrukci sufixových polí

STRUKTURA RASTROVÝCH DAT

které je z různých pohledů charakterizují. Několik z nich dokážeme v této kapitole.

Kódy a kódování dat. Binární (dvojkové) kódy. Kód Aikenův

Metody komprese a kódování dat

Dělení. MI-AAK(Aritmetika a kódy)

LZ77 KNIHOVNA PRO KOMPRESI A DEKOMPRESI DAT POMOCÍ ALGORITMU LZ77. Příručka uživatele a programátora

PSK2-5. Kanálové kódování. Chyby

Automatizační technika. Obsah

Binární vyhledávací strom pomocí směrníků Miroslav Hostaša L06620

Z kladn pojmy Metody redukce dat jsou v t inou zalo eny na k dov n. Z kladn m probl mem bezeztr tov komprese je dekomponovat zdrojov materi l (nap. te

Experimentální stanovení entropie českého textu

Suffixové stromy. Osnova:

Transkript:

Komprese dat (Komprimace dat) Př.: zakódovat slovo ARARAUNA K K 2 četnost absolutní relativní A 4,5 N,25 R 2,25 U,25 kód K : kód K 2 :... 6 bitů... 4 bitů prefixový kód: žádné kódové slovo není prefixem (začátkem) jiného kódového slova Př.: K blokový kód (viz též bezpečnostní kódy) K 2 prefixový kód komprese (též komprimace): kódování (přesněji: překódování) snížení počtu bitů dekódování: dekomprese (dekomprimace) nová délka kompresní poměr KP = původní délka Př.: předp.: K : původní kód K 2 : nový kód komprimovaná data např.: KP = 4/6 = 87,5% (pro ARARAUNA ) zpráva = řetěz dílčích zpráv text = řetěz písmen a dalších znaků zdrojová jednotka S j (původní) dílčí zpráva kódová jednotka C j zakódovaná dílčí zpráva postfixový kód: žádné kódové slovo není postfixem (koncovkou) jiného kódového slova afixový kód: kód, který je prefixový i postfixový NLP Komprese.2.996 c A. Pluháček NLP Komprese 2 3.2.996 c A. Pluháček informační entropie Čím menší je pravděpodobnost p zprávy, tím je zpráva cennější tím větší je její informační obsah E, tzn.: p roste = roste E logaritmická míra: E = log 2 p = log 2 p E = log 2 p (shannon) E... informační entropie, informační obsah, míra množství informace aj. (viz též bezpečnostní kódy) stejně pravděpodobná nbitová čísla: počet čísel: N = 2 n pravděpodobnost: p = N = 2 n entropie: E = n (shannon bit) v nbitovém čísle může být n shannonů p i... pravděpodobnost ité z k možných zpráv průměrná entropie H = k (p i log 2 p i ) i= Př.: příkl. ARARAUNA ; předp.: pravděpodobnost = relativní četnost entropie písmen A, N, R, U:, 3, 2, 3 4/8 /8 2/8 /8 průměrná entropie písmene: H =,5 +,25 3 +,25 2 +,25 3 =,75 p j... pravděpodobnost zdrojové jednotky S j E j... entropie zdrojové jednotky S j H j... průměrná entropie jté dílčí zprávy zpráva S,S 2,..., Sm: pravděpodobnost p = p p 2 pm entropie E = log 2 p, tzn.: E = m E j j= průměrná entropie (analogicky): Př.: entropie zprávy ARARAUNA: E = +2++2++3+3+ = 4 H = m H j j= (shannon) průměrná entropie 8písmenového slova: H = 8,75 = 4 (shannon) NLP Komprese 3 2.9.998 c A. Pluháček NLP Komprese 4 2.9.998 c A. Pluháček

redundance (nadbytečnost) E... entropie zprávy L... délka zápisu = max. možná entropie redundance: R = L E p i... pravděpodobmost ité z k možných zpráv E i... entropie ité zprávy L i... délka zápisu ité zprávy H... průměrná entropie průměrná redundance: Q = k p i (L i E i ) i= Q = k p i L i H i= Př.: příkl. ARARAUNA ; kód K předp.: pravděpodobnost = relativní četnost R = Q = 6 4 = 2 (shannon) komprese dat: snížit redundanci na minimum! NLP Komprese 5 8.2.996 c A. Pluháček Metody komprese (vybrané:) speciální čísla Elias Fibonacci obrazové informace (přírůstky) databáze (jména, data narození apod.) obecné I. statické týž kód pro různá data Shannon Fano Huffman aritmetické k. hybridní = semiadaptivní kód data dynamické = adaptivní týž algoritmus pro kompresi i dekompresi FGK (Faller Gallager Knuth) V (Vitter) obecné II. slovníkové metody statické hybridní = semiadaptivní dynamické = adaptivní Lempel Ziv (LZ77, LZ78) BSW (Bentley Sleator arjan Wei) NLP Komprese 6 8.2.996 c A. Pluháček Eliasův kód I. kódování přirozených čísel (větších než ) předpoklad: menší čísla častější výskyt princip: nbitový zápis čísla, začínající před tento zápis umístit n nul = prefixový kód 2 3 4 5 6 7 8 9 Eliasův kód II. před nbitový zápis čísla umístit n v Eliasově kódu I. z nbitového zápisu čísla vypustit první bit (jedničku) Př.: 386 = 2 n = 9 výsledné kódování: NLP Komprese 7 4.5.998 c A. Pluháček Fibonacciho kód kódování přirozených čísel (větších než ) předpoklad: menší čísla častější výskyt Fibonacciho čísla (řádu 2): F = F =, F i = F i + F i 2 pro i =, 2, 3,..., F, F, F 2,... použijeme jako váhy zápisu čísel: i... 5 4 3 2 F i... 3 8 5 3 2 2 3 4 5 6 7 8 9 v zápisech nejsou 2 jedničky vedle sebe NLP Komprese 8 8.2.996 c A. Pluháček

Fibonacciho kód (řádu 2): obrátit pořadí bitů (v předchozích zápisech) přidat na konec = prefixový kód 2 3 5 8... 2 3 4 5 6 7 8 9 Shannon Fanoův kód seřadit znaky podle četnosti (abs. nebo rel.) dělit podle četnosti na poloviny (pokud možno) (nebo naopak) Př.: příkl. ARARAUNA A R U N 4 2 /2 /4 /8 /8... A R U N tzv. kódový strom : 8 4 2 4 A 2 R U N NLP Komprese 9 8.2.996 c A. Pluháček NLP Komprese 8.2.996 c A. Pluháček Huffmanův kód kódový strom : seřadit znaky podle četnosti (abs. nebo rel.) znaky uzly ohodnocené četností nové uzly: Př.: dvojice minimálně ohodnocených uzlů ohodnotit součtem ohodnocení příkl. ARARAUNA 7 8 6 4 4 2 5 4 3 2 2 A R U N tzv. sourozenecká vlastnost A R U N Kódy Shannon Fanoův a Huffmanův představitelé statických metod velmi malá až minimální redundance Př.: znak četnost S-F H A B 5 C 5 D 4 E 3 28 znaků: Shannon Fano 63 bitů Huffman 62 bitů semiadaptivní (hybridní) kódování dva průchody:. určení četností dílčích zpráv kód 2. vlastní kódování s daty je nutno přenést/zapsat i kódovací tabulku NLP Komprese 8.2.996 c A. Pluháček NLP Komprese 2 3.2.996 c A. Pluháček

metoda FGK metoda FGK 2 metoda FGK (Faller Gallager Knuth) postupné vytváření a modifikace kódového stromu: na počátku tvoří strom jen zvláštní uzel uzel (list) ohodnocený : nulový list nový znak na vstupu: vyšle se kód nulového listu (poprvé nic) vyšle se vstupující znak (např. v kódu ASCII) nulový list se nahradí binárním podstromem: kořen ohodnocen levý list: nulový list pravý list přísluší znaku ohodnocen známý znak na vstupu: vyšle se kód znaku pro list, který znaku přísluší, a postupně pro všechny jeho předchůdce (směrem ke kořenu) se zamění uzel s podstromem (pokud existuje): jehož kořen je stejně ohodnocený uzel má vyšší číslo uzly jsou číslovány zdola nahoru a zleva doprava ohodnocení uzlu a všech jeho předchůdců se zvýší o metoda FGK příklad I. zakódovat řetěz znaků MEEME M M 3 2 E E M 5 2 3 4 M 2 E NLP Komprese 3 3.2.996 c A. Pluháček NLP Komprese 4.2.24 c A. Pluháček metoda FGK 3 metoda FGK 4 metoda FGK příklad II. E M 7 3 5 2 6 M 3 4 E 2 7 4 5 2 6 2 E 3 4 M 2 metoda FGK příklad III. M 5 E 5 7 5 2 6 3 E 3 4 2 M 2 7 6 3 6 3 E 3 4 2 M 2 NLP Komprese 5.2.24 c A. Pluháček NLP Komprese 6.2.24 c A. Pluháček

Slovníkové metody orientovány na opakující se podřetězce, tzv. fráze, popř. digramy, trigramy,... vytváří se slovníky frází,... metoda LZ78 položky ve slovníku číslovány od prázdný řetěz do slovníku se ukládá výstup podřetěz ve slovníku se hledá nejdelší podřetěz na vstupu výstup: číslo položky & následující znak Př.: zakódovat: ARA ARARAUNA (3 znaků) vstup výstup A A 2 R R 3 A 4 AR R 5 ARA 4 A 6 U U 7 N N 8 A 3 NLP Komprese 7 8.2.996 c A. Pluháček