Matematika pro informatiky II

Podobné dokumenty
Matematické základy šifrování a kódování

Matematika pro informatiky II

Počet kreditů: 5 Forma studia: kombinovaná. Anotace: Předmět seznamuje se základy dělitelnosti, vybranými partiemi algebry, šifrování a kódování.

Šifrování, kódování a jejich aplikace - ak. rok 2016/17

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Kryptografie, elektronický podpis. Ing. Miloslav Hub, Ph.D. 27. listopadu 2007

Data v počítači. Informační data. Logické hodnoty. Znakové hodnoty

Kódy pro odstranění redundance, pro zabezpečení proti chybám. Demonstrační cvičení 5 INP

Matice. a m1 a m2... a mn

8. RSA, kryptografie s veřejným klíčem. doc. Ing. Róbert Lórencz, CSc.

0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry

Šifrová ochrana informací historie KS4

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

(Cramerovo pravidlo, determinanty, inverzní matice)

[1] Determinant. det A = 0 pro singulární matici, det A 0 pro regulární matici

Teorie množin. Čekají nás základní množinové operace kartézské součiny, relace zobrazení, operace. Teoretické základy informatiky.

Algebraické struktury s jednou binární operací

IB112 Základy matematiky

Kódy a kódování dat. Binární (dvojkové) kódy. Kód Aikenův

Šifrová ochrana informací historie PS4

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Dosud jsme se zabývali pouze soustavami lineárních rovnic s reálnými koeficienty.

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

ALGEBRA. Téma 4: Grupy, okruhy a pole

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

kryptosystémy obecně další zajímavé substituční šifry klíčové hospodářství kryptografická pravidla Hillova šifra Vernamova šifra Knižní šifra

1 Determinanty a inverzní matice

MFF UK Praha, 22. duben 2008

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

1 Vektorové prostory.

CO JE KRYPTOGRAFIE Šifrovací algoritmy Kódovací algoritmus Prolomení algoritmu

1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x

Operace s maticemi. 19. února 2018

Šifrová ochrana informací historie PS4

RSA. Matematické algoritmy (11MA) Miroslav Vlček, Jan Přikryl. Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní. čtvrtek 21.

1 Řešení soustav lineárních rovnic

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

1 Linearní prostory nad komplexními čísly

Operace s maticemi

Algebra - druhý díl. Lenka Zalabová. zima Ústav matematiky a biomatematiky, Přírodovědecká fakulta, Jihočeská univerzita

Matematika B101MA1, B101MA2

Číselné vektory, matice, determinanty

1. Několik základních pojmů ze středoškolské matematiky. Na začátku si připomeneme následující pojmy:

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Základy matematiky pro FEK

SOUČIN MATIC A m n B n p = C m p, přičemž: a i1 b 1j +a i2 b 2j + +a in b nj = c ij, i=1 m, j=1 p. Např: (-2) = -3

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

II. Úlohy na vložené cykly a podprogramy

Determinanty. Obsah. Aplikovaná matematika I. Pierre Simon de Laplace. Definice determinantu. Laplaceův rozvoj Vlastnosti determinantu.

Kapitola Základní množinové pojmy Princip rovnosti. Dvě množiny S a T jsou si rovny (píšeme S = T ) prvek T je také prvkem S.

1 Báze a dimenze vektorového prostoru 1

Šifrová ochrana informací věk počítačů PS5-1

Báze a dimenze vektorových prostorů

Ukázkyaplikacímatematiky

Množiny, relace, zobrazení

označme j = (0, 1) a nazvěme tuto dvojici imaginární jednotkou. Potom libovolnou (x, y) = (x, 0) + (0, y) = (x, 0) + (0, 1)(y, 0) = x + jy,

Ukázky aplikací matematiky. Kapitola 1. Jiří Tůma. Úvod do šifrování. Základní pojmy- obsah. Historie šifrování

Nechť M je množina. Zobrazení z M M do M se nazývá (binární) operace

8 Matice a determinanty

4. Trojúhelníkový rozklad p. 1/20

Permutační grupy Cykly a transpozice Aplikace. Permutace. Rostislav Horčík: Y01DMA 11. května 2010: Permutace 1/17

Obsah. Aplikovaná matematika I. Gottfried Wilhelm Leibniz. Základní vlastnosti a vzorce

10. DETERMINANTY " # $!

6 Samodružné body a směry afinity

RSA. Matematické algoritmy (11MAG) Jan Přikryl. Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní. verze: :01

Teoretická informatika Tomáš Foltýnek Algebra Struktury s jednou operací

Čínská věta o zbytcích RSA

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

Teorie informace: řešené příklady 2014 Tomáš Kroupa

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.

Matematika 2 pro PEF PaE

Hisab al-džebr val-muqabala ( Věda o redukci a vzájemném rušení ) Muhammada ibn Músá al-chvárizmího (790? - 850?, Chiva, Bagdád),

1.1 Definice a základní pojmy


Šifrová ochrana informací věk počítačů PS5-2

Aplikovaná numerická matematika - ANM

Lineární algebra. Matice, operace s maticemi

Pokročilá kryptologie

Kolik existuje různých stromů na pevně dané n-prvkové množině vrcholů?

Matematika pro informatiky I

Pojem binární relace patří mezi nejzákladnější matematické pojmy. Binární relace

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

OBECNÉ METODY VYROVNÁNÍ

P 1 = P 1 1 = P 1, P 1 2 =

Množiny, základní číselné množiny, množinové operace

Generující kořeny cyklických kódů. Generující kořeny. Alena Gollová, TIK Generující kořeny 1/30

[1] x (y z) = (x y) z... (asociativní zákon), x y = y x... (komutativní zákon).

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

Lineární algebra : Násobení matic a inverzní matice

1 Projekce a projektory

Lineární algebra : Násobení matic a inverzní matice

CVIČNÝ TEST 15. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

Transkript:

Fakulta přírodovědně humanitní a pedagogická, Technická univerzita v Liberci I Doc. RNDr. Miroslav Koucký, CSc. Liberec, 2016

Copyright Doc. RNDr. Miroslav Koucký, CSc. 2

Obsah 1. Úvod do šifrování 1.1. Základní pojmy 1.2. Symetrické šifry, transpozice a substituce 1.3. Binární blokové šifry 1.4. Asymetrická šifra RSA 2. Úvod do kódování 2.1. Základní pojmy 2.2. Huffmanova konstrukce 2.3. Aritmetické kódy metoda DFWLD 2.4. Adaptivní metody 2.5. Metody 1. řádu 2.6. Detekční a opravné kódy 2.7. Lineární kódy 2.7.1. Lineární cyklické kódy Přílohy Anglická abeceda, pořadí znaků ASCII tabulka Vigenèrův čtverec Tabulka násobení modulo 26 Předmluva Hlavním cílem předkládaného textu je seznámit čtenáře se základy teorie šifrování, s myšlenkami vybraných kompresních metod a se základy detekčních/opravných kódů. Studium těchto skript vyžaduje znalosti vybraných partií matematiky, které čtenář nalezne ve skriptech Matematika pro informatiky I. 3

Při nakládání s daty se obvykle setkáváme se třemi zásadními okruhy problémů Množství dat kompresní metody (bezeztrátová komprese, ztrátová komprese) Spolehlivost dat teorie kódování Bezpečnost dat kryptologie (kryptografie, kryptoanalýza; steganografie) 1. Úvod do šifrování Tato kapitola je stručným úvodem do problematiky šifrování (kryptologie) a seznámí čtenáře se základními pojmy a vybranými šifrovacími metodami. Stručně a zjednodušeně řečeno, smyslem šifrování je ochrana dat před neautorizovaným přístupem. Kryptografie (kryptos = skrytý, graphein = psát) Vědecká disciplína, která se zabývá metodami ochrany dat před neautorizovaným přístupem, resp. nakládáním s daty. Je přirozené, že snaha o ochranu dat před neautorizovaným přístupem vede k protireakci, tj. vyvolává snahu o prolomení kryptografické ochrany. Kryptoanalýza Vědecká disciplína, která se zabývá metodami prolomení kryptografické ochrany. Kryptoanalytické metody jsou v případě klasických substitučních šifrovacích metod obvykle založeny na tzv. frekvenční analýze, která odhaduje identitu znaků (resp. slov) na základě porovnání frekvence jejich výskytu v daném jazyce a v zašifrovaném textu. Kryptologie Označení pro vědeckou disciplínu, která zahrnuje jak kryptografii, tak i kryptoanalýzu. Steganografie (steganos = schovaný, graphein = psát) Ochránit data před neautorizovaným přístupem lze v zásadě dvěma způsoby učinit data nesrozumitelnými (kryptografická ochrana) nebo utajit jejich samotnou existenci (steganografie technické a lingvistická). Kryptologie Steganografie Kryptoanalýza Kryptografie Symetrické metody Asymetrické metody Substituční metody Transpoziční metody 4

1. 1. Základní pojmy Otevřená abeceda Konečná množina AA znaků, které používáme k zápisu nezašifrovaných zpráv. Jde např. o českou abecedu doplněnou o cifry a další speciální symboly. V těchto skriptech se pro jednoduchost omezíme (pokud nebude výslovně uvedeno jinak) na znaky anglické abecedy. V celé řadě metod budeme znaky otevřené abecedy nahrazovat jejich pořadím, přičemž použijeme ZZ 26, tj. soustavu nejmenších nezáporných zbytků modulo 26, viz tabulka č. 1 v příloze. Otevřený text Otevřeným textem rozumíme zprávu určenou k zašifrování, tj. konečný řetězec mm = mm 1 mm nn, kde mm ii AA (nn je jeho délka). Otevřený text zapisujeme obvykle malými písmeny. Prostor otevřených textů Množinu všech otevřených textů budeme značit MM a nazývat prostorem otevřených textů. Šifrová abeceda Konečná množina BB znaků, které používáme k zápisu zašifrovaných zpráv. V případě BB = {0,1}, mluvíme o binárním šifrování. Zašifrovaný text (šifrový text) Konečný řetězec cc = cc 1 cc nn znaků šifrové abecedy, který vzniknul zašifrováním některého otevřeného textu mm MM. Konkrétní zašifrovaný text budeme zapisovat obvykle velkými znaky. Prostor šifrových textů Množinu všech šifrových textů (vzniklých zašifrováním otevřených textů z prostoru otevřených textů MM) budeme značit CC a nazývat prostorem otevřených. Klíč, prostor klíčů Klíčem rozumíme uspořádanou dvojici kk = (ee, dd), kde ee je šifrovací klíč (parametr šifrovací metody) a dd dešifrovací klíč (parametr dešifrovací metody). Množina všech klíčů tvoří tzv. prostor klíčů, značíme KK. Jedním ze základních požadavků je, aby prostor klíčů byl dostatečně obsáhlý a prakticky znemožňoval uhádnout klíč metodou hrubé síly, tj. systematickým prohledáním prostoru klíčů. Šifrování Proces transformace otevřeného textu do zašifrovaného textu. Zjednodušeně řečeno, lze šifrování chápat jako exaktně definovaný proces převedení otevřeného textu do nesrozumitelné podoby zašifrovaného textu. Šifrovací transformace/funkce Šifrovací transformací (funkcí) rozumíme vzájemně jednoznačné zobrazení EE ee : MM CC definované pro všechny (šifrovací) klíče z prostoru klíčů KK. Vzájemná jednoznačnost zobrazení EE ee je nutnou podmínkou pro možnost zpětného dešifrování. 5

Dešifrování Dešifrování je inverzní proces k šifrování, tedy jde o proces převedení zašifrovaného textu do podoby otevřeného textu. Dešifrovací transformace/funkce Dešifrovací transformací (funkcí) rozumíme zobrazení DD dd : CC MM, které je inverzní k zobrazení EE ee : MM CC, kde (ee, dd) KK. Šifrovací systém Uspořádaná trojice (E, DD, KK), kde KK = {(ee, dd)} je prostor klíčů, E = {EE ee (ee, dd) KK} je množina šifrovacích transformací, DD = {DD dd (ee, dd) KK} je množina dešifrovacích transformací, tvoří šifrovací systém, jestliže kk = (ee, dd) KK mm MM DD dd EE ee (mm) = mm Interpretace - každý klíč (ee, dd) jednoznačně definuje dvojici transformací EE ee a DD dd (šifrovací a jí příslušnou dešifrovací), které jsou navzájem inverzní. Kerchoffův princip Bezpečnost šifrovacího systému nesmí záviset na utajení (de)šifrovacího algoritmu, ale pouze na utajení klíče. Symetrické (klasické) šifrovací metody Šifrovací metody, kde dešifrovací klíč je výpočetně snadné odvodit ze šifrovacího klíče. Asymetrické šifrovací metody (s veřejným klíčem) Šifrovací metody, kde dešifrovací klíč je výpočetně složité odvodit ze šifrovacího klíče. Transpoziční metody Šifrovací metody, ve kterých znaky otevřeného textu mění svou pozici, ale nemění svou identitu. Substituční metody Šifrovací metody, ve kterých znaky otevřeného textu mění svou identitu, ale nemění svou pozici. Zjednodušeně řečeno, šifrování probíhá pomocí tzv. substitučních schémat definujících vzájemně jednoznačné zobrazení otevřené abecedy na šifrovou abecedu. Monoalfabetické šifry Šifrovací metody využívající pouze jednu šifrovou abecedu (jedno substituční schéma). Homofonní šifry Šifrovací metody, kde znaky šifrového textu mají teoreticky stejnou frekvenci výskytu. Polyalfabetické šifry Šifrovací metody využívající více šifrovacích abeced (substitučních schémat), které systematicky (tj. dle exaktně definovaných pravidel) střídají. 6

1.2. Symetrické šifry, transpozice a substituce Jednoduchá transpozice Šifrovací klíč: ππ SS dd, kde dd NN {0,1}. Nejprve rozdělíme otevřený text na bloky dd po sobě jdoucích znaků, tj. mm = mm (1) mm (kk), kde mm (ii) = mm 1 (ii) mmdd (ii) je ii-tý blok. Následně každý blok mm (ii) zašifrujeme pomocí transformace: (ii) (ii) (ii) EE ππ mm 1 mmdd = mmππ(1) (ii) mm ππ(dd), ii = 1, kk. Dešifrovací klíč: ππ 1 SS dd, kde ππ 1 označuje inverzní permutaci k ππ. Nejprve zašifrovaný text rozdělíme na bloky dd po sobě jdoucích znaků, tj. cc = cc (1) cc (kk), kde cc (ii) (ii) (ii) = cc 1 ccdd je ii-tý blok. Následně každý blok cc (ii) dešifrujeme pomocí transformace: (ii) (ii) (ii) DD ππ 1 cc 1 ccdd = ccππ 1 (1) (ii) cc ππ 1 (dd), ii = 1, kk. Poznámky Transpoziční šifra je bloková šifra délky dd, tj. šifra, která nejprve rozdělí otevřený text na bloky dd po sobě jdoucích znaků. Každý blok pak zašifruje jako celek. Pokud délka otevřeného textu není násobkem čísla d, doplníme text libovolnými znaky na délku rovnou prvnímu násobku čísla d většímu než n. Příklad Uvažujte jednoduchou transpozici s klíčem ππ = 1 2 3 4 5 3 1 5 2 4. a) Zašifrujte text koloseum. otevřený text: k o l o s e u m x y zašifrovaný text: L K S O O M E Y U X b) Dešifrujte text IRMUDUEMNT, který vzniknul zašifrováním otevřeného textu pomocí jednoduché transpozice s šifrovacím klíčem ρρ = (142)(35). (tentokrát je šifrovací klíč zapsán ve tvaru součinu disjunktních cyklů) Dešifrovací klíč ρρ 1 = (124)(35) zašifrovaný text: I R M U D U E M N T otevřený text: r u d i m e n t u m Afinní šifra Šifrovací klíč: (aa, bb), kde aa, bb ZZ 26, NNNNNN(aa, 26) = 1 Šifrovací funkce: EE (aa,bb) (xx 1 xx nn ) = cc 1 cc nn, kde xx ii je číselná reprezentace i-tého znaku otevřeného textu, cc ii = (aa xx ii + bb) mod 26 je číselná reprezentace i-tého znaku šifrového textu. Dešifrovací klíč: (aa 1, bb), kde aa 1 je inverzní prvek k aa mod 26 Dešifrovací funkce: DD aa 1,bb (cc 1 cc nn ) = xx 1 xx nn, kde xx ii = (aa 1 (cc ii bb) mod 26). 7

Poznámky Zdůvodněte požadavek NNNNNN(aa, 26) = 1. Při šifrování nejprve převedeme otevřený text mm = mm 1 mm nn na číselný řetězec xx 1 xx nn např. tak, že každý znak nahradíme jeho pořadím v rámci uvažované otevřené abecedy - viz tabulka č. 1. Analogicky, při dešifrování nejprve převedeme zašifrovaný text na číselný řetězec cc 1 cc nn. Příklad Uvažujte afinní šifru s šifrovacím klíčem ee = (aa = 17, bb = 24). a) Zašifrujte text vista. Průběh šifrování lze zapsat následovně: CC ii =(17xx ii +24 mmmmmm 26) vista (21,8,18,19,0) cc = (17,4,18,9,24) RESJY b) Dešifrujte text BOWLC. Nejprve určíme aa 1 jako nejmenší nezáporný zbytek modulo 26, který vyhovuje kongruenci 17aa 1 1 (mmmmmm 26). Např. z tabulky č. 4 určíme, že aa 1 = 23 a tedy dešifrovací funkce má tvar xx ii = (23(CC ii 24) mmmmmm 26), tj. xx ii = (23CC ii + 20 mmmmmm 26) Průběh dešifrování lze zapsat následovně: xx ii =(23CC ii +20 mmmmmm 26) BOWLC (1,14,22,11,2) mm = (17,4,6,13,14) regno Jednoduchá substituce Šifrovací klíč: ππ SS 26 Šifrovací funkce: EE ππ (mm 1 mm nn ) = ππ(mm 1 ) ππ(mm nn ) Dešifrovací klíč: ππ 1 SS 26, kde ππ 1 označuje inverzní permutaci k ππ Šifrovací funkce: DD ππ 1(cc 1 cc nn ) = ππ 1 (cc 1 ) ππ 1 (cc nn ) Poznámky V případě monoalfabetických šifer tvoří šifrovací klíč tzv. substituční schéma, což je vzájemně jednoznačné zobrazení otevřené abecedy na šifrovou abecedu. V případě jednoduché substituce je toto zobrazení definováno permutací. Alternativní způsob zadání šifrovacího klíče využívá šifrování označované jako substituce s klíčovým slovem. V tomto případě tvoří šifrovací klíč uspořádaná dvojice (kk, textový_řetezec), kde kk ZZ 26. Číslo kk definuje pozici (číslujeme od 0), odkud začneme postupně umisťovat znaky textového řetězce (opakující se znaky vynecháváme). V další fázi postupně doplníme chybějící znaky. Příklad Otevřený text aqua fontis zašifrujte pomocí jednoduché substituce. Jako šifrovací klíč použijte: a) ππ = a b c d e f g h i j k l m n o p q r s t u v w x y z D I K W J T Y V B Z X P G R A S U L O M C F Q E N H Schématický zápis šifrování může vypadat následovně otevřený text: a q u a f o n t i s zašifrovaný text: D U C D T A R M B O b) (7, regnum Bohemiae) 8

Nejprve na základě klíče vygenerujeme příslušnou permutaci definující substituční schéma. Od 7. znaku (tj. od písmene h) doplňujeme text regnumbohemiae (opakující se znaky vynecháme). V další fázi postupně doplníme chybějící znaky otevřené abecedy. ππ = a b c d e f g h i j k l m n o p q r s t u v w x y z S T V W X Y Z R E G N U M B O H I A C D F J K L P Q otevřený text: a q u a f o n t i s zašifrovaný text: S I F S Y O B D E C Hillova šifra Šifrovací klíč: dd HH = h ii,jj, ii,jj=1 kde h ii,jj ZZ 26 Nejprve rozdělíme otevřený text mm na bloky dd po sobě jdoucích znaků, tj. mm = mm (1) mm (kk), kde mm (ii) (ii) (ii) = mm 1 mmdd. Následně každý blok mm (ii), ii = 1,, kk převedeme na číselný řetězec xx (ii) = xx 1 (ii),, xxdd (ii), který zašifrujeme pomocí transformace: YY (ii) = xx (ii) HH (mmmmmm 26) YY (ii) (ii) (ii) = YY 1,, YYdd je číselný vektor reprezentující ii-tý blok zašifrovaného textu YY = YY (11) YY (kk). Dešifrovací klíč: HH 1, tj. matice inverzní k HH modulo 26 Dešifrování probíhá zcela analogicky k šifrování, tj. šifrový text rozdělíme na bloky YY (ii), ii = 1,, kk, délky dd, které dešifrujeme pomocí inverzní transformace: xx (ii) = YY (ii) HH 1 (mmmmmm 26). Poznámky Hillova šifra je bloková šifra délky dd, tj. pokud délka otevřeného textu není násobkem čísla dd, doplníme text libovolnými znaky na délku rovnou nejbližšímu většímu násobku čísla dd. Existence inverzní matice HH 1 je nezbytnou podmínkou pro jednoznačné dešifrování. Lze ukázat, že nutnou a postačující podmínkou je NNNNNN(det HH, 26) = 1, kde det HH označuje determinant matice HH. Připomeňme, že platí HH HH 1 II (mmmmmm 26). Výpočet HH 1 se provádí v soustavě ZZ 26 a lze využít standardní postupy, např. Gaussovu metodu, determinanty apod. Příklad 13 12 21 Uvažujte Hillovu šifru s klíčem HH = 22 15 7. 21 3 1 a) Zašifrujte text tarsus. Průběh šifrování lze zapsat následovně: Číselná reprezentace otevřeného textu: tarsus (19,0,17,18,20,18), ze které sestavíme číselné vektory xx (ii) délky 3 (řád šifrovací matice). Následně šifrujeme dle vztahu YY (ii) = xx (ii) HH (mmmmmm 26). 19 0 17 12 21 604 279 416 13 22 15 7 = 18 20 18 21 3 1 1052 570 536 26 6 19 0 GTAMYQ. 12 24 16 b) Dešifrujte text QASNAL. Průběh dešifrování lze popsat následovně nejprve určíme dešifrovací klíč, tj. matici HH 1. 9

13 12 21 1 0 0 21 3 1 0 0 1 1 0 0 10 19 21 10 19 21 22 15 7 0 1 0 ~ 0 25 8 1 0 13 ~ ~ 0 1 0 17 20 23, tedy HH 1 = 17 20 23 21 3 1 0 0 1 0 23 1 0 1 20 0 0 1 25 9 11 25 9 11 Dále dostáváme QASNAL (16,0,18,13,0,11), tedy 16 0 18 19 21 610 466 534 10 17 20 23 = 13 0 11 25 9 11 405 346 395 12 24 14 26 myopie 15 8 4 Vigenèrova šifra Šifrovací klíč: ππ 0,, ππ dd 1 SS 26 Šifrovací funkce: EE (ππ0,,ππ dd 1 )(mm 1 mm nn ) = cc 1 cc nn, kde cc ii = ππ ii mmmmmm dd (mm ii ) Dešifrovací klíč: Dešifrovací funkce: ππ 1 0,, ππ 1 dd 1 SS 26, kde ππ 1 ii označuje inverzní permutaci k ππ ii 1 (cc 1 cc nn ) = mm 1 mm nn, kde mm ii = ππ 1 ii mmmmmm dd(cc ii ) DD ππ0 1,,ππ dd 1 Poznámky Vigenèrova šifra je polyalfabetická substituční šifra, jejíž klíč tvoří d cyklicky se opakujících substitučních schémat (šifrových abeced) definovaných permutacemi ππ 0,, ππ dd 1. Speciálním případem je šifrování pomocí tzv. Vigenèrova čtverce, jehož první řádek tvoří otevřená abeceda a následující řádky reprezentují substituční abecedy vzniklé pouhým posunutím (viz tab. č. 3 v příloze). Šifrovací klíč tak tvoří vektor (kk 0,, kk dd 1 ), kk ii ZZ 26 a šifrovací funkce má tvar EE (kk0,,kk dd 1 )(mm 1 mm nn ) = cc 1 cc nn, kde cc ii = (mm ii + kk ii mmmmmm dd ) mmmmmm 26. Dešifrovací funkce má tvar mm ii = (cc ii kk ii mmmmmm dd ) mmmmmm 26. Příklad Uvažujte Vigenèrovu šifru s klíčovým slovem sera. a) Zašifrujte text circumicio klíč: s e r a s e r a s e otevřený text: c i r c u m i c i o zašifrovaný text: U M I C M Q Z C A S b) Dešifrujte text SKXRWWJIG klíč: s e r a s e r a s zašifrovaný text: S K X R W W J I G otevřený text: a g g r e s s i o 10

1.3. Binární blokové šifry Ze zřejmých důvodů převládají v současné době šifrovací metody, které používají binární otevřenou i šifrovací abecedu, tj. AA = BB = {0,1} a tedy šifrují bitový řetězec reprezentující otevřený text na bitový řetězec tvořící šifrový text (obvykle stejné délky). Poznámky V rámci binárního šifrování se používají standardní bitové (logické) operace, zejména pak tzv. vylučující nebo (or exklusive, resp. jen xor) označované. Platí 1 0 = 0 1 = 1; 1 1 = 0 0 = 0 Bitové operace lze rozšířit na operace mezi bitovými řetězci stejné délky tak, že se provedou bitové operace mezi sobě odpovídajícími bity obou bitových řetězců. Např. 1010 1100 = 0110. Jsou-li xx, yy, zz {0,1} nn, potom operace je asociativní, komutativní, má neutrální prvek 00 (nulový bitový řetězec délky nn) a navíc xx xx = 00. Pro převod otevřeného textu na binární řetězec budeme využívat ASCII tabulku (viz tab. č. 2 v příloze). Vernamova šifra Vernamova šifra je bloková šifra, tj. nejprve rozdělíme binární reprezentaci otevřeného textu na po sobě jdoucí bitové řetězce délky nn, tj. mm = mm (1) mm (kk), kde mm (ii) (ii) (ii) (ii) = mm 1 mmnn, mmjj {0,1}. Každý z bitových řetězců mm (ii) zašifrujeme na bitový řetězec cc (ii) délky nn, tj. výsledný zašifrovaný text má tvar cc = cc (1) cc (kk), kde cc (ii) (ii) (ii) (ii) = cc 1 ccnn, ccjj {0,1}. Šifrovací klíč: ee = (ee 1 ee dd ), kde ee ii {0,1} Šifrovací funkce: cc (ii) = mm (ii) ee, kde je symbol pro operaci xor. Dešifrovací klíč: ee = (ee 1 ee nn ), kde ee ii {0,1} Dešifrovací funkce: mm (ii) = cc (ii) ee Poznámkyn Snadno se přesvědčíme, že dešifrování probíhá korektně, neboť cc (ii) ee = mm (ii) ee ee = mm (ii) (ee ee) = mm (ii) 00 = mm (ii) Šifrovací klíč lze zadat pomocí klíčového slova, jehož binární reprezentace tvoří skutečný klíč ee. Příklad Uvažujte Vernamovu šifru s klíčovým slovem ico. a) Zašifrujte text secus Bitová reprezentace klíče: ico = (01101001 01100011 01101111) otevřený text: s e c u s binární reprezentace: 01110011 01100101 01100011 01110101 01110011 klíč: 01101001 01100011 01101111 01101001 01100011 zašifrovaný text: 00011010 00000110 00001100 00011100 00010000 11

b) Dešifrujte text (00001111000011000001110100011010) zašifrovaný text: 00001111 00001100 00011101 00011010 klíč: 01101001 01100011 01101111 01101001 binární reprezentace: 01100110 01101111 01110010 01110011 otevřený text: f o r s Důležitou třídu šifer tvoří tzv. Feistelovy šifry, jejichž speciálním případem jsou např. dobře známé šifry DES, NDS. Jde o blokové šifry, které nejprve rozdělí šifrovaný text na po sobě jdoucí bitové řetězce délky 2nn. Každý takový bitový řetězec je pak v několik na sebe navazujících fázích zašifrován na bitový řetězec délky 2nn. Feistelova šifra Feistelova šifra je bloková šifra. Nejprve proto binární reprezentaci otevřeného textu mm rozdělíme na po sobě jdoucí bitové řetězce mm (ii) délky 2nn, tj. mm = mm (1) mm (kk). Každý z bitových řetězců mm (ii) pak zašifrujeme v dd na sebe navazujících fázích na bitový řetězec cc (ii) délky 2nn, tj. výsledný zašifrovaný text má tvar cc = cc (1) cc (kk). Šifrovací klíč: (ff 1,, ff dd ), kde ff ii : {0,1} nn {0,1} nn Označme mm (ii) (ii) (ii) (ii) (ii) = mm 0, mm1 bitový řetězec délky 2nn rozdělený na dva podřetězce mm0, mm1, každý délky nn. Vlastní šifrovací proces probíhá následovně: 1. fáze: mm 0 (ii), mm1 (ii) ff 1 mm 1 (ii), mm2 (ii), (ii) (ii) ff 2 (ii) (ii) 2. fáze: mm 1, mm2 mm 2, mm3, (ii) (ii) ff dd (ii) (ii) (ii) d. fáze: mm dd 1, mmdd mm dd, mmdd+1, kde mmdd+1 závěr: cc (ii) (ii) (ii) = mm dd+1, mmdd. kde mm2 (ii) = mm0 (ii) ff1 mm 1 (ii) kde mm3 (ii) = mm1 (ii) ff2 mm 2 (ii) (ii) (ii) = mm dd 1 ffdd mm dd Dešifrovací klíč: (ff dd,, ff 1 ) Označme cc (ii) (ii) (ii) (ii) (ii) = cc 0, cc1 bitový řetězec délky 2nn rozdělený na dva podřetězce cc0, cc1, každý délky nn. Vlastní dešifrování probíhá analogicky k šifrování, pouze klíče používáme v obráceném pořadí. 1. fáze: cc 0 (ii), cc1 (ii) ff dd cc 1 (ii), cc2 (ii), (ii) (ii) ff dd 1 (ii) (ii) 2. fáze: cc 1, cc2 cc 2, cc3, (ii) (ii) ff 1 (ii) (ii) (ii) d. fáze: cc dd 1, ccdd cc dd, ccdd+1, kde ccdd+1 závěr: (ii) (ii) mm = cc dd+1, ccdd kde cc2 (ii) = cc0 (ii) ffdd cc 1 (ii) kde cc3 (ii) = cc1 (ii) ffdd 1 cc 2 (ii) (ii) (ii) = cc dd 1 ff1 cc dd Poznámka Celá řada dnes používaných šifer patří do třídy Feistelových šifer. Jako příklady lze uvést RC5, RC6, DES (DEA-1), 3DES apod. 12

DES (Data Encryption Standard) Vyvíjeno firmou IBM (ve spolupráci s NSA) od 70. let 20 století. Šifrují se vždy 64 bitové bloky (tj. 2nn = 64) v 16 fázích (tj. dd = 16). Klíč tvoří 56 bitový řetězec s tím, že klíče pro jednotlivé fáze jsou různé 48 bitové podřetězce výše zmíněného 56 bitového klíče. NDS (New Data Seal) Šifrují se 128 bitové bloky (tj. 2nn = 128), používá se 16 fází (tj. dd = 16) a klíč tvoří pro všechny kroky zobrazení ff: {0,1} 8 {0,1} 8. Snadno spočteme, že existuje 2 2048 možností pro volbu ff. Pro představu, jde o číslo: 323170060713110073007148766886699519604441026697154840321303454275246551388678 908931972014115229134636887179609218980194941195591504909210950881523864482831 206308773673009960917501977503896521067960576383840675682767922186426197561618 380943384761704705816458520363050428875758915410658086075523991239303855219143 333896683424206849747865645694948561760353263220580778056593310261927084603141 502585928641771167259436037184618573575983511523016459044036976132332872312271 256847108202097251571017269313234696785425806566979350459972683529986382155251 66389437335543602135433229604645318478604952148193555853611059596230656 Příklad Uvažujte dvou krokovou Feistelovu šifru s klíčem (ff 1, ff 2 ), kde ff 1 (xx 1, xx 2, xx 3, xx 4 ) = (xx, 1 xx 2,, xx 2 xx 3 xx 4 ), ff 2 (xx 1, xx 2, xx 3, xx 4 ) = (xx xx 1 4,, xx 2 xx 3, xx 2 xx ). 4 a) Zašifrujte text kkkk, b) dešifrujte binární řetězec 1000110110111011. (pro binární reprezentaci otevřeného textu užijte ASCII kód). Řešení. a) kk = (01101011), tedy mm (1) (1) (1) = mm 0, mm1 = (0110)(1011) (0110,1011) ff 1 (1011,0111) ff 2 (0111,1000), tedy cc (1) = (10000111). ss = (01110011), tedy mm (2) (2) (2) = mm 0, mm1 = (0111)(0011) ff 1 ff 2 (0111,0011) (0011,1110) (1110,0001), tedy cc (2) = (00011110). Text kkkk byl zašifrován na bitový řetězec 1000011100011110. b) cc = 1000110110111011, tedy cc (1) = 10001101 a cc (2) = 10111011 ff 2 ff 1 cc (1) : (1000,1101) (1101,0001) (0001,0110), tedy mm (1) = (01100001) = aa cc (2) ff 2 ff 1 : (1011,1011) (1011,0101) (0101,0110), tedy mm (2) = (01100101) = ee Binární řetězec 1000011100011110 je dešifrován na text ae. 13

1.4. Asymetrická šifra RSA RSA šifra Bloková asymetrická šifra (pojmenovaná po autorech Rivest, Shamir, Adleman), která je vyvíjena od roku 1977 a kterou lze dnes považovat prakticky za nejbezpečnější šifru. Nejprve je binární reprezentace otevřeného textu mm rozdělená na po sobě jdoucí bitové řetězce mm ii délky nn, tj. mm = mm 1 mm kk. Každý z bitových řetězců mm ii je pak zašifrován na bitový řetězec cc ii délky nn, tj. výsledný zašifrovaný text má tvar cc = cc 1 cc kk. Šifrovací klíč: (nn, ee), kde nn, ee jsou vhodně zvolená velká přirozená čísla Šifrovací transformace: cc ii = (mm ee ii mmmmmm nn) Dešifrovací klíč: (nn, dd), kde dd je vhodně zvolené přirozené číslo Dešifrovací transformace: mm = cc ii dd mmmmmm nn Poznámky Přirozené číslo nn má řádově několik stovek cifer a je součinem dvou dostatečně velkých prvočísel pp, qq, tj. nn = pppp. Číslo ee je zvoleno tak, že platí NNNNNN ee, φφ(nn) = 1, kde φφ označuje Eulerovu funkci (vzhledem k volbě nn je φφ(nn) = (pp 1)(qq 1)). Číslo dd je pak inverzní prvek k ee modulo φφ(nn), tj. dddd 1 mmmmmm (pp 1)(qq 1). Nyní snadno nahlédneme, že dešifrování skutečně funguje, tj. dešifrovací transformace je inverzní k šifrovací transformaci. Zřejmě platí cc dd ii = (mm ee ii ) dd = mm dddd 1+tt(pp 1)(qq 1) tt(pp 1)(qq 1) ii = mm ii = mmii mm ii. Z Eulerovy věty dostáváme mm ii tt(pp 1)(qq 1) = mmii (pp 1) tt(qq 1) 1 (mmmmmm pp) mmii tt(pp 1)(qq 1) = mmii (qq 1) tt(pp 1) 1 (mmmmmm qq), tedy cc dd ii mm ii (mmmmmm pp) cc dd ii mm ii (mmmmmm qq) a proto cc dd ii mm ii (mmmmmm nn). Zjednodušeně řečeno, bezpečnost šifrovací metody RSA se odvíjí od výpočetní složitosti nalezení kanonického rozkladu velkého přirozeného čísla nn. Znalost tohoto rozkladu je totiž nezbytná pro výpočet dešifrovacího klíče dd jako řešení kongruence dddd 1 mmmmmm φφ(nn). Příklad Uvažujte RSA šifrování s veřejným klíčem (nn, ee) = (268 951, 13 009). a) zašifrujte text spinus, b) dešifrujte text 259 339 209 545. Řešení. a) Nejprve textový řetězec převedeme na číselný pomocí např. tab. č. 1; bloky tvoří tři znaky) spinus = (18,15,08,13,20,18), tj mm = mm 1 mm 2 = 181508,132018. cc 1 = (181 508 13 009 mmmmmm 268 951) cc 1 = 3 997 cc 2 = (132 018 13 009 mmmmmm 268 951) cc 2 = 157 704 tedy cc = cc 1 cc 2 = 003 997 157 704 b) Vzhledem k nepříliš velké hodnotě nn určíme snadno kanonický rozklad nn = 599 449 a tedy i dešifrovací klíč dd jako řešení kongruence 13009dd 1 mmmmmm φφ(nn), tj. dd = 89 521. Zašifrovaný text 259 339 209 545 rozdělíme na bloky cc = cc 1 cc 2 = 259 339,209 545, tedy mm 1 = (259 339 89 521 mmmmmm 268 951) mm 1 = 201 908 mm 2 = (209 545 89 521 mmmmmm 268 951) mm 2 = 110 818. mm = mm 1 mm 2 = 20 19 08 11 08 18 = uuuuuuuuuuuu 14

2. Úvod do kódování Cílem následujících části textu je seznámit čtenáře se dvěma tématy z oblasti kódování. Jednak s elementárními výsledky z oblasti bezeztrátových kompresních metod, zejména pak s Huffmanovou konstrukcí nejkratšího kódu a s aritmetickými kódy (nultého řádu), dále pak s elementárními výsledky z teorie detekčních, resp. opravných kódů (error-correcting codes), zejména pak s lineárními kódy. 2.1. Základní pojmy Zdrojová abeceda Konečná množina AA = {aa 1,, aa rr }, jejíž prvky budeme nazývat zdrojové znaky. Zdrojovou abecedu interpretujeme jako množinu znaků, které používáme k zápisu původní, tj. nezakódované zprávy (např. anglická/česká abeceda spolu s ciframi 0, 1,, 9 a dalšími speciálními symboly). Kódová abeceda Konečná množina BB = {bb 1,, bb nn }, jejíž prvky budeme nazývat kódové znaky. Kódovou abecedu interpretujeme jako množinu znaků, které používáme ke kódování (tj. k zápisu zakódované zprávy). Má-li kódová abeceda nn znaků, mluvíme o nn-znakovém kódu. Speciálně, kdy nn = 2, tj. kódová abeceda obsahuje dva znaky (nejčastěji 0, 1), mluvíme o binárním kódu/kódování. V případě nn = 3 mluvíme o ternárním kódování apod. Kódování Kódováním rozumíme libovolné prosté zobrazení KK zdrojové abecedy AA do množiny BB (množina všech konečných slov nad abecedou BB), tj. KK: AA BB. Kódování lze interpretovat jako předpis, který každému zdrojovému znaku aa AA přiřadí slovo KK(aa) BB vytvořené ze znaků kódové abecedy. Slovo KK(aa) nazýváme kódové slovo příslušné zdrojovému znaku a. Vlastnost K je prosté zajišťuje přirozený požadavek, totiž různým znakům zdrojové abecedy odpovídají různá kódová slova. Kód Kódem rozumíme množinu všech kódových slov, tj. množinu KK = {bb BB aa AA KK(aa) = bb }. Poznamenejme, že v další části skript nebudeme zcela striktně rozlišovat mezi pojmy kódování (zobrazení) a kód (množina kódových slov) a budeme v obou případech používat označení K. Kódování zdrojových zpráv Je-li KK: AA BB kódování, potom zobrazení KK : AA BB definované pro libovolné slovo aa ii1 aa iiii nad A vztahem KK (aa ii1 aa iiii ) = KK(aa ii1 ) KK(aa iiii ) (tj. zřetězení kódových slov KK(aa ii1 ),, KK(aa iiii )) nazýváme kódováním zdrojových zpráv. Poznámka Přirozeným požadavkem je, aby také zobrazení KK bylo prosté (zdůvodněte). Tato vlastnost však není 15

bezprostředním důsledkem skutečnosti, že zobrazení KK je prosté. Tento fakt vede k následující definici. Jednoznačně dekódovatelné kódování Řekneme, že K je jednoznačně dekódovatelné kódování, jestliže kódování zdrojových zpráv K* je prosté zobrazení. Prefixový kód Kód nazýváme prefixovým kódem, jestliže žádné kódové slovo není prefixem jiného kódového slova. Blokový kód Kód, jehož všechna kódová slova mají stejnou délku, nazýváme blokovým kódem. Počet znaků kódového slova nazýváme délkou blokového kódu. Poznámky Každý prefixový kód je zřejmě jednoznačně dekódovatelný a zakódované zprávy lze dekódovat průběžně znak po znaku, tj. není nutné čekat na přijetí celé zprávy. (Zdůvodněte!) Prefixové kódy proto tvoří nejdůležitější třídu kódů. Každý blokový kód je prefixový a tedy i jednoznačně dekódovatelný. (Zdůvodněte!) S pochopitelných důvodů se obvykle snažíme zkonstruovat kódy, které mají co nejkratší kódová slova. Přirozeně tak vzniká otázka, jaké podmínky musí splňovat délky kódových slov u prefixových kódů. Odpověď dává následující tvrzení. Tvrzení - Kraftova nerovnost Nechť AA je rr-znaková zdrojová abeceda. Potom existuje nn-znakový prefixový kód zdrojové abecedy AA rr s délkami kódových slov dd 1,, dd rr právě tehdy, jestliže nn dd ii ii=1 1. Důkaz. Je-li rr = 1, musí existovat alespoň jedno slovo (nad nn-znakovou abecedou) délky dd 1, tj. nn dd 1 1, odtud nn dd 1 1. Je-li rr = 2, musí být počet všech slov délky dd 2 alespoň o 1 větší, než počet slov délky dd 2, které mají prefix KK(aa 1 ), tj. nn dd 2 dd 1 + 1 nn dd 2, tedy nn dd 1 + nn dd 2 1. Analogicky pro obecné rr musí být počet slov délky dd rr alespoň o 1 větší, než počet slov délky dd rr, která mají prefixy KK(aa 1 ),, KK(aa rr 1 ), tj. nn dd rr dd 1 + + nn dd rr dd rr 1 + 1 nn dd rr. Odtud nn dd 1 + + nn dd rr 1 + nn dd rr 1. Poznámka rr V případě binárního kódování má Kraftova nerovnost zřejmě tvar 2 dd ii ii=1 1. Tvrzení - McMillanova věta Pro každé jednoznačně dekódovatelné kódování platí Kraftova nerovnost. Poznámky Důsledkem výše uvedených tvrzení je skutečnost, že se lze bez újmy na obecnosti omezit pouze na prefixové kódy. Zjednodušeně řečeno jsou prefixové kódy stejně obecné jako všechny jednoznačně dekódovatelné kódy, avšak mají navíc tu dobrou vlastnost, že je lze dekódovat průběžně (není třeba čekat na celou zprávu). Z těchto důvodů se v další části skript omezíme pouze na prefixové kódy. 16

Kraftova nerovnost dává odpověď na otázku existence prefixového kódu s předepsanými délkami kódových slov. Z praktického hlediska je rozumné požadovat, aby kódová slova nebyla přiřazována znakům zdrojové abecedy nahodile, ale tak, že znaky s vysokou četností (frekvencí, pravděpodobností) výskytu budou zakódována na kratší slova než znaky s nízkou četností. Z těchto důvodů budeme u zdrojové abecedy obvykle uvádět i četnosti jednotlivých znaků. Běžně tak budeme psát AA = ZZZZZZZZ aa rr 1 aa rr, kde pp ii > 0, ii=1 pp ii = 1, resp. AA = aa 1 aa rr. PPPPPP. pp 1 pp rr pp 1 pp rr Definice - střední délka kódového slova aa 1 aa rr Nechť AA = pp 1 pp rr je zdrojová abeceda, kde pp ii označuje četnost znaku aa ii a dd ii délku dd 1 dd rr rr kódového slova KK(aa ii ), potom dd = ii=1 dd ii pp ii nazýváme střední délkou kódového slova. Definice - nejkratší kód Nejkratším nn-znakovým kódem zdrojové abecedy AA rozumíme takový nn-znakový prefixový kód zdrojové abecedy, který má ze všech nn-znakových prefixových kódů dané abecedy nejmenší střední délku kódového slova. Poznámky Je zřejmé, že nejkratší kód není určen jednoznačně. Návod jak zkonstruovat nejkratší kód dává následující Huffmanova konstrukce nejkratšího kódu. 2.2. Huffmanova konstrukce Huffmanova konstrukce nejkratšího kódu - binární varianta Konstrukce nejkratšího binárního kódu probíhá ve dvou na sebe navazujících fázích - redukce a zpětná rekonstrukce. Fáze redukce spočívá v opakované redukci (nahrazení) dvou nejméně četných znaku zdrojové abecedy jedním znakem dle schématu: Je-li AA = aa 1 aa rr pp 1 pp zdrojová abeceda seřazená dle četnosti výskytu znaku (tj. pp 1 pp rr ), rr potom redukovaná abeceda má tvar AA RR = aa 1 aa rr 2 aa pp 1 pp rr 2 pp, kde pp = pp rr 1 + pp rr. Nově vzniklou redukovanou abecedu AA RR opakovaně redukujeme (po opětovném seřazení znaků dle četností) do okamžiku, než dostaneme abecedu se dvěma znaky (pro tuto abecedu již umíme sestrojit nejkratší binární kód). Fáze zpětné rekonstrukce - základem je následující tvrzení: Jestliže {KK(aa 1 ),, KK(aa rr 2 ), KK(aa )} je nejkratší kód redukované abecedy AA RR = {aa 1,, aa rr 2, aa }, potom {KK(aa 1 ),, KK(aa rr 2 ), KK(aa )0, KK(aa )1} je nejkratší kód neredukované abecedy AA = {aa 1,, aa rr 2, aa rr 1, aa rr }. Poznámky K vlastní konstrukci lze využít např. následující standardizovaný postup: 17

Nejprve zapíšeme znaky zdrojové abecedy a jejich četnosti výskytu do sloupce, přičemž znaky jsou seřazené nerostoucím způsobem dle četnosti výskytu. Následně opakujeme redukce dvou nejméně pravděpodobných znaků, přičemž redukovaný znak zapíšeme na úroveň redukovaného znaku umístěného výše. Graficky se výše popsaná redukce znázorňuje binárním stromem, jehož listy reprezentují znaky původní neredukované abecedy a kořen reprezentuje poslední, tj. dvouznakovou redukovanou abecedu. Zpětná rekonstrukce spočívá v přiřazení nejkratšího kódu jednotlivým znakům (listům) původní zdrojové abecedy následovně: z každého uzlu, který není listem, vychází dvě hrany k uzlům, jejichž redukcí uzel vzniknul. Jedné hraně přiřadíme znak 0, druhé znak 1. Kódové slovo reprezentující znak původní neredukované abecedy pak tvoří binární slovo, které vznikne zřetězením symbolů na cestě od kořene k listu. Příklad Pomocí Huffmanovy konstrukce nalezněte nejkratší binární kód zdrojové abecedy aa 1 aa 2 aa 3 aa 4 aa 5 aa 6 aa 7 AA = 9 4 32 1 32 2 32 3 32 10 32 3 32, spočtěte střední délku kódového slova. 32 Řešení. 0 0 a 6 (10) 00 19 32 a 1 (9) 01 1 1 a 2 (4) 100 0 7 0 13 a 5 (3) 101 1 1 a 7 (3) 110 0 6 a 4 (2) 1110 0 3 1 a 3 (1) 1111 1 Střední délka kódového slova: dd = 1 (2 10 + 2 9 + 3 4 + 3 3 + 3 3 + 4 2 + 4 1) = 5 32 2. Huffmanova konstrukce nejkratšího kódu - obecná varianta Konstrukce nejkratšího nn-árního kódu (tj. BB = {bb 1,, bb nn } je kódová abeceda) probíhá zcela analogicky binárnímu případu, tj. ve dvou na sebe navazujících fázích - redukce a zpětná rekonstrukce. Fáze redukce - opakovaně provádíme redukce, přičemž u první provádíme redukci posledních ss nejméně četných znaků zdrojové abecedy, kde ss {2,, nn} a navíc musí platit (nn 1) (rr ss). Ve všech následujících fázích již redukujeme právě nn nejméně četných znaků, než dostaneme redukovanou abecedu s právě nn znaky (pro tuto abecedu již umíme sestrojit nejkratší nn-ární kód). Fáze zpětné rekonstrukce - základem je následující tvrzení: Jestliže {KK(aa 1 ),, KK(aa rr ss ), KK(aa )} je nejkratší kód redukované abecedy AA RR = {aa 1,, aa rr ss, aa }, potom {KK(aa 1 ),, KK(aa rr ss ), KK(aa )bb 1,, KK(aa )bb ss } je nejkratší kód neredukované abecedy AA = {aa 1,, aa rr ss,, aa rr }. 18

Příklad Pomocí Huffmanovy konstrukce nalezněte nejkratší čtyřznakový kód zdrojové abecedy aa 1 aa 2 aa 3 aa 4 aa 5 aa 6 aa 7 aa 8 aa 9 aa 10 aa 11 aa 12 AA = 7 3 55 6 55 3 55 9 55 2 55 6 55 2 55 8 55 2 55 1 55 6 55, spočtěte střední 55 délku kódového slova. Řešení. Nejprve uspořádáme znaky zdrojové abecedy nerostoucím způsobem dle četnosti výskytu, následně určíme počet znaků ss redukovaných při první redukci (dále pak redukujeme vždy 4 nejméně četné znaky). Jelikož musí platit (nn 1) (rr ss), tj. (3) (12 ss), budeme v první fázi redukovat ss = 3 nejméně četné znaky. Standardizovaná konstrukce probíhá následovně. a 5 (9) 0 a 9 (8) 1 0 1 2 13 a 1 (7) 20 a 3 (6) 21 0 1 2 25 3 a 7 (6) 23 3 a 12 (6) 23 a 2 (3) 30 0 13 a 4 (3) 31 a 6 (2) 32 1 2 3 a 8 (2) 330 a 10 (2) 331 a 11 (1) 332 0 1 2 5 Pro střední délku kódového slova dostáváme dd = 98 55 1,78 2.3. Aritmetické kódy metoda DFWLD V další části se seznámíme s myšlenkou tzv. aritmetických kódů (konkrétně metodou DFWLD), které se řadí k bezeztrátovým kompresním metodám (nultého řádu). Aritmetické kódy, metoda DFWLD (dyadic fraction with least denominator) Zdrojová abeceda AA = aa 1 aa rr rr pp 1 pp, kde pp ii > 0, ii=1 pp ii = 1, navíc předpokládáme, že pp 1 pp rr. rr Dále označme xx = aa ii1 aa iinn AA slovo určené k zakódování (kompresi). 19

Obecný postup aritmetického kódování: 1. Pro jednotlivé prefixy kódovaného slova xx postupně konstruujeme posloupnost do sebe vnořených intervalů 0,1) II aa ii1 II aa ii1 aa ii2 II aa ii1 aa iinn, které jednoznačně reprezentují daný prefix (přesněji intervaly reprezentující všechna slova nad AA mající pevnou délku tvoří rozklad intervalu 0,1)). 2. Z intervalu II aa ii1 aa iinn, který odpovídá kódovanému slovu, vybereme tzv. reprezentanta, tj. číslo RR II aa ii1 aa iinn, které jednoznačně charakterizuje daný interval. 3. Kód slova xx = aa ii1 aa iinn bude tvořit vhodná binární reprezentace čísla RR. Poznámka Výše popsaný postup je společný aritmetickým kódům obecně a jednotlivé metody se v podstatě liší pouze způsobem výběru reprezentanta a detaily souvisejícími s jeho binární reprezentací. V případě metody DFWLD volíme (jak plyne z názvu - dyadic fraction with least denominator) reprezentanta ve tvaru dyadického zlomku RR = ss II aa 2 tt ii 1 aa iinn s nejmenším jmenovatelem. Detaily DFWLD konstrukce intervalů, výpočtu reprezentanta a jeho binárního zápisu: 1. Konstrukce do sebe vnořených intervalů jednotlivých prefixů aa ii1, aa ii1 aa ii2,, aa ii1 aa iijj,, aa ii1 aa iinn Každý interval II aa ii1 aa iijj, jj = 1,, nn je jednoznačně určen svou dolní mezí αα jj a délkou ll jj, tj. II aa ii1 aa iijj = αα jj, αα jj + ll jj. Při konstrukci postupujeme v podstatě indukcí, tj. na základě αα jj a ll jj vypočteme αα jj+1 a ll jj+1 následovně αα jj+1 = αα jj + ll jj kk<iijj+1 pp kk a ll jj+1 = ll jj pp iijj+1, kde αα 0 = 0, ll 0 = 1 (odpovídá základnímu intervalu 0,1)). 2. Výpočet reprezentanta RR Hledáme dyadický zlomek RR = ss αα 2 nn, αα tt nn + ll nn ) s nejmenším jmenovatelem. Číslo tt NN + určíme jednoznačně ze zřejmých nerovnic 1 ll 2 tt nn < 1 2tt 1. Následně určíme hodnotu ss NN z nerovnic αα nn ss < αα 2 tt nn + ll nn. Těmto nerovnicím vždy vyhovuje alespoň jedna hodnota ss, ale nejvýše dvě po sobě jdoucí (v tom případě vždy zvolíme ss sudé zdůvodněte!). 3. Binární zápis reprezentanta RR Jelikož RR = ss 0,1), zřejmě 0 ss < 2 tt 2tt a tedy RR lze zřejmě zapsat ve tvaru RR = (, cc tt 1 cc 0 ) 2, kde (cc tt 1 cc 0 ) 2 je dvojkový zápis přirozeného čísla ss pomocí tt bitů (v případě potřeby doplníme zleva nuly, např. (000101) 2 je dvojkový zápis čísla 5 pomocí šesti bitů). Kódované slovo xx = aa ii1 aa iinn reprezentujeme bitovým řetězcem cc tt 1 cc 0. Poznámky Zamyslete se nad výše popsanou konstrukcí intervalů jednotlivých prefixů a zdůvodněte skutečnost, že intervaly reprezentující všechna slova délky nn NN + skutečně tvoří rozklad 0,1). Rozklad zaručuje jednoznačný vztah mezi slovy a intervaly a proto ze znalosti intervalu můžeme jednoznačně rekonstruovat slovo. Je třeba si uvědomit, že reprezentant RR nezaručuje jednoznačnou rekonstrukci ve smyslu délky rekonstruovaného (dekódovaného, dekomprimovaného) slova. Pro jednoznačnost je nutná ještě znalost délky rekonstruovaného slova (např. RR = 0, tj. kód 0, reprezentuje libovolně dlouhé slovo obsahující pouze znak aa 1 ). 20

Příklad aa bb cc dd ee Uvažujte zdrojovou abecedu AA =. Pomocí metody DFWLD zakódujte 0,3 0,3 0,2 0,1 0,1 slovo bbbbbbbb. Řešení. Konstrukci intervalů prefixů kódovaného slova lze přehledně zapsat do následující tabulky: Znak αα jj ll jj - - - 0 1 bb 0,3 0,3 αα 1 = 0 + 1 0, ll 1 = 1 0,3 aa 0,3 0,09 αα 2 = 0,3 + 0,3 0, ll 2 = 0,3 0,3 dd 0,372 0,009 αα 3 = 0,3 + 0,09 (0,3 + 0,3 + 0,2), ll 3 = 0,09 0,1 cc 0,3774 0,0018 αα 4 = 0,372 + 0,009 (0,3 + 0,3), ll 4 = 0,009 0,2 Nyní stačí určit reprezentanta RR = ss 2tt 0,3774; 0,3792). Pro tt dostáváme nerovnice 2 tt 0,0018 < 2 tt+1, tedy tt = 10. Pro ss máme nerovnice 0,3774 ss 210 < 0,3792, tedy ss {387,388}. Jelikož v případě dvou po sobě jdoucích hodnot volíme ss sudé, dostáváme RR = 388 97 210 = = (, 01100001) 2 2. 8 Slovo bbbbbbbb proto zakódujeme na bitový řetězec 01100001. (Poznamenejme, že při použití 7 bitového ASCII kódu bychom místo 8 bitů potřebovali 28 bitů.) Rekonstrukce (dekódování) původního slova probíhá analogicky ke kódování, tj. postupně určujeme intervaly a následně jim odpovídající prefixy, přičemž v každém kroku přidáme na konec již zkonstruovaného prefixu další znak (znalost délky původního slova je nutná proto, abychom věděli, kdy dekódování ukončit). Při rekonstrukci využíváme vlastnosti reprezentanta RR, konkrétně jj {0,, nn 1} αα jj+1 RR < αα jj+1 + ll jj+1. Nerovnosti v závorce lze přepsat na tvar αα jj + ll jj kk<iijj+1 pp kk RR < αα jj + ll jj kk iijj+1 pp kk, resp. kk<iijj+1 pp kk RR αα jj < ll kk iijj+1 pp kk. jj Z nerovnosti již snadno určíme znak aa iijj+1, který přidáme k již známému prefixu aa ii1 aa iijj (startujeme z prázdného prefixu). Poznámka Hodnotu reprezentanta RR vypočteme z kódu cc tt 1 cc 0 dle zřejmého vztahu RR = tt 1 ii=0 cc ii 2 ii tt. Příklad aa bb cc dd ee ff Uvažujte zdrojovou abecedu AA =. Dekódujte slovo 11000001001001, 0,25 0,25 0,2 0,1 0,1 0,1 jestliže délka původního slova byla 7. Řešení. Reprezentant má hodnotu RR = 0,754456. Další postup výpočtu je patrný z následující tabulky. 21

αα jj ll jj RR αα jj 0 1 0,754456 d 0,7 10 1 0,544556 c 0,75 2 10 2 0,222778 a 0,75 5 10 3 0,891113 e 0,754 5 10 4 0,911133 f 0,75445 5 10 5 0,12 a 0,75445 1,25 10 5 0,48 b Binární řetězec 11000001001001 byl dekódován na text dcaefab. ll jj Znak Poznámky (dyadické zlomky) Nechť ss ZZ, tt NN. Potom racionální číslo ss 2 tt nazýváme dyadickým zlomkem. Množina všech dyadických zlomků spolu s operacemi sčítání a násobení tvoří těleso, které je husté v RR, tj. xx RR εε > 0 ss ZZ tt NN takové, že xx ss 2 tt < εε. (Jako cvičení ověřte uzavřenost množiny všech dyadických zlomků na sčítání a násobení.) K zápisu dyadických zlomků využíváme obvykle dvojkovou soustavu. Konkrétně ss 2 tt zapisujeme ve tvaru (dd kk dd 0, cc tt cc 0 ) 2, kde (dd kk dd 0 ) 2 je zápis dolní celé části ss 2 tt ve dvojkové soustavě, tj. platí ss 2 tt = kk ii=0 dd ii 2 ii a (, cc tt cc 0 ) 2 je zápis lomené části ss 2 tt ve dvojkové soustavě, tj. platí ss 2 tt = tt ii=0 cc ii 2 ii tt. Je-li číslo αα (0,1) QQ, lze zjednodušeně popsat konstrukci jeho binárního zápisu následovně (bbbbbb_rrrrrr bude obsahovat textový řetězec s binární reprezentací čísla αα; proměnná pppppppppppppp nabude hodnoty true v případě zjištění periodického rozvoje): bbbbbb_rrrrrr ", "; rrrrrrrrrrrru αα 2 αα; iiii αα 1 ttheeee bbbbbb_rrrrrr bbbbbb_rrrrrr & "1"; αα αα 1 eeeeeeee bbbbbb_rrrrrr bbbbbb_rrrrrr & "0"; αα 2 αα; uuuuuuuuuu (αα = 0) (pppppppppppppp); Příklad a) Sestrojte dyadicky zlomek čísla 5,671875. b) Určete racionální číslo reprezentované dyadickým zlomkem (, 01101 ) 2. Řešení. a) αα = 0,671875; bbbbbb_rrrrrr ", "; αα 1,34375 (αα 2αα); bbbbnn rrrrrr ",1"; αα 0,34375 (αα αα 1); αα 0,6875 (αα 2αα); bbbbnn rrrrrr ",10"; αα 1,375 (αα 2αα); bbbbnn rrrrrr ",101"; αα 0,375 (αα αα 1); αα 0,75 (αα 2αα); bbbbnn rrrrrr ",1010"; αα 1,5 (αα 2αα); bbbbnn rrrrrr ",10101"; αα 0,5 (αα αα 1); αα 1,0 (αα 2αα); bbbbnn rrrrrr ",101011"; αα 0 (αα αα 1); tedy 5,671875 = (101,101011) 2. b) (, 01101 ) 2 = 2 2 + 2 3 + 2 3 nn=1 2 2nn = 5 12 22

Přílohy a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Tabulka č. 1 - Anglická abeceda a pořadí znaků Znak 0 1 2 3 4 5 6 7 8 9 ASCII 00110000 00110001 00110010 00110011 00110100 00110101 00110110 00110111 00111000 00111001 Znak a b c d e f g h i j ASCII 01100001 01100010 01100011 01100100 01100101 01100110 01100111 01101000 01101001 01101010 Znak k l m n o p q r s t ASCII 01101011 01101100 01101101 01101110 01101111 01110000 01110001 01110010 01110011 01110100 Znak u v w x y z ASCII 01110101 01110110 01110111 01111000 01111001 01111010 Tabulka č. 2 - neúplná ASCII tabulka a b c d e f g h i j k l m n o p q r s t u v w x y z B C D E F G H I J K L M N O P Q R S T U V W X Y Z A C D E F G H I J K L M N O P Q R S T U V W X Y Z A B D E F G H I J K L M N O P Q R S T U V W X Y Z A B C E F G H I J K L M N O P Q R S T U V W X Y Z A B C D F G H I J K L M N O P Q R S T U V W X Y Z A B C D E G H I J K L M N O P Q R S T U V W X Y Z A B C D E F H I J K L M N O P Q R S T U V W X Y Z A B C D E F G I J K L M N O P Q R S T U V W X Y Z A B C D E F G H J K L M N O P Q R S T U V W X Y Z A B C D E F G H I K L M N O P Q R S T U V W X Y Z A B C D E F G H I J L M N O P Q R S T U V W X Y Z A B C D E F G H I J K M N O P Q R S T U V W X Y Z A B C D E F G H I J K L N O P Q R S T U V W X Y Z A B C D E F G H I J K L M O P Q R S T U V W X Y Z A B C D E F G H I J K L M N P Q R S T U V W X Y Z A B C D E F G H I J K L M N O Q R S T U V W X Y Z A B C D E F G H I J K L M N O P R S T U V W X Y Z A B C D E F G H I J K L M N O P Q S T U V W X Y Z A B C D E F G H I J K L M N O P Q R T U V W X Y Z A B C D E F G H I J K L M N O P Q R S U V W X Y Z A B C D E F G H I J K L M N O P Q R S T V W X Y Z A B C D E F G H I J K L M N O P Q R S T U W X Y Z A B C D E F G H I J K L M N O P Q R S T U V X Y Z A B C D E F G H I J K L M N O P Q R S T U V W Y Z A B C D E F G H I J K L M N O P Q R S T U V W X Z A B C D E F G H I J K L M N O P Q R S T U V W X Y A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Tabulka č. 3 - Vigenèrův čtverec 23

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2 2 4 6 8 10 12 14 16 18 20 22 24 0 2 4 6 8 10 12 14 16 18 20 22 24 3 3 6 9 12 15 18 21 24 1 4 7 10 13 16 19 22 25 2 5 8 11 14 17 20 23 4 4 8 12 16 20 24 2 6 10 14 18 22 0 4 8 12 16 20 24 2 6 10 14 18 22 5 5 10 15 20 25 4 9 14 19 24 3 8 13 18 23 2 7 12 17 22 1 6 11 16 21 6 6 12 18 24 4 10 16 22 2 8 14 20 0 6 12 18 24 4 10 16 22 2 8 14 20 7 7 14 21 2 9 16 23 4 11 18 25 6 13 20 1 8 15 22 3 10 17 24 5 12 19 8 8 16 24 6 14 22 4 12 20 2 10 18 0 8 16 24 6 14 22 4 12 20 2 10 18 9 9 18 1 10 19 2 11 20 3 12 21 4 13 22 5 14 23 6 15 24 7 16 25 8 17 10 10 20 4 14 24 8 18 2 12 22 6 16 0 10 20 4 14 24 8 18 2 12 22 6 16 11 11 22 7 18 3 14 25 10 21 6 17 2 13 24 9 20 5 16 1 12 23 8 19 4 15 12 12 24 10 22 8 20 6 18 4 16 2 14 0 12 24 10 22 8 20 6 18 4 16 2 14 13 13 0 13 0 13 0 13 0 13 0 13 0 13 0 13 0 13 0 13 0 13 0 13 0 13 14 14 2 16 4 18 6 20 8 22 10 24 12 0 14 2 16 4 18 6 20 8 22 10 24 12 15 15 4 19 8 23 12 1 16 5 20 9 24 13 2 17 6 21 10 25 14 3 18 7 22 11 16 16 6 22 12 2 18 8 24 14 4 20 10 0 16 6 22 12 2 18 8 24 14 4 20 10 17 17 8 25 16 7 24 15 6 23 14 5 22 13 4 21 12 3 20 11 2 19 10 1 18 9 18 18 10 2 20 12 4 22 14 6 24 16 8 0 18 10 2 20 12 4 22 14 6 24 16 8 19 19 12 5 24 17 10 3 22 15 8 1 20 13 6 25 18 11 4 23 16 9 2 21 14 7 20 20 14 8 2 22 16 10 4 24 18 12 6 0 20 14 8 2 22 16 10 4 24 18 12 6 21 21 16 11 6 1 22 17 12 7 2 23 18 13 8 3 24 19 14 9 4 25 20 15 10 5 22 22 18 14 10 6 2 24 20 16 12 8 4 0 22 18 14 10 6 2 24 20 16 12 8 4 23 23 20 17 14 11 8 5 2 25 22 19 16 13 10 7 4 1 24 21 18 15 12 9 6 3 24 24 22 20 18 16 14 12 10 8 6 4 2 0 24 22 20 18 16 14 12 10 8 6 4 2 25 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Tabulka č. 4 Tabulka násobení modulo 2