Principy moderní digitální steganografie a stegoanalýzy The principles of modern digital steganography and stegoanalysis Ing. Bc. Marek Čandík, PhD. Abstrakt Steganografie se používá k vkládání skrytých zpráv ve formě souborů, textu nebo jiných obrázků v digitálních krycích médiích. Záměrem je předávat skryté informace. Steganalýza je proces, který slouží k detekci skrytých zpráv v digitálních datech. Ačkoli steganografie není novou disciplínou, stává se v dnešním digitálním světě stále důležitější, kdy se informace často a snadno vyměňují prostřednictvím internetu, e-mailu a dalších prostředků pomocí počítačů. Článek prezentuje principy moderní digitální steganografie a steganoanalýzy. Klíčová slova: bezpečnost, utajená komunikace, steganografie, steganoanalýza. Abstract: Steganography is used to embed hidden messages in the form of files, text, or other images in digital media. The intent is to convey hidden information. Steganalysis is the process used to detect hidden messages in digital data. Although steganography is not a new discipline, it is becoming increasingly important in today's digital world, where information is frequently and easily exchanged via computers, via the Internet, e-mail and other resources. The paper presents the principles of modern digital steganography and steganalysis. Keywords: security, secret communication, steganography, steganoanalysis. 1
Úvod První práci zaměřenou na digitální steganografii publikoval v roce 1983 kryptograf Gustavus Simmons, který formuloval problém steganografické komunikace v ilustrativním příkladu, který je nyní znám jako problém vězňů. Dva vězni chtějí společně připravit útěk. Mohou komunikovat s ostatními, ale veškerá jejich komunikace je sledována správcem. Jakmile se správce dozví o únikovém plánu nebo jakémkoli druhu komunikace, v níž podezřívá jednu osobu, uloží je do samovazby. Proto vězni musí najít nějaký způsob, jak skrývat své tajné zprávy v nenápadném krycím textu. Steganografická komunikace představuje výměnu informací skrytým kanálem, kde třetí strana neví, že dochází k utajenému přenosu informací. Digitální steganografie a steganoanalýza Ačkoli je obecný model pro steganografii definován pro libovolné komunikační kanály, mají praktický význam pouze ty, kde jsou krycí média tvořené z multimediálních objektů, jako jsou obrazové, obrazové nebo zvukové soubory. Je tomu tak z třech důvodů: jednak krycí objekt musí být větší než velikost tajné zprávy. Dokonce i nejznámější metody vkládání neumožňují bezpečně vložit více než 1% velikosti krycího média. Zadruhé, je pro dosažení steganografické bezpečnosti nutná neurčitost krycího média. Velké objekty bez neurčitosti se nepovažují za vhodné krycí média, protože by bylo možné ověřit jejich pravidelnost ve struktuře a objevit tak stopy vkládání. Za třetí, přenos dat, který obsahuje neurčitost, musí být přijatelný. Obrazové a zvukové soubory jsou dnes v komunikačních prostředích obvyklé, takže odesílání těchto dat je nenápadné jinými slovy, jejich přenos významně nezatěžuje přenosové kanály a nejeví se jejich přenos jako podezřelý. Podobně, jako v moderní kryptografii, se u steganografie uplatňuje Kerckhoffův princip bezpečný algoritmus musí být veřejný, proto steganografické algoritmy 2
pro vkládání tajné zprávy a extrakci z krycího média by měly být veřejné. Zabezpečení je dosaženo výlučně prostřednictvím tajných klíčů sdílených komunikačními partnery. Steganografie je technikou dvojího užití: jednak má aplikace v obraně, přesněji v tajné komunikaci a skrytých kanálech v kybernetických nástrojích. Steganografie v civilních aplikacích může pomoci při přidávání nových funkcí do starších protokolů při zachování kompatibility (v tomto případě je podřízený bezpečnostní aspekt). Některé steganografické techniky jsou také použitelné v systémech správy digitálních práv k ochraně práv duševního vlastnictví mediálních dat. Jedná se ovšem především o oblast digitálního vodoznaku. Steganografie je interdisciplinární a dotýká se oblastí počítačové bezpečnosti, zejména kryptografie, zpracování signálů, teorie kódování a strojového učení (přizpůsobení vzoru). Steganografie je také úzce spojená s nově vznikající oblastí multimediální forenzní analýzy, která rozvíjí metody k detekci padělků v digitálních médiích. Steganoanalýza Bezpečnost steganografického systému je definována jeho silou odolat detekci. Snaha o zjištění přítomnosti steganografie se nazývá steganoanalýza, resp. steganalýza. Metody steganalýzy jsou považované za úspěšné a příslušný steganografický systém se považuje za "prolomený", jestliže výsledek stegoanalýzy bude vyřešen s větší pravděpodobností než náhodný odhad. Steganografické systémy lze měřit třemi základními kritérii: kapacitou, bezpečností a robustností. Tyto dimenze nejsou nezávislé, ale spíše by měly být považovány za jakousi trojnožku při vyváženém návrhu systému. Kapacita Kapacita je definována jako maximální délka tajné zprávy. Může být určena v absolutních číslech (bitů) pro daný obal (krycí médium) nebo jako relativní k počtu bitů potřebných k uložení výsledného stego-objektu. Kapacita závisí 3
na funkci vkládání a může také záviset na vlastnostech krycího média - například nahrazení nejmenšího významného počtu bitů (LSB) s jedním bitem na pixel v nekomprimovaném osmibitovém snímku ve stupních šedi dosahuje čistou kapacitu 12,5% (nebo o něco méně, pokud se bere v úvahu, že každý snímek je uložen s informacemi o záhlaví). To lze popsat jednotkou 1 bpp (počet bitů na pixel), bity na pixel se také používají jako míra využití kapacity nebo rychlosti vkládání. Steganografická bezpečnost Účelem steganografické komunikace je skrýt pouhou existenci tajné zprávy. Proto na rozdíl od kryptografie je bezpečnost steganografického systému posuzována spíše nemožností detekce, než obtížností čtení obsahu zprávy. Nicméně steganografie staví na kryptografických principech pro odstranění rozpoznatelné struktury z obsahu zprávy a pro řízení toků informací distribucí klíčů. Problém steganoanalýzy je v podstatě rozhodovacím problémem (obsahuje daný objekt tajnou zprávu nebo ne?), proto rozhodovací teoretické metriky se kvalifikují jako opatření steganografické bezpečnosti podobně jako míra steganalytického výkonu. Steganoanalýza je náchylná ke dvěma typům chyb, a to: Pravděpodobnost, že steganoanalýza nedokáže detekovat stego-objekt (tzv. chybová pravděpodobnost označovaná β). Pravděpodobnost, že steganoanalýza nesprávně klasifikuje krycí médium jako stego-objekt (tzv. falešně pozitivní pravděpodobnost označovaná α). Pravděpodobnost detekce se označuje jako (1 β). V kontextu experimentálních pozorování výstupu detektoru je termín "pravděpodobnost" nahrazen "rychlostí", který signalizuje vztah k frekvencím počítaným v konečném vzorku. Obecně platí, že čím je vyšší pravděpodobnost chyb, tím lepší je bezpečnost stego-systému (tj. čím horší jsou výsledky steganoanalýzy, tím je lepší steganografická bezpečnost). 4
Do značné míry lze do bezpečnostní dimenze zahrnout i lidskou vnímatelnost steganografických modifikací v krycím médiu, avšak ve srovnání s moderními statistickými metodami jsou vizuální přístupy méně spolehlivé, závisí na konkrétních vlastnostech obrazu a nemohou být plně automatizovány. V oblasti vodoznaků je běžné používat termín průhlednost pro popis vizuální nepostřehnutelnosti změn krycího obrazu při vkládání vodoznaku (stegoobjektu). Tam se vizuální artefakty nepovažují za bezpečnostní hrozbu, protože existence skrytých informací není tajemstvím. Pojem zabezpečení ve vodoznaku je spíše spojen s obtížemi odstranění značky z mediálního objektu. Tato vlastnost je označována jako robustnost v steganografii a má stejný význam jak ve steganografických, tak i ve vodoznakových systémech. Robustnost Termín "robustnost" znamená obtížnost odstranění skrytých informací z média s vloženou zprávou. Zatímco odstranění tajných dat nemusí být tak závažným problémem, jako je jeho detekce, robustnost je žádoucí vlastností, pokud je komunikační kanál zkreslen náhodnými chybami (kanálovým šumem) nebo systematickým rušením s cílem zabránit použití steganografie. Typické metriky pro robustnost steganografických algoritmů jsou vyjádřeny v třídách zkreslení, jako je aditivní šum nebo geometrická transformace. V rámci každé třídy může být množství zkreslení dále specifikováno pomocí specifických parametrů (např. parametrů zdroje šumu) nebo obecných parametrů (např. PSNR poměr špičkových hodnot signál/šum). Problematice robustnosti ve steganografii dosud nebyla věnována velká pozornost, v současnosti představuje robustní steganografie důležitý prvek pro vybudování bezpečných a účinných technologií odolných proti detekci. Další metriky Někteří autoři definují další metriky, například utajení, jako obtížnost extrahování obsahu zprávy. Tuto metriku lze omezit na metriku důvěrnosti kryptografického systému používaného pro šifrování zprávy před vkládáním. 5
Výpočetní komplexní začlenění a míra úspěšnosti, tj. pravděpodobnost, že daná zpráva může být vložena/skryta v určitém krycím médiu na dané úrovni zabezpečení a robustnosti, jsou důležité pro pokročilé funkce vkládání, které ukládají omezení na přípustné zkreslení vložení. Analogicky lze definovat detekční složitost jako výpočetní sílu potřebnou k dosažení dané kombinace chybových poměrů (α, β), ačkoli i výpočetně neomezená steganoanalýza obecně nemůže libovolně snížit míru chyb pro konečný počet pozorování. Steganografická paradigmata V konstrukci steganografických systémů lze rozlišit dva alternativní přístupy, které se označují jako paradigmata. Paradigma I: Úprava s opatrností - Podle tohoto paradigmatu při funkci vložení stego-objektu do steganografického systému se přijímají jako vstupní krycí data objekty poskytované uživatelem, který se chová jako odesílatel, a vloží zprávu modifikací krycího média. Vychází se z předpokladu, že menší změny jsou méně zřejmé/postřehnutelné (tj. jsou bezpečnější) než větší změny, proto jsou tyto algoritmy navrženy tak, aby pečlivě zachovaly co nejvíce vlastností krycího média. Takováto minimalizace zkreslení nemusí být vždycky optimální (např. zkreslení stanovené pomocí objektivních kritérií - jako např. PSNR určené číselnou hodnotou, nemusí odpovídat subjektivnímu hodnocení zkreslení u obrazů například subjektivně jinak vnímáme zkreslení na homogenních plochách, než ve strukturovaných detailech, proto subjektivní a objektivní hodnocení zkreslení nekoresponduje). Paradigma II: Generování krycího média - Toto paradigma má spíše teoretickou povahu: jeho klíčovou myšlenkou je nahradit obal (krycí médium) jako vstupní funkci pro vkládání jiným, který je generovaný počítačem pomocí funkce vkládání. Vzhledem k tomu, že obálka (krycí médium) je vytvořena výhradně v důvěryhodné doméně odesílatele, generační algoritmus může být upraven tak, že tajná zpráva je již vytvořena 6
Závěr ve fázi generování. Hlavním nedostatkem tohoto přístupu je obtížnost koncipování věrohodných krycích dat, které mohou být generovány algoritmy (indeterministickým), např. pomocí barevných fraktálních obrazů ve vysokém rozlišení, nebo pomocí steganografického digitálního syntezátoru, který používá zdroj šumu pro generování signálů. Kromě obtížnosti nebo vysoké výpočetní složitosti získávání takových zpráv je zřejmé, že počet lidí, kteří se zabývají tímto druhem médií, je mnohem omezenější než ti, kteří posílají digitální fotografie jako přílohy e-mailů. Takže pouhá skutečnost, že jsou vyměňovány neobvyklé údaje, může vyvolat podezření a tím zamezit zabezpečení. Cílem steganoanalýzy je identifikovat podezřelé krycí média a určit, zda obsahují nebo neobsahují vložené zprávy, a v případě, že je to možné, extrahovat je. Na rozdíl od kryptoanalýzy, kde je zřejmé, že zachycená data obsahují zprávu (i když je tato zpráva zašifrována), steganonalýza obecně začíná analýzou množství podezřelých datových souborů, s minimálním množstvím informací o tom, které soubory případně obsahují vložená data. Steganoanalýza obvykle začíná tím, že se snaží snížit tento soubor datových souborů (v praxi často poměrně velký, v mnoha případech to může být celá sada souborů v počítači) na podskupinu, která s největší pravděpodobností obsahuje vložená data. Článek uvádí některé principy současných steganografických a steganoanalytických technik. Literatura [1] I. Cox, M. Miller, J. Bloom, J. Fridrich, and T. Kalker. "Digital Watermarking and Steganography (Second Edition)", Morgan Kaufmann Publishers, ISBN: 978-0-12372585-1, 2007. 7
[2] A. Dennis and B. Wixom. "Systems Analysis & Design (Second Edition)", John Wiley & Sons, Inc., ISBN: 04-7136815-6, 2003. [3] S. Dumitrescu, X. Wu, and Z. Wang. "Detection of LSB Steganography via Sample Pair Analysis", Lecture Notes in Computer Science, vol. 2578, pp. 355-372, 2003. [4] H. Farid. "Detecting Hidden Messages Using Higher-Order Statistical Models", Proceedings of the International Conference on Image Processing, Rochester, NY, USA, 2002. [5] J. Fridrich, M. Goljan, and D. Hogea. "Attacking the OutGuess", Proceedings of the 3 rd Information Hiding Workshop on Multimedia and Security 2002, Juanles-Pins, France, 2002. [6] J. Fridrich, M. Goljan, and D. Hogea. "Steganalysis of JPEG Images: Breaking the F5 Algorithm", Lecture Notes in Computer Science, vol. 2578, pp. 310-323, 2003. [7] J. Fridrich. "Feature-Based Steganalysis for JPEG Images and Its Implications for Future Design of Steganographic Schemes", Lecture Notes in Computer Science, vol. 3200, pp. 67-81, 2004. [8] D. Fu, Y. Shi, D. Zou, and G. Xuan. "JPEG Steganalysis Using Empirical Transition Matrix in Block DCT Domain", IEEE: 8 th Workshop on Multimedia Signal Processing 2006, pp. 310-313, 2006. 8