CORES vliv komprese JPG a rozliš ení na velikost souborů a jejich použ itelnost při uklá danídigitá lních dat v NKČ R Stanislav Psohlavec AiP Beroun s.r.o. prosinec 2001
Obsah: Příprava testů... 2 Volba řady rozlišení... 2 Závěry z přípravy dat... 2 Statistický rozbor získaný ch dat... 3 Celkový přehled dat... 3 Vý běr dat dle jednotlivý ch typů dokumentů... 4 Pokyny k vlastnízkouškám... 4 Dalšívlastnosti programu CORES... 5 Závěr... 5 Příloha 1... 6 CORES (COmpresion, REsolution, Size) návod k použití... 6 Automatické vygenerovánívariacípomocíphotoshop 5.0 a vyšší... 6 Příloha 2... 8 Disky vliv komprese JPG a rozlišenína velikost souborů... 8 DISK 1... 8 DISK 2... 8 DISK 3... 8 DISK 5... 9 Příloha 3: Grafy... 10 1
Příprava testů Pro objektivníposouzenívlivu komprese používanípři ukládáníobrazový ch souborů ve formátu JPG byl vyvinut srovnávacíprogram CORES (viz příloha 1).Tento program dovoluje subjektivně porovnávat rozdíly v informačním obsahu obrazu a seřadit řadu obrazů dle vnímané kvality. Program se stal součá stíprostředků pro řízenídigitalizace v NKČ R. Prvotním úkolem při hledánísubjektivního vztahu mezi rozlišením a kompresíbyla příprava vhodný ch dat. Bylo vybráno sedm vzorků z rukopisů, tyto vzorky byly komprimovány a konvertovány do nižších rozlišení. Pro automatizaci zěchto činnostívyly napsány akce pro Photoshop 5.0 a 6.0. Všechny zdrojové obrazy majípočá tečnírozlišenívětšínež 320 DPI a pokrý vajícelou oblast typů dosud digitalizovaný ch obrazů. Volba řady kompresíbyla jednoduchá, využily se všechny možnosti, které nabízí Photoshop 6.0, tedy třináct úrovní0-12. Volba ř ady rozlišení Cílem bylo zmapovat celý rozsah od velmi dobré uživatelské kvality přes náhledovou kvalitu až ke kvalitě dostačujícípro hromadné přehledy (gallery, tumbnails) Kritériem bylo, aby byl znatelný rozdíl mezi zvolený mi kroky. Po zkouškách byl zvolen krok cca 10:12, z něhož je odvozena následujícířada rozlišení.: 320,270,220,190,160,135,115,90,80,66,57,48,40,34,28,24,20,17,14,12,10,8,7,6,5. Již při ověřovánívolby tohoto rastru jsme došli k poznání, že změna rozlišeníje vnímána ve srovnáníse změnou komprese citlivěji než jsme očekávali. Pokud byl krok rozlišenízvolen menší, byly sice často hodnoceny některé obrazy s vyšší kompresíméně příznivě než tytéž obrazy obrazy sice s nižším rozlišením, ale menší kompresí. Rozsáhlost dat však vedla k brzké únavě hodnotitelů a hlavně k poznání, že lze těžko srovnávat a objektivizovat ztrátu informacídat danou zvolenou kompresi nebo zvolený m rozlišením., pokud rozdíly nejsou dostatečně zjevné. Naopak pokud byla zvolena řada rozlišeníhrubší(krok cca 1,5), byly hodnoceny obrazy s vyšším rozlišením jako informačně bohatšítéměř nezávisle na zvolené kompresi. Zá vě ry z přípravy dat U zvolené řady rozlišenílze konstatovat: 1. Obrazy s kompresív úrovni 0 a 1 vž dy, 2 částo, 3 občas a 4 vyjímečně (kvality ve Photoshopu označené jako nízké ) jsou vnímány jako větší ztráta informace než sníž ení rozliš ení v poměru 1:1,2. 2. Obrazy s kompresív kvalitě 5 a vyšších (střední, vysoká, maximu) jsou hodnoceny jen na základě rozlišení, pokud je v poměr v rozlišeníalespoň 1: 1,2. Obraz s vyšším rozliš ením byl hodnocen jako informačně bohatší vž dy, nezávisle na použ ité kompresi. 2
Dalšípoznatek je, že nezaškolený uživatel neníschopen rozpoznat vliv komprese obvykle již od stupně 5 výše. Zaškolený uživatel a znalec je schopen postihnout vliv komprese do komprese 8, výše již jen s obtížemi a jen na vybraný ch detailech. Již z fáze přípravy testů, které bylo věnováno dosti času, vyplynuly celkem obecně platné závěry, které dovolily formulovat dostatečně jasná pravidla volby kombinace komprese a rozlišenís ohledem na to, aby uživatel obrazů měl maximálníinformačníobsah. Statistický rozbor získaný ch dat Protože při přípravě testů vzniklo množstvízajímavý ch a objektivních dat, pokusili jsme se o jejich statistický rozbor. Ú plná data jsou uvedena na CD, které je přílohou této zprávy. Jsou vytištěny jen vý sledky konverzíiluminace, aby bylo možno se orientovat v následujících grafech. Všechny vý sledky nejsou vytištěny v vzhledem k jejich značnému rozsahu a neužitečnosti v nezpracované podobě. Celkový přehled dat Graf účinnost celkem ukazuje jak se měníúčinnost komprese v závislosti na rozlišení obrazu. Na ose X je jen pořadové číslo měření. Jednotlivé skupiny peaky jsou tedy tvořeny sériívzorků stejného rozlišenís kompresí0..12. Graf ukazuje, že účinnost komprese na testovaný ch dokumentech se velmi podstatně snižuje s rozlišením. Pro nejmenšírozlišení5 DPI je poměr mezi nejnižšía nejvyšší kompresí1: 3, přesahuje tento poměr pro soubory s vysoký m rozlišením poměr 1:100. Vysvětlení: Komprese JPG je založena na vypouštěnívariacív obraze, které překračuji zvolenou velikost. Pro vysokou kvalitu neníobraz prakticky měněn a komprese přinášíefekt jen na velký ch homogenních plochách. Pro obrazy s velmi nízký m rozlišením (zvláště vznikli-li přepočtem z kvalitních velký ch obrazů ) je komprese JPG velmi málo účinná, protože obvykle chybíplochy s nízký mi variacemi. Dalšívliv který jistě přispěl k malé efektivitě JPG komprese pro obrazy s maý m rozlišením je jejich velikost.soubor obrazu obsahuje konstantníhlavičku, jejíž velikost je konstantnía u malý ch souborů velmi ovlivňuje efektivitu použitívysoké komprese. Tatáž data jsou zobrazena na následujícím grafu účinnost komprese normovaně. Ú činnost komprese je vztažena ke kompresi 8. Normalizacígrafu je možno detailněji sledovat vliv komprese při vyšších rozlišeních. Zároveň je zvý razněn efekt v oblast 40..60 DPI, kde se účinnost komprese zřetelně mění. Příčinu tohoto jevu se nepodařilo jednoduše objasnit, detailněji jsme se jím nezabý vali.. 3
Vý běr dat dle jednotlivý ch typů dokumentů Následujícígrafy byly vytvořeny tak, aby postihovaly vlastnosti obrazů srovnatelná velikosti. Skupiny dat jsou zvoleny cca 10 kb, 100kB, 1 MB, 3 MB, 5MB. Vzorky jsou do grafu zařazovány na základě parametrů uvedený ch na zdrojové tabulce v záhlavídat, konkrétně pod parametry velikost souboru a tolerance. Graf lze interpretovat například takto ( viz graf Iluminace ): uvítal bych za daný ch okolností(snaha poskytovat dat data po internetu, zájem umístit všechny obrazy celého rukopisu na jediné CD) kdy by soubor měl velikost cca 1MB. Množina odpovídajících bodů pokrý vá určitou oblast. Dle předchozího a dle vlastností konkrétního dokumentu chci maximálnírozlišení, ale kompresi stupně alespoň 5 a lepší. Tomuto požadavku vyhovuje kombinace 160 DPI při kompresi 6 a 7. Preferuji-li rozlišení, mohu volit kombinaci 190 DPI, komprese 5. Pokyny k vlastnízkoušká m Doporučujeme závěry zprávy ověřit vlastními zkušenostmi. Proto poskytujeme volně nejen vý sledky našich zkoušek, ale i zdrojová data, program CORES a makra pro použitív programu Photoshopu, sloužícímu zde ke generaci variacíobrazů. Pro jejich použitíje nutno respektovat specifické vlastnosti Photoshopu. 1. Akce definované v programu Photoshop, pokud obsahuji jména souborů, pracují s konkrétníadresou. Protože modifikovat akce jen s ohledem na použitý disk a adresář je velmi náročné, doporučuji pracovat pro generaci s adresářem C:\CORES, pro který jsou akce napsány. Nutno počítat s volný m místem cca 1GB na disku, doporučujeme alespoň 256 MB RAM. Zdrojové soubory musíbý t kvalitní, s rozlišením větším než 320 DPI. Pokud použijete soubory s nižším rozlišení, zakažte všechna vyššírozlišenív akcích. 2. Provedeníkonverzíje velmi náročné na vý kon, paměťa místo na disku počítače. Proto byly konvertované soubory vypáleny na sadu CD. 3. Rovněž import informacía prvnípřečtenítěchto dat programem CORES je náročné na vý kon počítače. Proto jsme umožnili i tento krok překročit. Základnítřídící soubory sort ) jsou umístěny na disku 5 v adresáři náhledy a sort. Chcete-li tyto soubory použít, zkopírujte je kamkoli na počítač na povolte jejich editaci, protože po zkopírováníz CD jsou soubory typu jen pro čtení. Tyto soubory mů žete otevřít programem CORES. Soubory obsahujíkonkrétníadresu, kde majíbý t hledány porovnávané obrazy. Pokud je vaše CD-ROM mechanika registrována jako D:, nenínutno nic měnit, vložte jen správný disk s daty do mechaniky. Jinak opravte cestu k datů m dle skutečnosti v programu NOTEPAD. Obsah disků je uveden v příloze 2. 4
Dalšívlastnosti programu CORES Kromě možnosti stanovit pořadíkvality variacíobrazů, dovoluje tento program optimalizovat využitínapříklad CD-R disku. Při zadánípočtu obrazů a označení vyhovujících kvalit, program prů běžně počítá očekávanou velikost celé sestavy obrazů, jichž je testovaný obraz prů měrný m představitelem. To dovoluje zvolit optimální kompromis komprese a rozlišeni pro efektivníběžné použitínapř. při publikaci na CD- ROM nebo na internetu.. Zá vě r Z testů plyne jednoznačně už itečnost a oprávněnost používání komprese JPG. Lze konstatovat, že nenívhodné používat komprese nízké kvality (úrovně 0..3, případně i 4) a to ani pro pomocné funkce jako náhledové obrázky, galerie, protože jejich informační obsah je nižšínež ve stejně velký ch obrazech s nižším rozlišení, ale zaznamenaný ch s vyššíkvalitou. Pro běžné použitíje obvykle vyhovujícíjiž zobrazenístředníkvality (5 a vyšší). Pro zachovánínejkvalitnějších obrazů zcela vyhovujívšechny kvality označované jako maximum (10..12). Při těchto kvalitách jsou již fluktuace dat dané šumem CCD prvků, přesnost kalibrace a jiné vlivy vý razně vý znamnějšínež variace vnášené do obrazu kompresíjpg. Pokud je nutno zvažovat vyššíkompresi, lze vyjít ze zjednodušené zásady, že nárů st rozliš ení 1,2x je přínosem vž dy, pokud komprese při použ ití formátu JPG ve Photoshopu je střední kval.ity nebo vyšší. 5
Příloha 1 CORES (COmpresion, REsolution, Size) ná vod k použ ití Automatické vygenerovánívariacípomocíphotoshop 5.0 a vyš ší Založte na disku C: adresář C:\CORES. Spusťte Photoshop 5.0 a vyšší(ph) Otevřete obrázek, který chcete testovat. Zkontrolujte jeho rozlišení. Má-li rozlišenímenšínebo blízké 320 DPI, je vhodné v akci vypnout konverze do vyšších hladin (viz další). Otevřete okno Akce, načtěte sadu MoW gener CORES.atn. Pokud je třeba, zakažte v akci generujícívariace zbytečně vysoká rozlišení. Spusťte akci C:\CORES\...variace, která automaticky generuje soubory potřebného jména a vlastnostído adresáře C:/CORES. Akce může trvat i několik minut. Tím jsou připraveny variace otevřeného soboru pro testováníprogramem CORES. Př i rutinním použív á n í programu je výhodné zaká zat kombinace rozliš ení a komprese které se nikdy nepoužijí Jde př edevším o kombinace vysoká komprese 5 u malých souborů, případně nízká komprese 7 u velkých souborů, a obecně komprese 0,1,2. Lze použít i souborů JPG z jiných zdrojů. Tvar jmé na grafických souborů se generuje/ př edpoklá dá : *KK.JPG kde * - libovolný počet znaků KK komprese, kterou byl soubor uklá dá n v Ph. První inicializace programu CORES: 1. Program zkopírujte na Váš počítač a spusťte. 2. V menu Soubor zadejte Nový. 3. Zobrazíse dialogové okno. Do vrchního pole zadejte cestu a název souboru, do kterého se uloží informace o grafický ch vzorech (stavový soubor xxx.txt). 4. Do spodního pole zadejte cestu ke grafický m vzorků m. 5. Stiskněte OK. Nyníse začnou načítá vat informace z jednotlivý ch JPG souborů. Tato akce může trvat několik minut. 6. Po vytvořenínového souboru s informacemi o vzorcích jsou soubory seřazeny podle jména. Načtení rozpracované ho porovnávání v programu CORES: 1. V menu Soubor zadejte Otevřít. 2. Zobrazíse dialogové okno. Vyberte dříve určený stavový soubor a otevřete jej. Program se nastavído stavu v němž jste jej opustili. Postup hledání rozhraní rozdílu. 1. Seřaďte vzorky podle kvality od nejhorších po ty nejlepší. Obrazy jakoby tvořili řadu od nejhorších po nejlepší, z níž vidíte dva obrazy. Je-li vpravo obraz horší, stiskněte příslušnou klávesu. Projděte několikrát řadu, až budete mít vpravo vždy obraz, který se vám jevíjako lepší. 2. Určete rozhraní, počínaje který m obrazy vyhovujípro použitíjako: Galery - malý obrázek sloužícíjen k základníorientaci v knize. Má bý t viditelné obrysy textu, iniciály nadpisy, iluminace. Prewiew - náhled, na hranici čitelnosti, dovolujícívšak již odhad obsahu stránky, strukturu textu Normal - obraz zpřístupňujícíspolehlivě obsah stránky, má zajišťovat dobrou čitelnost textu i obrazu, nenívšak určen k reprodukčním účelů m nebo k detailnímu studiu obrazu. Maximálníkvalita obrazů je na Excellent obrazech, které jsou v maximálním rozlišenía nejsou předmětem testů, které tento program provádí. 6
Ovládání: Listová nív řadě obrazů Šipka vpravo posun o jeden záznam vpravo Šipka vlevo posun o jeden záznam vlevo PageUp posun o pět záznamů vpravo PageDown posun o pět záznamů vlevo Home skok na prvnízáznam End skok na poslednízáznam TAB vpravo je horší přesune pravý záznam před levý záznam Prostř edí F1 Zobrazenínápovědy F2 Zobraz/Skryj hlavnípanel F3 Zobraz/Skryj panel s informacemi F4 Otevři/Zavři náhledové okno Vý počty F5 Vý počet velikosti Rozhraní Ctrl+F8 smaž e vš echna rozhraní Ctrl+F9 označírozhranígallery Ctrl+F10 označírozhranípreview Ctrl+F11 označírozhranínormal F9 skok na rozhranígallery F10 skok na rozhranípreview F11 skok na rozhranínormal Lupa PLUS Zvětšenílupy MINUS Zmenšení F5 okno vý počtu sloužík odhadu pravděpodobné velikosti prostoru na mediu, kde bude více podobný ch souborů. Obsahuje přehled vlastnostíaktuálně zvolený ch rozhranía vý počet. Je nutno zadat počet obrazů. Celková velikost se zobrazuje i v ovládacím panelu zcela dole. 7
Příloha 2 Disky vliv komprese JPG a rozlišenína velikost souborů DISK 1 Iluminace text O1 DISK 2 noty graduál rytina DISK 3 kresba Kodex Tirsch text 02 graduál 8
DISK 4 náhledy a sort obsahuje náhledové obrazy použitý ch vzorový ch obrazů z disku 4 a textové soubory popisujícísestavu variacíkonverzído rů zný ch rozlišenía kompresí (viz Pokyny k vlastním zkouškám, bod 3) noty graduál zlacení PROGRAM CORES Sestava prostředků pro porovnávánívlivu komprese JPG a rozlišenína velikost souborů při ukládanídigitálních dat v NKČ R Photoshop konverzníakce pro Photosho 5.0 a 6.0 DISK 5 Vzory pro konverze iluminace graduál český HK.tif kresba kodex Tirsch.tif noty graduál MB.tif noty graduál zlacenímb.tif rytina. tif text 01.tif text 02 graduál lati HK.tif 145 MB 16 MB 158 MB 155 MB 12 MB 38 MB 140 MB 9
Příloha 3: Grafy Soubor VaV 2001 CORES analý za vlivu komprese a rozlišení.xls 10