Dnešní téma Oblasti standardizace v ICT Případové studie standardizace v ICT: 1) Znakové sady 2) Jazyk 1. technická infrastruktura transfer a komunikace informací, přístup k informacím, sdílení zdrojů přenosová média přenosové protokoly architektura počítačových sítí 1 Oblasti standardizace v ICT Oblasti standardizace v ICT 2. reprezentace a zpracování dat a informací možnost využívat datové soubory připravené na jednom zařízení prostřednictvím jiného zařízení znakové sady (abeceda) kódování komunikovaných údajů syntaxe (skladba) struktura (formát) komunikovaných údajů sémantika obsah komunikovaných údajů (informace a metadata) 3. rozhraní člověk stroj možnost shodné komunikace uživatele s jakýmkoli počítačem na úrovni operačního systému nebo aplikačního programu 1
Struktura publikovaných informací Struktura publikovaných informací 5 6 Reprezentace informací v počítači Znak (character) informace instrukce řídí činnost počítače data jsou zpracovávána statická dynamická čísla numerická data texty znakové řetězce ostatní grafika, zvuky metody algoritmy znalosti logická pravidla jakýkoli symbol reprezentující í písmeno abecedy, číslici nebo jiný znak, včetně interpunkce, mezer a diakritických znamének LATINSKÉ MALÉ PÍSMENO C S HÁČKEM (LATIN SMALL LETTER C WITH CARON) 14/08 U+010D E8 glyf, font vizuální reprezentace grafického znaku 2
Typy znaků 3 reprezentace znaku grafické deklarativní co se má zobrazit (glyf) řídící procedurální co se má udělat 1. slovní, abstraktní definice jednoznačná srozumitelná lidem 2. vizuální, grafická definice glyf, font víceznačná (synonymie, (y y homonymie) srozumitelná lidem (a příp. OCR programům) 3. kód (kombinace 0 a 1) jednoznačný srozumitelný softwaru Kód pravidla pro způsob, jak mají být reprezentována či transformována data 01100001 a Konverze převod z kódu do kódu transkripce zvuk písmeno (znak) transliterace písmeno (znak) písmeno (znak) 3
Konverze související problémy Lokalizace ve Windows lokalizace internacionalizace globalizace Soubor znaků (character set, charset) též znaková sada, znaková stránka (codepage), kódová tabulka, kódová stránka Množina znaků, kterou lze v daném kódu použít (vyjádřit tj. zakódovat do 0 a 1) typy kódů podle délky: 7-bitový 8-bitový 16-bitový 32-bitový Soubor znaků (character set, charset) 4
Příklad nejednotnosti kódové vyjádření některých písmen české abecedy v různých 8-bitových znakových sadách š ř ž ČSN ISO 10011101 00011111 01111101 8859-2 Windows 1250 11100111 11111101 10100111 KEYBCS2 10101000 10101001 10010001 KOI-8 11010011 11010010 11011010 Proč je standardizace znakových sad důležitá? Umožní začlenit do globální elektronické komunikace informací i méně obvyklé jazyky Podle pořadí ve znakové sadě (kódové tabulce) se postupuje při třídění (tj. ovlivňuje složení indexů) Kódování znaků je rozhodující pro výsledek jejich porovnávání při vyhledávání (string matching) Mezinárodní standardy 7-bitové ČSN ISO/IEC 646 (ISO 7, ASCII) 8-bitové ČSN ISO/IEC 8859 16-bitové / 32-bitové UNICODE 32-bitové ISO/IEC 10646 Universal Multiple-Octet Coded Character Set (UCS) Mezinárodní standardy kompatibilita ISO 10646 UNICODE ISO 8859-1 ISO 646 5
Řešení problémů s různými znakovými sadami a) Konverze (souboru) konverzní programy volba kódování při exportu b) Přizpůsobení zobrazovacího programu nebo tiskárny dané znakové sadě browser kódování (encoding) databáze jazykový ovladač (driver) tiskárna download Doporučený způsob používání češtiny v e-mailu a na webu v hlavičkách dokumentů uvádějte typ znakové sady <meta http-equiv="content-type" content="text/html;charset=iso-8859-2"> <meta http-equiv="content-type" content="text/html;charset=utf-8" /> <?xml version="1.0" encoding="utf-8"?> Hypertext Markup Language jazyk (DTD) pro strukturování a formátování WWW dokumentů typ dokumentu : web page (document), tj. jednotka informace přístupná p v síti WWW hypertextové vazby na jiné dokumenty v síti WWW <a href=" "> </a> složené dokumenty <img src=" "> 23 Struktura dokumentu!doctype = deklarace typu dokumentu (zpravidla ve formě odkazu na externí DTD) = instance dokumentu HEAD = záhlaví (informace pro browser) META = informace o dokumentu, která není určená pro zobrazení browserem BODY = tělo (informace pro uživatele) 24 6
historie verzí 2.0 Dlší Další vývoj: 3.2 4.0 5 4.01 X 2 X 1.0 X 1.11 ČSN ISO/IEC 15445 (36 9831) Informační technologie Jazyky pro popis dokumentů a jejich zpracování Hypertextový vyznačovací jazyk (). Praha : Český normalizační institut, 2002. tzv. ISO definuje podmnožinu 4.01 25 editor konvertor, generátor technologie validátor dokument (stránka) DTD CSS prohlížeč parser render browser 26 7