PB029 Elektronická příprava dokumentů Anyone who would letterspace the lowercase would steal sheep. Frederick Goudy (1865 1947), when looking on a prize winner certificate You cannot not communicate. Paul Watzlawick (1921 2007), in Pragmatics of Human Communication Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky. Petr Sojka PB029 Od autora ke čtenáři podzim 2018 1 / 210
PB029 Elektronická příprava dokumentů PB029 Elektronická příprava dokumentů Petr Sojka podzim 2018 Petr Sojka PB029 Od autora ke čtenáři podzim 2018 2 / 210
E = mc 2?! E = mc 2 E = mc 2 Značkování Markup Návrh Design Sazba Typesetting Korektury Proofreading Předloha Preprint Tisk Print Distribuce Distribution Petr Sojka PB029 Od autora ke čtenáři podzim 2018 22 / 210
Osnova dnešní přednášky a demopřednášky Přednáška Shrnutí předchozí hodiny, komentáře k anketě. Zápis textu v Unicode. Logická struktura dokumentu, značkování. Zkušební korektura. Demopřednáška: Rozdíly a záludnosti textových souborů na různých platformách v mezinárodním prostředí. Upozornit na první domácí úlohu a že na příští cvičení si mají studenti přinést vytištěný svůj co nejreprezentativnější příklad dříve vysázeného dokumentu (pro nebodovanou ukázku svých dovedností). Petr Sojka PB029 Od autora ke čtenáři podzim 2018 23 / 210
Anketa komentáře I Povinnost cvičení nevadí. Pozdní čas přednášky vadí. Většinová motivace psaní závěrečné práce. Tedy L A TEX a typografie! Témata k referování u otázky 7: nic. Projekt přeložení opatgenu. Detaily. Petr Sojka PB029 Od autora ke čtenáři podzim 2018 24 / 210
Myšlenky z hlavy autora do textu We thrive in information-thick worlds because of our marvelous and everyday capacity to select, edit, single out, structure, highlight, group, pair, merge, harmonize, synthesize, focus, organize, condense, reduce, boil down, choose, categorize, catalog, classify, list, abstract, scan, look into, idealize, isolate, discriminate, distinguish, screen, pigeonhole, pick over, sort, integrate, blend, inspect, filter, lump, skip, smooth, chunk, average, approximate, cluster, aggregate, outline, summarize, itemize, review, dip into, flip through, browse, glance into, leaf through, skim, refine, enumerate, glean, synopsize, winnow the wheat from the chaff and separate the sheep from the goats. Edward Tufte Petr Sojka PB029 Značkování podzim 2018 25 / 210
PB029 Elektronická příprava dokumentů 2. přednáška, 27. 9. 2018 Linearizované myšlenky z hlavy autora do textu Petr Sojka PB029 Značkování podzim 2018 26 / 210
Zápis textů elektronicky: Unicode I 1. Kódování textů. 5000 živých jazyků se stovkami tisíc znaků. 2. Hlavní motivace: nutnost shody na reprezentaci znaků (v CS Kam, KOI-8, CP-1250, ISO Latin2,... ). 3. Unicode 11.0 4. Unicode Consortium je nevýdělečná organizace, založená 1989 pro vývoj, rozšiřování a podporu používání Unicode Standardu. Členové konsorcia představují široké spektrum korporací a organizací. Petr Sojka PB029 Značkování podzim 2018 27 / 210
Zápis textů elektronicky: Unicode II 5. Respektuje ISO (International Standard Organization), mezinárodní ISO standard ISO/IEC 10646-1, 1993: Universal Multiple-Octet Coded Character Set (UCS). 6. První standard s ambiciózním cílem obsahovat všechny znaky používané v psaných jazycích, včetně matematických a dalších symbolů. 7. Jazykově neutrální, zrušení předpokladů ekvivalence znaků a glyfů, neproporcionality hladkého textu. Petr Sojka PB029 Značkování podzim 2018 28 / 210
The Unicode Standard, ISO/IEC 10646 I 1. Unicode (k 10/2018 verze 11.0): sada 137374 znaků a pravidel zpracování specifikovaná konsorciem Unicode: http://www.unicode.org/versions/unicode11.0.0/ UnicodeStandard-11.0.pdf na 1000+ stranách. 2. Jednoznačný kód (číslo U+0000..U+10FFFF, 21 bitů) pro každý znak nezávisle na OS, jazyce, programu; 17 rovin po až 2 16 = 65 536 znacích. Databáze znaků, přehledné tabulky znaků. Petr Sojka PB029 Značkování podzim 2018 29 / 210
The Unicode Standard, ISO/IEC 10646 II 3. Znak s libovolným kódem můžeme zapsat pomocí entity &#kod (kod je v desítkové soustavě) nebo &#xkod (kod je šestnáctkově): code points 0 10FFFF 16. 4. UCS-4 resp. UCS-2 Universal Character Set coded in 4 resp. 2 octets. 5. UCS-2 pouze pro nultou rovinu (basic multilingual plane, BMP) (two-octet BMP form). 6. Jednoznačný trend použití všude (na WWW, v OS [cut & paste], značkovacích i programovacích jazycích). Petr Sojka PB029 Značkování podzim 2018 30 / 210
The Unicode Standard, ISO/IEC 10646 III 7. Kritériem přidání znaku je odlišnost ve významu i tvaru (CJK unifikace). Výjimky: Latin P, Greek P (capital rho), Cyrillic P (R). 8. Neznaky (noncharacters), privátní zóny (roviny 15 a 16) pro specifické použití aplikací. Petr Sojka PB029 Značkování podzim 2018 31 / 210
Unicode Transformation Format UTF: přenos znaků I 1. Problémy s přímým přenosem textů v UCS-4 (prostorově neefektivní) transformační/kódovací metody UTF-8, UTF-7, UTF-16, UTF-32 jako jednoznačné mapování znaků. 2. UTF-16 16bitové slovo obsahuje kód znaku, rozšíření: 1 znak zabere dvě 16bitová slova. UTF-16BE a UTF-16LE. 3. UTF-8: znaky ASCII nahrazeny byty hex 00-7F. Ostatní znaky nahrazeny dvěma až čtyřmi byty hex 80-FF. Petr Sojka PB029 Značkování podzim 2018 32 / 210
Unicode Transformation Format UTF: přenos znaků II 4. UTF-7: pro SMTP protokol; kódovány i speciální znaky ASCII. Specifikovaný IETF, Internet Engineering Task Force, a formálně nesouvisející s ISO/IEC 10646. Výsledkem je text neobsahující kontrolní znaky a znaky nad 7F. 5. UTF-32, UTF-32BE (big endian), UTF-32LE (little endian). 6. Vícebytová pořadí: BOM Byte Order Mark, OxFEFF. 7. UTF a BOM FAQ. Petr Sojka PB029 Značkování podzim 2018 33 / 210
Standardní implementační úrovně 1 3 podporované v software I Příklad dánského A with ring above and acute accent : 1. 01FA reprezentace použitá v úrovních 1 a 2: jeden složený znak; 2. 00C5 0301 A with ring above + combining acute accent nebo 3. 0041 030A 0301 A + combining ring above + combining acute accent Program implementující standard úrovně 3 musí být schopen zpracovat tyto kompozitní sekvence stejně jako výše uvedenou reprezentaci. Petr Sojka PB029 Značkování podzim 2018 34 / 210
Unicode principy návrhu I 1. univerzalita 2. efektivita 3. rozlišení znaků a glyfů 4. dobře definovaná sémantika znaků 5. umožňuje i holý (plain) text 6. logické pořadí 7. unifikace znaků 8. dynamická kompozice znaků 9. ekvivalentní sekvence znaků 10. konvertibilita 11. permanentní stabilita Petr Sojka PB029 Značkování podzim 2018 35 / 210
Unicode vlastnosti, shrnutí I 1. Třídění: Unicode Collation Algorithm. 2. Normalizace textu, kanonická forma, ligatury. 3. Tři úrovně implementace Unicode, obousměrný text, kombinace znaků, kompozitní sekvence znaků. 4. Shrnutí, detaily a přehled. 5. Sekce 1 z Electronic Document Primer Petr Sojka PB029 Značkování podzim 2018 36 / 210
Obsah a forma 1. Přenos informace raison d être dokumentu 2. Obsah stylistika, jazyková správnost, koheze 3. Forma jednotnost přenos informace struktura typografie literatura = interpretace kompozice skladby Algorithms + Data = Program Niklaus Wirth Forma + Obsah = Dokument Petr Sojka Petr Sojka PB029 Značkování podzim 2018 37 / 210
Logické a vizuální značkování 1. Obsah Forma; vizuální prvky musí podporovat vnitřní obsah a strukturu a být s ní konzistentní. 2. Značkovací jazyky (Markup Languages): XML/SGML/HTML, L A TEX umožňují oddělit obsah a formu tam, kde je to možné. 3. Značky logické struktury vizuální procesní. 4. Někdy oddělit nelze (Trychtýř Christiana Morgensterna). Petr Sojka PB029 Značkování podzim 2018 38 / 210
Z hlavy autora do elektronické podoby Data cannot be used at a finer grain than it is marked up at. R. Jelliffe 1. Autor, jeho interní model problematiky v hlavě a jeho (neustálá) reorganizace. 2. Lineární zápis (psaní) v časovém okamžiku formou textu dokumentu. 3. Krátké versus delší, strukturované texty. 4. Koherence, stavba a struktura textu. 5. Logická struktura dokumentu. Petr Sojka PB029 Značkování podzim 2018 39 / 210
Logická struktura dokumentu I 1. Pro prezentaci logické struktury obsahu, pro automatizaci zpracování, pro oddělení formy od obsahu je vhodné do textu přidávat explicitní značky. 2. Dříve sazeč určoval interpretaci implicitně z kontextu a sémantiky textu: holý text v přirozeném jazyce ve strojopise může být víceznačný. 3. Značka explicitně zjednoznačňuje (víceznačný) text. 4. Příklady strukturování dokumentu. Petr Sojka PB029 Značkování podzim 2018 40 / 210
Logická struktura dokumentu II 5. Příklady zjednoznačňujících značek: :-) (ze slovníčku smileys) či <vtip>...</vtip>. 6. Značka je kód přidávaný k (elektronicky) vytvářenému textu, který definuje strukturu textu (logická značka) nebo formát textu (vizuální značka <b>) nebo pojmenovává způsob zpracování textu (procedurální značka) \newpage. Petr Sojka PB029 Značkování podzim 2018 41 / 210
Jaké značky? I 1. Autorovi nejbližší sémantické, deklarativní, deskriptivní značkování (jména pro kategorizaci). 2. Výhody deskriptivního značkování: Nezávislé zpracování označených dat různými způsoby a programy: generování různých výstupů z jednoho zdroje (databáze, dobře označkovaný text) pro elektronickou (XML, HTML, PDF, Hypercard,... ) nebo tištěnou verzi (PS, PDF z L A TEXu). Oddělení obsahu a formy (ohledně formy má rozhodující slovo nakladatel). Petr Sojka PB029 Značkování podzim 2018 42 / 210
Jaké značky? II Je snazší výměna a komunikace obsahu: komunikace mezi (spolu)autory, redakcí (přes Internet). Datová nezávislost: textové soubory, dlouhodobá archivace trvalých hodnot [papír (500 let) versus bity (k nové verzi programu)]. Petr Sojka PB029 Značkování podzim 2018 43 / 210
Jaký značkovací jazyk? I 1. Nevýhody proprietárních formátů (Word, WordPerfect): účelově se mění, jsou nestabilní, uzavřené formáty. 2. Hrozí babylonské zmatení jazyků nebo monopol nevhodného formátu. lingua franca značkovacích jazyků?? Petr Sojka PB029 Značkování podzim 2018 44 / 210