Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Podobné dokumenty
Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Konverze textových formátů

Konverze textových formátů

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky

ZPRAVODAJ. ého sdružení uživatelů TEXu Zpravodaj Československého sdružení uživatelů TEXu Zpra ISSN ISSN

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky

Syntaxe XML XML teorie a praxe značkovacích jazyků (4IZ238)

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Jak psát správné znaky

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

XML terminologie a charakteristiky. Roman Malo

Vnitřní reprezentace dat

Příprava dokumentů pro formátování

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Jak v Javě primitivní datové typy a jejich reprezentace. BD6B36PJV 002 Fakulta elektrotechnická České vysoké učení technické

Základy XML struktura dokumentu (včetně testových otázek)

Jazyky pro popis dat

Zmatky při pouţívání češtiny a moţná řešení

MBI - technologická realizace modelu

Vnitřní reprezentace dat Výpočetní technika I

7. Relační a prezentační vrstva

Systém elektronického rádce v životních situacích portálu

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

1. Webové služby. K čemu slouží? 2. RPC Web Service. 3. SOA Web Service. 4. RESTful Web services

7. Relační a prezentační vrstva

Zobrazení dat Cíl kapitoly:

Přednáška 3: Vnitřní reprezentace dat. Uložení dat v paměti počítače. Organizace dat na discích. Datové formáty. Přednáška 3:

Příprava dokumentů pro archivaci v souladu s platnou legislativou. Vladimír Střálka Adobe Systems Praha

Typografické programy (1) WYSIWYG

b) červená, zelená, modrá, c) černá, bílá, d) černá, bílá, šedá. 5. PNG je formát: a) textový,

Teorie systémů TES 5. Znalostní systémy KMS

IT v průmyslu. Standardizované komunikační rozhraní mezi MES systémem a jeho okolím Leoš Hons Leo.Hons@mescentrum.cz

Škola: Gymnázium, Brno, Slovanské náměstí 7 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN

Informatika pro ekonomy

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

(Nepříliš) stručně o systémech TEX a L A TEX

ČESKÁ TECHNICKÁ NORMA

EXTRAKT z české technické normy

Základní informace o modulu

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Elektronické publikování. doc. RNDr. Petr Šaloun, Ph.D. katedra informatiky FEI VŠB TU Ostrava

VÝVOJ INTERNETOVÝCH APLIKACÍ - VIA

Tato tematika je zpracována v Záznamy přednášek: str materiál: PrikladyZobrazeniCisel.pdf

Dělba rolí. Tvorba el. dokumentace (BI-TED) Publikační proces. Motivace. 2. Oddělení formy a obsahu. Autor

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Obsah předmětu

Algoritmy a datové struktury

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Elektronická fakturace v relaci ke Směrnici 2014/55/EU Projekt MF ČR

Formáty WWW zdrojů. Mgr. Filip Vojtášek.

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Krejčí Richard Písmo - Font Sazba Postscriptová písma

Informatika Datové formáty

AUTOMATIZACE PROCESU. Ing. Jan Vorlíček konzultant HSI, spol. s r. o. Ing. et Ing. Luděk Drápal konzultant Státní pozemkový Úřad

Programování II. Modularita 2017/18

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Co nás čeká při skartačním řízení? Připravte se na změny balíčku SIP

MFF UK Praha, 29. duben 2008

Typografické programy (1) WYSIWYG

2. Modelovací jazyk UML 2.1 Struktura UML Diagram tříd Asociace OCL. 3. Smalltalk 3.1 Jazyk Pojmenování

Reprezentace dat. INP 2008 FIT VUT v Brně

Principy UML. Clear View Training 2005 v2.2 1

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Export z OpenOffice Writer do L A T E X 2ε

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

11. Přehled prog. jazyků

Problematika disertační práce a současný stav řešení. Počítače se mýlí mnohem přesněji.

Vstupní data pro program Deformace ve formátu XML

24. XML. Aby se dokument XML vůbec zobrazil musí být well-formed (správně strukturovaný). To znamená, že splňuje formální požadavky specifikace XML.

Common Object Request Broker Architecture

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

Softwarové komponenty a Internet

. Seznámení se systémem TEX. Zpracování textů na počítači. Ing. Pavel Haluza, Ph.D. ústav informatiky PEF MENDELU v Brně haluza@mendelu.

InformatikaaVT(1) Cílem předmětu je: Žáci:

Smysl metodiky IS/IT. Koncentrovaná zkušenost Checklist na nic nezapomeneme

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

PJC Cvičení #2. Číselné soustavy a binární reprezentace proměnných

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

Vizuální programování

UML. Unified Modeling Language. Součásti UML

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

Obsah prezentace. Co je to XML? Vlastnosti. Validita

PB161 Programování v jazyce C++ Přednáška 7

PHP - úvod. Kapitola seznamuje se základy jazyka PHP a jeho začleněním do HTML stránky.

Jak lze zefektivnit monitoring médií

PB161 Programování v jazyce C++ Přednáška 7

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Základy informatiky. 02 Elektronické publikování. Michal Kačmařík upraveno z přednášek D. Szturcové a P. Děrgela

Základy WWW publikování

Transkript:

PB029 Elektronická příprava dokumentů Anyone who would letterspace the lowercase would steal sheep. Frederick Goudy (1865 1947), when looking on a prize winner certificate You cannot not communicate. Paul Watzlawick (1921 2007), in Pragmatics of Human Communication Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky. Petr Sojka PB029 Od autora ke čtenáři podzim 2018 1 / 210

PB029 Elektronická příprava dokumentů PB029 Elektronická příprava dokumentů Petr Sojka podzim 2018 Petr Sojka PB029 Od autora ke čtenáři podzim 2018 2 / 210

E = mc 2?! E = mc 2 E = mc 2 Značkování Markup Návrh Design Sazba Typesetting Korektury Proofreading Předloha Preprint Tisk Print Distribuce Distribution Petr Sojka PB029 Od autora ke čtenáři podzim 2018 22 / 210

Osnova dnešní přednášky a demopřednášky Přednáška Shrnutí předchozí hodiny, komentáře k anketě. Zápis textu v Unicode. Logická struktura dokumentu, značkování. Zkušební korektura. Demopřednáška: Rozdíly a záludnosti textových souborů na různých platformách v mezinárodním prostředí. Upozornit na první domácí úlohu a že na příští cvičení si mají studenti přinést vytištěný svůj co nejreprezentativnější příklad dříve vysázeného dokumentu (pro nebodovanou ukázku svých dovedností). Petr Sojka PB029 Od autora ke čtenáři podzim 2018 23 / 210

Anketa komentáře I Povinnost cvičení nevadí. Pozdní čas přednášky vadí. Většinová motivace psaní závěrečné práce. Tedy L A TEX a typografie! Témata k referování u otázky 7: nic. Projekt přeložení opatgenu. Detaily. Petr Sojka PB029 Od autora ke čtenáři podzim 2018 24 / 210

Myšlenky z hlavy autora do textu We thrive in information-thick worlds because of our marvelous and everyday capacity to select, edit, single out, structure, highlight, group, pair, merge, harmonize, synthesize, focus, organize, condense, reduce, boil down, choose, categorize, catalog, classify, list, abstract, scan, look into, idealize, isolate, discriminate, distinguish, screen, pigeonhole, pick over, sort, integrate, blend, inspect, filter, lump, skip, smooth, chunk, average, approximate, cluster, aggregate, outline, summarize, itemize, review, dip into, flip through, browse, glance into, leaf through, skim, refine, enumerate, glean, synopsize, winnow the wheat from the chaff and separate the sheep from the goats. Edward Tufte Petr Sojka PB029 Značkování podzim 2018 25 / 210

PB029 Elektronická příprava dokumentů 2. přednáška, 27. 9. 2018 Linearizované myšlenky z hlavy autora do textu Petr Sojka PB029 Značkování podzim 2018 26 / 210

Zápis textů elektronicky: Unicode I 1. Kódování textů. 5000 živých jazyků se stovkami tisíc znaků. 2. Hlavní motivace: nutnost shody na reprezentaci znaků (v CS Kam, KOI-8, CP-1250, ISO Latin2,... ). 3. Unicode 11.0 4. Unicode Consortium je nevýdělečná organizace, založená 1989 pro vývoj, rozšiřování a podporu používání Unicode Standardu. Členové konsorcia představují široké spektrum korporací a organizací. Petr Sojka PB029 Značkování podzim 2018 27 / 210

Zápis textů elektronicky: Unicode II 5. Respektuje ISO (International Standard Organization), mezinárodní ISO standard ISO/IEC 10646-1, 1993: Universal Multiple-Octet Coded Character Set (UCS). 6. První standard s ambiciózním cílem obsahovat všechny znaky používané v psaných jazycích, včetně matematických a dalších symbolů. 7. Jazykově neutrální, zrušení předpokladů ekvivalence znaků a glyfů, neproporcionality hladkého textu. Petr Sojka PB029 Značkování podzim 2018 28 / 210

The Unicode Standard, ISO/IEC 10646 I 1. Unicode (k 10/2018 verze 11.0): sada 137374 znaků a pravidel zpracování specifikovaná konsorciem Unicode: http://www.unicode.org/versions/unicode11.0.0/ UnicodeStandard-11.0.pdf na 1000+ stranách. 2. Jednoznačný kód (číslo U+0000..U+10FFFF, 21 bitů) pro každý znak nezávisle na OS, jazyce, programu; 17 rovin po až 2 16 = 65 536 znacích. Databáze znaků, přehledné tabulky znaků. Petr Sojka PB029 Značkování podzim 2018 29 / 210

The Unicode Standard, ISO/IEC 10646 II 3. Znak s libovolným kódem můžeme zapsat pomocí entity &#kod (kod je v desítkové soustavě) nebo &#xkod (kod je šestnáctkově): code points 0 10FFFF 16. 4. UCS-4 resp. UCS-2 Universal Character Set coded in 4 resp. 2 octets. 5. UCS-2 pouze pro nultou rovinu (basic multilingual plane, BMP) (two-octet BMP form). 6. Jednoznačný trend použití všude (na WWW, v OS [cut & paste], značkovacích i programovacích jazycích). Petr Sojka PB029 Značkování podzim 2018 30 / 210

The Unicode Standard, ISO/IEC 10646 III 7. Kritériem přidání znaku je odlišnost ve významu i tvaru (CJK unifikace). Výjimky: Latin P, Greek P (capital rho), Cyrillic P (R). 8. Neznaky (noncharacters), privátní zóny (roviny 15 a 16) pro specifické použití aplikací. Petr Sojka PB029 Značkování podzim 2018 31 / 210

Unicode Transformation Format UTF: přenos znaků I 1. Problémy s přímým přenosem textů v UCS-4 (prostorově neefektivní) transformační/kódovací metody UTF-8, UTF-7, UTF-16, UTF-32 jako jednoznačné mapování znaků. 2. UTF-16 16bitové slovo obsahuje kód znaku, rozšíření: 1 znak zabere dvě 16bitová slova. UTF-16BE a UTF-16LE. 3. UTF-8: znaky ASCII nahrazeny byty hex 00-7F. Ostatní znaky nahrazeny dvěma až čtyřmi byty hex 80-FF. Petr Sojka PB029 Značkování podzim 2018 32 / 210

Unicode Transformation Format UTF: přenos znaků II 4. UTF-7: pro SMTP protokol; kódovány i speciální znaky ASCII. Specifikovaný IETF, Internet Engineering Task Force, a formálně nesouvisející s ISO/IEC 10646. Výsledkem je text neobsahující kontrolní znaky a znaky nad 7F. 5. UTF-32, UTF-32BE (big endian), UTF-32LE (little endian). 6. Vícebytová pořadí: BOM Byte Order Mark, OxFEFF. 7. UTF a BOM FAQ. Petr Sojka PB029 Značkování podzim 2018 33 / 210

Standardní implementační úrovně 1 3 podporované v software I Příklad dánského A with ring above and acute accent : 1. 01FA reprezentace použitá v úrovních 1 a 2: jeden složený znak; 2. 00C5 0301 A with ring above + combining acute accent nebo 3. 0041 030A 0301 A + combining ring above + combining acute accent Program implementující standard úrovně 3 musí být schopen zpracovat tyto kompozitní sekvence stejně jako výše uvedenou reprezentaci. Petr Sojka PB029 Značkování podzim 2018 34 / 210

Unicode principy návrhu I 1. univerzalita 2. efektivita 3. rozlišení znaků a glyfů 4. dobře definovaná sémantika znaků 5. umožňuje i holý (plain) text 6. logické pořadí 7. unifikace znaků 8. dynamická kompozice znaků 9. ekvivalentní sekvence znaků 10. konvertibilita 11. permanentní stabilita Petr Sojka PB029 Značkování podzim 2018 35 / 210

Unicode vlastnosti, shrnutí I 1. Třídění: Unicode Collation Algorithm. 2. Normalizace textu, kanonická forma, ligatury. 3. Tři úrovně implementace Unicode, obousměrný text, kombinace znaků, kompozitní sekvence znaků. 4. Shrnutí, detaily a přehled. 5. Sekce 1 z Electronic Document Primer Petr Sojka PB029 Značkování podzim 2018 36 / 210

Obsah a forma 1. Přenos informace raison d être dokumentu 2. Obsah stylistika, jazyková správnost, koheze 3. Forma jednotnost přenos informace struktura typografie literatura = interpretace kompozice skladby Algorithms + Data = Program Niklaus Wirth Forma + Obsah = Dokument Petr Sojka Petr Sojka PB029 Značkování podzim 2018 37 / 210

Logické a vizuální značkování 1. Obsah Forma; vizuální prvky musí podporovat vnitřní obsah a strukturu a být s ní konzistentní. 2. Značkovací jazyky (Markup Languages): XML/SGML/HTML, L A TEX umožňují oddělit obsah a formu tam, kde je to možné. 3. Značky logické struktury vizuální procesní. 4. Někdy oddělit nelze (Trychtýř Christiana Morgensterna). Petr Sojka PB029 Značkování podzim 2018 38 / 210

Z hlavy autora do elektronické podoby Data cannot be used at a finer grain than it is marked up at. R. Jelliffe 1. Autor, jeho interní model problematiky v hlavě a jeho (neustálá) reorganizace. 2. Lineární zápis (psaní) v časovém okamžiku formou textu dokumentu. 3. Krátké versus delší, strukturované texty. 4. Koherence, stavba a struktura textu. 5. Logická struktura dokumentu. Petr Sojka PB029 Značkování podzim 2018 39 / 210

Logická struktura dokumentu I 1. Pro prezentaci logické struktury obsahu, pro automatizaci zpracování, pro oddělení formy od obsahu je vhodné do textu přidávat explicitní značky. 2. Dříve sazeč určoval interpretaci implicitně z kontextu a sémantiky textu: holý text v přirozeném jazyce ve strojopise může být víceznačný. 3. Značka explicitně zjednoznačňuje (víceznačný) text. 4. Příklady strukturování dokumentu. Petr Sojka PB029 Značkování podzim 2018 40 / 210

Logická struktura dokumentu II 5. Příklady zjednoznačňujících značek: :-) (ze slovníčku smileys) či <vtip>...</vtip>. 6. Značka je kód přidávaný k (elektronicky) vytvářenému textu, který definuje strukturu textu (logická značka) nebo formát textu (vizuální značka <b>) nebo pojmenovává způsob zpracování textu (procedurální značka) \newpage. Petr Sojka PB029 Značkování podzim 2018 41 / 210

Jaké značky? I 1. Autorovi nejbližší sémantické, deklarativní, deskriptivní značkování (jména pro kategorizaci). 2. Výhody deskriptivního značkování: Nezávislé zpracování označených dat různými způsoby a programy: generování různých výstupů z jednoho zdroje (databáze, dobře označkovaný text) pro elektronickou (XML, HTML, PDF, Hypercard,... ) nebo tištěnou verzi (PS, PDF z L A TEXu). Oddělení obsahu a formy (ohledně formy má rozhodující slovo nakladatel). Petr Sojka PB029 Značkování podzim 2018 42 / 210

Jaké značky? II Je snazší výměna a komunikace obsahu: komunikace mezi (spolu)autory, redakcí (přes Internet). Datová nezávislost: textové soubory, dlouhodobá archivace trvalých hodnot [papír (500 let) versus bity (k nové verzi programu)]. Petr Sojka PB029 Značkování podzim 2018 43 / 210

Jaký značkovací jazyk? I 1. Nevýhody proprietárních formátů (Word, WordPerfect): účelově se mění, jsou nestabilní, uzavřené formáty. 2. Hrozí babylonské zmatení jazyků nebo monopol nevhodného formátu. lingua franca značkovacích jazyků?? Petr Sojka PB029 Značkování podzim 2018 44 / 210