Formáty WWW zdrojů Mgr. Filip Vojtášek vojtasek@ikaros.cz
Formáty: obecný pohled! Způsob uspořádání dat do sekvence pomocí binární soustavy " bit stream (logický formát)! Způsob vnější prezentace datového souboru pomocí aplikačního softwaru a výstupního hardwarového zařízení (fyzický formát)
MIME (Multipurpose Internet Mail Extension)! Původně konvence pro přenos zpráv elektronickou poštou a jejích příloh v jiné podobě než v ASCII! Princip se uplatňuje i v protokolu HTTP: součástí hlaviček (headers), které doprovázejí data jako odpověď webového serveru na požadavek klienta, je i specifikace jejich typu! Content-Type: základní typ/upřesnění obsahu (= formátu)! RFC 2045-2049! Registrované typy (IANA): ftp://ftp.isi.edu/innotes/iana/assignments/media-types/
MIME Jednoduché typy text image audio video application model Složené typy message multipart příklady html, plain, xml gif, jpeg, png wav mpeg msword, pdf, rtf, postscript vrml příklady rfc822 encrypted Vlastní typ: image/x-djvu (nutná úprava konfigurace webového serveru)
HTTP/1.0 200 OK Server: Netscape-FastTrack/2.01 Date: Thu, 14 Jun 2001 13:49:20 GMT Accept-ranges: bytes Last-modified: Wed, 13 Jun 2001 10:39:49 GMT Content-length: 1940 Content-type: text/html <HTML> <HEAD> <TITLE>Titulek</TITLE> </HEAD> <BODY> <H1>Kapitola</H1>... </BODY> </HTML>
Formáty dnes! Text: HTML 4.0! Rastrová grafika: JPEG a GIF (naděje vkládané do PNG se nepotvrdily)! Distribuce: PDF! Audio: MP3! Statické (hierarchické) systémy
Zastoupení formátů na WWW! Švédsko (automatické indexování harvesting v rámci projektu Kulturarw 3, 1998 a 2000) MIME typ/podtyp text/html image/gif image/jpeg text/plain application/pdf application/msword image/png 1998 56 20 10 9 2000 52 24 20 2 1,3 0,3 0,3
Zastoupení formátů na WWW! Nizozemí (projekt DNEP, 2000) MIME typ/podtyp text/html image/gif image/jpeg text/plain ostatní 2000 66 24 6 2 2
Zastoupení formátů na WWW! Česká republika (průzkum v databázích vyhledávacích služeb AltaVista a Google, červen 2001) ostatní 38 % AltaVista.pdf 4 %.txt 2 % Google ostatní 21 %.html+.htm 62 %.html+.htm 73 %
Webové prohlížeče! Univerzální prostředek pro přístup k elektronickým zdrojům v jednom (webovém) rozhraní! On-line > off-line! Standardy (W3) vs. reálná podpora ze strany prohlížečů! Čisté HTML minulostí (vnořené objekty a externí soubory)! Plug-in jako nezbytný doplněk pro práci s netradičními datovými formáty (.djvu,.lwf,.svg,.pdf,.swf )
Podíl přístupů podle prohlížeče (servery internet.com, květen 2001) IE 4.x 10 % NN 4.x 8 % NN 6.x 3 % IE 5.x 79 %
Formáty zítra I?! Text: XML/schémata XML (AML, WML, NewsML, CML, MathML, DocBook aj.) + XHTML místo HTML # WWW # Intranet # E-business # Databázové aplikace # WAP # DTP # DMS! Distribuce: PDF (elektronické časopisy aj.) místo postskriptu a T E X?! Rastrová grafika: wavelet technologie (JPEG 2000 aj.) místo JPEG?! Vektorová grafika: SVG (W3), Flash místo GIF?
Formáty zítra II?! Audio: MP3! Video: MPEG 4, MPEG 7! Živé vysílání (audio, video)! Elektronické knihy: kompatibilní s OEB (Open ebook Publication Structure) Microsoft a další! Dynamické systémy (SQL + ASP/PHP)
Formáty a archivace elektronických zdrojů! Rychlé morální stárnutí komponent digitálního prostředí (aplikační SW, operační systém, HW platforma) = nástrojů interpretace elektronických zdrojů! Primární faktor ovlivňující čitelnost elektronických zdrojů (x fyzická životnost nosiče)! Formáty: # Všeobecné (široká podpora různými producenty SW z dané kategorie TXT, HTML, XML, JPEG, GIF, RTF, MP3 ) # Proprietární (ideální dekódování zajišťuje pouze jeden aplikační SW DOC, PPT, PDF, RAM, WPD, CDR )! Jistota : zpětná kompatibilita u SW téhož producenta! Klíčová otázka: Uchovat obsah nebo obsah + formu?! Dvě metody: migrace a emulace
Migrace! Co uchovat? Obsah! Jak? Včasná cyklická konverze elektronických zdrojů ze staršího digitálního prostředí do nového! Proč ano? Praktické zkušenosti! Proč ne? Hrozí nebezpečí postupnéztráty integrity zdroje (nutnost výběru perspektivního formátu)
Emulace! Co uchovat? Zdroj v originálním formátu (tj. obsah i formu)! Jak? Spolu se zdrojem uložen příslušný aplikační SW a operační systém v původní podobě + specifikace HW platformy pro budoucí emulaci (= oživení) zastaralého digitálního prostředí! Proč ano? Teoreticky efektivnější a levnější! Proč ne? V reálných podmínkách neověřeno (ve stádiu testování - projekty NEDLIB, CAMiLEON)