Televizní data: specifikace a export PRESS DATA, s.r.o., tisková agentura, Jihozápadní IV./1115/13, 141 00 Praha 4, DIČ: CZ28200217 E-mail: pressdata@pressdata.cz, tel: 272 011 594 90, 603 418 702, 604 202 090 Vypracoval: Mgr. Radek Křižka, e-mail: it@pressdata.cz, 8. 1. 2015
Obsah: Obsah:... 2 Základní statistické údaje televizních dat:... 2 Formát přenosu dat... 3 Standard formátu PDTV:... 3 Alternativa XML formátu:... 3 Aktualizace dat... 3 Služba pro přenos / distribuci televizních EPG dat... 3 Popis služeb:... 3 Distribuce dat:... 4 Doporučený postup při stahování EPG dat:... 4 Jednotlivé služby:... 4 Služba se samotnými daty televizních stanic:... 5 Specifikace formátu dat PDTV 2.1... 5 Popis dat... 5 Ukázka dat... 5 Popis datových položek formátu PDTV 2.1:... 6 Vysvětlivky k datovým položkám:... 8 Další přílohy:... 8 Základní statistické údaje televizních dat: Zpracováváme programová data přibližně 300 televizních stanic. Přesný výčet všech stanic spolu s informacemi o jazyce, ve kterém jsou data zpracovávána, je součástí přílohy Seznam stanic spol. PRESS DATA. Odborný překlad - naše programy překládáme ze slovenštiny, polštiny, němčiny i angličtiny. České a slovenské stanice zpracováváme v obou jazykových variantách.
Formát přenosu dat Televizní data (dále jen data) jsou předávána klientovi ve formě XML souboru, v JSON formátu nebo ve specificky dohodnutém formátu dat. Přesný formát dat je možné upravit dle konkrétních přání / potřeb klienta. Standardně jsou data (= také EPG data) dodávána v datově nejobsáhlejším XML formátu PDTV PRESS DATA TV. Tento formát dat je definován validačním XSD schématem, jenž je podrobně popsán níže a samotné XSD schéma je také součástí přílohy. Standard formátu PDTV: - Pro kódování XML souborů je použito kódování UTF-8 (po domluvě lze použít i jiné kódování). - Formát PDTV dodržuje normy ISO 3166-1-alpha-3 pro kódování zemí. - Dále dodržuje normu ISO 639-3 pro kódování jazyků. Export televizních dat obsahuje také URL adresy pro stažení fotografií k TV pořadům. Alternativa XML formátu: Je možnost dodávat data také prostřednictvím formátu JSON. Aktualizace dat Samotná data redaktoři aktualizují průběžně po celý den po obdržení aktuálních změn od daných televizních společností. Změny v datech klient eviduje prostřednictvím číselníku stanic viz kapitola Služby pro přenos dat, kde po určitém časovém úseku (např. každou hodinu) může klient zjistit poslední změnu/aktualizaci dat. Služba pro přenos / distribuci televizních EPG dat Popis služeb: Data jsou distribuována pomocí jednotlivých webových služeb (detailněji popsány níže). K datům lze přistupovat pomocí protokolu HTTP metodou GET. Každý klient je jednoznačně určen jeho identifikačním klíčem.
Distribuce dat: Data si klient stahuje online tzn. sám dle potřeb z níže uvedených služeb pro požadovanou stanici a požadovaný datumový rozsah. Doporučený postup při stahování EPG dat: - Samotná EPG data si klient stahuje 1x denně. - Číselník stanic, kde je u každé TV stanice obsažena informace o poslední změně dat, si klient stahuje 1x za každou hodinu. Automaticky bez dalších parametrů číselník stanic vrací čas poslední/nejnovější změny v celých datech dané TV stanice. Služba s číselníkem stanic může být také parametrizována datumy od do, tudíž lze evidovat programové změny v TV datech v příslušných datumových rozsazích. - Pokud dojde ke změně dat (viz hodnota poslední změny u každé stanice v číselníku stanic), aktualizovaná data si klient může stahovat ihned opakovaně. Postačuje stahovat pouze data konkrétní stanice, u které došlo ke změně/aktualizaci, což minimalizuje datové přenosy. - K navazování dat konkrétní TV stanice u klienta je doporučeno používat pouze ID stanice (viz Služba s číselníkem stanic), v krajním případně UID stanice. Není vhodné používat k navazování dat položku Název televizní stanice, protože názvy stanic redaktoři udržují stále aktuální (mohou se velmi často měnit), čímž by docházelo ke zbytečným výpadkům při stahování dat na straně klienta. - Počet přístupů (http requests) na server PRESS DATY je pro jednoho klienta omezen na maximálně 8 (http) přístupů za 1 sekundu. Při nedodržení tohoto pravidla bude klientovi vrácen http status code 429: to many request. Při běžně zvoleném způsobu stahování dat (například sekvenčním stahování jednotlivých fotografií nebo vhodně zvolené paralelizaci stahovacích procesů) nebude klient nijak omezován. Jednotlivé služby: Služba se samotnými daty televizních stanic. Služba s číselníkem televizních stanic. Služba s číselníkem typů pořadů. Služba s číselníkem zvukových typů pořadů. Služba s číselníkem video typů pořadů.
Služba se samotnými daty televizních stanic: Adresa: http://server1.pressdata.cz:8080/tv_data_export/klient Příklad: http://server1.pressdata.cz:8080/tv_data_export/vip_klient? key=secretkey & channel=1 & date_from=2015-11-01 & date_to=2015-11-07 Parametry: key = identifikační klíč date_from = počáteční datum exportovaných dat ve formátu RRRR-MM-DD date_to = koncové datum exportovaných dat ve formátu RRRR-MM-DD channel = id stanice dle číselníku TV stanic (Služba s číselníkem televizních stanic) - v případě nezadání parametrů date_from ani date_to budou standardně exportována data od aktuálního dne na +7 dní dopředu - v případě zadání pouze parametru date_from budou exportována data v intervalu date_from do date_from +7 dní dopředu Specifikace formátu dat PDTV 2.1 Popis dat - Formát PDTV je datově nejobsáhlejší XML formát spol. PRESSDATA a je definován validačním XSD schématem. Formát dat je možné upravit dle konkrétních přání klienta. - Standardně jsou časy vysílání exportovány ve středoevropském čase (CET / CEST) platném pro Českou republiku, je možnost exportovat časy vysílání v jiném časovém pásmu (např. UCT=GMT). Ukázka dat... <programme> <id>13362188</id> <broadcastdate>2013-03-06</broadcastdate> <start>2013-03-06t22:00:00</start> <stop>2013-03-06t23:30:00</stop> <title lang="ces">smrt na černo</title> <year>1976</year> <countries> <country>cze</country> </countries> <duration units="min">89</duration> <credits> <director> <firstname>i.</firstname> <lastname>toman</lastname> </director> <actor>
<firstname>v.</firstname> <lastname>brodský</lastname> </actor> <actor> <firstname>s.</firstname> <lastname>budínová</lastname> </actor> <actor> <firstname>j.</firstname> <lastname>langmiler</lastname> </actor> </credits> <tip>false</tip> <hidesubtitle>true</hidesubtitle> <genreid>3</genreid> <soundid>2</soundid> <descriptions> <desc lang="ces" length="57">krimifilm ČR (1976). I mistr šmelinář se někdy přepočítá. </desc> <desc lang="ces" length="731">v létě roku 1947 je v poválečné republice stále nedostatek zboží. Kvůli tomu kvete černý trh se vším možným, včetně textilu. Odhalování nekalých obchodů s látkami má u policie na starosti usedlý starý mládenec, kriminální inspektor Kotouč (Vlastimil Brodský), který je bývalým učitelem a zbožíznalcem. V té době ukradnou zlodějíčci Dudy (J. Kanyza) a Pivo (J. Lábus) větší množství textilních rolí ze skladu velkoobchodníka Václava Čačaly (J. Větrovec). S naloženým vozem však havarují a utečou. Ke ztracenému zboží se nikdo nehlásí, a tak inspektor Kotouč správně usoudí, že původní majitel je chtěl prodat na černém trhu. Díky chytře zvolené taktice zavedou stopy Kotouče k Čačalovi a dokonce na ministerstvo vnitřního obchodu... </desc> </descriptions> <videoatt> <widescreen>true</widescreen> <blackwhite>false</blackwhite> </videoatt> <photos> <photo> <filename>6.3_c1_2155_smrtnacerno.jpg</filename> <url>url_adresa_k_fotografii</url> <description>smrt na černo</description> </photo> </photos> </programme>... Popis datových položek formátu PDTV 2.1: Název elementu (četnost) tv programmes * Popis elementu kořenový element element obsahuje základní popis dat, tj. ID stanice, její název, zkratku a datumový rozsah dat
programme * Element zastřešující jeden kompletní pořad. id ID pořadu, slouží pouze pro identifikaci pořadu. Při změně vysílacího dne = aktualizaci dat může být pořadu přiřazeno nové ID. broadcastdate start stop Datum vysílacího dne = do 04:59 následujícího kalendářního dne. Reálný datum a čas začátku vysílání. Reálný datum a čas konce vysílání. title Název pořadu; atribut lang - výstupní jazyk dle normy ISO 639-3. titleoriginal? year countries? country + descriptions? desc + credits actor * firstname * lastname + director * duration? series? episode? episodecount? episodename? tip premiere? live? audiodescription? hidesubtitle? signlanguage? Originální název pořadu Rok výroby pořadu. Element kompletující jednotlivé země. Země původu pořadu dle normy ISO 3166-1-alpha-3. Element zastřešující popisy pořadu Popis pořadu; atribut lang - výstupní jazyk dle normy ISO 639-3; atribut length - délka popisu. Element kompletující osoby spojené s pořadem - herci, režiséři atd. Element pro herce. Křestní jméno osoby. Příjmení osoby. Element pro režiséra pořadu. Délka pořadu; atribut units - časová jednotka, hodnota v minutách. Série pořadu. Epizoda pořadu. Počet dílů. Název dílu. Tip/výjimečný pořad (true/false). Premiéra pořadu (true/false). Příznak živého vysílání (true/false). Příznak audio popisku pořadu (true/false). Skryté titulky (true/false). Znaková řeč (true/false).
originalversion? showview? genreid * videoatt widescreen blackwhite qualityid? soundid photos? photo * filename url? description? serieslid? note? opvr? Původní znění / originální verze (true/false). Hodnota pro showview vysílání. Typ žánru, hodnota dle číselníku. Video atributy. Širokoúhlé vysílání (true/false). Černobílé vysílání (true/false). Kvalita vysílání, dle číselníku. Kvalita zvuku, hodnota dle číselníku. Element kompletující fotografie k pořadu. Jednotlivé fotografie Název fotografie. URL adresa ke stažení fotografie. Popis fotografie. ID seriálu - slouží na propojení pořadů v seriálu v rámci skupiny stanic. Poznámka. Příznak OPVR (true). Vysvětlivky k datovým položkám: Četnost: (bez uvedení) element se vyskytuje právě jednou? element se vyskytuje právě 1-krát nebo vůbec + element se vyskytuje 1 až n-krát * element se vyskytuje 0 až n-krát Další přílohy: Validační XSD schéma XML formátu PDTV 2.1. Aktuální seznam televizních stanic.