CESNET, GRIDy a přenosy dat Lukáš Hejtmánek, Luděk Matyska CESNET, z. s. p. o Praha Ústav výpočetní techniky MU Brno Seminář STK, Praha 26. 2. 2008
CESNET Czech Educational and Scientific Network Primárně národní operátor výzkumné a výukové síťové infrastruktury Založen 1996 všemi veřejnými vysokými školami a AV ČR Poskytuje služby celé vědecké komunitě, ne jen zakladatelům Postupně: budování e-infrastruktury Sítě + Gridy +
Topologie sítě CESNET
Gridy První generace výpočetní Grid Důraz na výpočty Výpočetní Grid je hardwarová a softwarová infrastruktura, která poskytuje spolehlivý, standardizovaný, všudypřítomný a levný přístup ke špičkovým výpočetním službám. Druhá generace třívrstevný Grid Kromě výpočetního i informační a znalostní Důraz na práci s daty ukládání, přenos, zpracování, zpřístupnění
CESNET a Gridy Součást výzkumného záměru CESNETu Aktivita METACentrum Budování výpočetního a úložného prostředí na národní úrovni Čtyři hlavní centra: ZČU Plzeň, CESNET Praha, UK Praha, MU Brno Experimenty s distribuovaným ukládáním (více center)
CESNET Řešíme problémy s ukládáním, přenosy a zpřístupněním dat Hledáme nová (experimentální) řešení Vychází z dostupnosti velmi rychlé sítě V současné době technologie DWDM (n*10 Gbps) Distribuované řešení Uzly řešení jsou v různých lokalitách Přenos dat mezi uzly není kritickou částí Spolehlivost dosažena např. replikací mezi uzly
Naše zájmy Nemáme/nenabízíme hotová řešení Neposkytujeme (v této fázi) 100% garantované služby To je oblast komerčních dodavatelů Máme ale zájem o spolupráci projektovou formou Důvody: Nové přístupy: zadání se mění v čase Unikátní (nová) komerční řešení stojí příliš mnoho peněz Projekty stojí lidské zdroje (ale know how zůstává se zadavatelem)
Datově orientované projekty EU CESNET/METACentrum zapojeno v řadě EU projektů budování Gridu (výpočetního i datového) Nejvýznamnější projekt: EGEE (teď ve druhé fázi) Enabling Grids for E-science Hlavní cíl: Vybudovat produkční Gridovou infrastrukturu na evropské úrovni Iniciováno potřebami částicové fyziky (CERN)
Částicová fyzika a Grid Centrum CERN Projekt LHC (Light Hadron Collider) Spuštění v polovině roku 2008 Řada experimentů (ATLAS, CMS,...) Budou produkovat řádově deset a více petabytů dat ročně Data je nutné spolehlivě ukládat i zpřístupnit fyzikům
Základy správy dat 15 PB dat za rok Ukládáno rychlostí až 1.5GB/sek Sdílení dat mezi cca 500 institucemi/7000 fyziky Silná potřeba infrastruktury pro sdílení dat Hierarchická architektura orientovaná na služby Přístup, Bezpečnost, Monitoring, Správa vytížení, Správa dat
Datová hierarchie Tier 1 a Tier 2 lokace Tier 1 = 7 primárních lokací Tier 2 = replikují části dat z Tier 1 lokací Heterogenní prostředí Nutná interoperabilita Uzly organizací se po HW i SW stránce velmi liší Nutnost zastřešujícího univerzálního rozhraní
Projekt EGEE Buduje infrastrukturu Pro ni potřebuje odpovídající programové prostředí middleware Součástí middleware i prostředky správy dat
EGEE správa dat VO Frameworks lcg_utils File transfer service Uživatelské nástroje Správa dat Grid File Acces Lib Katalogy Ukládání Přenosy dat Informační systém/proměnné prostředí API od dodavatele (RLS) LFC SRM (Klasické SE) gridftp RFIO
EGEE správa dat Kombinace komerčních řešení a vlastních produktů Komerční řešení především na nejnižší úrovni Vyšší vrstvy sjednocují komerční řešení Katalogy správa jmenného prostoru a replik Ukládání správa úložného prostoru Přenosy dat obecné rozhraní pro přenos dat Vrstva rozhraní poskytující stage-in/out nebo souborový systém Nástroje pro uživatele
EGEE správa dat Rozhraní pomocí tzv. stage-in, stage-out nástrojů Hierarchický jmenný prostor Řízení přístupu podle oprávnění Přístupové listy práv Obvykle prostor pro jednoduchá metadata Přirozená podpora kopií dat Není přímým cílem klasický systém souborů
CESNET a národní projekty DiDaS Distribuované Datové Sklady Projekt CESNETu a Masarykovy Univerzity Cíl: Vytvoření infrastruktury distribuovaných datových skladů Nasazení pilotních aplikací Výsledky: (již v roce 2004) Distribuováno 10 uzlů v 6 městech ČR Připojeny gigabitovým rozhraním na páteřní sítě CESNETu Celková kapacita 14TB Pilotní aplikace distribuované zpracování multimediálních dat
DiDaS distribuce Gridu
DiDaS projekt DEE Distributed encoding environment (DEE) Využití distribuované infrastruktury Výpočetní i úložná infrastruktura Na Masarykově univerzitě se dodnes používá Od roku 2004 proteklo distribuovaným úložištěm 120TB dat, zpracováno 6000 hodin multimediálních dat
Projekt Atlases.muni.cz Atlas kožních chorob a patologie Přes 9.5 milionu souborů, 200 GB dat Problémy s řízením přístupu Přístup pro studenty Přístup pro registrované uživatele Nutná správa registračních údajů Přístup pro spřátelené projekty Přístup pro vyhledávací roboty Řešení přístupu v podobě federací
Taiwan Digital Archives Expansion Project Projekt digitalizace nejen národního archivu Taiwanu Kromě klasických knižních fondů i digitalizace muzeálních sbírek Architektura ukládání dat využívá zkušeností EGEE Dodavatelská technologie na nízké úrovni Hardware, základní služby, management Interoperabilita mezi participujícími organizacemi Vyšší vrstvy převzaty z akademického prostředí Kombinace placených služeb a vlastních lidských zdrojů Bez domácího know-how i špatná komunikace s firmami
Ukládání dat Zahrnuje Hardware pro ukládání Software na různých úrovních HW (a základní SW) dodávají velcí výrobci Není to předmět výzkumu CESNETu Disková pole, řídící počítače, management V neposlední řadě zálohy (páskové knihovny apod.) SW kromě knihoven ČR je mnoho skupin z akademické oblasti zabývající se ukládáním velkých objemů dat (terabyty petabyty) Neexistuje ideální řešení, vždy je třeba vývoj (firma nebo interní)
Skupiny z akademické oblasti Silný důraz na spolupráci Spolupracující skupiny Každý člen skupiny nese část nákladů Vlastní část hardwarového zařízení Software celé skupiny musí byt interoperabilní Nesnáze s proprietárním řešením Zpravidla všechny komponenty musí jít od jednoho výrobce, má-li být poskytnuta nová funkcionalita Vlastní síly investice do lidských zdrojů Výhodou je růst interního (nezbytného) know-how Bez know-how těžké (nemožné) zhodnotit nabídky dodavatelů
Principy ukládání v Gridovém prostředí Nezbytná distribuce dat Data jsou distribuována mezi členy skupiny Členové skupiny mají sami zájem s daty pracovat Více kopií Člen má obvykle kopii dat, se kterými pracuje Často hierarchická architektura Nezbytná je fungující autentizace a autorizace
Řízení přístupu Řízení přístupu u pracovních skupin Skupina = virtuální organizace (VO) Řízení přístupu v jedné skupině Mnoho různých metod Řízení přístupu mezi skupinami Potřeby širší spolupráce Heterogenní prostředí, obvykle bez interoperability Federace Interoperabilní řešení řízení přístupu Příkladem Eduroam: řízení přístupu k Internetu
Řízení přístupu Identity providers: organizace, která vlastní primární data o uživatelích zaměstnavatel, škola) Poskytuje rozhraní pro ověření totožnosti Service providers: služba, která pro řízení přístupu využívá služeb Identity providers Např. přístup ke knihovním fondům Vhodné řešení pro digitální knihovny
Závěr CESNET má rozsáhlé zkušenosti s velkými objemy dat v distribuovaném prostředí Navíc extenzivní účast v souvisejících mezinárodních projektech Máme zájem o spolupráci při hledání a provozu nových přístupů Architektura distribuovaných systémů ukládání a zpřístupnění (zpracování) dat Cílem není nabídnout primární garantované úložiště Zkušenosti z projektů zabývající se skutečně velkými objemy dat Miliony souborů, petabyty (na národní úrovni stovky TB) dat Spolehlivost Formou distribuovaného řešení/replik S využitím vysokorychlostní sítě