Spolupráce velkých infrastruktur CESNET a ELIXIR Jiří Vondrášek, ELIXIR CZ UOCHB AV ČR Slavnostní setkání k 20. výročí založení CESNET, Praha 10.3.2016
ELIXIRCZ Distribuovaná vědecká infrastruktura pro biologická data.
Bigdata"v biologii Orto Botanico Universita di Padova (1545)
Life Sciences: Jeden dotaz mnoho zdrojů Jaká je změna genové exprese poté co je selektivně inhibován p38 MAP kinázy? + Lze využít zlepšení pozorované v myším modelu k měřitelnému klinickému efektu? 188 experiments 12245 assays P 142 genes w linkage to glucocorticoids ChEMBL Efficacy : Anti-inflammatory effects in right tissue PDB Uniprot Side-effects : Increased adipogenesis Bone resorption ExpressionAtlas GeneGo Gene Ontology Litterature UMLS TrialTrove 1180 papers GR and COPD in 2012
Nalezení společného jazyka Svět poznáni mluví stejným jazykem? Paracetamol: 1092 Synonyms... [3H]Acetaminophen 10066-90-7 103-90-2 1047-607-00 1169-894-12 16110-10-4 222 AF 222-AF 3-(glutathion-S-yl)acetaminophen 37519-14-5 3-hydroxyacetaminophen 4-(Acetylamino)phenol 4-13-00-01091 4-ACETAMIDOPHENOL 4-Acetaminophenol 4-ACETYLAMINOPHENOL 4'-Hydroxyacetanilide 4-HYDROXYACETANILIDE 4-HYDROXYANILID KYSELINY OCTOVE 4-hydroxyphenolacetamide 644/4046 644/7502 64889-81-2 659/9501 77097-85-9 840-416-00 872-667-00 878-022-04 878-022-09 878-022-14 878-022-19 882-720-04 882-720-07 882-720-10 882-720-13 882-720-16 882-720-20 A F ANACIN A PER A.F. ANACIN AAP aa-sulfate AA-sulphate Abenol Abensanil ABROL ABROLET AC112578 AC112579 Acamol Accu-Tap Acenol Acenol (pharmaceutical) Acephen Acertol Aceta Aceta Elixir Aceta Tablets Acetaco Acetagesic Acetalgin ACETAMIDE, N-(4-HYDROXYPHENYL)- ACETAMIDE, N-(P-HYDROXYPHENYL)- Acetamidophenol Acetaminofen Acetaminophen Acetaminophen (4-hydroxyacetanilide) Acetaminophen glucuronide(55%) acetaminophen sulfate Acetaminophen sulfate(30%) acetaminophen sulphate Acetaminophen Uniserts acetaminophene Acetaminophen Acetaminophen (4-hydroxyacetanilide) Acetaminophen glucuronide(55%) acetaminophen sulfate Acetaminophen sulfate(30%) acetaminophen sulphate Acetaminophen Uniserts acetaminophene Acetamol ACETANILIDE, 4'-HYDROXY- Acetavance Acetofen ACETOMINOPHEN Actamin Actamin Extra Actamin Super Actifed Plus Actimol Actimol Chewable Tablets Actimol Children's Suspension Actimol Infants' Suspension Actimol Junior Strength Caplets Actron Afebrin Afebryl Aferadol AG10223 AG12029 AG124687 AG12800 AG12948 Amadil Aminofen Aminofen Max Anacin Anacin-3 Anacin-3 Extra Strength Anadin dla dzieci Anaflon Analter Anapap Andox Anelix Anexsia Anexsia 10/660 Anexsia 5/325 Anexsia 7.5/325 Anexsia 7.5/650 Anhiba Anoquan Anti-Algos Antidol Apacet Apacet Capsules
Problém věd o živé přírodě -Data a Pojmy v kontextu Infrastruktury Základní potřeby: 1. Vzájemné porozumění - Interoperabilita. 2. Ukládání a získávání informací. 3. Vyvíjet a testovat nástroje a technologie
Růst dat v disciplinách věd o živé přírodě
Datový příval Výpočetní rychlost a disková kapacita se zdvojnásobuje každých 18 měsícůa tato rychlost je konstantní. DNA sekvenční data se zdvojnásobují každých 6-8 měsíců v posledních 3 letech a tato rychlost bude stejná do konce dekády DATA EXPLOSION The amount of genetic sequencing data stor ed at the European Bioinformatics Institute tak es less than a year to double in size. Terabases 200 160 120 80 40 0 Sequencers begin giving flurries of data 2004 2006 2008 2010 2012 Source: Nature News & Comment, June 2013
Problém dat: Geografické hledisko Počet míst která produkují data se v Evropě zvyšuje Nárůst prodeje výrobce sekvenátorů Illumina se zvýšil v roce 2014 o 20% Source: http://omicsmaps.com 9
Generujeme data rychleji než jsme je schopni smysluplně ukládat. 24 hodin 100 Mb DNA sekvenace Rychlost přenosu dat po síti ~100 GB ~5 hours Hmotnostní spektroskopie ~4 TB ~4 days Microskopie ~4 TB ~4 days 10
Datový Cyklus
Datový tok je dvousměrný 1. Směr do velkých databází: Organizace a hierarchická struktura : laboratoř-> národní úložiště-> globální úložiště 2. Směr z velkých databází: Přesun dat do míst operací s daty (výpočetní centra). Vytváření speciálních datových setů. Kromě hardware a automatizovaných systémů je třeba zajistit odborníky na pomezí disciplin technických a vědeckých Pomoc uživatelům s daty, formáty a deponováním Práce s citlivými daty Vývoj metadat
Vědecká data vyžadují správu, péči a údržbu Nature news, 19 December 2013 Každých 6 minut je deponována 1 sekvence do ENA Základní biomolekulární archivy obsahují >10 PB dat Uniprot propojuje více než 120 biomolekulárních archivů
ELIXIR spojuje národní bioinformatická centra a EMBL-EBI do jedné udržitelné evropské infrastruktury pro biologická data medicina zemědělství 14 Životní prostředí biotechnologie ELIXIR podchycuje výzkum v oblasti věd o živé přírodě napříč akademickými a komerčními institucemi.
ELIXIR Hlavní poskytovatelé dat a bioinfo služeb (~130) V 15 ELIXIR členských zemích (+ 4 pozorovatelé) Spolupráce Dlouhodobá podpora 15
Evropská síť datových uzlů ELIXIRuzlyjsou financovány na národní úrovni ELIXIRuzlysledují národní priority a cíle ELIXIR uzly podporují výzkum na národní úrovni ELIXIR uzly zajišťují lokální bioinformatické zdroje v rámci Evropy
Koordinovaná infrastruktura pro správu dat Použití, Hodnota, Stálost, Správa a Standardizace Mezinárodní Zdroje ELIXIR Europe Národní datové centrum ELIXIR Uzly Institucionální úložiště
ELIXIR : 5 základních oblastí Interoperabilita Co je standard? Jak je používat, v jakých službách? Training Expertiza v oblasti řízení zdrojů a využití dat. Nástroje Registr služeb Správa formou federace Podpora komunity benchmarking Výpočetní výkon Přihlášení formou federace Distribuce dat Interoperabilní výpočetní zdroje, cloud technologie Data Propojení a údržba dat Monitorování a správa Propojení dat a literatury
Technické požadavky BMS infrastruktury ELIXIR CZ Vzhledem k definici základních oblastí infrastruktury ELIXIR CZ je třeba zajistit jejich technickou realizaci pomocí specifických komponent : Síťová vrstva, Cloud nebo Grid výpočetní zdroje, Datová úložiště E-learning a training nástroje Komponenty e-infrastruktury CESNET Logicky ucelené součásti CESNET. Základními komponentami jsou: komunikační infrastruktura (síť CESNET2), gridová infrastruktura pro náročné výpočty, infrastruktura datových úložišť infrastruktura pro vzdálenou spolupráci
Výzvy pro bioinformatickou infrastrukturu Škálovatelnost procesů a správy dat. Přístup k datům v distribuované infrastruktuře D National data centres N International Resources Udržitelnost: Zabezpečený dlouhotrvající přístup a etické otázky Interoperabilita: Data, Organizace, Státy A Institutional Repositories
CESNET jako partner ELIXIR CZ - Podílí se na rozvoji strategie infrastruktury a jejím vývoji - Dedikuje prostředky na základě specifických požadavků ELIXIR CZ - Zajišťuje výpočetní zdroje pomocí cloud a GRID technologií - Navrhuje strategie ukládání dat a přístupu nim v několika režimech - Zajišťuje technická řešení pro e-learning a training - Připravuje koncepční řešení přístupu pro ELIXIR uživatele (autentikace) a to v rámci jak ČR tak celé Evropy - Účastní se mezinárodních projektů H2020 jako ELIXIR CZ partner
Plány - Aplikace na H2020 projekt Big Data - Integrovaná komunikační platforma pro ELIXIR CZ - Napojení proteomického projektu v rámci ČR na evropské partnery - Zajištění přístupu a práce s citlivými daty v nově testovaných režimech - Mapování producentů dat v ČR a jejich nákladů - E-learning bioinformatické kursy v rámci ČR - Technické zajišťění nových partnerů ELIXIR CZ
Poděkování: prof. Ing Miroslav Tůma CSc Ing. Jan Gruntorád CSc Ing. Tomáš Košňar Ing. Helmut Sverenyák www.elixir-europe.org @ELIXIREurope /company/elixir-europe
Děkuji za pozornost www.elixir-europe.org @ELIXIREurope /company/elixir-europe