Distribuovaná Analýza ATLAS dat Jiří Chudoba Fyzikální ústav AV ČR, v.v.i.
Model pro ATLAS Distribuované zpracování dat na gridu Hierarchie výpočetních center Tier0 CERN Tier1 10 center pro ATLAS Tier2 asi 30 center Tier3 menší příležitostná centra Farma Goliáš na FZÚ Tier2 centrum přiřazené do GidK GridKa regionu (Tier1 v Karlsruhe) Gridový software projektů EGEE, OSG a NorduGrid Model detailně popsán v ATLAS Computing TDR, CERN/LHCC/2005-022 Jiri.Chudoba@cern.ch 2
Tier2 centrum ve FZU Podepsané WLCG MoU v roce 2008 Do roku 2008 včetně větší podíl ALICE než ATLAS. Nyní se vybírá hardware pro splnění závazků na rok 2009. Jiri.Chudoba@cern.ch 3
Velikosti dat v MB/případ p TDR Nyní RAW 16 1.6 16 1.6 ESD.5 1. AOD.1.2 TAG.001.01 D1PD.01 T0 a T1 nebudou (?) přístupná běžným uživatelům, jen pro organizované produkce Data v roce 2008 50,000000 sec@200hz 10 M případů/den 60 dní v 2008: 600M případů VT0: 960 TB RAW to tape 96 TB RAW to disk (10%) 600 TB ESD to tape 60 TB ESD to disk (10%) 120 TB AOD to disk and tape 120 TB DPD to disk and tape 6TB TAG to disk V rámci každého oblaku kompletní soubor AOD v Tier 2 centrech (plus kopie v T1) V typickém Tier2 25 % AOD + DPD Ve FZU: asi 5-10 % AOD + DPD Jiri.Chudoba@cern.ch 4
Kam s daty space tokens token name storage type used for @T2 @T1 @T0 ATLASDATATAPE T1D0 RAW data, X X ESD, AOD from re-proc ATLASDATADISK T0D1 ESD, AOD from data X X X ATLASMCTAPE T1D0 HITS from G4, AOD from ATLFAST X ATLASMCDISK T0D1 AOD from MC X X X ATLASPRODDISK T0D1 buffer for in-and export X ATLASGROUPDISK T0D1 DPD X X X ATLASUSERDISK T0D1 User Data X X *) X ATLASLOCALGROUP DISK T0D1 Local User Data @T3 X Jiri.Chudoba@cern.ch 5
Data v typickém Tier2, rok 2008 Typické = 500 CPU a 100 TB pro ATLAS ATLASDATADISK (60 TB) AOD a DPD dle požadavků (nebo podílu), možno i vzorky RAW a ESD ATLASGROUPDISK (6 TB) pro analýzu organizovanou fyzikálními skupinami ATLASUSERDISK (5 TB) scratch space for users ATLASLOCALGROUPDISK (zdroje mimo MoU) permanentní prostor pro lokální uživatele Nyní ve FZU pro ATLAS ATLASUSERDISK 800 GB ATLASPRODDISK 500 GB ATLASDATADISK 2500 GB ATLASMCDISK 500 GB Zvětšení space tokens o několik TB (dohromady) možné téměř ihned. Celkem pro ATLAS zhruba 20 TB. Jiri.Chudoba@cern.ch 6
Datové formáty RAW = raw data ESD = Event Summary Data detaily z rekonstrukce případů, možno z nich dělat identifikaci částic, refitování drah, rekonstrukci jetů cílová velikost 500 kb, nyní přes 600 kb. calorimeter cells = 270 kb, tracking data 200 kb pro top případy AOD = Analysis Object Data vytvářeny pouze z ESD, určené pro analýzu nyní 200 kb/případ, plus 60 kb MC truth Jiri.Chudoba@cern.ch 7
Zkušenost z Rome produkce AOD příliš velké pro analýzu Skupiny používaly hlavně ntuply vytvořené pomocí EventView, HighPtView, TopView DPD = Derived Physics Data DPD podmnožina obsahu ESD a AOD s možným přidáním analyzačních dat Analyzační data veličiny vypočítané z ESD a AOD Několik verzí DPD: D1PD, D2PD, D3PD, performance DPD Redukce velikosti dat pomocí: skimming i vynechání celých případů thinning vynechání některých objektů slimming vynechání části objektů Jiri.Chudoba@cern.ch 8
Dnešní možnosti pro analýzu Jiri.Chudoba@cern.ch 9
Jiri.Chudoba@cern.ch 10
Co je k analýze zapotřebí? UI = User Interface (třeba lxplus) a členství v ATLAS VO Návody na spouštění analýzy na Twiki stránkách Organizují se výukové semináře Veškeré datové přenosy přes systém DQ2 Distribuce oficiálních dat pomocí subscriptions na místa registrovaná v TiersOfATLAS (TOA) Uživatelské datasety nyní není možné takto distribuovat (politické rozhodnutí), ale je možné je kopírovat na vlastní disk Výstup analyzační úlohy na USERDISK, bude pravidelně promazáván Uživatel ho může dát na LOCALGROUPDISK permanentní prostor skupiny si mohou ve svých Tier přidat diskový prostor Přístup k ESD zatím není vyřešen (povolit úlohy uživatelů v T1?) Spolehlivost gridových komponent není 100 %, problémy při velkých kolekcích úloh Jiri.Chudoba@cern.ch 11
Zdroje ATLAS Offline software výukový seminář: http://indico.cern.ch/conferencedisplay.py?confidcern ch/conferencedisplay py?confid=39198 Distributed Analysis Workshop 25.-27.8.2008 v CERN http://indico.cern.ch/conferencedisplay.py?confid=38560 Ganga výuka https://twiki.cern.ch/twiki/bin/view/atlas/gangatutorial5 ch/twiki/bin/view/atlas/gangatutorial5 Pathena výuka http://cdsweb.cern.ch/record/1118219 Analysis Model Forum Report, ATL-GEN-INT 2008-01 Jiri.Chudoba@cern.ch 12