Kvalita dat a informací základní omezení IT ve veřejné správě



Podobné dokumenty
Kvalita dat. Jaroslav Král Michal Žemlička Katedra SW inženýrství MFF UK. kvalita dat 1

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

Kvalita dat a informací

Datová věda (Data Science) akademický navazující magisterský program

Informační systémy ve výuce na PEF Information Systems in teaching at the FEM

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Datová kvalita. RNDr. Ondřej Zýka

ISO 9000, 20000, Informační management VIKMA07 Mgr. Jan Matula, PhD. III. blok

Informace pro uznávání předmětů ze zahraničních studijních pobytů (2016/17) Státnicové předměty navazujících magisterských studijních oborů

Datová kvalita. RNDr. Ondřej Zýka

ZMĚNA ČESKÉHO OBRANNÉHO STANDARDU. AAP-48, Ed. B, version 1

Kvalita procesu vývoje SW. Jaroslav Žáček

Informační média a služby

Úvodní přednáška. Význam a historie PIS

MFF UK Praha, 29. duben 2008

MANAGEMENT KYBERNETICKÉ BEZPEČNOSTI

INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005

Procesní řízení. Hlavní zásady a praxe dodavatele Komix

Uznávání předmětů ze zahraničních studijních pobytů

3. Data management, architektury systémů.

1 Úvod 1.1 Vlastnosti programového vybavení (SW)

Management a řízení ve veřejné správě/neziskových organizacích. Přednáška pro MOVS Mgr. Simona Škarabelová, Ph.D.

Bezpečnostní normy a standardy KS - 6

Architektury Informačních systémů. Jaroslav Žáček

Ergonomie v prevenci pracovních rizik nová legislativa 3. ergonomická konference, Brno

Architektury Informačních systémů. Jaroslav Žáček

Kvalitní data kvalitní agendy

Základy business intelligence. Jaroslav Šmarda

INFORMAČNÍ SYSTÉM VIDIUM A VYUŽITÍ MODERNÍCH TECHNOLOGIÍ

Řízení kybernetické a informační bezpečnosti

ČESKÁ TECHNICKÁ NORMA

Potřeba vypracovat Strategický plán rozvoje ITS pro ČR

DŮVĚRYHODNÁ ELEKTRONICKÁ SPISOVNA

Zdravotnická informatika z pohledu technických norem ISO a EN. RNDr. Vratislav Datel, CSc. Praha 26. dubna 2011

Základní registry. Kvalita dat a jejich čištění v základních registrech veřejné správy. Připraveno pro konferenci ISSS. Ing.

Co je a co není implementace ISMS dle ISO a jak měřit její efektivnost. Ing. Václav Štverka, CISA Versa Systems s.r.o.

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Příspěvek je věnován základním informacím o způsobu volby vhodné strategie řízení kontinuity činností v organizaci.

Kvalita SW produktů. Jiří Sochor, Jaroslav Ráček 1

HODNOCENÍ VÝKONNOSTI PODNIKU VE SPOJITOSTI SE STRATEGICKÝMI CÍLY

PŘÍLOHA 2: VÝSLEDKY PILOTNÍHO PRŮZKUMU V ÚSTECKÉM A JIHOMORAVSKÉM KRAJI

Potřeba jednotného řízení a konsolidace rizik

SEMINÁŘ. Výsledky soutěže o návrh konceptu Hospodárné a funkční elektronické zdravotnictví. 11. prosince 2012 Praha

Business Intelligence

Systémy pro podporu rozhodování. Hlubší pohled 2

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Dominik Vymětal. Informační technologie pro praxi 2009, Ostrava

Přístupy k řešení a zavádění spisové služby

MANAŽER KVALITY PŘEHLED POŽADOVANÝCH ZNALOSTÍ K HODNOCENÍ ZPŮSOBILOSTI CO 4.4/2007

Transmisní mechanismy nestandardních nástrojů monetární politiky

WAMS - zdroj kvalitní ch dat pro analý zý stavu sí tí a pro nové éxpértní sýsté mý

8/2.1 POŽADAVKY NA PROCESY MĚŘENÍ A MĚŘICÍ VYBAVENÍ

Katalog služeb a podmínky poskytování provozu

Návod k požadavkům ISO 9001:2015 na dokumentované informace

Infor Performance management. Jakub Urbášek

Je možné efektivně používat procesně orientované pracovní postupy při zdravotní péči?

Vyhledávání nebo nalezení informací

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

Marketingová koncepce managementu

Národní infrastruktura pro elektronické zadávání veřejných zakázek (NIPEZ) Ministerstvo pro místní rozvoj ČR Jiří Svoboda Odbor veřejného investování

Bližší informace o programu

Dílčí závěry analýzy příčin nízkého zapojení států EU-13 do rámcových programů EU pro výzkum, vývoj a inovace

Obecné schéma řízení rizik, stanovení rozsahu a cíle analýzy rizik, metody sběru a interpretace vstupních dat

Thursday, September 8, Informační systém ORG Eva Vrbová ředitelka Odboru základních identifikátorů

Informační a znalostní systémy jako podpora rozhodování

Okruhy z odborných předmětů

Management informační bezpečnosti

GIS Libereckého kraje

Strategické plánování v obci proč a jak? Jana Kortanová 19. května 2011 Liberec

Kvalita procesu vývoje (SW) Jaroslav Žáček

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

MINISTERSTVO VNITRA ČR

Skladový informační systém - upgrade VKO lakovna Kvasiny

Prognostické metody. Prognostické metody. Vybrané prognostické metody ANALÝZA DAT V REGIONALISTICE. Doc. Ing. Alois Kutscherauer, CSc.

Současný stav a rozvoj elektronického zdravotnictví - pohled Ministerstva zdravotnictví

CA Business Service Insight

MSFN Hodnocení firem aneb co to znamená úspěšná firma. 2018/2019 Marek Trabalka

Lenka Fialová Martina Procházková Ondřej Soukup Martin Valenta Cyril Vojáček

Politika bezpečnosti informací

Dlouhodobé ukládání elektronických záznamů pacienta. Markéta Bušková ECM konzultant, SEFIRA

Otevřená data veřejné správy

METODICKÉ PROBLÉMY SBĚRU DAT PRO ÚČELY FORMATIVNÍHO HODNOCENÍ BADATELSKY ORIENTOVANÉ VÝUKY PŘÍRODOPISU

Katedra informačních technologií VŠE Praha nám. W. Churchilla 4, Praha 3 buchalc@vse.cz PODNICÍCH. 1. Úvod

Cíle a architektura modelu MBI

Co nového ve spisové službě? Národní standard pro elektronické systémy spisové služby a jeho optimalizace

OSA. maximalizace minimalizace 1/22

BI-TIS Případová studie

PRINCIPY PRO PŘÍPRAVU NÁRODNÍCH PRIORIT VÝZKUMU, EXPERIMENTÁLNÍHO VÝVOJE A INOVACÍ

NÁSTROJE PODPORUJÍCÍ STRATEGICKÉ ŘÍZENÍ V OBCÍCH

Specializace Specializace Internet v podnikání

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

CZ.1.07/1.3.49/

SYSTÉMY ŘÍZENÍ PODNIKU OKRUHY OTÁZEK KE ZKOUŠCE Z PŘEDMĚTU MPH_SYRP V magisterském studiu

Postakviziční integrace Jaké kroky se mají učinit po podpisu kupní smlouvy. Veronika Jebavá

Jako příklady typicky ch hrozeb pro IT lze uvést: Útok

Teorie systémů TES 10. Měkké systémy metodiky

Úvod do projektu. Standardizace provozních funkcí ÚSC. Součást projektu Korporátní styl řízení ve veřejné správě

Hodnocení Velkých Infrastruktur (VI)

Transkript:

Kvalita dat a informací základní omezení IT ve veřejné správě Jaroslav Král, Michal Žemlička Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství Malostranské nám. 25, 118 00 Praha 1 jaroslav.kral@mff.cuni.cz, michal.zemlicka@mff.cuni.cz Abstrakt Efektivnost využití informačních technologií silně závisí na kvalitě dat. V aplikacích se mnohdy mlčky chybně předpokládá, že potřebná data jsou vždy k dispozici za rozumnou cenu, v dostatečné kvalitě a za rozumnou cenu. V poslední dekádě význam kvality dat značně zesílil. Důvodem je potřeba podpory managementu a rozvoj manažerských informačních systémů. Ty musí využívat data a informace různé kvality dostupné např. na Internetu. Problémy kvality dat jsou tématem řady konferencí, pokusů o standardizaci (ISO) a dokonce i zákonů (viz US zákon Data Quality Act). Kvalita dat a informací není u nás dostatečně legislativně ošetřena. To je zásadní nedostatek, který do značné míry vylučuje možnost vyžadování, sledování, a kontrolu kvality dat a informací. To neumožňuje obranu proti takovým opatřením, které kvalitu dat a informací, především dostupnost, zbytečně zhoršují. Budou uvedeny příklady nepříznivých důsledků současného stavu pro celou informatiku. Klíčová slova Aspekty kvality dat a informací, legislativa kvality dat, nedostupnost informací a řízení státu. 1 Úvod Kvalita dat a informací je problém, jehož složitost je často, především ve veřejné správě, podceňována. Kvalita dat a informací je vícedimensionální pojem, protože má i takové aspekty, jako je včasnost, dostupnost a důvěryhodnost. Význam aspektů kvality roste i v podnikové sféře. I tam se stále více pracuje s daty a informacemi, která nemusí být přesná či věrohodná. Rozvoj internetu tento problém velmi zesílil. Nízká kvalita dat státní správy a především nedořešení problému dostupnosti informací, která jsou ze zákona veřejná byť byla odvozena z neveřejných dat, významně omezuje uplatnění práva občanů na informace a také zásadně snižuje efektivnost řízení podniků a především státu. Příkladem jsou problémy s registrem občanů. To, že u nás není kvalita dat a informací dostatečně legislativně ošetřena, je zásadní nedostatek, který do značné míry vylučuje možnost vyžadování, sledování, a kontrolu kvality dat a informací. To neumožňuje obranu proti takovým opatřením, která kvalitu dat a informací (především jejich dostupnost) zbytečně zhoršují. Budou uvedeny atributy kvality dat, kterých se to především týká, a budou uvedeny příklady hrozivých důsledků současného stavu pro celou informatiku. Ukážeme, jak zásadním a někdy nečekaným způsobem ovlivňuje kvalita dat (přesnost, včasnost, dostupnost, konsistence, atd.) cíle a způsoby implementace informačních systémů a architekturu informačních systémů. Ukážeme také, jak to zbytečně omezuje funkce těchto systémů. Jinými slovy, současná situace výrazně snižuje kvalitu využití informačních technologií, což je nevýhodné pro stát a pro IT odborníky zvláště. Dlouhodobě to vede k rozsáhlým ztrátám a ohrožuje to i prosperitu ekonomiky a státu. IT veřejnost by se měla ve svém zájmu výrazně zasadit o změnu této situace. SYSTEMS INTEGRATION 2006 215

JAROSLAV KRÁL, MICHAL ŽEMLIČKA 2 Od technologie k funkcím Teorie a praxe databází přinesla výsledky, o kterých mnozí pochybovali, zda budou vůbec možné. Je si ovšem třeba uvědomit, že jádrem těchto mnohdy zázračných výsledků je převážně řešení problému jak data ukládat, vyhledávat a prezentovat. Otázka, jaké kvality jsou data uložená v databázi (přízemně řečeno, zda se jedná o numera nebo hausnumera), zůstávala stranou zájmu. Existovalo pro to několik důvodů: Prvé aplikace databází se převážně týkaly operativy, jako je účetnictví nebo skladové hospodářství. Tam bylo z podstaty věci a zavedenými postupy zajištěno, že data musela být správná kvalitní, jinak byla nepoužitelná. Bez vyřešení problému, jak data ukládat, vyhledávat a prezentovat, nemělo řešení otázky kvality dat smysl. Nebyl dostatečně rozvinut pojmový aparát umožňující specifikovat různé aspekty a dimenze kvality dat. Nebyl v podstatě potřeba. Jak uvidíme, není pro to v tomto směru ještě dnes, přes značný pokrok, dosud dostatečně jasno a je nutný další výzkum zaměřený na kvalitu informací závisejících na daných datech. Chyběly metody a způsoby zápisu atributů kvality dat do metadat a vědomí důsledků statistických vlastností a jiných metrik kvality datových souborů pro aplikace využívající data určité kvality. Situace se v poslední dekádě dramaticky změnila, neboť v devadesátých letech byla v podstatě vyřešena problematika vývoje operativní části informačních systémů včetně jejich datové vrstvy. Pokrok v praxi využívání databází vyřešil problém systémové podpory práce s daty. Pokrok v efektivnosti indexování se snížil technologie narazily na své hranice. Hlavním problémem informačních systémů se stala podpora managementu. Příkladem je e-government a e-komerce. Management musí často používat hromadná data, která mohou pocházet z různých zdrojů a která jsou různě spolehlivá, různě přesná, různě dostupná a která mají různou dobu platnosti. Pro řadu aplikací mají rozhodující význam statistické charakteristiky kvality dat. Pokrok jazyků pro zápis metadat umožnil, aby mohly být údaje o kvalitě dat rozumným způsobem dosažitelné a dostatečně flexibilní. Data v komerci a managementu mohou díky pokroku v komunikacích pocházet z velmi různých zdrojů. Taková data mohou být různé kvality, a přesto mohou být cenná a musí být používána. Někdy obsahuje krátký drb více informace než dlouhá oficiální zpráva a spousta dat. Kvalitou (dat) je podle ISO 8402 [ISO86]: Characteristics of an entity as a whole that give the capability to satisfy explicit and implicit needs: Quality of an entity is a subjective concept dependent on requirements that the user of the entity requests in an implicit or explicit manner. Quality is a multidimensional concept tied to various characteristics. Kvalita dat je poměrně nový problém, jehož formulace a cesty řešení se rychle vyvíjí. Není ustálen názor, do jaké míry mají být metriky kvality závislé na potřebách jednotlivých aplikací. Jedním z problémů volby atributů kvality dat je volba optimálního kompromisu mezi obecností a použitelností. Kvalita informací se odvozuje od kvality dat, jedná se ale o specifický problém, který je předmětem intensivního výzkumu (viz níže). Typickou úlohou je řešení problému, jaká je kvalita informací využívajících data různé kvality. 216 SYSTEMS INTEGRATION 2006

KVALITA DAT A INFORMACÍ ZÁKLADNÍ OMEZENÍ IT VE VEŘEJNÉ SPRÁVĚ 2.1 Subjektivní a objektivní metriky kvality dat Podobně jako u metrik kvality softwarových systémů je i u metrik kvality dat vhodné rozlišovat metriky dvojího typu: Objektivní metriky, tj. metriky, které lze vždy znovu vypočítat z dat, kterých se týkají. Objektivní metriky jsou obvykle číselné. Mezi objektivní metriky patří takové vlastnosti, jako existence okrajových či nevalidních dat, chybějící data, atp. Subjektivní metriky jsou metriky hodnotící způsob, jakým data vznikla, případně kvalitu zdroje dat. Subjektivní jsou např. metriky hodnotící důvěryhodnost dat, stupeň jejich utajení, dostupnost, atd. Subjektivní metriky odpovídají metrikám interním (in process metrics, např. doba řešení, pracnost) podle ISO 9126 [ISO91]. Proces zjišťování subjektivních metrik je nutno standardizovat. To je většinou zajišťováno předpisy, které specifikují atributy (a dimenze skupiny metrik) kvality dat, a postupy, které je nutno při sběru dat a při jejich čištění dodržovat. Přívlastek subjektivní má v případě metrik kvality dat jisté oprávnění, poněvadž tyto metriky většinou nevznikají měřením nějakého procesu, ale de facto subjektivním hodnocením vlastností dat experty založeném na zkušenostech a nikoliv na měření v běžném slova smyslu. Z definice tohoto typu metrik plyne, že při vymezování typů subjektivních metrik závisí na potřebách konkrétního uživatele a někdy dokonce jediné konkrétní aplikace. Hranice mezi subjektivními a objektivními metrikami není striktní. Pokud máme dostatečně rozsáhlý soubor, můžeme jeho střední hodnotu a směrodatnou odchylku vypočítat. V opačném případě (např. při problémech s dostupností dat) můžeme použít i kvalifikovaný odhad, tj. postupovat jako v případě subjektivních metrik. Fakt, že se takto postupovalo, by měl být zaznamenán. 3 Čištění a optimalizace dat Pod čištěním dat (data cleansing) rozumíme procesy zlepšování kvality a použitelnosti dat. Příkladem pravidel čištění dat je dotazník popsaný v [DoE05]. Jádro zlepšování kvality dat je založeno na poměrně sofistikovaných metodách vyvinutých v rámci matematické statistiky. Nejčastěji používané postupy jsou: Vylučování okrajových dat ( chyby měření ). Jde o postup, kdy se ze souboru vylučují data, která jsou zjevně nesprávná: úmyslně změněná, chybně zanesená (překlepy), chybně změněna. Jestliže například v dostatečně velkém souboru existuje číslo x, které splňuje podmínku, že x >> M n-1 +3σ n-1, kde M n-1 je průměr a σ n-1 směrodatná odchylka souboru, ze kterého bylo vyloučeno x, pak je lépe x ze souboru vyloučit. Existuje na to velmi rozvinutá teorie a postupy, které se používají především při dolování dat a také při zpracování výsledků měření v přírodních a technických vědách. Doplňování chybějících dat. V tomto případě se do souboru doplní chybějící data, aby bylo možno soubor rozumně zobrazovat (například časové řady) a přitom nedošlo k chybným výsledkům (k významným změnám charakteristik daného souboru). K dispozici jsou dávno existující algoritmy. Vyloučení duplicitních dat. Sjednocení formátů, vylučování dat s nevhodným formátem. Parciální replikace. Pokud se data používají pouze pro statistické analýzy (a to je při podpoře managementu obvyklé), lze soubory dat replikovat pouze částečně (aniž dojde k závažnější chybě). To, jak velké procento dat je třeba replikovat, závisí především na rozptylu dat a kvalitě algoritmu, který provádí výběr dat k replikaci. Úspory mohou být dramatické. SYSTEMS INTEGRATION 2006 217

JAROSLAV KRÁL, MICHAL ŽEMLIČKA 4 Příklady metrik kvality dat Z toho, na čem jsou založena hodnocení kvality dat, vyplývá, že nejen proces vyhodnocování metrik, ale i jejich definice závisí do značné míry na potřebách konkrétního uživatele a dokonce na potřebách konkrétní aplikace. Různí uživatelé proto využívají různé soubory metrik. Detailnější rozbor metrik kvality dat lze nalézt v [PLW02], kde se doporučují i takové metriky, jako je srozumitelnost a snadnost zobrazení (srv. tab. 1). Kasnakoglu a Mayo v [KM04] navrhují pro hodnocení kvality statistických dat použití následujících často používaných metrik: Relevantnost (Relevance) míra, do jaké míry data splňují účel, pro který jsou používána. Přesnost (Accuracy) jak přesná jsou používaná data (měřeno obvykle statistickými charakteristikami pro chybu, např. směrodatná odchylka). Včasnost (Timeliness) za jakou dobu lze data aktualizovat. Dostupnost (Accessibility) jak jsou již existující data dostupná. Bariéry dostupnosti mohou být technologické, např. kapacita sítě, legislativní, např. nedořešená ochrana osobních dat, či procesní, např. nevhodné či nedostatečné informace. Porovnatelnost (Comparablity) metrika hodnotící možnost porovnávat, ale také spojovat data z různých zdrojů. Problémy mohou být s jednotností formátů či metod pořizování dat. Příkladem problému daného typu jsou obtíže při vytváření registru občanů (formát adresy). Koherence (Coherence) metrika vyjadřuje, do jaké míry byla data vytvořena podle z hlediska výsledku stejných pravidel. Britský statistický úřad k těmto metrikám doplňuje metriku Úplnost (Completeness) udávající jaká část potenciálních dat je zachycena v databázi (viz [HM01]), případně zda statistické charakteristiky dat nejsou ovlivněny výběrovými efekty. Kategorie Vnitřní, intrinsická (Intrinsic) Dostupnost (Accessibility) Kontextuální (Contextual) Reprezentační (Representational) Dimenze Přesnost (Accuracy) Objektivnost (Objectivity) Důvěryhodnost (Believability) Reputace (Reputation) Dostupnost (Accessibility, též Availability) Bezpečnost přístupu (Access security) Relevantnost (Relevancy) Přínos (Value added) Včasnost (Timeliness) Úplnost (Completeness) Rozsah (Amount of data) Interoperabilita (Interoperability) Srozumitelnost (Easy of Understanding) Výstižná a stručná reprezentace (Concise representation) Konsistentní reprezentace (Consistent representation) Tabulka 1: Dimense a atributy metriky dat podle [WZL01]. Podrobný popis významu jednotlivých metrik lze nalézt v [PLW02] 218 SYSTEMS INTEGRATION 2006

KVALITA DAT A INFORMACÍ ZÁKLADNÍ OMEZENÍ IT VE VEŘEJNÉ SPRÁVĚ Americký úřad Federal Highway Administration v doporučení [FfDQ] používá tyto metriky kvality dat: Přesnost, Úplnost (kolik procent všech potenciálních údajů je v databázi), Platnost (Validity kolik procent dat vyhovuje sémantickým omezením), Včasnost, Dostupnost (Accessibility), Pokrytí (Coverage do jaké míry soubor dat má vlastnosti blízké vlastnostem potenciálně nekonečného souboru, z něhož byl vybrán, tj. zda nedochází k výběrovým efektům). Toto doporučení obsahuje numerické postupy výpočtu variant jednotlivých metrik jako směrodatná odchylka, průměrná relativní chyba, atd. Viz též [UNESCO]. Rozsáhlá doporučení zaměřená na statistické atributy kvality lze nalézt v dokumentech organizace OSN Foods and Argiculture Organization (FAO). 4.1 Včasnost, přesnost a úplnost dat a servisně orientovaná architektura softwaru Tento příklad vychází ze zkušeností se systémy řízení malosériových výrob, má ale širší platnost. Výrobní systémy obvykle obsahují řízení autonomních výrobních subsystémů, které nazveme dílny. Výrobní úkoly jsou dílně zadávány z podnikové úrovně ve formě datové struktury plánu, který obsahuje jednotlivé výrobní úkoly. Výrobní úkoly jsou tvořeny posloupnostmi nebo obecněji sítěmi výrobních operací, které jsou rozepsány na jednotlivá pracoviště vícestupňovým procesem, jehož podstatná část je na podnikové úrovni. Cílem plánu je dodržet s co nejmenšími náklady termíny výrobních úkolů při maximálním využití kapacit dílny (např. málo prostojů a jiné požadavky na optimalizaci výroby). Poněvadž se jedná o malosériovou výrobu diskrétního typu nedaří se obvykle plán plnit. Důvody pro to jsou dva: 1. Data, z nichž plán vychází, jsou nedostatečně přesná a ne vždy úplná. Ne všechny stroje mohou být v daném okamžiku ve stavu, s jakým počítal plán (poškozené nářadí a jiné poruchy, které stroj nevyřadí, ale diskvalifikují ho pro určité operace, indispozice obsluhy, opotřebení stroje). To znamená, že jsou nepříznivě ovlivněny metriky úplnost, relevantnost a přesnost. 2. Plánovací algoritmy jsou algoritmicky náročné a nemohou proto aktualizovat data dostatečně rychle. To navíc znamená, že nemohou být spouštěny často (on-line), např. kdykoliv vznikne nečekaná situace, jako výpadky, nemoci obsluhy, problémy s materiálem a nářadím atd. Je tedy nepříznivě ovlivněna metrika včasnost. Praxe ukázala, že řešení může být založeno na následujícím jednoduchém principu. Plán vytvořený plánovacími moduly je uložen do datového úložiště, které je on-line využíváno řídícím systémem dílny. Plán může být upravován mistrem dílny. Podniková úroveň a řídící systém dílny se při tom chovají jako služby servisně orientovaného systému, tj. jako uzly peer-to-peer sítě. V našem příkladě jsou třeba zásahy dispečera především v těchto případech: Nečekané/vzácné události nevyplatí se je zahrnovat do rozvrhování (Vonásek je nešika, Pepa včera oslavoval, dodavatel to nestihl). Omezení kvality dat: o Nedostupná, neznámá, nepřesná (mají velký rozptyl). o Zřídka potřebná (nevyplatí se je sbírat). Potřeba on line využívat inteligenci lidí jako permanentní součást procesů. Nedostatečná kvalita dat si v diskutovaném případě vynutila, aby se v systému orientovaném na služby upustilo od požadavku, aby se komunikace uskutečňovala výhradně prostřednictvím prosté výměny zpráv (s využitím skrytých front zpráv). Komunikace se musela uskutečňovat pomocí obdoby datového úložiště, podobně jako při funkcionální dekompozici v klasických strukturovaných architekturách softwarových systémů. Řešení založené na podstatném zlepšení kvality dat nebylo ekonomicky schůdné. Kvalita dat tedy může i dost nečekaným způsobem ovlivnit způsob řešení a architekturu systému. Poznamenejme, že obdobu datového úložiště je nutné použít místo implicitních front požadavků na služby ve všech těch případech, kdy se požaduje, aby do komunikace SYSTEMS INTEGRATION 2006 219

JAROSLAV KRÁL, MICHAL ŽEMLIČKA mohl zasahovat člověk, nebo kdy je nutné použít inteligentnější variantu komunikace mezi službami (např. komunikace s využitím přístupu publish-subscribe), než je ta, která je realizovatelná výměnou zpráv řízenou některou variantou obsluhy front, např. existence více možných adresátů zprávy (ve výše uvedeném příkladě existence záměnných pracovišť). Právě diskutovaný příklad ukazuje na zásadní význam skutečnosti, že SOSS není obvykle jen informační, ale také řídící systém. Filtrace Formátování Zdroje dat Datová úložiště Aplikace Aplikace1 Údržba Čištění Data Informace Obrázek 1: Vztah mezi daty a informacemi 5 Kvalita dat a kvalita informací V poslední době se prosazuje názor, že kvalita informace je specifický problém, který musí zohledňovat fakt, že informace je, podobně jako aplikace, které informace vyhodnocují, entita s životním cyklem. V různých etapách životního cyklu mohou být požadavky na kvalitu informací různé (včasnost proti přesnosti v různých etapách životního cyklu). V této oblasti probíhá intensivní výzkum. Na téma kvality informací se koná řada konferencí, viz např. Information Quality Conference na http://www.infoimpact.com. Kritické poznámky k jeho zavádění lze nalézt v [Red01, WRRI]. Kvalita informací závisí nejen na kvalitě dat, ale také na kvalitě zpracování (vyhodnocování) dat prováděném při vytváření informací (obr. 1). To jistě není překvapující zjištění. Má však řadu kriticky důležitých praktických důsledků. Poněvadž procedury vyhodnocování informací mají různé vlastnosti a informace samotné složitým způsobem závisí na datech, z nichž se vyhodnocují, je třeba problém závislosti kvality informací vyhodnotit pro každý typ informací znovu. Hodnocení musí zohledňovat kvalitu dat i kvalitu aplikace, která informace vyhodnocuje. Je možné zohledňovat i důvěryhodnost autora/majitele příslušné aplikace. Tento přístup by měl být stanoven legislativně. Není vždy pravda, že informace nemůže být kvalitnější než data, ze kterých je generována. Příkladem může být vylučování okrajových dat (ne vždy je žádoucí to provádět v datovém úložišti). Data mají kromě atributů kvality také další vlastnosti, týkající se práv přístupu. Mohou být v různé míře neveřejná až tajná. Stupeň utajení informací generovaný z těchto informací je obecně jiný. Jaký je v konkrétním případě, je nutné vyhodnotit (subjektivně, s případnou pomocí nějaké teorie) jak je to s právem přístupu. Údaj o bydlišti občana je chráněn zákonem o ochraně osobních údajů, počet obyvatel majících trvalý pobyt v určitém místě ochraně nepodléhá. Tato evidentní skutečnost má však velmi důležitý důsledek, který současná legislativa nedostatečně zohledňuje. Informace o počtu obyvatel dané lokality je veřejná. Při jejím výpočtu je však nutné neveřejná data o bydlišti jednotlivých osob. Nejjednodušší způsob, jak tento problém řešit, je autorizace aplikace, která generuje informaci o počtu obyvatel, zda vyhovuje podmínce, že nezveřejňuje neveřejné informace, 220 SYSTEMS INTEGRATION 2006

KVALITA DAT A INFORMACÍ ZÁKLADNÍ OMEZENÍ IT VE VEŘEJNÉ SPRÁVĚ a samotnou aplikaci provozovat na serveru akreditovaném pro daný účel. Pro zvýšení kontroly je možno výstup programu archivovat a případně i poloautomaticky kontrolovat. Hrozbu zneužití dat je samozřejmě žádoucí snížit i opatřeními na datové úrovni, jako je použití anonymních klíčů a kódování. Zákonem by ale mělo být stanoveno, že by to nemělo vést ke snížení dostupnosti informací, které jsou veřejné. Tento aspekt není v legislativě a hlavně v praxi dostatečně řešen. ÚOOÚ se zabývá pouze znepřístupňováním dat a není od něho vyžadováno, aby bezdůvodně nesnižoval nebo lépe zajišťoval dostupnost informací, které mohou být veřejné. Výsledek je, že IT státní správy jen velmi málo slouží k řízení státu a poskytování komplexních informací orgánům státu i občanům. Hrozivé důsledky současného stavu ukážeme na příkladě hodnocení kvality škol. Význam vzdělanosti lze jen stěží přecenit. Školství je dotováno téměř sto miliardami Kč ročně. Přesto narůstají symptomy problémů. Investoři si začínají i při vysoké nezaměstnanosti stěžovat na nedostatek kvalifikovaných pracovníků. Bližší pohled ukáže, že školy se až na výjimky nestarají o úspěšnost svých absolventů a ani rodiče se o tom mnoho nedozví. Jinými slovy chybí zpětná vazba. Situaci by pomohl zlepšit informační systém umožňující interaktivní dotazy na úspěšnost absolventů škol podle následujících jednoduchých kritériích. Jaký plat mají absolventi dané školy či oboru (nebo obojího) x roků po absolutoriu? Kolik absolventů dané střední školy úspěšně dokončilo nějakou vysokou školu (určitého typu)? Totéž pro základní školy a střední školy. Kolik absolventů zůstalo v oboru? Jaká je nezaměstnanost absolventů (škola, nebo obor, nebo obojí)? Podařilo se zjistit, že úřady a školy mají prakticky všechna data potřebná pro vyhodnocení těchto informací k dispozici. Data jsou ale skryta v systémech jednotlivých úřadů. Jsou považována za neveřejná a situace je taková, že fakticky neveřejné (možná i v elektronické podobě neexistující) jsou i výše uvedené informace o úspěšnosti absolventů. Je totiž třeba data různých úřadů integrovat. Zatím je to v podstatě možné jen pomocí rodného čísla a to ze zákona nelze, neboť je nutno chránit osobní data. Informace o příjmech jsou na pensijním úřadě a na finančních úřadech. Poměrně podrobné daje o nezaměstnanosti dokonce ve vazbě na to, co a kde kdo studoval existují na pracovních úřadech. Data jsou nekvalitní, neboť jsou nedostupná. Na úřadech existuje mnoho skrytě duplicitních dat. Ani anonymní klíče nemusí stačit, protože nelze vyloučit, že vhodným dotazem zjistím příjem konkrétního člověka. Pro výše uvedené dotazy jsou potřeba data kdy, kdo, kde, co vystudoval. Tato data na školách a snad i jinde existují, nejsou ale pro výše uvedené účely dostupná. Je samozřejmé, že by byly v principu možné nejen dotazy uvedené výše, ale i takové dotazy, jako souvislost mezi počtem hodin matematiky na střední škole nebo typem školy a úspěchem v kariéře. Zatím to není možné. Data jsou nedostupná. Státní správa by měla být povinna nejen hodnotit kvalitu dat, ale také přijímat opatření ke zlepšování kvality dat a bránit neodůvodněnému snižování kvality dat jak to dnes praktikuje ÚOOÚ. Vysoké školy by měly ze zákona spolupracovat na zpřístupňování informací o svých absolventech. Dnešní situace vede k rychlé degradaci kvality pracovní síly. Možná že není daleko situace, která je dnes už běžná na Slovensku, kde podle předsedy Slovenskej obchodnej a priemyselnej komory Mihóka mají podnikatelé problém sehnat pracovní sílu i v oblastech s 20% nezaměstnaností. Náznaky takové situace jsou i u nás. I pro nás platí slova pana Mihóka, že není možné akceptovat situaci, kdy veřejné finance dotují produkt, o který není zájem na trhu. Informatici by měli na tuto skutečnost upozorňovat a prosazovat změnu zákonů. Zatím nelze nejen v případě školství využívat potenciál IT. To ohrožuje efektivitu práce státu v případě katastrof nebo boje proti terorismu nebo, nedej bože, válečných situací. Ohrožuje to do značné míry budoucnost především informatiky. Doplatí na nevyužívání svého potenciálu, zhoršování podmínek podnikání a klesající kvalitu pracovní síly. Informatici by měli přinutit ekonomické analytiky, aby si všímali i věcí, které nastanou v delší perspektivě. Nechceme přece dopadnout tak, jako nedávno ve Francii. SYSTEMS INTEGRATION 2006 221

JAROSLAV KRÁL, MICHAL ŽEMLIČKA 6 Závěr To, že problém hodnocení a kontroly kvality dat a informací není u nás legislativně ošetřen, je klíčový nedostatek, který zásadně snižuje efektivnost IT ve státní správě. Práce na legislativě se podle dostupných informací zaměřují spíše na ochranu dat (viz práci na anonymních klíčích, které samy o sobě nestačí zcela ochránit osobní data), než na udržování kvality informací. Tato situace má zásadní záporné důsledky pro kvalitu státní správy, stejně jako pro zodpovědné rozhodování občanů a firem. Literatura [DoE05] U.S. Department of Education: NRS State Data Quality Standards Checklist. (2005) http://www.doe.mass.edu/acls/smartt/nrschecklist.pdf [FfDQ] Framework for Data Quality Measurement, www.itsdocs.fhwa.dot.gov [FTC02] Federal Trade Commission: Data Quality Act (2002) http://www.ftc.gov/ogc/sec515/ [HM01] Haworth, M.,F. Martin, J.: Delivering and Measuring Data Quality in UK National Statistics. Office for National Statistics, UK, 2001. http://www.fcsm.gov/01papers/haworth.pdf [ISO86] International Standard ISO/IEC 8402: Quality Management and Quality Assurance Vocabulary, International Organization for Standardization, International Electrotechnical Commission, Geneva (1986, 1994). [ISO91] International Standard ISO/IEC 9126. Information technology - Software product evaluation - Quality characteristics and guidelines for their use, International Organization for Standardization, International Electrotechnical Commission, Geneva (1991). [KM04] Kasnakoglu H., Mayo, R.: FAO Statistical Data Quality Framework: A multi-layered approach to monitoring and assessment. (2004) http://unstats.un. org/unsd/accsub/2004docs- CDQIO/1-FAO.pdf [Ker04] Kerr, K., The Development of a Data Quality Framework and Strategy for the New Zealand Ministry of Health. University of Auckland, Auckland, New Zealand. (2004). http://www.enigma.co.nz/hcro/website/index.cfm?fuseaction= articledisplay&featureid=080904 [PLW02] Pipino, L., Lee, Y,W., Wang, R.Y.: Data quality assessment. Communications of the ACM 45(4) (2002), 211-218 [Red01] Redman, T.: Data Quality: The Field Guide, Butterworth-Heinemann, Boston, MA, 2001. [SLW97] Strong D.,M., Lee, Y,W, Wang, R.,Y.: Data quality in context. Communications of the ACM 40(5) (1997) 103-110. [UNESCO] UNESCO Inst. of Statistics: Data Quality Assessment Framework (DQAF) for Education. http://www.uis.unesco.org/ev.php?id=5738_201&id2=do_topic [WRRI] The Water Resources Research Institute: The Data Quality Act: A revoluation in the role of science in policy making or a can of worms?, http://www.thecre.com/misc/20040606_worms.htm [WZL01] Wang, R,Y., Ziad, M., Lee, Y.,W.: Data Quality, The Kluwer International Series on Advances in Database Systems Volume 23, Springer, Berlin, 2001. 222 SYSTEMS INTEGRATION 2006