OD INFORMACE K METAINFORMACI (Systémy automatické podpory vytváření metadat z primárních dokumentů) Zdeněk Jonák, Výzkumný ústav pedagogický Praha Úvod Se vzrůstajícím počtem těch, kteří dosáhnou osvědčení evropského standardu počítačové gramotnosti ECDL (European Computer Driving License) lze očekávat nárůst požadavků uživatelů na hlubší analytičtější zpracování knihovních fondů či databází. Instituce pracující s datovými soubory budou výhledově nuceny se orientovat na nadstandardní softwarové vybavení, umožňující dokonalejší správu souborů a to zejména z hlediska schopnosti důkladněji se orientovat v obsahové struktuře dokumentu. Jestliže jsme dnes schopni sloučit v digitálním dokumentu text, obraz, zvuk či animaci, neznamená to, že s nimi dokážeme pracovat z hlediska jejich rozmanitých, často víceznačných obsahů. Bylo-li dosud centrem zájmu dosáhnout digitalizací informačních zdrojů a katalogů zvýšení jejich uživatelské dostupnosti, potom v další perspektivě vývoje to budou požadavky na schopnost softwaru algoritmizovat proces redukce exponenciálně rostoucího počtu informací, dosáhnout schopnosti odlišení kvalitních informací od nekvalitních, zvýšit přesnost vyhledávání apod. V perspektivě 5 let, lze očekávat, že již od žáků základních škol se bude požadovat aby dosahovali standardu počítačové gramotnost a středoškoláci se budou seznamovat se systémy nadstandardními, systémy, které umožňují data nejen ukládat, editovat a přenášet, ale rovněž analyzovat a výsledky vizualizovat. Při přípravě vzdělávacích programů se již dnes tento trend předvídá. Na absolventech středních škol se bude požadovat schopnost využívat ve své činnosti textové, tabulkové a grafické editory, vytvářet prezentace, využívat bohatou škálu speciálních funkcí softwarového vybavení, zejména orientované na hlubší analýzu dat, digitalizovat data z libovolného média (časopis, fotografie, video, film apod.) a upravit získaný materiál s cílem dosáhnout schopnosti vizualizovat své představy, umění sebevyjádření apod. Tento trend lze nazvat trendem od informace k metainformaci, od absorbování a kumulace informací k jejich myšlenkovému zpracování pro účely praktického využití. V článku chci představit systém, který podporuje činnost, kterou byl dosud schopen vykonávat pouze lidský intelekt, schopnost abstrahovat 98
z textu podstatné informace metainformace, metadata. Pro příklad jsem zvolil systém ATLAS.ti. Předností tohoto systému je schopnost velice široce pojaté správy dat, umožňující pracovat s textovými, grafickými a audiálními daty, vytvářet z uložených informací metadatové údaje s následnou možností provázat tyto údaje vazbami a vzájemnými vztahy nadřazenosti, podřazenosti, kauzálními a časovými vztahy apod. Funkce a možnosti systému ATLAS.ti Cílem práce se soubory textů je vytvořit z nahromaděných dokumentů tzv. hermeneutickou jednotku. Tento pojem již sám mnohé napovídá o cíli systému. Hermeneutika je věda, usilující o pravdivé, věrohodné, hlubší pochopení textů. Zabývá se zejména procesem interpretace. Systém ATLAS.ti si neklade za cíl činnost tak náročnou jako je interpretace textu, ale snaží se poskytnout nástroje, které umožňují označit vágní, nejasné vícevýznamové prvky textu, doplnit je obsahovou charakteristikou, provázat obsahově příbuzné části textu vazbami a spojit tyto prvky do vyšší jasně identifikovatelné kategorie hermeneutické jednotky. Na jednoznačně identifikovatelné datové prvky, lze snadněji aplikovat pro účely dalšího výzkumu statistické a lingvistické metody. Systém pracuje ve dvou modech: textovém a pojmovém. Textový režim realizuje segmentování datových souborů na kratší obsahové úseky, k nimž uživatel přiřazuje metadatové výrazy (hesla, indexy, klíčová slova, obsahové kategorie). Pojmový režim umožňuje vytvořené segmenty textů a jim přiřazené metadatové výrazy uspořádat do sémantických sítí a umožňuje tak jejich vizualizaci a přehlednost. Tyto činnosti jsou předpokladem jak pro rychlé a bezeztrátové vyhledávání v datových bázích, tak pro dokonalejší správu dat a jejich hlubší analýzu. Postup od informací v textu k metainformacím umožňují následující funkce: Quotations je funkce umožňující označené segmenty textů uložit do zvláštního souboru a zobrazit je v kartě stejného názvu. Označit lze jak jednotlivé věty, tak delší úseky textu. Codes je funkce sloužící k pojmenování označených úseků textů. K označení codes se doporučuje použít stručné výrazy slova či krátká sousloví. Families je funkce umožňující propojení codes vazbami, dle obsahové podobnosti. K vytvoření hermeneutické jednotky z vytipovaných segmentů textů (quotations) a jejich metavýrazů (codes) slouží následující editory: Editor pro tvorbu hermeneutické jednotky Sestává z levého a pravého okna. V levém okně je uložen datový soubor. V pravém okně se umisťují výše zmíněné prvky hermeneutické jednotky, tj. 99
codes představující metavýrazy, umožňující charakterizovat segment textu (quotations), k němuž se vztahují. Network editor Umožňuje propojit textové segmenty a jim přiřazené metavýrazy vzájemnými vazbami. Relation editor Poskytuje vazebné operátory pro network editor. (Např. is part of, is cause of, is property of.). Uživatel si může nadefinovat nové operátory (např. je nadřazen, podřazen apod.) Správa a kódování obrázků a zvuků Práce s obrázky a zvuky je podobná práci s texty. Tažením označíme část obrázku či zvukový úsek a označenému výseku přiřadíme metavýraz. Díky této vlastnosti je systém prakticky využitelný v řadě oborů, kde dochází k provázání těchto oblastí: v medicíně, výtvarném umění, architektuře, grafologii, kriminologii apod. Možnosti praktického využití systému V následujícím textu se pokusím nastínit možnosti praktického využití systému ATLAS.ti. Systém nabízí dva přístupy: a) Rozbor textu s cílem dospět redukcí informací k metainformacím. b) Využít připraveného, pokud možno strukturovaného souboru metadat jako podkladu pro hloubkovou obsahovou analýzu textu. První přístup umožňuje redukci, sumarizaci textu tím, že vyloučíme informace duplicitní, redundantní a méně významné a nahradíme je metavýrazy (indexy, výrazy selekčního jazyka apod.) a označíme pouze ty úseky textu (slova, věty, odstavce), které vyjadřují důležité myšlenky textu. Máme-li touto cestou zpracován rozsáhlejší počet datových souborů, dokážeme je snadněji podržet v paměti a porovnávat z hlediska jejich podobnosti. Pokud je touto cestou zpracován celý fond či databáze je uživateli poskytnut hlubší náhled do jejich struktury. Získané metavýrazy mohou rovněž sloužit jako podklad pro tvorbu selekčního jazyka, jako prostředek pro dokonalejší popis fondu či databáze. ATLAS.ti poskytuje k realizaci těchto cílů celou řadu nástrojů. V Příloze 1 vidíme ukázku základní obrazovky pro zpracování hermeneutické jednotky. V levé části obrazovky je zobrazen analyzovaný text. V pravé části je prostor pro metadatové výrazy, které uživatel přiřadí označeným místům v textu. přiřadili úsekům textu. (např. úseku textu V ratibořickém údolíčku jsme přiřadili heslo prostředí děje.) 100
Výsledkem činnost je seznam metavýrazů s odkazy na místa textu, kde se vyskytují. Seznam (přístupný v kartě codes) slouží jako podklad pro vyhledávání míst jimi označených. K jednomu heslu se může vztahovat několik úseků jednoho textu nebo úseků z několika různých textů. Metavýrazy jsou uložena v kartě codes. Hesla je možné mezi sebou označit vztahy (nadřazenosti, podřazenosti příčiny, účinku a uspořádat do sítí (Ukázka sítě s vyobrazením vazeb je v Příloze č. 3.). Metavýrazy lze podle podobnosti uspořádat rovněž do rodin (families) a dospět tak k obsahovým podobnostem a analogiím, využitelným pro posuzování podobností/odlišností analyzovaných souborů textů Druhý přístup představující cestu od metadat k datům či souborům dat pracuje s hermeneutickou jednotkou s opačným cílem zjistit pomocí předem připravených a strukturovaných metadat, zda a s jakou frekvencí se jednotlivé položky metadat v analyzovaném souboru textů vyskytují. Z dosažených údajů o výskytu a frekvenci výskytů metadat lze formulovat závěry o obsahové struktuře textů, vzájemně je porovnávat apod. V Příloze č. 2 vidíme v otevřené kartě codes zobrazena předdefinovaná metadata. Cílem výzkumníka je tyto metadata promítnout do textu na levé straně okna. Se souborem textů oklasifikovaným pomocí uvedených metadat, případně s údaji o frekvenci výskytů, lze provádět již velmi odvážné a hluboké analýzy obsahu uložených textů. Možnost uspořádání metadat do síti, práce s rodinami a analýza podobnosti/odlišností textů je shodná jako v předchozím případě. Závěr Cílem systému ATLAS.ti je racionalizovat práci s datovými soubory obsahujícími texty, obrázky či zvuky, vizualizovat jejich strukturu a zefektivnit tak jejich zpracování, jako předpoklad pro dosažení větší přehlednosti uložených datových souborů a vytvořit tak předpoklad jejich hlubší analýzy. Oba výše uvedené přístupy mohou sloužit nejen v knihovnictví a školské praxi pro účely zestručňování, anotování, abstrahování textů, ale mohou nacházet uplatnění ve společenských vědách ke zpracování výsledků terénních výzkumů, jejichž výsledky závisí na schopnosti uspořádat nepřehledný materiál, pracovat s předem danými hypotézami. Pro docílení vyšší kvality výsledků lze aplikovat matematicko-statistický aparát. Systém Atlas.ti je dostupný v demoverzi na internetové stránce společnosti ATLAS.ti. 101
Přílohy č. 1-3 102
103