Vizualizace v Information Retrieval

Podobné dokumenty

Vizualizace v Information Retrieval

MBI - technologická realizace modelu

Popis obsahu a návod k používání mapové aplikace Stav pokrytí NGA v ČR

Popis obsahu a návod k používání mapové aplikace Stav pokrytí NGA v ČR

Začínáme pracovat s tabulkovým procesorem MS Excel

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools

Moderní systémy pro získávání znalostí z informací a dat

Bc. Martin Majer, AiP Beroun s.r.o.

Státnice odborné č. 20

Ukázka knihy z internetového knihkupectví

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Uživatelská dokumentace

Popis obsahu a návod k používání mapové aplikace Stav pokrytí NGA v ČR

MODUL MUNI ASPI, a. s muni_manual.indd :57:23

Microsoft Visio 2013 vypadá jinak než ve starších verzích, proto jsme vytvořili tuto příručku, která vám pomůže se s ním rychle seznámit.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Využití tabulkového procesoru MS Excel

Pracovní prostředí Word 2003 versus Word 2010

MIS. Manažerský informační systém. pro. Ekonomický informační systém EIS JASU CS. Dodavatel: MÚZO Praha s.r.o. Politických vězňů Praha 1

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

5 Orientované grafy, Toky v sítích

MS EXCEL. MS Excel

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tiskové sestavy. Zdroj záznamu pro tiskovou sestavu. Průvodce sestavou. Použití databází

Co je nového v aplikaci PaperPort 12?

Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Seminář z informatiky

Prostředí Microstationu a jeho nastavení. Nastavení výkresu

PRACUJEME S TSRM. Modul Samoobsluha

Budovy a místnosti. 1. Spuštění modulu Budovy a místnosti

Popis funkcí tlačítek jednotlivých modulů programu OGAMA

Pracovní prostředí Excel 2010

Návod na základní používání Helpdesku AGEL

xrays optimalizační nástroj

Nápověda k používání mapové aplikace Katastrální mapy Obsah

Navigace na webových stránkách

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Služby Microsoft Office 365

Dolování z textu. Martin Vítek

P R O J E K T O V É Ř Í Z E N Í A M A R K E T I N G 1. Akad. rok 2015/2016, LS Projektové řízení a marketing - VŽ 1

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

TR(2) Tabulka rovin ČG - 4. a 5. ročník ZŠ

Internetový přístup do databáze FADN CZ - uživatelská příručka Modul FADN RESEARCH / DATA

Níže uvedená tabulka obsahuje technické údaje a omezení aplikace Excel (viz také článek Technické údaje a omezení aplikace Excel (2007).

Internetový přístup do databáze FADN CZ - uživatelská příručka Modul FADN BASIC

Mapové služby portálu veřejné správy České republiky a IRZ. Průvodce po mapové aplikaci

Informatika pro 2. stupeň

DOSTUPNÝ. SNADNÝ. ONLINE NÁVOD JE TO JEDNODUCHÉ, ZAČNĚTE UŽ DNES!

Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu

Rubrika Zajímavostí ze zahraničního obchodu končí, ostatní zdroje získávání dat zůstávají

Zobrazte si svazy a uspořádané množiny! Jan Outrata

Základy tvorby velkoplošné prezentace

VY_32_INOVACE_INF.08. Microsoft Windows II.

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

CHARAKTERISTIKA VZDĚLÁVACÍ OBLAST VYUČOVACÍ PŘEDMĚT ZODPOVÍDÁ INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

PowerPoint 2010 Kurz 4

Počet vyučovacích hodin za týden 1. ročník 2. ročník 3. ročník 4. ročník 5. ročník 6. ročník 7. ročník 8. ročník 9. ročník

Strategie ochrany před negativními dopady povodní a erozními jevy přírodě blízkými opatřeními v České republice

Co je nového v GM EPC

POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

ArcGIS Online Subscription

StatSoft Jak vyzrát na datum

Controlweb. Úvod. Specifikace systému

WR Reality. Web Revolution. Uživatelský manuál administračního rozhraní

M Ů Ž E T E S E S P O L E H N O U T

Ukázka knihy z internetového knihkupectví

Základní pojmy teorie grafů [Graph theory]

VZDĚLÁVACÍ OBLAST INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE VYUČOVACÍ PŘEDMĚT: INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE. Charakteristika vyučovacího předmětu:

Multimediální prezentace MS PowerPoint I

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

Příprava dokumentů textovým procesorem II.

Kontingenční tabulky v MS Excel 2010

Novinky v Solid Edge ST7

V praxi se může jednat například o procesní instrukce, pracovní instrukce a podobný druh dokumentace.

Profesis on-line Obrázky v prezentaci byly upraveny pro potřeby prezentace.

QAD Business Intelligence

PALSTAT s.r.o. systémy řízení jakosti PALSTAT CAQ verze Kontakty 08/ Obsah

Portál Algotech HelpDesk Uživatelský manuál

Měření průtoku kapaliny s využitím digitální kamery

Školní rok 2009/2010 Školní rok 2012/2013

POROVNÁNÍ NĚKTERÝCH SW PRO ZOBRAZENÍ GRAFU FUNKCE DVOU PROMĚNNÝCH

Popis ovládání aplikace - Mapový klient KÚPK

MATLABLINK - VZDÁLENÉ OVLÁDÁNÍ A MONITOROVÁNÍ TECHNOLOGICKÝCH PROCESŮ

Meo S-H: software pro kompletní diagnostiku intenzity a vlnoplochy

ROZHRANÍ PRO ZPŘÍSTUPNĚNÍ A PREZENTACI ZNALOSTNÍ DATABÁZE INTERPI UŽIVATELSKÁ PŘÍRUČKA

GstarCAD8 Aktualizovaná verze ze dne Podpora 64-bitové verze systému. Nové dodatky. Poznámky (OBJECTSCALE / Měřítko objektu poznámek)

Zápočtová úloha z předmětu KIV/ZSWI DOKUMENT SPECIFIKACE POŽADAVKŮ

Wonderware Information Server 4.0 Co je nového

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

T-Cloud Zakázka. Uživatelská příručka

Asistivní technologie a dohledové systémy Dyslexie čtení pomocí okénka

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Informační a komunikační technologie

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Transkript:

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Vizualizace v Information Retrieval 2007 Petr Kopka

Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně. Uvedl jsem všechny literární prameny a publikace, ze kterých jsem čerpal. V Ostravě dne 9. května 2007 2

Poděkování Děkuji svému vedoucímu diplomové práce za jeho cenné rady a pomoc při řešení. Spousty díků patří také mým nejbližším a všem mým přátelům, kteří měli se mnou tu obrovskou trpělivost a vyjádřili mi neocenitelnou podporu a pomoc při řešení. Děkuji! 3

Abstrakt V dnešní době se stále více setkáváme s potřebou získat informaci na základě našeho dotazu. Výsledky odpovídající našemu dotazu můžeme vizualizovat pomocí spousty různých technik počínaje textovou prezentací a konče trojrozměrnými vizualizacemi. My se v této práci budeme zabývat nejrůznějšími postupy, jak se dají výsledky zobrazit pokud možno v přehledné formě. Ukážeme si také, jak se dá zobrazení některých výsledků potlačit. Moderní vizualizační nástroje umí vizualizovat různé struktury a my si některé postupy ukážeme na praktických příkladech a uvedeme, jaké jsou výhody nebo úskalí jednotlivých vizualizačních postupů. Klíčová slova vizualizace, vyhledávání informací Abstract We meet increasingly with a need to obtain the information based on our query nowdays. We can use a lot of approaches to visualize the results of our queries from textual presentation to trhree-dimensional visualization. This thesis deals with all sorts of methods that show the results preferebly in well-arranged form. We will show how to restrict displaying of some results. Modern visualization tools can display various structure. We will show some approaches on examples introducing advantages and pitfalls of the particular visualization approaches. Keywords visualization, information retrieval 4

Obsah 1. Úvod 9 1.1 Struktura práce...10 2. Information Retrieval 11 2.1 Co je Information Retrieval...11 2.2 Systém získávání dat...12 2.2.1 Model systému získávání dat...12 2.2.2 Struktura informací...14 3. Vizualizace v IR 15 3.1 Zásady návrhu uživatelského rozhraní IR systému...15 3.2 Funkce vizualizace...16 3.3 Hlavní techniky vizualizace...17 3.4 Hodnocení interaktivních systémů...17 4. Proces přístupu k informacím 19 4.1 Standardní model přístupu k informacím interakční...19 4.2 Nevyhledávací část procesu přístupu k informacím...21 5. Způsoby vizualizace v IR 23 5.1 Úvod...23 5.2 Standardní přístupy k vizualizaci...25 5.2.1 Jednoduchý graf pojmů...25 5.2.2 Histogramy...29 5.2.3 Spojnicový graf...29 5.2.4 Kruhový graf...31 5.2.5 Samoorganizující síť SOM...36 5.2.6 Hyperbolické stromy...41 5.2.7 Bifokální stromy...43 5.2.8 Třídimenzionální metody...45 5.2.9 Hybridní nástroje...47 6. Aplikace Graph Analysis 51 6.1 Projekt The Netron Project...51 6.2 Balík GraphApplications...51 6.3 Specifikace požadavků...52 6.3.1 Simulace trojrozměrné vizualizace grafu...52 6.3.2 Vstupní data...54 6.4 Vizualizační nástroj Graph Analysis...57 6.4.1 Třída MainForm...57 6.4.2 Třída GraphControl...60 6.4.3 Třída Entity...62 6.4.4 Třída Shape...62 6.4.5 Třída RoundNode...63 5

6.4.6 Třída Connection...64 6.4.7 Třída DefaultPainter...64 6.4.8 Načtení symetrické matice...65 6.4.9 Načtení binárního stromu...66 7. Testování 68 7.1 Požadavky na systém...68 7.2 Výsledky testů...68 8. Závěr 74 Literatura 75 A. CD-ROM 77 6

Seznam obrázků 2.1: IR systém...12 4.1: Zjednodušený diagram modelu procesu přístupu k informacím...20 5.1: Základní způsob prohledávání kategorií v systému dolování dat z textu...24 5.2: Kruhová spojová mapa s přiloženou ukázkou filtru...24 5.3: Interaktivní graf znázoňující hierarchický strom...26 5.4: Graf asociací pojmů: jeden vrchol, jedna kategorie...27 5.5: Graf asociací pojmů: jeden vrchol, různé kategorie...28 5.6: Histogramová reprezentace...30 5.7: Spojnicový graf hodnot asociací pro tři sady dotazů...31 5.8: Spojnicový graf zobrazující počet dokumentů obsahujících pojem Osama bin Laden během určitého časového rozpětí...32 5.9: Dva příklady víceřádkového grafu srovnávajících vývoj hodnot v průběhu času...32 5.10: Kruhový graf...33 5.11: Kruhový graf asociací...34 5.12: Spojovací diagram kategorií v kontextu osob a organizací...34 5.13: Kruhové grafy a podgrafy...36 5.14: WEBSOM...38 5.15: Kartografická mapa SOM datového souboru ARIST...40 5.16: Hyperbolický strom pro vizualizaci stránek National Park Service...42 5.17: Nástroj StarTree jako mapa stránek pro web automobilky Porsche...42 5.18: Bifokální strom zobrazující hierarchii s přibližně 370 uzly...44 5.19: Bifokální strom: výměna vrcholu v detailní oblasti...45 5.20: 3D pohled na diagram společných citací autorů vědeckých prací...46 5.21: Daisy diagram spojující vzhled kruhového diagramu a komplexního srovnávacího histogramu...47 5.22: HSOM...48 5.23: Pokračování ukázky příkladu použití HSOM z obrázku 5.22...49 5.24: Hybridní trojrozměrný síťový diagram, který obsahuje prvky grafu s uzly a spojeními a histogramové prezentace s trojrozměrnými efekty a tabulkami s popisy...50 6.1: Příklad zobrazení náhodně vygenerovaného grafu...52 6.2: Ideální představa zobrazení trojrozměrného grafu...53 7

6.3: Ukázka vizualizace. Vstupní data: symetrická matice...55 6.4: Zjednodušený třídní diagram postihující zejména modifikované třídy...59 7.1: Vizualizace symetrické matice čítající sto objektů bez omezení (0-100)...69 7.2: Vizualizace předchozí úlohy s omezením 8-92...70 7.3: Vizualizace předchozí úlohy s omezením 90-100...70 7.4: Vizualizace symetrické matice čítající 50 objektů...71 7.5: Vizualizace symetrické matice čítající 200 objektů...71 7.6: Vizualizace symetrické matice čítající 500 objektů...72 7.7: Vizualizace předchozí úlohy s omezením 255-500...72 7.8: Vizualizace symetrické matice čítající 1000 objektů...73 7.9: Vizualizace předchozí úlohy s omezením 963-1000...73 8

1. Úvod Lidstvo si odjakživa předávalo vědomosti buď ústní formou, nebo se snažilo používat různé záznamové metody pro jejich uchování, ať už si pod pojmem záznamové metody představujeme v dnešní době cokoliv. Moderní současný člověk se snaží své vědění uchovávat stále častěji a ve větším objemu než kdykoliv před tím. Kdysi pojem informace nebyl znám tak jako dnes, v době, kdy se s ním setkáváme zcela běžně každý den. Ať už naším znalostem říkáme informace nebo vědomosti, nevyhneme se potřebě tyto údaje nějakým způsobem pokud možno snadno a rychle efektivně vyhledat, kdykoliv je to potřeba. Pro vyhledání konkrétní informace stačilo ještě v minulém století otevřít encyklopedii, slovník, atlas nebo jiný tištěný zdroj. Dnes, pokud máme potřebu něco vyhledat, zpravidla zasedneme k počítači a snažíme se danou informaci vyhledat co nejrychleji bez zdlouhavého listování stovkami, až tisíci stránek. Současně v tichosti věříme, že zdroj, z něhož se danou informaci dovíme, je věrohodný. Předpokládejme, že údaj je pravdivý a zaměřme se jen na způsoby, jakými jsou prezentovány výsledky našeho hledání. Výsledky odpovídající našemu dotazu lze v dnešní době vizualizovat pomocí spousty různých technik počínaje textem uvedeném na jednotlivých řádcích a konče vizualizacemi simulujícími třetí rozměr. My se v této práci budeme zabývat nejrůznějšími postupy, jak se dají výsledky zobrazit v pokud možno přehledné formě. Ukážeme si, jak se některé výsledky nechají potlačit, ať už se jedná o méně relevantní informace nebo o zúžení zaměření pohledu na část výsledků z důvodu velkého množství odpovědí na náš dotaz. Zmínili jsme, že nejjednodušším způsobem prezentace výsledků dotazů je textová forma. Při vizualizaci odpovědí pomocí graficky atraktivnějších metod nebo dokonce nejrůznějších technik simulujících efektně působící trojrozměrná prostředí se však vždy neobejdeme bez minimální textové prezentace, třebaže se přímo nebude jednat o detailní odpovědi ale o označení rozdílných skupin výsledků, v nichž se má nebo může odpověď na náš dotaz vyskytovat. Zaměříme se tedy na možnosti vizualizace vyhledávání textových výsledků. Metody obrazových výsledků jako odpovědí na dotaz jsou zatím ve 9

fázích výzkumů a testů. Je stále velice obtížné získat jako odpověď sadu obrazových výsledků, pokud pomineme textové zadání dotazu. Chceme-li dostat sadu odpovědí tak, že jako vstup uvedeme třeba fotografii nějakého objektu, ocitáme se zatím v oblasti fikce. Stále je třeba zadávat vstupy v textové podobě. Je důležité si také uvědomit, že se nezaměřujeme jen na úlohy, kdy položíme jasný dotaz a na něj budeme očekávat pouze jednu dvě odpovědi, kterou si necháme zobrazit. Často chceme získat komplexní nebo je-li to možné všeobecný výsledek na náš dotaz. Výsledkem tak nebude třeba jednoslovná odpověď ale množina celých dokumentů týkajících se dané problematiky. Tyto dokumenty je často vhodné při velkém počtu organizovat do nějaké vhodné struktury, hierarchie. Moderní vizualizační nástroje umí takové struktury vizualizovat a my si ukážeme na praktických příkladech, jak taková prezentace může vypadat a jaké jsou výhody nebo úskalí jednotlivých vizualizačních postupů. 1.1 Struktura práce Práce je rozdělena do osmi kapitol. Hned za touto sekcí následuje kapitola 2, která odpovídá na otázku, co je information retrieval a popisuje model systému získávání dat. V kapitole 3 se dočteme o zásadách návrhu vizualizačních prostředků a jejich funkcích a v kapitole 4 popíšeme proces přístupu k informacím. Kapitola 5 se zabývá jednotlivými vizualizačními metodami od jednoduchých grafů a histogramů až po trojrozměrné metody a další speciální nástroje, které spojují více technik do jedné. V kapitole 6 se budeme zabývat naší aplikací pro vizualizaci symetrických matic s velkým počtem objektů umožňující zobrazit také hierarchickou strukturu popsanou binárním stromem. Popíšeme si jednotlivé třídy, které bylo třeba upravit, abychom dosáhli požadovaných výsledků. V testech v kapitole 7 budeme na příkladech ilustrovat vizualizace symetrických matic čítajících až 1000 objektů a v kapitole 8 provedeme celkové shrnutí práce a provedených testů. 10

2. Information Retrieval 2.1 Co je Information Retrieval Problém uložení a zpětného vyhledání informace si získává stále větší pozornost už od poloviny minulého století [1]. Důvod je zřejmý: lidstvo vytváří obrovské množství informací informačních pramenů. K těmto zdrojům je požadován přesný a rychlý přístup, což se stává stále obtížnější. Jedním z rysů obtížnosti přístupu ke hledaným údajům je, že tyto zůstávají někdy nepovšimnuty, což postupně vede k opakování úsilí při vyhledávání. S nástupem výpočetní techniky byla velká část lidské snahy soustředěna směrem k využití počítačů poskytujících rychlé a rozumné vyhledávácí systémy. Problémy spojené například s katalogizací a administrací dokumentů v knihovnách byly úspěšně přeneseny na bedra výpočetní techniky, avšak problém efektivního vyhledávání informací zůstává v obecné rovině stále nevyřešen. Uložení a nalezení informace je v podstatě jednoduché. Mějme kolekci dokumentů (knihovnu) s uloženými dokumenty a osobu formulující dotaz, na nějž je odpovědí soubor takových dokumentů, které uspokojí svou informační hodnotou osobu kladoucí dotaz. Získat takový soubor dokumentů můžeme třeba přečtením všech dokumentů z kolekce. Relevantní dokumenty si ponecháme a ostatní odložíme stranou. Je jisté, že takto máme zaručeno dokonalé prohledání dokumentů. Toto řešení je však velice nepraktické, ne-li neproveditelné. Nikdo přece nemá tolik času, aby pročítal celou sbírku dokumentů, nehledě na fakt, že to ani není v lidských silách. Pro zajímavost uvádíme údaj z listopadu 2004, kdy Google indexoval zhruba 8 miliard dokumentů a z toho je asi 20 milionů česky psaných. Stále narůstající výpočetní výkon počítačů dovolil vzniknout myšlence, že by počítače mohly být schopny pročítat celé sklady dokumentů, aby získaly odpovídající dokumenty kladením dotazů v přirozeném jazyce. Ukázalo se, že takový postup problém neřeší. Rovněž nechává nevyřešený problém popisu obsahu dokumentu. Můžeme se jen domnívat, že za několik let bude možné provádět dotaz v přirozeném jazyce. Automatický popis dokumentů, při kterém software nahrazuje práci člověka, umožňuje efektivnější způsob při vyhledávání. Software přečte daný dokument a extrahuje z něj informaci, kterou použije k tomu, aby rozhodl, zdali je dokument relevantní nebo ne. Obtížnost však není jen 11

v tom, jak informaci extrahovat, ale také v tom, jak ji použít k vyhodnocení relevance. Jakmile je zhotoven popis dokumentu, je očekáváno, že bude uveden jako odezva na daný dotaz. Lidé tradičně popisují dokumenty tak, aby co nejlépe vystihli jejich obsah a umožnili je zobrazit jako výsledek dotazu s patřičnou relevancí. Nicméně stále je na člověku, aby stanovil relevanci dokumentu na daný dotaz. Chceme-li i tuto práci nějakým způsobem převést na počítač, musíme vytvořit takový model, v němž může být relevance snadno měřitelná. Je zajímavé si povšimnout, že většina výzkumů v získávání informací - Information Retrieval (dále jen IR) se týká různých hledisek na takové modely. 2.2 Sytém získávání dat 2.2.1 Model systému získávání dat Typický model systému získávání dat (dále jen IR systém) je znázorněn na obrázku 2.1 [2]. DOTAZY ODEZVA VSTUP PROCESOR VÝSTUP DOKUMENTY Obrázek 2.1: IR systém Hlavní problém je hned na začátku. Jak vlastně reprezentovat data a jak dotazy, aby je bylo možno zpracovat počítačem? Mějme kolekci dokumentů textového charakteru, které mají být popsány. Tyto dokumenty jsou reprezentovány například pomocí seznamu extrahovaných slov, která se považují za významná. Díky tomu je možno použít místo přirozeného jazyka jazyk umělý, který umožní formulovat dotaz. To samozřejmě předpokládá, že uživatel bude schopen vyjádřit svůj dotaz právě v takovém jazyce. 12

Jestliže je IR systém provozován on-line, je pravděpodobné, že uživatel bude několikrát upravovat požadavek během jednoho hledání s ohledem na vzorky odpovědí. Proto je také třeba zohlednit dodatečné procesy požadavků vedoucí k upřesnění dotazu. Tento proces se obvykle nazývá odezva feedback (příklad takového důmyslného IR systému pracujícího on-line je systém MEDLINE [1]). Procesor (viz obrázek 2.1) je část IR systému týkající se samotného procesu získávání informací. Proces může zahrnovat uspořádání informací nějakým vhodným způsobem. To může rovněž zahrnovat vykonání aktuální vyhledávací funkce, kterou je provedení pomocí vyhledávací strategie v reakci na dotaz. V diagramu jsou dokumenty umístěny v samostatném obdélníku. Tím je zdůrazněn fakt, že dokumenty nejsou pouhým vstupem, ale mohou být použity během procesu získávání informací takovým způsobem, že se jejich struktura chápe jako část procesu získávání informací. Na výstupu se nakonec objeví množina citací nebo dokumentů. Proces IR lze tedy rozdělit do tří oblastí: Analýza obsahu Uspořádání (struktura) informací Vyhodnocení Analýza obsahu se zabývá popisem obsahu dokumentů formou vhodnou pro zpracování počítačem. Uspořádání se podílí na využití vztahů mezi dokumenty ke zlepšení efektivity strategií IR. Vyhodnocení zahrnuje míru efektivity IR. Existují různé přístupy k reprezentaci dokumentů. Nejznámější je frekvenční analýza [2], která používá frekvenci počtu slov v textu dokumentu ke stanovení takových slov, která jsou dostatečně významná, aby mohla reprezentovat nebo charakterizovat dokument v počítači. Seznam takových slov zvaných klíčová slova je získán pro každý dokument. Frekvence výskytu těchto slov v těle textu je navíc použita pro vyjádření stupně důležitosti. Použití statistických informací o výskytu slov v dokumentech dále slouží k získání statistiky vztahů mezi klíčovými slovy. Tyto vztahy poskytují základ pro konstrukci tezauru, který se dá použít jako podpora při vyhledávání. Využití míry spojení mezi klíčovými slovy je základem pro frekvenci společného výskytu klíčových slov vyskytujících se společně ve stejném dokumentu. Tato související slova mohou být použita k efektivnímu 13

zlepšení odezvy, což vede ke zvýšení podílu relevantních dokumentů, které byly vyhledány. 2.2.2 Struktura informací Termín struktura informací představuje zejména logické upořádání informací pro účely IR [2]. Velmi oblíbenou organizací dat se zpočátku ukázal být invertovaný soubor. Tato struktura však má svá omezení. V současné době se výzkum soustředí na shluky souborů pro on-line IR. Uspřádání těchto souborů je vytvořeno automatickými metodami uspořádání. 14

3. Vizualizace v IR Proces vyhledávání dat v obrovské kolekci informací v dnešní době vyžaduje poskytnout rozhraní mezi uživatelem - člověkem hledajícím informace a systémem IR [1], které bude postupně vizualizovat výsledky hledání. Je třeba zohlednit fakt, že k takovému systému přistupuje i uživatel, který nemá zcela určitou představu o tom, jak dosáhnout svého cíle. A právě v takovém případě by mělo uživatelské rozhraní pomoci uživateli v porozumění a vyjádření svých potřeb. Mělo by uživateli poskytnout pomoc při formulaci dotazu, výběru mezi dostupnými informačními zdroji a porozumění výsledku hledání. Uživatelské rozhraní by mělo mít také mechanismy zajišťující sledování postupu během celého procesu vyhledávání. Uživatelské rozhraní mezi člověkem (uživatelem) a počítačem (systémem IR) je obtížné navrhnout zejména proto, že člověk uvažuje komplexněji a v mnohem širších rozměrech než v jakých dimenzích pracuje jakýkoliv systém IR. Je velice obtížné vůbec měřit nebo vyjádřit motivaci a chování uživatele během procesu vyhledávání. Tato oblast prochází obrovským vývojem. Dobře navržený počítačový systém má během jeho ovládání vytvářet mezi uživateli pocit úspěchu, způsobilosti, ovládnutí a srozumitelnosti systému. Pokud je interaktivní systém správně navržen, mělo by jeho rozhraní téměř vymizet, aby měl uživatel možnost soustředit se jen na svou práci, výzkum nebo zábavu. 3.1 Zásady návrhu uživatelského rozhraní IR systému Aby bylo možno dosáhnout cílů uvedených v předchozím odstavci, je potřeba dodržet zásady pro návrh uživatelského rozhraní [1]: Poskytnutí zpětné vazby Snížení zatížení operační paměti 15

Poskytnutí různého uživatelského rozhraní pro začátečníky a odborníky Poskytnutí zpětné vazby je důležité zejména pro rozhraní poskytující přístup k informacím. Přístup k informacím je totiž obvykle iterativní proces, jehož cíl se může obměnit či posunout vhledem k právě dosaženým výsledkům. Snížení zatížení paměťového prostoru pak znamená poskytnutí takových mechanismů, které budou sledovat směr dosavadních voleb uskutečněných během procesu vyhledávání a umožní udržet nebo změnit vyhledávací strategii nebo se vrátit k předchozím výsledkům. Pro běžného uživatele by mělo být poskytnuto jednoduché rozhraní poskytující základní funkce a jehož ovládání je intuitivní. Naopak expert by měl mít možnost se setkat s rozhraním, které mu nabídne mnohem více možností ovládání IR systému nebo zcela jiný interakční model. 3.2 Funkce vizualizace Na počátku byly všechny interaktivní programy (dá-li se vůbec použít slovo interaktivní) ovládány z příkazové řádky. Odpověď na dotaz byla rovněž zobrazena v řádcích. Později začaly výstupy dostávat grafickou podobu. Uživatelská rozhraní postupně doznala také výrazných změn a dnes jsme již všichni zvyklí na to, že programy běží v graficky oddělených rámech oknech a tyto obsahují různé ovládací prvky, jejichž vzhled je vizuálně odlišen od ostatních částí okna. Méně známou avšak rozrůstající se oblastí je vizualizace informací, která poskytuje vizuální zobrazení obrovského informačního prostoru. Rostoucí převaha procesorů obsahujících instrukce pro zlepšení práce s grafikou a monitory s vysokým rozlišením a 32 bitovou barevnou hloubkou zvyšují zájem o vizualizaci informací. Nejrychleji se rozvíjejícím oborem v této oblasti jsou vizualizace fyzikálních jevů do dvojrozměrných či trojrozměrných grafů. Poslední výzkumy na tomto poli působnosti vedou ke snaze vizualizovat abstraktní informace, jako jsou třeba textová data, což je velice obtížné. Jazyk jako náš hlavní prostředek komunikace nemá jasný popis podle žádných přesně daných měřítek. Mohli bychom vyjmenovat spoustu dalších množin informací různé povahy, jež by bylo třeba vizualizovat. Navzdory všem překážkám se výzkum v této oblasti snaží vizualizovat všechny stránky procesu přístupu k informacím pomocí technik vizualizací informací, které budou popsány v následující kapitole. 16

3.3 Hlavní techniky vizualizace Technika barevného zvýraznění a spojení se vztahuje k propojení dvou nebo více pohledů na tatáž data takovým způsobem, že změna v zobrazení informace v jednom pohledu ovlivní zobrazení také v ostatních pohledech [1]. Snímání pomocí virtuální kamery a přibližování (resp. vzdalování) simuluje filmovou kameru, která pluje napříč zobrazovanou scénou nebo se přibližuje - zoomuje (resp. vzdaluje). Tato metoda může být použita například při shlukování textových dokumentů. Při pohledu na nejvyšší úrovni se zobrazí hlavní témata z celé kolekce dokumentů. Přiblížení se k určité části zobrazí jednotlivé dokumenty jako ikony a další přiblížení navíc ještě ukáže text, který je přiřazen ke každému jednotlivému dokumentu. Přiblížení nám zobrazí mnohem více detailů v centru pozornosti, avšak ztratíme detailní informace o okolních datech. Technika zvaná focus-plus-context částečně zmírňuje efekt předchozí techniky. Idea je taková, že část pohledu, která je v ohnisku zájmu, se zvětší, zatímco ostatní objekty ustoupí (srovnatelné s rybím okem). Technika focus-plus-context využívá pohled na informační prostor integrovaný v jednom okně, přičemž používá různých vizuálních efektů, které zdůrazňují oblast v centru zájmu. K tomu jsou zapotřebí mechanismy, které pří změně ohniska zájmu zachovají souvislosti tak, aby zůstaly zobrazeny, jak nejvíce to jde. Magická lupa je vizualizační technika, kterou je možno chápat jako průhledné okno, jímž lze pohybovat přímo v zobrazovací oblasti. Když okno dosáhne na nějaký jiný typ dat, způsobí změny, které se projeví na těchto původních datech, což změní jejich reprezentaci. 3.4 Hodnocení interaktivních systémů Z hlediska návrhu uživatelského rozhraní mají různí lidé různé schopnosti, požadavky a zvyky [1]. Při návrhu takového rozhraní rozhoduje schopnost prostorového vnímání, schopnost zapamatovat si určitý objem informací, rozhodovací schopnost, vyjadřovací schopnost a různé osobnostní rozdíly. Různá zlepšení v rozhraní takových systémů mohou být užitečná pro jedny uživatele a pro druhé mohu být naopak nepřekonatelně těžká. 17

Důležitým hlediskem interakce mezi člověkem a počítačem je metodika pro ohodnocení technik uživatelského rozhraní. Měření přesnosti a odezvy byla široce používaná k porovnání klasifikace výsledků neinteraktivních systémů, ale nebyly vhodné pro hodnocení interaktivních systémů. Standardní hodnocení klade důraz na vysoký počet odpovědí. Uživatelé však často požadují pouze několik relevantních dokumentů a neoceňují tak interaktivní systémy, které jim nabídnou vysoký počet odpovědí. 18

4. Proces přístupu k informacím 4.1 Standardní model přístupu k informacím - interakční Uživatel hledající informace má na mysli zpravidla hned několik cílů a vyhledávací systém používá jako nástroj k dosažení svých cílů [1]. Jejich rozsah je vskutku široký a úloha přístupu k informacím musí pokrýt celé jejich spektrum, od specifických dotazů až k podrobnému zkoumání daného tématu. Přestože jsou mnohé cíle velice odlišné, mají všechny společné jádro týkající se vyhledávací části. Předpokládá se, že většina procesů přístupu k informacím bude tvořit jakýsi opakovací cyklus popsaný následující posloupností kroků: 1. Poptávka po informaci. 2. Výběr vyhledávacího systému. 3. Formulování dotazu. 4. Odeslání dotazu do systému. 5. Obdržení výsledků v podobě jednotlivých položek. 6. Vyhodnocení výsledků. 7. Konec cyklu nebo pokračovat bodem 8. 8. Přeformulování dotazu a opakování od bodu 4. Tento model, který je užíván webovými vyhledávači, je lépe znázorněn na obrázku 4.1. Model nebere v úvahu fakt, že mnoho uživatelů se nerado potýká s dlouhým neuspořádaným seznamem získaných výsledků, které jim zcela přímo neodpoví na jejich dotaz. Model rovněž předpokládá, že uživatel postupně zdokonaluje svůj dotaz, dokud nedostane pouze ty správné dokumenty. Uživatelé se ve skutečnosti během vyhledávacího procesu učí. Prohlížejí si informace, čtou názvy v souboru výsledků, čtou samotné dokumenty získané jako odpovědi na dotaz, přičemž sledují seznam témat 19

vztahující se k jejich dotazu a procházejí vnitřní strukturou vzájemně propojených webových stránek. Současný nástup hyperodkazů - stěžejní část procesu vyhledávaní informací - způsobil, že si už nelze nevšímat úlohy prohlížení a procházení výsledků dotazu uvnitř samotného vyhledávacího procesu. Standardní model rovněž zlehčuje interakci, ke které dochází v době, kdy si uživatel prohlíží výrazy navržené jako odpovídající výsledky nebo si prochází témata kolekcí dokumentů. To snižuje úlohu výběru zdroje, který je v dnešní době mnohem více důležitý hned v prvním kroku, kdy jsou okamžitě dosažitelné desítky tisíc kolekcí informací. Poptávka po informaci Dotaz Odeslání dotazu systému Přeformulování dotazu Získání výsledků Vyhodnocení výsledků Ne Platí? Konec Ano Obrázek 4.1: Zjednodušený diagram modelu procesu přístupu k informacím Bates předložil model zvaný berry-picking (sbírání zrníček), který má dva hlavní body [1]. V prvním bodě uvádí, že výsledek čtení a učení se z informací, se kterými se setkáme v průběhu vyhledávacího procesu, vede k tomu, že se následující dotazy neustále posunují dopředu vedou novým mnohdy neočekávaným směrem. Původní cíl může být částečně naplněn, čímž se 20

sníží priorita jednoho cíle ve prospěch druhého. Toto je v rozporu s předpokladem standardního získávání informací, kdy poptávka po informaci zůstává stejná po celou dobu vyhledávacího procesu. Ve druhém bodě uvádí, že poptávka po informaci není uspokojena jednoduchým a konečným souborem dokumentů, ale spíše nám vyhovuje skupina kousků informací, na které narazíme během vyhledávacího procesu. Toto je opět v rozporu s předpokladem, že hlavní cíl vyhledávacího procesu je zdokonalovat soubor získaných dokumentů, který odpovídá požadavku na informaci. Batesův model je podpořen mnoha studiemi [1]. Ukázalo se, že proces vyhledávání informací je složen z řady vzájemně propojených, ale rozdílných hledání, která se však týkají jednoho tématu. Studie také prokázaly, že výsledky hledání směřující k cíli mají tendenci vyvolat cíle nové a tím ubírat vyhledávání novým směrem, ale tak aby se kontext problému a předchozího vyhledávání přenesl z jednoho stupně vyhledávání na stupeň další. Uživatelské rozhraní pro přístup k informacím by tedy mělo uživateli dovolit přehodnotit své cíle a přizpůsobit tomu i vyhledávací strategii. Podobná situace nastane, když uživatel narazí na něco, co způsobí dočasnou změnu jeho strategie, třeba když se chce později vrátit k nějaké nedokončené aktivitě. Z tohoto pozorování vyplývá, že uživatelské rozhraní by mělo podporovat vyhledávací strategie tím, že by usnadnilo sledování cest vedoucích k předem neočekávaným výsledkům. Toho může být částečně dosaženo zaznamenáváním postupu aktuální vyhledávací strategie a uchovat, vyvolat a znovu zavést mezivýsledky a současně podporovat uplatnění hned několika strategií. Uživatelské rozhraní by mělo také podporovat metody pro sledování stavu aktuální strategie ve vztahu k uživatelově aktuálnímu úkolu. Jedním ze způsobů je vyhodnotit poměr výdajů a výnosů a všímat si případné snižující se návratnosti. Jinými slovy zdá-li se v důsledku jiná strategie užitečnější než ta současná, použije se dočasně ta lepší. 4.2 Nevyhledávací část procesu přístupu k informacím Studie O Daye a Jeffriese ukazují [1], že hledání informací je pouze jedna část celého procesu, kterým se zabývají. Mezi jednotlivými částmi vyhledávání dochází k mnoha různým druhům činností se získanými informacemi včetně čtení, zaznamenávání výsledků a jejich analyzování. O Day a Jeffries podrobněji zkoumali jednotlivé kroky analýzy a zjistili, že 80% činnosti lze rozdělit do šesti hlavních typů činností: hledání směru trendu, porovnávání, seskupování informací, rozpoznávání kritických 21

podskupin, vyhodnocování a výklad interpretace. Zbylých 20% se skládá ze vzájemného ověřování, shromažďování, hledání vhodné vizualizace a jiné činnosti. Proces přístupu k informacím lze tedy rozdělit na dvě hlavní části: hledání/nalezení dat rozbor/shrnutí výsledků Uživatelské rozhraní by v sobě mělo oba druhy aktivit implementovat. Nicméně rozbor a shrnutí výsledků jsou činnosti, které mohou být prováděny odděleně mimo vyhledávací činnost a proto je užitečné tyto druhy rozlišovat. 22

5. Způsoby vizualizace v IR 5.1 Úvod Dolování dat z textu klade důraz na uživatelovu spolupráci během procesu objevování nových znalostí a v důsledku toho musí systémy dolování dat uživateli poskytovat řadu nástrojů pro manipulaci s daty [7]. Tyto nástroje se pro široké spektrum úloh spoléhají na velice jednoduché grafické metody jako výběrový seznam, rozevírací seznam a radio boxy, které se staly typické pro běžné aplikace, aby podpořily formulování dotazu a základní možnosti prohledávání potenciálně zajímavého obsahu. U rozsáhlých kolekcí dokumentů však problém nadbytečnosti zobrazení všech údajů najednou vedl návrháře těchto systémů přiklonit se k vytváření důmyslnějších vizualizačních prostředků, aby tak uživatelům usnadnili jejich práci, protože nasadit jednoduché vizualizační mechanismy na obrovské kolekce dokumentů je nepoužitelné. Důmyslnější prostředky vizualizace se již opírají o pokroky v nejrůznějších oblastech výzkumů informatiky, aby podpořily snadnější, intenzivnější a mnohem více interaktivní zkoumání vzorků v textových datech [7]. Mnoho běžných aktivit, které umožňují uživateli systému zajistit základní průzkum dat, jsou podpořeny grafickým uživatelským rozhraním, které slouží jako základní prohlížeč. Takový typický příklad základního rozhraní vidíme na obrázku 5.1. Tento typ často kombinuje omezenou funkci kladení dotazů spolu s omezeným pohledem na podmnožinu textových dat v kolekci dokumentů. Jako doplněk některé systémy podporují vykreslení statických grafů pro výsledky dotazů. I když základní prohlížeče i vizualizační nástroje umožňují interakci s daty, vizualizační nástroje obvykle používají mnohem propracovanější rozhraní, které se snaží co nejvíce využít zrakové schopnosti uživatele k rozpoznání vzoru. Interaktivní kruhový graf (viz obrázek 5.2) - běžný vizualizační nástroj v systémech dolování dat z textu - může být například přizpůsoben tak, aby výzkumníkům rakoviny umožnil kompletně prozkoumat celý soubor literatury týkající se medicínského výzkumu v jednoduchém grafu. Tento typ vizualizačního nástroje umožňuje výzkumníkům provádět nad obrovským množstvím dat různá vyhodnocování, manipulace a procházení 23

jejich strukturou a to vše relativně snadno a rychle. Ovládací prvky jako jsou filtry nebo jiné omezující techniky mohou být začleněny do celého procesu prováděné vizualizace pouhým kliknutím na určitý pojem. Obrázek 5.1: Základní způsob prohledávání kategorií v systému dolování dat z textu Obrázek 5.2: Kruhová spojová mapa lékařské literatury týkající se AIDS s přiloženou ukázkou filtru pro upřesnění výběru. Příklad demonstruje vztahy mezi geny a nemocemi získaných z 30.000 abstraktů MedLine. Výsledky jsou založeny na současném výskytu genů a onemocnění uvnitř téže věty 24

Nesporné výhody, které mají jednotlivé vizualizační techniky oproti znakově orientovanému prohledávání, jsou shrnuty v následujících bodech: Stručná reprezentace: schopnost zobrazit obrovské množství rozdílných typů dat najednou. Přibližnost: schopnost snadno zobrazit shluky, schopnost zobrazit různé velikosti seskupení dat v poměru k jiným seskupením, schopnost zobrazit podobnost a rozdílnost seskupení, Důraz na souvislosti: schopnost reagovat na určitý důležitý rys a zároveň vidět takový jev zasazen v jeho dalších souvislostech. Schopnost změny perspektivy: možnost změny z blízkého pohledu na pohled vzdálený rychle a snadno v jednom kroku Stimulace myšlení správným směrem: schopnost dovést uživatele ke spolupráci s textovými daty, která nebude vedena pouze předem promyšleným záměrem, ale též jako výsledek intuitivního nebo prostorově orientovaného poznávacího procesu za účelem rozpoznání zajímavých vzorků. Na druhé straně přehnané přidávání komplexních grafických prvků do vizualizačního rozhraní nemusí hned nutně znamenat to, že je rozhraní vhodnější pro svůj účel než jiné. Příliš komplexní vizualizační nástroje mohou dokonce i zabránit prozkoumávání textových dat zvláště když návrháři systémů dolování dat upustí ze zřetele hlavní výhody, které má grafická reprezentace prvků oproti obyčejným formátům prohlížečů založeným na formulářích a tabulkách. 5.2 Standardní přístupy k vizualizaci 5.2.1 Jednoduchý graf pojmů Tento vizualizační nástroj je velice účinný prostředek pro snazší pochopení tématiky kolekcí dokumentů. Hlavní výhody těchto nástrojů jsou jejich schopnost organizovat zkoumání textových dat a umožnit interaktivitu což znamená, že uživatel může kliknout na každý uzel nebo hranu a získat hledané dokumenty nebo zahájit další operace na grafech. Mezi těmito výhodami je také vzájemná vazba. Uživatelsky jednoduché rozhraní s organizací dat dovede mnohem více podpořit interaktivitu s těmito daty. 25

Obrázek 5.3: Interaktivní graf je použit pro znázornění klasifikačních skupin jako hierarchického stromu Jednoduchý graf množin pojmů Jedním z nejzákladnějších a všeobecně použitelných vizualizačních nástrojů v dolování dat z textu je jednoduchá hierarchická stromová struktura. Na obrázku 5.3 vidíme klasickou vizualizaci pro klasifikaci pojmů v kolekci dokumentů. Kořen a list vrcholů (uzlů) takové vizualizace jsou jednotlivé identifikátory pojmů (např. jména pro označení pojmů). Tento druh vizualizačního nástroje může být také snadno uživateli přizpůsoben tak, aby mohl kliknout na uzel a posunout se směrem k základním dokumentům obsahujícím pojem. Nejběžnější způsob jak graficky zobrazit množinu pojmů je tedy právě pomocí jednoduché hierarchické stromové struktury. Obrázek 5.3 ukazuje množinový graf pro často opakované množiny seřazené do stromové struktury. Uživatel může pracovat s tímto grafem vybráním uzlů, otevřít a uzavřít uzly, nebo definovat nové hledání s ohledem na tyto uzly například pro rozšíření stromu. Jednoduchý graf asociací pojmů Zaměřuje se na reprezentaci spojení - asociací. Je složen z jednotlivých vrcholů, které mohou být hranami připojeny k množině několika dalších vrcholů. Tento typ grafu je typicky používán ke spojení pojmů určité kategorie. V každém vrcholu takového grafu je vždy pouze 26

jeden pojem. Dva pojmy jsou spojeny hranou, jestliže je jejich podobnost s ohledem na podobnostní funkci větší než dané omezení. Yahoo 11 Overture 4 Google 6 37 36 17 Microsoft 29 24 7 MSN Sun 21 Convera 32 11 6 Autonomy 7 Verity IBM 9 Lycos 3 Findwhat Obrázek 5.4: Graf asociací pojmů: jeden vrchol, jedna kategorie (sofwarové společnosti v kontextu s vyhledávači) Jednoduchý graf asociací pojmů může být neorientovaný nebo orientovaný, i když neorientované grafy jsou pravděpodobně typičtější. Neorientovaný graf může být například použit ke grafickému zobrazení asociací mezi generickými pojmy v dokumentu kolekcí generovaných z podnikové finanční dokumentace. Na druhou stranu orientovaný graf lze použít při vytváření nástroje k vizualizaci asociace mezi proteiny v těle z výzkumné literatury. Orientované hrany mezi jednotlivými vrcholy s pojmy 27

jsou pak označeny směrovými šipkami. Takový typ orientovaného grafu by mohl být užitečný nejen pro grafické znázornění hlavních asociací ale také pro zobrazení jevů, jak jeden protein účinkuje na jiný. Google Yahoo Microsoft Verity IBM Sun Search Database OEM Software Office Automation Obrázek 5.5: Graf asociací pojmů: jeden vrchol, různé kategorie Na obrázku 5.4 vidíme graf asociací pojmů pro kategorie společností v kontextu vyhledávačů a jednoduchou podobnostní funkci založenou na počtu dokumentů, ve kterých se společnosti zároveň vyskytují. Obrázek uživateli dovoluje rychle vyvodit závěr ohledně dat, což by jinak bylo možné pouze po pečlivém výzkumu, pokud by byl uživatel nucen tentýž úkol provést ručním procházením objemného počtu tabulek nebo textových či statistických údajů. Z uvedeného příkladu lze tedy vyvodit následující závěry: Microsoft, Google a IBM jsou nejvíce propojené společnosti; Lycos a Findwhat jsou jedinými členy samostatné komponenty grafu; MSN je spojen pouze s Microsoftem, atd. Jiný typ jednoduchého grafu asociací pojmů může představovat asociace mezi rozdílnými kategoriemi, jako jsou například společnosti a software. Jednotlivé vrcholy tohoto grafu jsou uspořádány do jakési mapy, na níž je rozdílné umístění objektů znázorňujících vrcholy použito k začlenění do kategorie pojmů. Hrany mezi společnostmi a softwarem pak představují odpovídající asociace. Často jsou takové grafy navrhovány jako bipartitní grafy zobrazující dvě kategorie pojmů tak, že jedna kategorie se nachází v horní části grafu a druhá kategorie v spodní části. Hrany mezi 28

nimi pak představují spojení mezi jednotlivými páry vrcholů. Obrázek 5.5 znázorňuje příklad takového grafu. 5.2.2 Histogramy Kromě základního způsobu vizualizace, jako jsou jednoduché grafy pojmů, spoléhaly často první systémy dolování dat z textu na klasické grafy, jako jsou histogramy (sloupcové grafy) [7]. Ačkoliv tvůrci takových systému ukázali vzrůstající vůli zakomponovat do svých systému mnohem komplexnější a interaktivní grafické nástroje, zachovaly si histogramy své využití při zkoumání vzorků v textových datech. Histogramy mají dnes stále své využití v systémech dolování textu a zdají se být vhodné zejména pro zobrazení výsledků dotazu týkajících se rozdělení a vzájemných poměrů hodnot. Nicméně i když se dvoudimenzionální sloupcové grafy během několika posledních let změnily jen trochu, celkově se prezentační prostředí, ve kterém jsou tyto grafy zobrazovány, značně zlepšilo. Reprezentace dat pomocí histogramu je nejčastěji doprovázena uživatelským rozhraním s oddělenými panely, které souběžně zobrazují odpovídající seznam nebo tabulky pojmů a jejich poměrů, viz obrázek 5.6. Histogramy jsou pro zobrazení takovýchto úloh velice užitečné, protože dovolují snadné srovnání různých pojmů v širším spektru jiných pojmů rovněž nalezených v kolekcích dokumentů. Nemůžeme však říct, že histogramy jsou jediným použitelným nástrojem v zobrazení těchto výsledků, nicméně jsou obvykle nejpoužívanější. Histogramy se navíc v poslední době stávají interaktivnější vzhledem k tomu, že jsou uživatelé schopni lépe ovládat různá omezení. Kombinace vysunovacích nebo rozdělených oken umožňuje pomocí posuvníků, různých číselníků a tlačítek nebo roletových menu nastavovat filtry tak, aby měl uživatel možnost vnímat změnu omezujících filtrů, které ovlivní výsledek dotazu, v reálném čase. Výrazné změny ve výškách jednotlivých sloupců v grafu jsou pro uživatele mnohem více patrnější než změny v číselných hodnotách v dlouhém seznamu nebo tabulce. Nevýhodou při zobrazování pojmů v celém rozsahu je, že menší rozdíly mezi sloupci jsou naopak těžko rozeznatelné. 5.2.3 Spojnicový graf Tak jako histogram nám nemusí hned na první pohled připadat jako nejvyspělejší metoda pro aplikace dolující data z textu, tak i spojnicový graf v nás může vyvolat stejný dojem [7]. Tento graf má však spoustu výhod. Mnoho akademických či komerčních systémů někdy používají spojnicový graf, aby podpořili proces objevování znalostí. 29

Obrázek 5.6: Levý panel uživatelského rozhraní ukazuje ve formě seznamu výsledky dotazu rozdělení pojmů. Pravý panel zobrazuje histogramovou reprezentaci stejného rozdělení Spojnicový graf je příkladem levného a uspokojivého řešení, jak údaje získané z textových dat vizualizovat. Tato řešení jsou levná, protože v sobě kombinují poměrně nízké systémové nároky a výdaje na jejich vývoj v tom, že existuje mnoho dostupných (levných nebo zcela zadarmo) softwarových knihoven, které mohou být využity k vytvoření určité vizualizační komponenty ve vlastní aplikaci. A tato řešení jsou uspokojivá, protože mnohé z těchto knihoven byly vyvíjeny zvláště proto, aby mohly být začleněny do co nejširšího okruhu aplikací [7]. V důsledku toho jsou integrace a přizpůsobení těchto knihoven poměrně snadno proveditelné a jejich nasazení vede přímo k požadovanému cíli. Tyto výhody činí ze spojnicových grafů dobrou volbu pro vývoj nekomplikovaných grafů během vytváření prvotních stupňů nově vyvíjených systémů dolování dat z textu. Implementace takových grafů je efektivní, protože pro vývojáře i uživatele umožňuje velice rychlou odezvu ohledně provádění algoritmů dolování textu. Mimo jejich využití jako vizualizačního nástroje pro vývoj jsou spojnicové grafy použitelné pro vizualizace výpočetních úloh vztahujících se 30

k širokému okruhu operací dolování textu. Vizualizační metody vztahující se k spojnicovým grafům jsou obecně dvojího typu. Obrázek 5.7: Spojnicový graf ukazuje hodnoty asociací pro tři sady dotazů První typ zahrnuje porovnání položek v celém jejich rozsahu. Jedna osa grafu představuje nějaké měřítko a druhá uvádí prvky pro srovnání. Příklad takového grafu můžeme vidět na obrázku obrázek 5.7. Druhý typ, který je pravděpodobně nejběžnější typ spojnicového grafu používaného v dolování dat z textu, je graf zobrazující vývoj veličiny či její velikost v průběhu času. Čárové diagramy poskytují velmi snadné pochopení grafické reprezentace analýz, které se provádí periodicky. Na vertikální ose je vynesena velikost hodnoty a horizontální osa označuje časové období. Viz obrázek 5.8. Spojnicový graf může být použit také jako hybrid předchozích dvou typů. Použitím víceřádkového grafu můžeme srovnávat různé typy společné pro úlohy dolování textu v souvislosti s časem. Viz obrázek 5.9. 5.2.4 Kruhový graf Kruhový graf je vizualizační metoda, která se dá použít pro umístění velkého množství informací do dvourozměrného formátu. Často se o něm hovoří jako o vizualizačním přístupu zřejmém na první pohled, protože 31

není potřeba žádné další navigace, abychom dostali kompletní a velmi přesnou vizualizaci pro případný rozsáhlý objem dat. Obrázek 5.8: Spojnicový graf zobrazující počet dokumentů obsahujících pojem Osama bin Laden během určitého časového rozpětí Obrázek 5.9: Dva příklady víceřádkového grafu srovnávajících vývoj hodnot v průběhu času [9] 32

Obrázek 5.10: Kruhový graf Kruhový graf je vhodný zvláště při vizualizaci vzorků asociačních pravidel, ačkoliv se dá taky přizpůsobit k zobrazení informací o kategoriích. Tento formát získal oblibu díky hojnému používání komerčního vizualizačního nástroje pro dolování dat zvaného NetMap (http://www.altaanalytics.com/). Obrázek 5.10 ukazuje základní kruhový graf. Kruhový graf je v podstatě, jak již vyplývá z názvu, kruhovitý graf kopírující obvod kružnice, ve kterém jsou zakresleny položky. Vztahy mezi těmito položkami jsou představovány hranami, které spojují položky napříč vnitřním prostorem kruhu. Různé rozlišovací prvky, jako jsou barva a tloušťka spojovacích čar, mohou být použity tak, aby korespondovaly určitým typům vlastností spojení. Barevné přechody gradienty spojovacích čar mohou být použity pro zobrazení směru daného vztahu. Kruhové grafy jsou vynikající při modelování asociačních pravidel, která se vyskytují v množinách odpovědí na dotazy (viz obrázek 5.11). Jednotlivé pojmy jsou rozmístěny po okraji kruhu kruhového grafu a jejich asociace s jinými pojmy jsou znázorněny spojovacími hranami. V kruhovém grafu znázorňujícím asociace jsou zcela běžně používána různá vizuální vylepšení. Výše zmíněné gradienty mohou být použity k zobrazení směrovosti asociace, přičemž jiná zřetelně odlišná barva může být použita pro spojovací čáry k označení obousměrné asociace. Různá tloušťka spojovacích čar může být použita pro vyznačení příslušných informací o hodnotách vztahujících se k informacím. A konečně velikost, barva a typ písma zvolených pro popisky pojmů mohou být použity pro obrazové sdělení informace o jednotlivých pojmech v množinách výsledků dotazů. Pro zlepšení interaktivity v kruhových grafech je možno nechat pojmy na obvodu kruhu a vnitřní spojovací čáry reagovat na kliknutí myši. Když třeba uživatel klikne na pojem nebo pouze najede myší na jeho pozici, může získat další informace vztahující se k danému pojmu. Kliknutím myší na spojovací hranu může zase naopak vidět zvýrazněné asociace v seznamu asociací, které odpovídají případným stejným hodnotám. 33

Obrázek 5.11: Kruhový graf asociací Obrázek 5.12: Spojovací diagram kategorií v kontextu osob a organizací Ačkoliv se kruhové grafy hodí pro modelování rozsáhlých souborů dat asociací, je důležité rozpoznat, je-li taková vizualizační metoda skutečně vhodná a má-li vždy svůj efekt. Proto je vždy více než vhodné nabídnout uživateli snadný přístup k ovládacím prvkům pro možnost ovlivňovat různá omezení zobrazení tak, aby si mohl uživatel sám měnit vlastnosti zobrazení rychle a efektivně do podoby nejvhodnější pro danou úlohu vyhledávání. 34

Spojovací diagramy kategorií Kruhové grafy často slouží jako základ pro spojovací diagramy kategorií, což je další vizualizační nástroj užívaný při dolování dat z textu [7]. Spojovací diagramy kategorií zobrazují především asociace mezi pojmy z různých kategorií všechny v daném kontextu. Obrázek 5.12 zobrazuje spojovací diagram kategorií s asociacemi mezi jedinci v kategorii People a objekty v kategorii Organization všechny v souvislosti s terorismem. Při vytváření těchto diagramů je kladen velký důraz na formátování grafických a textových prvků na okraji kruhu. Na obrázku 5.12 jsou pojmy zakresleny kolem okraje kruhu takovým způsobem, že se pojmy z téže kategorie nachází vždy ve společné skupině. Všechny pojmy v dané kategorii mají typicky formátování ve stejné barvě a stejném typu písma k posílení názornosti vizualizační techniky, která zobrazuje pojmy uvnitř dané kategorie, přičemž se vždy výrazně liší od formátování jiných kategorií zobrazených v grafu. Hlavní popisky kategorií jsou nejčastěji zobrazeny doprostřed a vně celé skupiny svých pojmů jak je vidět například na obrázku 5.12, kde jsou názvy kategorií Person a Organization zvýrazněny tučným písmem podtrženy. Metody vícenásobného kruhového grafu a kombinovaného grafu Aplikace používající kruhové grafy mívají grafické rozhraní podporující zobrazení více než jednoho kruhového grafu najednou [7]. Jedním z důvodů může být to, že je kruhový graf schopen zobrazit obrovské množství dat najednou, což může vést k nepřehlednosti. Vícenásobný kruhový graf může velice usnadnit práci při porovnávání výsledků dotazů. Takový přístup může mít stěžejní vliv na dolování dat z textu, když se nechají vykreslit dva a více grafy najednou majíc každý různé omezující hodnoty. Jiný příklad tohoto přístupu je spojovací diagram kategorií použitý na stejnou kolekci dokumentů a stejné seskupení kategorií ale v různých kontextech. Každý z těchto příkladů by mohl uživateli dovolit stanovit rozdílnosti a podobnosti v grafových vzorcích vícenásobného grafu. Obrázek 5.13 ilustruje použití vícenásobného kruhového grafu. Jiná technika týkající se zobrazení vícenásobných kruhových grafů najednou vyplývá z pokusů zvýraznit podgraf zvnitřku kruhového grafu. Protože je možno kruhovým grafem zobrazit najednou příliš velké množství dat, některé jemné vztahy se mohou stát nejasné méně viditelné díky obecnějším a silnějším shlukům v grafu. 35

Obrázek 5.13: Kruhové grafy a podgrafy zobrazeny vedle sebe Tím že se dovolí uživateli kliknout na několik položek z hlavního grafu, může se nechat uživateli zobrazit podgraf zobrazující pouze vztahy mezi těmito položkami. Zobrazením podgrafu odděleně avšak zároveň s hlavním kruhovým grafem je dosaženo nové úrovně uživatelské interaktivity. 5.2.5 Samoorganizující síť - SOM Vizualizace dolování dat z textu je podporována díky výzkumům zaměřených na téma, jak mohou umělé neuronové sítě pomoci při vizualizaci informací [7]. Pravděpodobně nejdůležitějším přínosem jsou samoorganizující neuronové sítě (dále jen SOM), představeny v roce 1982 Teuvo Kohonenem a poprvé aplikované v roce 1991 v problematice vizualizace informací [4]. SOM jsou vytvářeny algoritmy, které během učící fáze opakovaně přizpůsobují váhové vektory mezi neurony, které jsou odvozeny ze vztahů nalezených ve vstupním souboru dat vysoké dimenze převedených do dvoudimenzionálních sítí. Díky tomuto přístupu mají SOM výhody v organizaci takových množin dat, které jsou extrémně velké co do objemu ale také vztahů mezi nimi. 36

Nyní si proces, díky kterému dochází k adaptaci vah uvnitř samoorganizující neuronové sítě, popíšeme podrobněji pomocí Kohonenova algoritmu v šesti bodech: 1. Inicializace sítě Na začátku jsou všechny váhy inicializovány malými náhodnými čísly. Parametr učení η (0 < η < 1) určující velikost změn při adaptaci vah je nastaven na hodnotu blízkou jedné a během učení se monotónně snižuje k nule. Tím je na začátku procesu učení dosaženo rychlejší adaptace vah. 2. Předložení vstupního vektoru Trénovací vzory jsou předkládány v náhodném pořadí ve formě 1() t, x2() t, K, xn(), t kde ( t) x x i je vstup uzlu i v čase t. 3. Výpočet vzdáleností stanovení vítěze kompetice Kolem každého neuronu je definováno okolí, kolem kterého budou prováděny změny vah, pokud bude tento neuron vybrán v kompetici. Velikost, tvar a míra vlivu tohoto okolí jsou parametry sítě a mění se během učení. 4. Výběr minimální vzdálenosti Pro předložený vzor najdeme jemu odpovídající nejbližší neuron. 5. Úprava vah Váhy vítězného neuronu a neuronu v jeho okolí jsou adaptovány m t + 1 = m t + η t h v, t x t m t, kde i = 1,2, K,n ( ) podle vztahu ( ) ( ) ( ) ( ) ( ) ( ) ij ij a j =1,2, K,n a lokální okolí neuronu je vyjádřeno adaptační funkcí h() v, jejíž hodnota se postupně snižuje, aby došlo ke stabilizaci nastavených vah. 6. Přestup k bodu 2. K dosažení nejlepšího uspořádání neuronu do shluku se na začátku volí velké okolí a velký vliv učeného vzoru na změny ve vahách neuronu. Postupným učením se vytvoří jednotlivé shluky. Poté je nutné snížit okolí neuronu a vliv změn při učení vzoru. Zmenšení rozsahu prováděných změn v uspořádání neuronu se provede násobením hodnot u adaptační funkce s parametrem učení η, jehož hodnota se s časem učení postupně snižuje k nule. Další a podrobnější informace týkající se problematiky popisu formálního neuronu, neuronových sítí a různých adaptačních technik jejich vah naleznete v Umělá inteligence a neuronové sítě od Ivo Vondráka [13]. i ij 37