Vizualizace v Information Retrieval Petr Kopka VŠB-TU Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky
Obsah Co je Information Retrieval, vizualizace, proces přístupu k informacím Způsoby vizualizace Aplikace GraphAnalysis Závěr Literatura a zdroje 2
Co je Information Retrieval Lidstvo vytváří obrovské množství informačních pramenů, člověk sám není schopen v takovém množství efektivně hledat Problém částečně přenesen na výpočetní techniku - automatický popis dokumentů nahrazuje práci člověka Problémy automatického popisu dokumentů 1. jak informaci extrahovat (na základě popisu dokumentu) 2. jak informaci použít k vyhodnocení relevance (stanovení relevance dokumentu na daný dotaz je stále na člověku) Přenos procesu stanovení relevance na počítač vyžaduje model umožňující snadno měřit relevanci 3
Co je Information Retrieval Model získávání dat DOTAZY ODEZVA VSTUP PROCESOR VÝSTUP DOKUMENTY Problém jak reprezentovat data a dotazy 4
Vizualizace v IR Proces vyhledávání dat vyžaduje poskytnutí rozhraní mezi uživatelem a systémem Systém postupně zobrazuje výsledky hledání Problém návrhu rozhraní člověk uvažuje mnohem komplexněji než počítač Zásady návrhu UI Zpětná vazba Nízké zatížení paměti Různé UI z hlediska odbornosti uživatele 5
Proces přístupu k informacím Model přístupu k informacím 1. Poptávka po informaci 2. Výběr vyhledávacího systému 3. Formulování dotazu 4. Odeslání dotazu do systému 5. Obdržení výsledků v podobě jednotlivých položek 6. Vyhodnocení výsledků 7. Konec. Nebo 8. Přeformulování dotazu a opakování od kroku 4. 6
Způsoby vizualizace v IR Textová Grafická Animovaná Výhody grafické vizualizace Stručná reprezentace (množství dat rozdílných typů) Přibližnost (shluky, zachycení poměrů) Důraz na souvislosti (důležitý rys v souvislostech) Schopnost změny perspektivy Stimulace myšlení správným směrem 7
Způsoby vizualizace v IR Overture Jednoduchý graf pojmů (graf asociací pojmů) 4 Google 6 Yahoo 37 36 11 17 29 Microsoft MSN 24 Sun 7 21 Convera 32 11 6 Autonomy IBM 7 Verity 9 Lycos 3 Findwhat 8
Způsoby vizualizace v IR Histogramy Spojnicový graf 9
Způsoby vizualizace v IR Kruhový graf 10
Způsoby vizualizace v IR SOM WEBSOM 11
Způsoby vizualizace v IR Hyperbolické stromy Bifokální stromy 12
Způsoby vizualizace v IR Třídimenzionální metody Hybridní nástroje 13
The Netron Project Hlavní aktivita vývoj software nástrojů umožňujících demostrovat schopnost grafů a diagramů vizualizovat data Kompletní kód volně k dispozici Možnost vyvíjet vlastní aplikace založené na knihovnách TNP 14
The Netron Project - balík GraphAnalysis GraphApplications Graph Analysis 15
Graph Analysis - následující vývoj Následující vývoj projektu velikost uzlů gradientní hrany 3D uzly Další vlastnosti 3D zobrazení vybrání rozsahu dat a závislostí zachování zobrazení ostatních dat 16
GraphAnalysis vstupní í data Symetrická matice Binární strom popsaný pomocí XML 0 5 1 1 3 0 5 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 12 0 3 0 0 12 0 0 0 0 0 0 0 0 17
GraphAnalysis třídní diagram 18
GraphAnalysis omezení zobrazení Vizualizace symetrické matice čítající sto objektů (bez omezení) 19
GraphAnalysis omezení zobrazení Volba omezení zobrazovaných uzlů a hran (8 92) 20
GraphAnalysis omezení zobrazení Volba omezení zobrazovaných uzlů a hran (90 100) 21
Závěr Popis vizualizačních metod Vizualizace testována na matici podobnosti s 1000 objekty Možnosti dalšího rozšíření Přiřazení textových hodnot uzlům Možnost manipulace s uzly Rastrové a vektorové výstupní formáty 22
Literatura a zdroje Ricardo Baeza-Yates and Berthier Ribeiro-Neto: Modern Information Retrieval C. J. van Rijsbergen: Information Retrieval (second ed.) http://www.dcs.gla.ac.uk/keith/preface.html Shneiderman, B. Designing the User Interface: Strategies for Effective Human- Computer Interaction (3 ed.) Teuvo Kohonen: Self-Organizing Maps Ronen Feldman, James Sanger: The Text Mining Handbook Katy Börner, Chaomei Chen, Kevin Boyack: Visualizing Knowledge Domains Jörg Ontrup, Helge Ritter: Hyperbolic Self-Organizing Maps for Semantic Navigation. Ricardo A. Cava, Paulo R. G. Luzzardi, Carla M. D. S. Freitas: The Bifocal Tree: a Technique for the Visualization of Hierarchical Information Structures Ivo Vondrák: Umělá inteligence a neuronové sítě Jan Martinovič: Information Retrieval a shlukování metodou WEBSOM Pokorný J., Snášel V., Húsek D.: Dokumentografické informacní systémy Dalibor Kačmář: Programujeme.NET aplikace ve Visual Studiu.NET Chris Sells: C# a WinForms programování formulářů Windows 23