Experimentální systém pro WEB IR



Podobné dokumenty
Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Vzdělávací obsah vyučovacího předmětu

DigiDepot: JPEG 2000 jako ukládací formát

Load Balancer. RNDr. Václav Petříček. Lukáš Hlůže Václav Nidrle Přemysl Volf Stanislav Živný

Sledování výkonu aplikací?

UAI/612 - Cloudová Řešení. Technologie

SRSW4IT Inventarizační SW. Prezentace aplikace. Vedoucí DP: ing. Lukáš Macura Autor: Bc. Petr Mrůzek

Uživatelská podpora v prostředí WWW

FREEWAROVÉ ŘEŠENÍ DICOM SERVERU S NÍZKÝMI NÁROKY NA HARDWAROVÉ VYBAVENÍ

Vypracoval: Ing. Antonín POPELKA. Datum: 30. června Revize 01

Archivace dat s využitím DÚ CESNET

Aplikace je program určený pro uživatele. Aplikaci je možné rozdělit na části:

Sdílení a poskytování dat KN. Jiří Poláček

Lekce 9 - Migrace dat

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

InformatikaaVT(1) Cílem předmětu je: Žáci:

Databázové a informační systémy

Projekt č. TA

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Vyhledávač datových referencí. Dokumentace

webových zdrojů Mgr. Jan HUTAŘ Bc.. Lukáš JKA Mgr. Ludmila CELBOVÁ

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Dobrý SHOP Popis produktu a jeho rozšíření

Ukládání a vyhledávání XML dat

Použití databází na Webu

Střední odborná škola a Střední odborné učiliště, Hořovice

pro komplexní řešení agendy neziskových organizací se zaměřením na sociální služby zdravotně postiženým NABÍDKOVÝ LIST

MBI - technologická realizace modelu

Knihovna SBUS. Implementace neúplných protokolů S-BUS pro stanici server, paritní a datový mód

PROVÁZÁNÍ ECM/DMS DO INFORMAČNÍCH SYSTÉMŮ STÁTNÍ A VEŘEJNÉ SPRÁVY

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

Autorizovaný software DRUM LK 3D SOFTWARE PRO VYHODNOCENÍ MĚŘENÍ ODCHYLEK HÁZIVOSTI BUBNOVÝCH ROTAČNÍCH SOUČÁSTÍ

Dobrý CMS Popis produktu a jeho rozšíření

PHP framework Nette. Kapitola Úvod. 1.2 Architektura Nette

Microsoft Office. Excel vyhledávací funkce

Elektronická podpora výuky předmětu Komprese dat

Petr Nevrlý

DATABÁZE MS ACCESS 2010

Databáze. Velmi stručný a zjednodušený úvod do problematiky databází pro programátory v Pythonu. Bedřich Košata

Maturitní projekt do IVT Pavel Doleček

Projekt informačního systému pro Eklektik PRO S EK. Řešitel: Karolína Kučerová

UDS for ELO. Univerzální datové rozhraní. >> UDS - Universal Data Source

Měření teploty, tlaku a vlhkosti vzduchu s přenosem dat přes internet a zobrazování na WEB stránce

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

INFORMAČNÍ SYSTÉM VIDIUM A VYUŽITÍ MODERNÍCH TECHNOLOGIÍ

Novinky v ASEPu a zkušenosti s vkládáním plných textů

RadioBase 3 Databázový subsystém pro správu dat vysílačů plošného pokrytí

PARAMETRY EFEKTIVITY UČENÍ SE ŽÁKA V PROSTŘEDÍ E-LEARNINGU SE ZAMĚŘENÍM NA ADAPTIVNÍ VÝUKOVÉ MATERIÁLY

Analýza a prezentace dat

Profilová část maturitní zkoušky 2013/2014

VÝPOČETNÍ TECHNIKA OBOR: EKONOMIKA A PODNIKÁNÍ ZAMĚŘENÍ: PODNIKÁNÍ FORMA: DENNÍ STUDIUM

Student si po a 1. ročníku podle svého osobního zaměření volí kurzy (předměty).

MARIE PACS S PACSem hezky od podlahy když se data sypou!

O Apache Derby detailněji. Hynek Mlnařík

Datová věda (Data Science) akademický navazující magisterský program

Středoškolská technika SCI-Lab

Spark SQL, Spark Streaming. Jan Hučín

NSS - Cache 5. LECTURE MARTIN TOMASEK

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

ODBORNÝ VÝCVIK VE 3. TISÍCILETÍ. MEIV Windows server 2003 (seznámení s nasazením a použitím)

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

Geografické informační systémy p. 1

Internetové vyhledávače

Spark SQL, Spark Streaming. Jan Hučín

Proces vývoje HRIS Vema (Human Resources Information System) Jaroslav Šmarda

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

Informační systém katastru nemovitostí - nové funkce a služby - ISSS 2007 Hradec Králové, 2. a 3. dubna 2007

Analýza a Návrh. Analýza

1 Webový server, instalace PHP a MySQL 13

Roční periodická zpráva projektu

Vytvořen. ení genetické databanky vybraných druhů savců ČR ití pro udržitelný rozvoj dopravy. Tomáš. Libosvár

Základní informace: vysoce komfortnímu prostředí je možné se systémem CP Recorder efektivně pracovat prakticky okamžitě po krátké zaškolení.

Webové rozhraní pro datové úložiště. Obhajoba bakalářské práce Radek Šipka, jaro 2009

Rozšíření infrastruktury projektu Pikater Specifikace softwarového projektu

ÚSTAV FYZIKÁLNÍ BIOLOGIE JIHOČESKÁ UNIVERZITA V ČESKÝCH BUDĚJOVICÍCH

TECHNICKÉ POŽADAVKY NA NÁVRH, IMPLEMENTACI, PROVOZ, ÚDRŽBU A ROZVOJ INFORMAČNÍHO SYSTÉMU

Vrstvy programového vybavení Klasifikace Systémové prostředky, ostatní SW Pořizování Využití

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Geis Point Plugin Map

Vyvinuté programové vybavení (projekt čís. TA )

7. října 2008, Systémy pro zpřístupňování evškp Miroslav Křipač Michal Brandejs, Jitka Brandejsová, Jan Kasprzak, Martin Stančík


Inovace bakalářského studijního oboru Aplikovaná chemie

Elektronická komunikace s CSÚIS. Jak to řeší Fenix

Třídy a objekty. Třídy a objekty. Vytvoření instance třídy. Přístup k atributům a metodám objektu. $z = new Zlomek(3, 5);

Matematika v programovacích

Platební systém XPAY [

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

REGISTR CITES VE STÁTNÍ SPRÁVĚ. Duben 2009

Moderní privátní cloud pro město na platformě OpenStack a Kubernetes

VYUŽITÍ REGISTRU CITES V MEZINÁRODNÍ OCHRANĚ BIODIVERZITY

IB111 Programování a algoritmizace. Programovací jazyky

edu-learning Výukový program přímo v aplikacích Microsoft Offi ce Word, Excel a PowerPoint

PRODUKTY Tovek Server 6

PRVNÍ ELASTICKÝ INFORMAČNÍ SYSTÉM : QI

Ing. Přemysl Brada, MSc., Ph.D. Ing. Martin Dostal. Katedra informatiky a výpočetní techniky, FAV, ZČU v Plzni

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

EXCELentní tipy a triky pro mírně pokročilé. Martina Litschmannová

ŠKOLENÍ MS OFFICE na rok 2010

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci

Transkript:

Experimentální systém pro WEB IR Jiří Vraný Školitel: Doc. RNDr. Pavel Satrapa PhD.

Problematika disertační práce velmi stručný úvod WEB IR information retrieval from WWW, vyhledávání na webu Vzhledem k množství informací na webu, vrací WWW vyhledávače na běžné dotazy statisíce možných výsledků. Ty je nutno nějak seřadit a předložit uživateli. Výzkum v oblasti získávání informací na webu, postupně vedl k vytvoření celé řady řešení modifikujícíh metody klasického IR, i zcela nových postupů. Nejznámnější publikované algoritmy PageRank, Hits, Salsa a další. V současnosti snaha o přizpůsobení výsledků konkrétnímu uživateli personalizace. V ideálním případě tak aby uživatel nemusel dělat nic navíc. Matematika v pozadí WWW stránky tvoří graf W. Řadu problémů lze tak převést na problémy z teorie grafů, teorie pravděpodobnosti a další. Většina personalizovaných algoritmů vychází z algorimtu PageRank. Hlavní otázky DP: Jak jsou tato řešení aplikovatelná na češtinu a česky psané stránky? Lze aplikací jiných přístupů k výpočtu dosáhnout reálné aplikovatelnosti algoritmů odsunutých na pole teorie pro jejich výpočetní náročnost?

Experimentální systém? Pro testování algoritmů je nutné mít k dispozici vyhledávací stroj a dostatečně velký podgraf grafu W. Požadavky: Efektivní získání a uložení podgrafu Možnost snadné modifikace řadících a indexačních algoritmů Jednoduché uživatelské rozhraní

Vlastní řešení nebo existující OpenSource? OS řešení existuje mnoho Např. Nutch + Lucene, Sherlock Holmes, Isearch, mnogosearch. Studium manuálů + implementace + nutnost pochopit cizí kód. Ne vždy je splněn druhý požadavek. Komplet vlastní řešení Proč po desáté vynalézat kolo? 100% kontrola nad kódem a algoritmy řada slepých uliček.

Výsledek = kombinace OpenSource: získání dat Heritrix http://crawler.archive.org/ úložiště MySQL http://www.mysql.com/ Python nástroje BeatifulSoup, Cython a další. Vlastní řešení: middleware zpracování získaných dat do databáze, indexační server, rank server uživatelské rozhraní řazení výsledků, testování kvality

Schéma systému

Databáze Požadavky: Rychlé ukládání a vydávání dat Efektivní vyhledávání neúplných informací Možnost vytvářet další podgrafy Škálovatelnost, robustnost řešení

Model databáze

Middleware zpracování dat Python WebTextTools zpracovává WWW stránky uložené na pevném disku rekurzivní prohledávání zadaného adresáře čte data v ARC (Internet Archive) formátu načtená data parsuje a odstraňuje fatální chyby (chybějící titulky, nevalidní url aj.) veškeré texty konvertuje do UTF-8 zpracovaná data ukládá do databáze. z uložených dat ukládá incidenční matice web grafu a podgrafů ve formátech CSR (Numpy) a MPIAIJ (Petsc4py)

Middleware komunikace Pro komunikaci klient / server slouží TCP protokol, implementovaný pomocí modulu socket v Pythonu. Pro aplikační vrstvu byl navržen jednoduchý protokol obsahující základní instrukce pro: ukončení přenosu identifikaci jednotlivých dat fragmentace, typ

Middleware index server Na základě dotazu od klienta najde ID příslušných dokumentů, načte data z databáze a ty vrátí klientovi. Index je uložen v paměti pro 50 tisíc stránek má cca 100 MB Akutálně používaný index - inverzní index stránek - obsahuje ID dokumentů + váhu slova dle Saltonova vzorce.

Middleware index server Zpracování dotazu Index server používá zjednodušený Booleovský model s absolutní shodou. dotaz je rozdělen na n slov s každé slovo s i odpovídá příslušné množině dokumentů S i Výsledná množina dokumentů V je průnikem monžin S i pro i = 1..n

Middleware rank server Podobný index serveru, pouze používá jinou datovou strukturu Od klienta obdrží ID stránky na základě kterého vyhledá příslušný rank. Umožňuje hromadné zpracování více ID.

Uživatelské rozhraní WWW stránka generovaná z Pythonu pomocí Apache + mod_python Přijme dotaz od uživatele, komunikuje s index serverem a rank serverem, sestavuje výsledné pořadí stránek. Vyhodnocení experimentů umožňuje přepínat hodnotící funkci (utajeně) + vkládat zpětnou vazbu která hodnotící funkce je dle uživatele lepší.

Děkuji za pozornost. Dotazy?