Štěpán Škrob <stepan.skrob@firma.seznam.cz>

Podobné dokumenty
Petr Nevrlý

Petr Nevrlý

Petr Nevrlý

Petr Nevrlý

Jak se vyvíjí fulltext

CERTIFIKOVANÉ TESTOVÁNÍ (CT) Výběrové šetření výsledků žáků 2014

Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům

Aplikace DigiArchiv z pohledu administrátora a operátora. Systém, metody, postupy

Internetový marketing. Jakub Kašparů, Vladimír Smitka

Implementační rozdíly ve vývoji IS při použití bezschémové a relační databáze

Příloha č. 2 DIW Koncept rozložení stránek. Přílohy č. 1 Návrh, tvorba a implementace dynamického interaktivního webu SPECIFIKACE

Registr práv a povinností. PhDr. Robert Ledvinka vrchní ředitel sekce veřejné správy MV

Úložiště elektronických dokumentů GORDIC - WSDMS

Realizační tým Zhotovitele. Oprávněné osoby. Seznam subdodavatelů. Tabulka pro zpracování nabídkové ceny. Zadávací dokumentace

Průvodce e learningem

Poznámky k verzi. Scania Diagnos & Programmer 3, verze 2.27

OPERAČNÍ PROGRAM PRAHA - ADAPTABILITA ADMINISTRACE PROJEKTU PRAHA & EU INVESTUJEME DO VAŠÍ BUDOUCNOSTI EVROPSKÝ SOCIÁLNÍ FOND

Projekt INTERPI. Archivy, knihovny, muzea v digitálním světě Your contact information

Využití ICT pro rozvoj klíčových kompetencí CZ.1.07/1.5.00/

STEP 7 Basic V11 S firmware V2.0. Červen 2011

Maturitní témata. Informační a komunikační technologie. Gymnázium, Střední odborná škola a Vyšší odborná škola Ledeč nad Sázavou.

Registrační číslo projektu: Škola adresa: Šablona: Ověření ve výuce Pořadové číslo hodiny: Třída: Předmět: Název: ový klient Anotace:

Veřejný dálkový přístup (VDP) k datům základního registru RÚIAN/ISÚI

Příloha č. 2-1: Technická specifikace - část 1 (Dodávka vybavení učebny předtiskové přípravy)

TECHNICKÁ SPECIFIKACE

Art marketing Činoherního klubu

BYTY TRŽNÍ CENA NEMOVITOSTI. xxx 000 Kč/m 2. Informace o nemovitosti, pro kterou je zobrazena tržní cena NA PRODEJ TRŽNÍ CENA NEMOVITOSTI

Reg. č. projektu: CZ 1.04/ /A Pracovní sešit

Návod pro Windows XP

Konfigurace pracovní stanice pro ISOP-Centrum verze

Vnější paměti. Vnější paměti. Dělení podle materiálu a fyzikálních principů

Elektronizace správních řízení a jejich příprava na základní registry

ODBORNÝ VÝCVIK VE 3. TISÍCILETÍ

Windows 10 (6. třída)

Sada 2 Microsoft Word 2007

Workmonitor. Servisní návod. 24. června 2014 w w w. p a p o u c h. c o m


Vítejte na dnešním semináři. Lektor: Ing. Ludmila Brestičová

Jednotná informační brána pro obor mezinárodní vztahy. IReL (International Relations electronic Library)

Praha6.cz. Správa moderního portálu

Internetová agentura. Předimplementační analýza webu

Zemřelí Muži Ženy

Technické aspekty EET

1. SYSTÉMOVÉ POŽADAVKY / DOPORUČENÁ KONFIGURACE HW A SW Databázový server Webový server Stanice pro servisní modul...

Interpretace Dantova Pekla

Nutriční doporučení ministerstva zdravotnictví ke spotřebnímu koši

ZAVÁDĚNÍ ECVET V ČESKÉ REPUBLICE

Uživatelský manuál. Modulární VTO

ENERGETICKÝ AUDIT. zpracovaný dle zákona č. 406/2000 Sb. o hospodaření energií v platném znění zákona č. 103/2015 Sb. a prováděcích předpisů

SEO Audit a další úpravy KONTAKT. Bc. Martin Dřímal info@seoskrz.cz Telefon:

Aplikační rozhraní pro geografickou datovou sadu židovských hřbitovů

Příklady a návody. Databázová vrstva

1x server pro distanční vzdělávání (výpočtový server)

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Číslo materiálu: VY 32 INOVACE 30/12

Změny v právních předpisech s dopady na RÚIAN. Marika Kopkášová


Datasheet Fujitsu ESPRIMO P400 Stolní počítač

Novinky v SIMATIC ET 200 decentrálních periferiích

IP kamera NDF821. Instalační průvodce

Technická specifikace ČÁST 1. Místo plnění: PČR Kriminalistický ústav Praha, Bartolomějská 10, Praha 1

New Automation Technology. Beckhoff I/O. Průmyslová PC. Beckhoff Image 1

UNIVERZITA PARDUBICE FAKULTA EKONOMICKO-SPRÁVNÍ BAKALÁŘSKÁ PRÁCE Lukáš Rajsigl

Sledování výkonu aplikací?

Provozování volných INSPIRE služeb výzvy a překážky. Jiří Poláček

Oddělení teplárenství sekce regulace VYHODNOCENÍ CEN TEPELNÉ ENERGIE


VÝROČNÍ ZPRÁVA O ČINNOSTI ARCHIVU POLICIE ČESKÉ REPUBLIKY ZA ROK 2015

Tvorba WWW stránek Podmínky. Jan Růžička Institut geoinformatiky VŠB-TU Ostrava, HGF tř. 17.listopadu Ostrava-Poruba

ANGLICKÝ JAZYK 5. ROČNÍK

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 2: Statistika a pravděpodobnost

Ekonomika Základní ekonomické pojmy

Ministerstvo pro místní rozvoj. podprogram

FlexiBee Časté chyby. Ondřej Světlík FlexiBee Systems s.r.o.

Výzva k podání nabídky včetně zadávací dokumentace na veřejnou zakázku malého rozsahu

Výzva k podání nabídky včetně zadávací dokumentace na veřejnou zakázku malého rozsahu

vlastnosti Výsledkem sledování je: a) Využití aplikací b) Používání internetu c) Vytížení počítačů d) Operační systém e) Sledování tisků

Návod na připojení k ové schránce Microsoft Windows Live Mail

Postup pro instalaci a nastavení programu X-lite

Operační systém teoreticky

Výzva k podání nabídky včetně zadávací dokumentace na veřejnou zakázku malého rozsahu

Penframe ESHOP. Basic Standard Pro Kč Kč Kč. Grafický návrh. Redesign šablon: barevnost, hlavička, logo, grafické prvky stránky

Informační věda a informační ekologie

ENERGETICKÝ DISPEČINK. základní informace o službě

KyBez na MPO. aneb zavádění Zákona o kybernetické bezpečnosti. KyBez na MPO. Ing. Miloslav Marčan Ředitel odboru informatiky

Google Apps. pošta 2. verze 2012

Elektronický formulář

HAL3000 MČR Pro tak hrají skuteční profesionálové

Elektronické podání podnikatele vůči živnostenskému rejstříku

PA152: Efektivní využívání DB 2. Datová úložiště. Vlastislav Dohnal

Projekt Rozvoj mapových služeb ČEZ. ČEZ ICT Services, a. s. ČEZ Distribuce, a. s.

Výzva k podání nabídky včetně zadávací dokumentace na veřejnou zakázku malého rozsahu

Digitální knihovna AV ČR

S6500 (24L) 230 V 50 Hz #CONN #DPP

SSD vs. HDD / WAL, indexy a fsync

jako páteřní nástroj pro řízení kvality úředních

1x Monitor 30 ; orientační cena ,- Kč bez DPH. Parametry:

MS WORD 2007 Styly a automatické vytvoření obsahu

Obsah. Základy práce s databází 13. Tabulky 43. Obsah. Úvod 9 Poděkování 12

Transkript:

Štěpán Škrob <stepan.skrob@firma.seznam.cz>

O čem bude přednáška? Úvod Architektura Vyhledávání Robot Údaje z provozu Konec

Úvod Vyhledávače jsou si prakticky velmi podobné, liší se pouze v implementačních detailech :-) Jako auta

Část 1 Architektura

Architektura 1. 2. 3. 4. Hlavní části Dvě serverovny Blokové schéma Hardware

Hlavní části

Dvě serverovny

Blokové schéma

Hardware Robot + příprava databáze 10 serverů, různé konfigurace: 2x dual core CPU, 2-4 GB RAM, SAS/SATA disky Vyhledávání 20 serverů x 2 serverovny, většina je: 2x dual core CPU, 2 GB RAM, 6x140 GB SAS

Hardware: SAS vs. SATA SAS SATA serial attached SCSI serial ATA Kapacita 70-140 GB 750-1000 GB Otáčky 15,000 7,200 Seek 3 msec 9 msec Optimalizace req. TCQ NCQ IO operace/sec 180 300

Hardware: TCQ, resp. NCQ

Část 2 Vyhledávání

Vyhledávání 1. Zadávané dotazy 2. Lemmatizace 3. Hodnocení stránek

Zadávané dotazy (1) 10 náhodných dotazů posilovna plné hry ke stažení zdarma plemena koní planovac tras petra němcová fotky paragrafy a zákony papírové vystřihovánky panenka chou chou paintball bazar oplocení

Zadávané dotazy (2) Forma dotazů: přídavná a podstatná jména, 1. pád, jednotné i množné číslo, občas bez diakritiky.

Lemmatizace (1) Lemma = základní tvar slova Lemmatizátor Vstup: slovo Výstup: lemma, morfologické informace (slovní druh, pád, číslo, osoba ) Nejednoznačnost: stát, ženu, tancích

Lemmatizace (2) Věta: Jeden z nejlepších zdrojů o německých tancích. Lemmatizováno: Jedna/Jíst z dobrý zdroj o německý tank/tanec. Disambiguace = vyloučení nejednoznačnosti

Hodnocení stránek (1) Titulek!! Obsah stránky URL

Hodnocení stránek (2) Citační analýza pro dotaz brno

Hodnocení stránek (3) Pagerank = statická důležitost stránky založená na citační analýze Předpoklad: statisticky náhodné chování SPAM není jenom e-mail (každý systém se přizpůsobí kritériím, podle kterých je hodnocen :-)

Část 3 Robot

Robot 1. Hledání nových stránek 2. Reindexace stránek 3. Ne-HTML formáty

Hledání nových stránek (1) Před 3 lety start na Od té doby procházení nalezených odkazů Domény.cz,.sk,.com,.org,.net,.info, Hledá stránky v českém jazyce Alternativní zdroje: RSS, články.cz, apod.

Hledání nových stránek (2) Robots.txt standardní protokol pro zakázání přístupu robotů (www.robotstxt.org) Textový soubor http://example.com/robots.txt # comment User-Agent: * Disallow: /statistiky User-Agent: AnnoyingBot Disallow: /

Hledání nových stránek (3) Sitemap.xml nový protokol pro manifestaci existence stránek Obvykle na http://example.com/sitemap.xml <url> <loc>http://www.developstudio.com/</loc> <lastmod>2007-10-30t16:31:04+00:00</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url>

Reindexace stránek (1) Každý den se vybere množina stránek pro reindexaci Při výběru se hodnotí Datum poslední návštěvy Rank Frekvence změn

Reindexace stránek (2) Přetěžování webserverů Shapování podle IP adresy Omezení max počet URL / sec

Ne-HTML formáty XML (XSLT šablony ještě ne) PDF DOC (MS Word)

Část 4 Údaje z provozu

Velikost databáze (1) Počet dokumentů

Velikost databáze (2) Počet dokumentů 55 miliónů Indexy 120 GB Obsah dokumentů (texty) 200 GB Průměrný text 4 kb / dokument

Zátěž během dne (pondělí) 1/6 zátěže => 250 dotazů/s

Doba odezvy během dne Doba odezvy v msec

Výkon robota Rychlost stahování > 100 stránek / sec Průměrná stránka ~10 kb Denní objem 10 miliónů dokumentů 100 GB dat

Stáří dokumentů ve dnech Minimální 0,9 Maximální 125 Průměr 8,8 Medián (prostřední) 3,8 Modus (nejčastější) (1,7; 13,8)

Reklama Uncle Sam wants you! http://vyvojari.seznam.cz

Budoucnost? Lingvistické nástroje Opravy překlepů, Synonyma, Hodnocení textu Statistické zpracování dat Logy, Odkazové sítě

Konec Děkuji za pozornost. More info http://fulltext.sblog.cz