Petr Nevrlý <petr.nevrly@firma.seznam.cz>



Podobné dokumenty
Petr Nevrlý

Petr Nevrlý

Petr Nevrlý

Štěpán Škrob

Jak se vyvíjí fulltext

Co je (staro)nového v DSpace

Vyhledávání na portálu Knihovny.cz

Využití informačních technologií v cestovním ruchu P1

Internetové vyhledávače

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

InternetovéTechnologie

InternetovéTechnologie

Inovace bakalářského studijního oboru Aplikovaná chemie

Praha6.cz. Správa moderního portálu

VYHLEDÁVÁNÍ NA KLÍČOVÉ SLOVO (v názvu nebo popisu činnosti)

InternetovéTechnologie

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Internet 2 css, skriptování, dynamické prvky

Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

Přehled poskytovaných dat a služeb ČÚZK. Jiří Poláček Český úřad zeměměřický a katastrální

Jak lze zefektivnit monitoring médií

10. SEO Obsah meta, konkrétní elementy v html kódu. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

IMPLEMENTACE A PROVOZ DISCOVERY SYSTÉMU UKAŽ NA UNIVERZITĚ KARLOVĚ. Mgr. Martin Ledínský, Univerzita Karlova , Praha, NTK

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale


14,819 (5.84 Stránky/Návštěva) Čvn Kvě Čvc Srp 2014

Experimentální systém pro WEB IR

7. října 2008, Systémy pro zpřístupňování evškp Miroslav Křipač Michal Brandejs, Jitka Brandejsová, Jan Kasprzak, Martin Stančík

Základní jednotka procvičování

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Seznam.cz, a.s. I Radlická 608/2 I Praha 5 I Tel.: I Fax:

VY_32_INOVACE_IKTO2_0460 PCH

Elektronické zdroje Národní technické knihovny

SEO OPTIMALIZACE PRO VYHLEDÁVAČE JEDNODUŠE

Web. Získání informace z internetu Grafické zobrazení dat a jejich struktura Rozšíření funkcí pomocí serveru Rozšíření funkcí pomocí prohlížeče

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

Univerzální vyhledávací portál jako integrační řešení pro digitální knihovny

Vyhledávání na Internetu

Z HISTORIE SPOLEČNOSTI

si.shimano.com Uživatelský návod

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Rubrika Zajímavostí ze zahraničního obchodu končí, ostatní zdroje získávání dat zůstávají

INSPIRE a katastr nemovitostí ČR. Jiří Poláček

JÁ DĚLÁM TO SEO DOBŘE,

Jak pracuje internetový vyhledávač

Studijní informační zdroje

VÝPOČETNÍ TECHNIKA OBOR: EKONOMIKA A PODNIKÁNÍ ZAMĚŘENÍ: PODNIKÁNÍ FORMA: DENNÍ STUDIUM

7. SEO Nástroje pro analýzu úspěšnosti. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Služby informačního systému katastru nemovitostí ČR. Jiří Poláček

Služby katastru nemovitostí. JiříPoláček

Veřejný dálkový přístup (VDP) Podpora editorům RÚIAN. Dana Pohanková

Magic Power vzdálené sledování finančních dat. Popis a funkce systému. Strana: 1 / 6

PRODUKTY Tovek Server 6

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Databáze MS-Access. Obsah. Co je to databáze? Doc. Ing. Radim Farana, CSc. Ing. Jolana Škutová

konzultační hodiny: středa od 9:45-11:15 (předem napsat o konkrétním problému, který chcete konzultovat)

VYHLEDÁVÁNÍ NA INTERNETU. Přednášející: Ondřej Douša

Základní informace o světových, českých a čínských vyhledávačích, seznámení s RSS technologií

Přizpůsobení Layoutu aplikace. Základní moduly a funkčnost aplikace

Elektronická technická dokumentace Bc. Lukáš Procházka

INTERNETOVÉ VYHLEDÁVAČE

SEO. Jarda Hlavinka Informační architekt internet. portálů

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

Uživatelský manuál. Hospodářské informace Creditreform z tuzemska i zahraničí

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools

NEJVYŠŠÍ SPRÁVNÍ SOUD

Nový obchodní rejstřík

10 LET S ŠEDOU LITERATUROU NA UNIVERZITĚ TOMÁŠE BATI VE ZLÍNĚ

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Manuscriptorium v roce 2013

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

NEJVYŠŠÍ SPRÁVNÍ SOUD

Datasheet Fujitsu ETERNUS DX200 S3 Diskové systémy

Profilová část maturitní zkoušky 2013/2014

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Zadávací dokumentace

Obsah. Základy práce s databází 13. Tabulky 43. Obsah. Úvod 9 Poděkování 12

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

SEO Audit a další úpravy KONTAKT. Bc. Martin Dřímal info@seoskrz.cz Telefon:

Interaktivní Úřední deska (IUD) popis systému

Elektronizace správních řízení a jejich příprava na základní registry

Technická specifikace soutěžených služeb

Paměti cache. Cache může být realizována softwarově nebo hardwarově.

1 z :21

SEO Optimalizace pro vyhledávače


Produktový manuál.

1 z :17

Do knihovny skrze webový prohlížeč

Představení systému. rev (únor 2014)

Novinky v IPAC2. Libor Nesvadba

Pojmenuje a ovládá základní funkce počítače, seznámí se s jednoduchou historií vývoje počítačů. Pojmenuje a ovládá základní funkce počítače

Dokumentace pro správu zlínských DUM

společnost Google dostala od Andyho Bachtolsheima sto tisíc dolarů a přestěhovala se z koleje do garáže v Menlo Parku na konci roku 1998 Google

Search Engine Marketing jako základní kámen internetové propagace. František Štrupl, H1.cz

Klinický informační systém Porodní kniha - případová studie -

Navigace na webových stránkách

Transkript:

Fulltextové vyhledávání Petr Nevrlý <petr.nevrly@firma.seznam.cz>

Obsah přednášky Cíl vyhledávání Architektura Vyhledávání Robot Údaje z provozu

Cíl fulltextového vyhledávání Poskytnutí odpovědi na dotaz uživatele

Cíl fulltextového vyhledávání Poskytnutí odpovědi na dotaz uživatele Shromažďování Rychlý robot Spolehlivá indexace Zakládání správných dokumentů Zpracování Vhodná struktura DB Vydání (řazení) Výkon (rychlost) Dostupnost Konzistence Kvalita

Vyhledávače jsou si velmi Typy fulltextů podobné, liší se jen v detailech Jako

Část 1 Architektura 1. Hlavní části 2. Redundance v provozu 3. Blokové schéma 4. Hardware

Hlavní části

Redundance v provozu

Blokové schéma

Hardware - vyhledávání Vyhledávání >40 serverů x 2 serverovny Většina: 2 x quad core 2 GHz 16 GB RAM 6x140 GB 15k RPM HDD

Hardware - robot Robot + příprava databáze cca 10 serverů různé konfigurace: 2x quad core 2 3 GHz 4-32 GB RAM 1x70 GB 6x300 GB HDD

Část 2 Vyhledávání 1. Zadávané dotazy 2. Lemmatizace 3. Hodnocení stránek

Zadávané dotazy (1) 10 náhodných dotazů posilovna plné hry ke stažení zdarma plemena koní planovac tras petra němcová fotky paragrafy a zákony papírové vystřihovánky panenka chou chou paintball bazar oplocení

Zadávané dotazy (2) Forma dotazů: Nejedná se přímo o otázky přídavná a podstatná jména 1. pád jednotné i množné číslo občas bez diakritiky

Lemmatizace Lemma = základní tvar slova Věta: Jeden z nejlepších zdrojů o německých tancích. Lemmatizováno: Jedna/Jíst z dobrý zdroj o německý tank/tanec. Disambiguace = vyloučení nejednoznačnosti

Hodnocení stránek (1) Titulek!! Obsah stránky URL

Hodnocení stránek (2) Citační analýza pro dotaz Ostrava

Hodnocení stránek (3) Pagerank = statická důležitost stránky založená na citační analýze Předpoklad: statisticky náhodné chování SPAM - blackseo

Část 3 Robot 1. Hledání nových stránek 2. Reindexace stránek 3. Ne-HTML formáty

Hledání nových stránek (1) Před 4 lety start na Od té doby procházení nalezených odkazů Domény.cz,.sk,.com,.org,.net,.info, Hledá stránky v českém jazyce Alternativní zdroje: RSS, články.cz, apod.

Hledání nových stránek (2) Robots.txt standardní protokol pro zakázání přístupu robotů (www.robotstxt.org) Textový soubor http://example.com/robots.txt # comment User-Agent: * Disallow: /statistiky User-Agent: Bot Disallow: /

Hledání nových stránek (3) Sitemap.xml http://example.com/sitemap.xml <url> <loc>http://www.example.com/</loc> <lastmod>2007-10-30t16:31:04+00:00</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url>

Reindexace stránek (1) Každý den se vybere množina stránek pro reindexaci Při výběru se hodnotí Datum poslední návštěvy Rank Frekvence změn

Reindexace stránek (2) Přetěžování webserverů Shapování podle IP adresy Omezení max počet URL / sec

Ne-HTML formáty PDF DOC (MS Word) RTF Operátor filetype:

Část 4 Údaje z provozu

Velikost databáze (1) Počet dokumentů

Velikost databáze (2) Počet dokumentů Indexy Obsah dokumentů (texty) Průměrný text 250 miliónů 1,3 TB 1 TB 6 kb / dokument

Zátěž během týdne 1/4 zátěže až 320 dotazů/s

Doba odezvy během týdne Doba odezvy v msec

Úspěšnost query cache Úspěšnost cache v %

Výkon robota Rychlost stahování Průměrná stránka Denní objem > 400 stránek / sec ~10 kb (zdojový kód) >30 miliónů dokumentů cca 300 GB dat

Stáří dokumentů ve dnech Minimální 1 Maximální 125 Průměr 7,4 Nejčastěji 1,3 10,4

Konec Děkuji za pozornost http://fulltext.sblog.cz http://vyvojari.seznam.cz