Jak se vyvíjí fulltext



Podobné dokumenty
Petr Nevrlý

Petr Nevrlý

Petr Nevrlý

Petr Nevrlý

SEO. Jarda Hlavinka Informační architekt internet. portálů

Štěpán Škrob

SEO Optimalizace pro vyhledávače

Z HISTORIE SPOLEČNOSTI

7. SEO Nástroje pro analýzu úspěšnosti. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)


Role informační architektury a optimalizace pro vyhledavače v online publikování

SEM, SEO a PPC? Kouzelné formulky?

Internetové vyhledávače

SYLABUS IT V. Jiří Kubica. Ostrava 2011

Základní informace o světových, českých a čínských vyhledávačích, seznámení s RSS technologií

Analýza návštěvnosti a efektivity webu

SEO (optimalizace pro vyhledavače)

Obsah ČÁST I JAK SE UCHÁZET O ZÁKAZNÍKY NA WEBU KAPITOLA 1

JÁ DĚLÁM TO SEO DOBŘE,

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Využití informačních technologií v cestovním ruchu P1

InternetovéTechnologie

Porovnání rychlosti mapového serveru GeoServer při přístupu k různým datovým skladům

Vyhledávání na portálu Knihovny.cz

InternetovéTechnologie

SEARCH ENGINE OPTIMIZATION

PRODUKTY. Tovek Tools

Healtcheck. databáze ORCL běžící na serveru db.tomas-solar.com pro

Dozvíte se mimo jiné, jak přinutit internetový vyhledávač, aby našel přesně to, co potřebujete.

Experimentální systém pro WEB IR

Uživatelská podpora v prostředí WWW

regalsistem.cz Analýza z hlediska SEO offpage webové prezentace

InternetovéTechnologie

PRODUKTY. Tovek Tools

14,819 (5.84 Stránky/Návštěva) Čvn Kvě Čvc Srp 2014

Vyhledávání nebo nalezení informací

10. SEO Obsah meta, konkrétní elementy v html kódu. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

VY_32_INOVACE_IKTO2_0460 PCH

Webové prezentace a aplikace. Autor: Ing. Jan Nožička SOŠ a SOU Česká Lípa VY_32_INOVACE_1132_Webové prezentace a aplikace_pwp

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

Máte to? Summon jako základní vyhledávací nástroj NTK

Po prvním spuštění Chrome Vás prohlížeč vyzve, aby jste zadali své přihlašovací údaje do účtu Google. Proč to udělat? Máte několik výhod:

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Dobývání znalostí z webu web mining

Jak vyhledávat. Vyhledávače KAPITOLA 3

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

Zpráva o zhotoveném plnění

Jak lze zefektivnit monitoring médií

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Search Engine Marketing jako základní kámen internetové propagace. František Štrupl, H1.cz

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

co uživatel? Vilém Sklenák Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství

SEO OPTIMALIZACE PRO VYHLEDÁVAČE JEDNODUŠE

A Step Ahead Sociodemografie českého internetu

Formáty WWW zdrojů. Mgr. Filip Vojtášek.

Maturitní otázka - optimalizace webových stránek

Praha6.cz. Správa moderního portálu

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

7. října 2008, Systémy pro zpřístupňování evškp Miroslav Křipač Michal Brandejs, Jitka Brandejsová, Jan Kasprzak, Martin Stančík

WEB KNIHOVNY JAKO NÁSTROJ K PROPAGACI SLUŽEB A INFORMACÍ ING. PAVEL CIMBÁLNÍK

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Optimalizaci aplikací. Ing. Martin Pavlica

Import a export dat EU peníze středním školám Didaktický učební materiál

Produktový list. Firemní profily

Produktový list. Firemní profily

Uživatelská příručka

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Load Balancer. RNDr. Václav Petříček. Lukáš Hlůže Václav Nidrle Přemysl Volf Stanislav Živný

1 z :21

1 z :17

Benchmarking ve veřejné správě

Případová studie: Zvýšení přirozené návštěvnosti ivt.cz. Případová studie: Zvýšení přirozené návštěvnosti ivt.

1. SYSTÉMOVÉ POŽADAVKY / DOPORUČENÁ KONFIGURACE HW A SW Databázový server Webový server Stanice pro servisní modul...

PRODUKTY Tovek Server 6

ROZVÍJENÍ ČTENÁŘSKÉ GRAMOTNOSTI NA ZÁKLADNÍ ŠKOLE Lauderovy školy, Praha

Jak pracuje internetový vyhledávač

Ing. Pavel Rosenlacher

Antiplagiátorské nástroje pro naše repozitáře

vasedomena.cz SEO ANALÝZA WEBOVÝCH STRÁNEK (9. SRPNA 2017)

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

zákonem, váže k subjektu (dodavateli, příp. subdodavateli) nikoliv k osobám u něj zaměstnaným, a slouží k prokázání zkušeností dodavatele.

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

Seminář SEO jako součást internetového marketingu OS Chocholík Martina Hosová DiS.

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

SEO ANALÝZA Ukázka na reálných nonymizovan a ých datech

Co je (staro)nového v DSpace

DAN EST FIN FRA IR NEM NIZ POR RAK RUM SLO SWE VB CZ 0% 0% 0% 50% 0% 0% 0% 0% 0% 0% 0% 0% 100% 0%

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Využívání, preference a propagace e-zdrojů/e-knih

InternetovéTechnologie

SEO Audit a další úpravy KONTAKT. Bc. Martin Dřímal info@seoskrz.cz Telefon:

Statistika pro light4sport.cz ( )

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

Navigace na webových stránkách

Návrh uživatelského rozhraní Jednoduchý portál s recepty D1 + D2

Transkript:

Jak se vyvíjí fulltext Jakub Černý, Ph.D. MFF Praha, 31.3.2010

Co dnes servírujeme? Jak funguje fulltext? Jak funguje textový signál relevance? Jak měřit kvalitu fulltextu? Jak se srovnávat s konkurencí? Jak nastavovat parametry algoritmu hledání? Co se vyuţije při vývoji fulltextu? Bonus (Technické parametry a statistiky) Co byste chtěli slyšet vy?

Jak tečou uživatelé internetem? Internet a odkazy jsou jako dálnice/sjezdovka co dělá běţný uţivatel z pohledu mimozemšťana? Kde kaţdý začíná? homepage, fulltext, znám adresu Máte webový portál, kde sehnat návštěvníky? postavit lepší přípojku z dálnice (SEO) reklama

Znovu objevení kola Do roka to bude řádka s URL v prohlížeči.

Seznam vs. Google 100,00% 90,00% 80,00% 70,00% 60,00% Google Seznam 50,00% 40,00% čas Proč Seznam vydrţí?

Jak funguje fulltext?

Základní myšlenka Analogie s knihou Jak zjistíte, na které stránce se nachází fulltext?

Inverted list (index) Doc1 Město Praha bylo zaloţeno. Doc3 Ţiju v Praze. Je to krásné město. Doc2 Kaţdé město má. Inverted list být Doc1[3], Doc3[4] kaţdý Doc2[1], krásný Doc3[6], město Doc1[1], Doc2[2], Doc3[7] mít Doc2[3], Praha Doc1[2], Doc3[3] to Doc3[5], v Doc3[2], zaloţit Doc1[4], ţít Doc3[1],

Hledání v indexu Hledám dotaz město Praha Inverted list být Doc1[3], Doc3[4] kaţdý Doc2[1], krásný Doc3[6], město Doc1[1], Doc2[2], Doc3[7] mít Doc2[3], Praha Doc1[2], Doc3[3] to Doc3[5], v Doc3[2], zaloţit Doc1[4], ţít Doc3[1], Nalezení řetízku pro slova z dotazu a vyhodnocení ala merge. Výsledky hledání Doc1 Doc3

Jak funguje Fulltext Robot Internet Příprava Hledání

Robot Úkol: procházet web, hledat nové dokumenty a obnovovat současné Detekce jazyka Hledáme jen české stránky Další formáty (pdf, doc, rtf, ppt, ) SeznamBot

Jak komunikovat s robotem Robots.txt standardní protokol pro zakázání přístupu robotů (www.robotstxt.org) http://example.com/robots.txt Sitemap.xml http://example.com/sitemap.xml # comment User-Agent: * Disallow: /statistiky User-Agent: Bot Disallow: / <url> <loc>http://www.example.com/</loc> <lastmod>2007-10-30t16:31:04+00:00</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url>

Zvládání zátěže Stíháme včas odpovídat 1 milionu uţivatelů. Co kdyţ chceme uspokojit celou ČR? (5mil uţivatelů) Jak zajistit dostupnost? Tj. aby nám nevadil výpadek jednoho stroje.

Zvládání zátěže Robot Internet Příprava LVS Hledání Hledání 2 serverovny

Jak zrychlit výdej? Disky jsou pomalé. Vše musí být v cache. Co s tím?

Jak zrychlit výdej? BaseSearch ContentServer BaseSearch MetaSearch ContentServer Webovka BaseSearch ContentServer MetaSearch

Jak se mixují signály relevance?

Signály relevance On page Off page User obecné Doména, historie, struktura stránky Page Rank??? tématické (k dotazu) TXT Zpětné odkazy???

Pořadí výsledků Mixování signálů relevance: Kdo je lepší? Jak to míchat?

Generace mixování signálů 1. generace Relevance = w i S i 2. generace Relevance = (S i +w i ) 3. generace Tajné Relevance = w i distrib(s i ) další generace?

Textový signál relevance

Textový signál relevance Je to názorná ukázka evoluce 1 signálu jak probíhá výzkum Uslyšíte, jak funguje hledání v textech (to můţete na vašich stránkách ovlivnit)

Vývojové generace TXT signálu Jen slova z dotazu, přesná shoda tvaru Jen 50% relevantních dokumentů obsahuje slova z dotazu. Příklad: Dotaz ČNB, ale relevantní stránka obsahuje jen oficiální úroková míra v České národní bance.

Vývojové generace TXT signálu Přidání lemmatizace slov Různé váhy slov podle výskytiště (H1, URL, Title, odstavec, bold, ) Příklady vtipné lematizace: Stát, ţenu, lov lína, barum, jizdní rady, dog

Vývojové generace TXT signálu Různé váhy slov podle jejich korpusové četnosti tf x idf vynechávání slov Příklad dotazů: Petr a Pavel, Jak se odstraňuje vosí hnízdo?

Otázka pro vás: 3-slovné dotazy: Máme zvýhodňovat výsledky, kde se slova z dotazu najdou blíţe u sebe? Nebo je to jedno?

Vývojové generace TXT signálu Proximita a pořadí slov z dotazu Příklady: Jakub Černý x Černý Jakub Václav Klaus video Já do lesa nepojedu, já do lesa nepůjdu Kolokace Velký vůz, černý Petr, Česká republika

Vývojové generace TXT signálu Předzpracování dotazu Poslechnu si uţivatele a přeloţím to do jazyka, ve kterém fulltext umí vyhledávat. Nastavení proximity, Příklady: VŠE, MŢP, IE8 (ale i naopak) Kdy vyhořelo Národní divadlo? (běţné otázky jako na kamaráda)

Expanze dotazu Dotaz Vysoká škola ekonomická v Praze Bez expanze Po expanzi

Vývojové generace TXT signálu Doplňování slov odjinud ze zpětných odkazů (bazén podolí) anonymní termy jméno, datum, místo, video pro odpovědi na otázky: Kdo? Kdy? Kde? Příklady: Václav Klaus video Kdy vyhořelo Národní divadlo?

Další okolnosti kolem TXT signálu Body text extraction (BTE) Site-wide texty (SWT) rozpoznání důleţitosti slov podle vzhledu site odstranění neopodstatněných nároků na důleţitost Všechny texty v H1 apod. Různé chování pro různé kategorie dotazů: Navigační Informační Transakční

Další okolnosti kolem TXT signálu Desambigulace Vyloučení nejednoznačnosti Řekněte mi něco o německých tancích? Hrách vs. (o počítačových) hrách

Jak měřit úspěch?

Proč? Co chceme? Měření kvality vyhledávačů Srovnání Seznamu s konkurencí Kdo je lepší? Na kterých kategoriích? Na kterých dotazech? Jak popsat skupinu dotazů, kde se to děje? Dostaneme tip, co zlepšovat Měřitelnost toho, jak jsme se zlepšili (SMART)

Otázka pro vás: Jak měřit kvalitu výsledků fulltextového hledání? Čistě pořadí výsledků, ne rychlost hledání, či kvalitu webovky, snippetů

Kalibrace Vital Usefull Relevant Nonrelevant Off-topic

Kalibrace Vital Usefull Relevant Nonrelevant Off-topic (navigační výsledek) Dotaz má jasnou interpretaci a stránka je oficiální stránkou (jedinečnost). q=youtube youtube.cz (uţitečný (užitečný výsledek). Stránka je je hodně uspokojující, vyčerpávající výklad, vysoká kvalita,důvěryhodný zdroj. q=houby atlashub.cz (dobrý výsledek). q=harry potter knihy.cz/prodej/harry-potter (blbý (blbý výsledek). výsledek) Sice Sice je je to to k k tématu, tématu, ale ale není není uţitečné uţitečné (málo (málo informací, informací, staré staré info, info, příliš příliš obecné). obecné). q=praha q=praha zoopraha.cz zoopraha.cz (výsledek mimo mísu). Výsledek obsahuje hledaná slova, ale tématicky je mimo. q=houby je to na houby

Kalibrace Výběr dotazů Sociodemo kalibrátorů Porozumění dotazu Kvalifikace pro zhodnocení kvality Muţi vs. ţeny (fotbal x parfémy) Puberťáci vs. důchodci (q=hudba)

Tajné

Přínosy Moţnost automatického nastavování parametrů fulltextu Rozhodování se na základě reálných dat Rychlejší vývoj a testování změn relevance fulltextu (prototypy úprav). Přenesení práce na externí kalibrátory Bonzování, co jsou nepovedené dotazy a jejich následné sledování -- víme na co se zaměřit Včas zjistíme, jak se zlepšila konkurence, co provedli -- můţeme je včas dohnat

Automatické ladění parametrů fulltextu

Jak nastavit parametry na optimum? parametry Výdej výsledků Data Data Data Data

Od oka Historie ladění parametrů v Seznamu nějak nastavit parametry a pak to nějak zkoumat ve více lidech od oka, pak se hádáme kaţdý dodá dotazy, kde jsme lepší, horší, beze změny Vyuţití kalibrací a měření kvality fulltextu Ručně nastavovat, ale hned vidím kvalitu (i dotazy, na kterých to drhne) Automatické nastavování vah

Nastavovače vah

Nastavovače vah

Otázka pro vás: Jak odstranit bottle neck? Kdyţ změníme parametry, tak se musíme pro všechny nakalibrované dotazy zeptat fulltextu na nové pořadí výsledků. Podle toho poznáme, jestli jsme si pomohli Potřebujeme se ptát mnohem více neţ stíháme Nastavovač User dotaz Fulltext 80 strojů Parametry+dotaz

Co vše se při návrhu fulltextu využije?

Pestrý tým vývojářů Softwarové inţenýrství Práce s velkým objem dat Poskytování online výsledků Databáze a distribuované systémy Optimalizace na výkon, paralelizace Strojové učení Klasifikátory dotazů Klasifikátory stránek (např. citlivý obsah) Statistika, datamining Je to věda.

Lingvistika Pestrý tým vývojářů Lemmatizace, syntaxe věty Pochopení dotazu Zkratky Oprava překlepů (např. fonetický přepis) Kolokačnost slov Desambigulace Grafové algoritmy Odkazová síť, graf internetu Další chytré přístupy

Děkuji za pozornost.

Technické parametry a statistiky

Hardware v provozu 4x webovka, metasearch, lemmatizace Quad-Core Xeon X3550, 2x2Ghz Disky: 2x70G Paměť: 3G 72x basesearch, content server Quad-Core Xeon X3650, 2x2Ghz Disky: 6x160G Paměť: 16G 24x strojů pro Robota a Indexaci Stroj pro výpočet PageRanku má 64G RAM.

Zátěž během týdne 1/4 zátěţe aţ 400 dotazů/s

Doba odezvy během týdne Doba odezvy v msec

Úspěšnost query cache Úspěšnost cache v %

Výkon robota Rychlost stahování Průměrná stránka Denní objem > 450 stránek / sec ~11 kb (zdojový kód) ~40 miliónů dokumentů cca 410 GB dat