Petr Nevrlý

Podobné dokumenty
Petr Nevrlý

Petr Nevrlý

Petr Nevrlý

Štěpán Škrob

Jak se vyvíjí fulltext

Internetové vyhledávače

14,819 (5.84 Stránky/Návštěva) Čvn Kvě Čvc Srp 2014

10. SEO Obsah meta, konkrétní elementy v html kódu. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Web. Získání informace z internetu Grafické zobrazení dat a jejich struktura Rozšíření funkcí pomocí serveru Rozšíření funkcí pomocí prohlížeče

InternetovéTechnologie


Vyhledávání na portálu Knihovny.cz

1 z :21

Internet 2 css, skriptování, dynamické prvky

1 z :17

Statistika pro ( )

SEO. Jarda Hlavinka Informační architekt internet. portálů

Využití informačních technologií v cestovním ruchu P1

Statistika pro ( )

JÁ DĚLÁM TO SEO DOBŘE,

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

InternetovéTechnologie

InternetovéTechnologie

SEARCH ENGINE OPTIMIZATION

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

SEM, SEO a PPC? Kouzelné formulky?

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

Nové přístupy tvorby web site. Doc. Ing. Zdeněk Havlíček, CSc. KIT PEF CZU - 13/11/2001

Co je (staro)nového v DSpace

SEO Optimalizace pro vyhledávače

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Seznam.cz, a.s. I Radlická 608/2 I Praha 5 I Tel.: I Fax:

Statistika pro light4sport.cz ( )

7. SEO Nástroje pro analýzu úspěšnosti. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

SEO OPTIMALIZACE PRO VYHLEDÁVAČE JEDNODUŠE

Search Engine Marketing jako základní kámen internetové propagace. František Štrupl, H1.cz

INTERNETOVÉ VYHLEDÁVAČE

Statistika pro light4sport.cz ( )

:16. Datum: Zpracoval: Ing. Richard Ruibar

Analýza webových stránek andreaspctipps.de

VYHLEDÁVÁNÍ NA KLÍČOVÉ SLOVO (v názvu nebo popisu činnosti)

Přizpůsobení Layoutu aplikace. Základní moduly a funkčnost aplikace

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

Placená forma (adwords, sklik)

SEO optimalizace Jiří Psota

Analýza návštěvnosti a efektivity webu

Základní informace o světových, českých a čínských vyhledávačích, seznámení s RSS technologií

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

SEO (optimalizace pro vyhledavače)

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

DAN EST FIN FRA IR NEM NIZ POR RAK RUM SLO SWE VB CZ 0% 0% 0% 50% 0% 0% 0% 0% 0% 0% 0% 0% 100% 0%

Marketingová agentura Softsite.cz - Mediální kampaně a reklama na míru

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

Studijní informační zdroje

Seminář SEO jako součást internetového marketingu OS Chocholík Martina Hosová DiS.

Nový obchodní rejstřík

Dozvíte se mimo jiné, jak přinutit internetový vyhledávač, aby našel přesně to, co potřebujete.

Obsah ÚVODEM... 3 KAPITOLA 1 PROČ JEŠTĚ NEMÁTE SVÉHO NEJLEPŠÍHO OBCHODNÍKA?... 4 KAPITOLA 2 PLÁNUJEME OBCHODNÍ STRATEGII WEBU...

Praha6.cz. Správa moderního portálu

WEB KNIHOVNY JAKO NÁSTROJ K PROPAGACI SLUŽEB A INFORMACÍ ING. PAVEL CIMBÁLNÍK

Produktový manuál.

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

konzultační hodiny: středa od 9:45-11:15 (předem napsat o konkrétním problému, který chcete konzultovat)

Sledování výkonu aplikací?

MBI - technologická realizace modelu

Radek Zimmermann, zim043. Geografické informační systémy Geo Microformats

si.shimano.com Uživatelský návod

Vyhledávání na Internetu

Inovace bakalářského studijního oboru Aplikovaná chemie

Databáze MS-Access. Obsah. Co je to databáze? Doc. Ing. Radim Farana, CSc. Ing. Jolana Škutová

Quo vadis, vyhledávání (na webu)?

SEO prakticky a jak využít Google Analyticsu k optimalizaci webu

Obsah. Rozdíly mezi systémy Joomla 1.0 a Systém Joomla coby jednička online komunity...16 Shrnutí...16

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

verze GORDIC spol. s r. o.

Marketing a reklama. Zpracoval: Ing. Petr Hlubuček, květen 2013 REKLAMA A INTERNET. Reklama se postupně z velké míry přesouvá na internet.

Mějte dobrý web. Oslovte více lidí. Generujte vyšší zisk!

VYHLEDÁVÁNÍ NA INTERNETU. Přednášející: Ondřej Douša

Dobrý SHOP Popis produktu a jeho rozšíření

Placená reklama ve vyhledávačích

Uživatelská podpora v prostředí WWW

HLEDEJCENY.mobi. Obsah. Mobilní verze e-shopu. Důvody instalace

Webová stránka. Matěj Klenka

SEO ve své původní podobě již neexistuje

Vilém Sklenák Inforum2009,

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Eshop s bazény (

Co musíte udělat po instalaci WordPressu. Vlastimil Ott

Kurz je rozdělen do čtyř bloků, které je možné absolvovat i samostatně. Podmínkou pro vstup do kurzu je znalost problematiky kurzů předešlých.

Veřejný dálkový přístup (VDP) Podpora editorům RÚIAN. Dana Pohanková

Maturitní otázka - optimalizace webových stránek

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

OBECNÉ PODMÍNKY PRO REKLAMNÍ BANNERY

Novinky IPAC 3.0. Libor Nesvadba Karel Pavelka

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

Transkript:

Fulltextové vyhledávání Petr Nevrlý <petr.nevrly@firma.seznam.cz>

Vyhledávání Cíl vyhledávání Architektura ve zkratce Vyhledávání Robot Údaje z provozu Obsah přednášky Novinky ve fulltext (2009) Screenshot generátor Rozpoznání citlivého obsahu Populární odkazy Oprava překlepů Miniaplikace Podpora GEO-mikroformátu Nová verze vyhledávání

Cíl fulltextového vyhledávání Poskytnutí odpovědi na dotaz uživatele

Cíl fulltextového vyhledávání Poskytnutí odpovědi na dotaz uživatele Shromažďování Rychlý robot Spolehlivá indexace Zakládání správných dokumentů Zpracování Vhodná struktura DB Vydání (řazení) Výkon (rychlost) Dostupnost Konzistence Kvalita

Vyhledávače jsou si velmi Typy fulltextů podobné, liší se jen v detailech Jako

Část 1 Architektura ve zkratce 1. Hlavní části 2. Redundance v provozu 3. Blokové schéma

Hlavní části

Hlavní části Redundance v provozu

Blokové schéma

Část 2 Vyhledávání 1. Zadávané dotazy 2. Lemmatizace 3. Hodnocení stránek

Zadávané dotazy (1) 10 náhodných dotazů posilovna plné hry ke stažení zdarma plemena koní planovac tras petra němcová fotky paragrafy a zákony papírové vystřihovánky panenka chou chou paintball bazar oplocení

Zadávané dotazy (2) Forma dotazů: Nejedná se přímo o otázky přídavná a podstatná jména 1. pád jednotné i množné číslo občas bez diakritiky

Lemmatizace Lemma = základní tvar slova Věta: Jeden z nejlepších zdrojů o německých tancích. Lemmatizováno: Jedna/Jíst z dobrý zdroj o německý tank/tanec. Disambiguace = vyloučení nejednoznačnosti

Hodnocení stránek (1) Titulek!! Obsah stránky URL

Hodnocení stránek (2) Citační analýza pro dotaz Ostrava

Hodnocení stránek (3) Pagerank = statická důležitost stránky založená na citační analýze Předpoklad: statisticky náhodné chování SPAM - blackseo

Část 3 Robot 1. Hledání nových stránek 2. Reindexace stránek 3. Ne-HTML formáty

Hledání nových stránek (1) Před 5 lety start Procházení nalezených odkazů Domény.cz,.sk,.com,.org,.net,.info, Hledá stránky v českém jazyce Alternativní zdroje: RSS a sitemap

Hledání nových stránek (2) Robots.txt standardní protokol pro zakázání přístupu robotů (www.robotstxt.org) Textový soubor http://example.com/robots.txt # comment User-Agent: * Disallow: /statistiky User-Agent: Bot Disallow: /

Reindexace stránek (1) Každý den se vybere množina stránek pro reindexaci Při výběru se hodnotí Datum poslední návštěvy Rank (Srank) Frekvence změn

Reindexace stránek (2) Přetěžování webserverů Shapování podle IP adresy Omezení max počet URL / sec

Ne-HTML formáty PDF DOC (MS Word) RTF PPT (v roce 2009) Operátor filetype:

Část 4 Aktuální údaje z provozu

Velikost databáze (1) Počet dokumentů

Velikost databáze (2) Počet dokumentů Indexy Obsah dokumentů (texty) Průměrný text 355 miliónů 1,8 TB 1,4 TB 6 kb / dokument

Zátěž během týdne 1/4 zátěže resp. 1/6 až 400 dotazů/s

Doba odezvy během týdne Doba odezvy v msec

Úspěšnost query cache Úspěšnost cache v %

Výkon robota Rychlost stahování Průměrná stránka Denní objem > 450 stránek / sec ~11 kb (zdojový kód) ~40 miliónů dokumentů cca 410 GB dat

Stáří dokumentů ve dnech Minimální 1 Maximální 135 Průměr 6,9 Nejčastěji 1,2 9,5

Novinky v roce 2009 Screenshot generátor Rozpoznání citlivého obsahu Populární odkazy Podpora GEO-mikroformátu Nová verze vyhledávání

Screenshot generátor - snímání 10 URL/sec (1M URL/den) Max >20 url/sec 6 GB dat/den Rozlišení 700x525 px Barevná hloubka 5 bitů Formát PNG

Screenshot generátor - storage 660M obrázků 150M unikátních dokumentů Data cca 1,6TB PNG v speciální data storage 2,2kB avg img

Screenshot generátor - výdej >1 800 img/sec NoImage ~0,75% http://fimg.seznam.cz/?spec=ft100x75&url=http%3a//search.seznam.cz/ Zkracování cesty http://www.vse.cz/vedeni/hindls.php http://www.vse.cz/vedeni/ http://www.vse.cz/

Výdej Screenshot generátor - HW 2 x 8 serverů 2 x QuadCore 8GB RAM Generátor 1 x 4 servery x 4 vituály x 10 Mozilla 2 x QuadCore Repository 1 x 1 server 16 x 1TB SATA

Rozpoznání citlivého obsahu

Rozpoznání citlivého obsahu 1. Detekce adult dotazů 2. Detekce adult dokumentů http://search.seznam.cz/?q=pupendo+fotky filtr funguje automaticky, stejné jako s parametrem &safe=auto http://search.seznam.cz/?q=pupendo+fotky&safe=no filtr je vypnutý bez ohledu na vyhodnocení dotazu http://search.seznam.cz/?q=pupendo+fotky&safe=yes filtr je zapnutý a do SERP nejsou zařazeny nevhodné stránky bez ohledu na zadaný dotaz

Populární odkazy Text odkazu z textu odkazu na stránce Jen u prvního výsledku Podstránky webu Statistické zpracování

Oprava překlepů

Miniaplikace

Podpora GEO-mikroformátu http://microformats.org/wiki/geo <cokoliv class="geo"> <cokoliv class="latitude">50.071583</cokoliv > <cokoliv class="longitude">14.400785</cokoliv > </cokoliv>

Nová verze vyhledávání Hlavní změny OR + expanze dotazu Nová lemmatizace Lepší oháčkování Kolokace Využití Admintools

OR, expanze dotazu Query: Vysoká škola ekonomická v Praze Nové hledání Staré hledání

Nová lemmatizace + Lepší oháčkování Umí i nová a převzatí slova Staré hledání barum bar barům bar Nové hledání barum barum barům bar

Kolokace Význam spojitosti dvou sousedních slov Zohledňění ve výpočtu vzdál. slov na stránce Dotaz plzeňské pivo kolokace=0,9 Dotaz jiří topolánek kolokace=0,4 Dotaz vše uk kolokace=0,1

AdminTools Porovnání vybraných vyhledávačů Ověřování dopadů změn v hledání Automatické nastavení vah pro hledání Externí kalibrátoři hodnotí řádově stovky dotazů a desetitisíce dokumentů (počet se neustále navyšuje) Víc informací o AdminTools na další přednášce

Konec Děkuji za pozornost http://fulltext.sblog.cz

Bonusy 1. TOP 10 dotazů 2. SEO

Top 10 dotazů r. 2008 1. "" 2. youtube 3. libimseti.cz 4. superhry 5. freefoto 6. freevideo 7. redtube.com 8. sms zdarma 9. google 10.porno r. 2009 1. "" 2. youtube.com 3. libimseti.cz 4. superhry 5. o2 6. freevideo 7. facebook 8. aukro.cz 9. google 10.porno

1. URL 2. Obsah stránky SEO (search engine optimalization) 3. JavaScript a Flash

URL Vhodně zvolená doména www.csas.cz www.ceskasporitelna.cz Optimalizované URL a rewrite super.cz/index.php?clid=18656 novinky.cz/vladni-spis-jak-zabranit-unikuinformaci-na-internet-unikl-na-internet Minimalizovat duplicity!!

Obsah stránky Titulek Důležitá součást stránky Unikátní na každé stránce Text Správně používat sémantické značky Nepoužívat text jen na obrázku

JavaScript a Flash Robot neumí procházet přes: formuláře JavaScript navigaci Flash presentace JavaScript přesměrování Textová alternativa k dynamické navigaci

Konec (2)