Petr Nevrlý <petr.nevrly@firma.seznam.cz>



Podobné dokumenty
Petr Nevrlý

Petr Nevrlý

Petr Nevrlý

Štěpán Škrob

Jak se vyvíjí fulltext

Internetové vyhledávače

10. SEO Obsah meta, konkrétní elementy v html kódu. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Web. Získání informace z internetu Grafické zobrazení dat a jejich struktura Rozšíření funkcí pomocí serveru Rozšíření funkcí pomocí prohlížeče

14,819 (5.84 Stránky/Návštěva) Čvn Kvě Čvc Srp 2014

SEO. Jarda Hlavinka Informační architekt internet. portálů

Vyhledávání na portálu Knihovny.cz

Statistika pro ( )

Využití informačních technologií v cestovním ruchu P1

Statistika pro ( )


1 z :21

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

1 z :17

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

SEO OPTIMALIZACE PRO VYHLEDÁVAČE JEDNODUŠE

Seznam.cz, a.s. I Radlická 608/2 I Praha 5 I Tel.: I Fax:

Statistika pro light4sport.cz ( )

SEARCH ENGINE OPTIMIZATION

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

Internet 2 css, skriptování, dynamické prvky

InternetovéTechnologie

Nové přístupy tvorby web site. Doc. Ing. Zdeněk Havlíček, CSc. KIT PEF CZU - 13/11/2001

Co je (staro)nového v DSpace

SEM, SEO a PPC? Kouzelné formulky?

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

INTERNETOVÉ VYHLEDÁVAČE

Dozvíte se mimo jiné, jak přinutit internetový vyhledávač, aby našel přesně to, co potřebujete.

Statistika pro light4sport.cz ( )

InternetovéTechnologie

InternetovéTechnologie

DAN EST FIN FRA IR NEM NIZ POR RAK RUM SLO SWE VB CZ 0% 0% 0% 50% 0% 0% 0% 0% 0% 0% 0% 0% 100% 0%

SEO Optimalizace pro vyhledávače

:16. Datum: Zpracoval: Ing. Richard Ruibar

7. SEO Nástroje pro analýzu úspěšnosti. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Přizpůsobení Layoutu aplikace. Základní moduly a funkčnost aplikace

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

JÁ DĚLÁM TO SEO DOBŘE,

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

Studijní informační zdroje

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

Základní informace o světových, českých a čínských vyhledávačích, seznámení s RSS technologií

Placená forma (adwords, sklik)

SEO (optimalizace pro vyhledavače)

Analýza webových stránek andreaspctipps.de

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

verze GORDIC spol. s r. o.

Search Engine Marketing jako základní kámen internetové propagace. František Štrupl, H1.cz

SEO prakticky a jak využít Google Analyticsu k optimalizaci webu

Seminář SEO jako součást internetového marketingu OS Chocholík Martina Hosová DiS.

Obsah ÚVODEM... 3 KAPITOLA 1 PROČ JEŠTĚ NEMÁTE SVÉHO NEJLEPŠÍHO OBCHODNÍKA?... 4 KAPITOLA 2 PLÁNUJEME OBCHODNÍ STRATEGII WEBU...

Dobrý SHOP Popis produktu a jeho rozšíření

MBI - technologická realizace modelu

WEB KNIHOVNY JAKO NÁSTROJ K PROPAGACI SLUŽEB A INFORMACÍ ING. PAVEL CIMBÁLNÍK

Přehled poskytovaných dat a služeb ČÚZK. Jiří Poláček Český úřad zeměměřický a katastrální

VYHLEDÁVÁNÍ NA KLÍČOVÉ SLOVO (v názvu nebo popisu činnosti)

Nový obchodní rejstřík

Google Apps. Administrace

VYHLEDÁVÁNÍ NA INTERNETU. Přednášející: Ondřej Douša

Marketingová agentura Softsite.cz - Mediální kampaně a reklama na míru

si.shimano.com Uživatelský návod

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Vyhledávání na Internetu

Databáze MS-Access. Obsah. Co je to databáze? Doc. Ing. Radim Farana, CSc. Ing. Jolana Škutová

Webová stránka. Matěj Klenka

VY_32_INOVACE_IKTO2_0460 PCH

Veřejný dálkový přístup (VDP) Podpora editorům RÚIAN. Dana Pohanková

VÝPOČETNÍ TECHNIKA OBOR: EKONOMIKA A PODNIKÁNÍ ZAMĚŘENÍ: PODNIKÁNÍ FORMA: DENNÍ STUDIUM

Podstata titulku shoduje s účelem - zaujmout čtenáře. Cílem je zaujmout čtenáře a současně informovat vyhledávacího robota, o čem Vaše stránka je.

Role informační architektury a optimalizace pro vyhledavače v online publikování

Praha6.cz. Správa moderního portálu

OBECNÉ PODMÍNKY PRO REKLAMNÍ BANNERY

Marketing a reklama. Zpracoval: Ing. Petr Hlubuček, květen 2013 REKLAMA A INTERNET. Reklama se postupně z velké míry přesouvá na internet.

Webové prezentace a aplikace. Autor: Ing. Jan Nožička SOŠ a SOU Česká Lípa VY_32_INOVACE_1132_Webové prezentace a aplikace_pwp

Placená reklama ve vyhledávačích

společnost Google dostala od Andyho Bachtolsheima sto tisíc dolarů a přestěhovala se z koleje do garáže v Menlo Parku na konci roku 1998 Google

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Compatibility List. GORDIC spol. s r. o. Verze

Profesionální nástroj pro sledování a analýzu návštěvnosti vašich internetových stránek

vasedomena.cz SEO ANALÝZA WEBOVÝCH STRÁNEK (9. SRPNA 2017)

Datové schránky ante portas

HLEDEJCENY.mobi. Obsah. Mobilní verze e-shopu. Důvody instalace

phoenix jackass 2 3gp Jackass 2 download Jackass 2 Mp4 na stiahnutie jackass na mobil download jackass soundtrack ke stazeni jak poslat

SEO optimalizace Jiří Psota

TECHNICKÉ POŽADAVKY NA NÁVRH, IMPLEMENTACI, PROVOZ, ÚDRŽBU A ROZVOJ INFORMAČNÍHO SYSTÉMU

Produktový manuál.

Digitální knihovna MZK a mobilní aplikace Kramerius Královéhradecká knihovnická konference

co uživatel? Vilém Sklenák Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

SEO. Ale vážně co to vlastně SEO je?

Co musíte udělat po instalaci WordPressu. Vlastimil Ott

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Transkript:

Fulltextové vyhledávání Petr Nevrlý <petr.nevrly@firma.seznam.cz>

Vyhledávání Architektura ve zkratce Vyhledávání Robot Aktuální údaje z provozu Obsah přednášky Novinky ve fulltext (2009) Screenshot generátor Rozpoznání citlivého obsahu Populární odkazy Oprava překlepů Miniaplikace Podpora GEO-mikroformátu Nová verze vyhledávání

Cíl fulltextového vyhledávání Poskytnutí odpovědi na dotaz uživatele Shromáždění dat (robot) Předzpracovaní a zpracování dat (index, DB) Výdej (metasearch, basesearch)

Část 1 Architektura ve zkratce 1. Hlavní části a redundance v provozu 2. Blokové schéma

Hlavní části Redundance v provozu

Blokové schéma

Část 2 Vyhledávání 1. Zadávané dotazy 2. Lemmatizace

Zadávané dotazy (1) 10 náhodných dotazů posilovna plné hry ke stažení zdarma plemena koní planovac tras petra němcová fotky paragrafy a zákony papírové vystřihovánky panenka chou chou paintball bazar oplocení

Zadávané dotazy (2) Forma dotazů: Nejedná se přímo o otázky přídavná a podstatná jména 1. pád jednotné i množné číslo občas bez diakritiky

Lemmatizace Lemma = základní tvar slova Věta: Jeden z nejlepších zdrojů o německých tancích. Lemmatizováno: Jedna/Jíst z dobrý zdroj o německý tank/tanec. Disambiguace = vyloučení nejednoznačnosti

Část 3 Robot 1. Hledání nových stránek 2. Reindexace stránek 3. Ne-HTML formáty

Hledání nových stránek (1) Před 5 lety start Procházení nalezených odkazů Domény.cz,.sk,.com,.org,.net,.info, Hledá stránky v českém jazyce Alternativní zdroje: RSS a sitemap

Hledání nových stránek (2) Robots.txt standardní protokol pro zakázání přístupu robotů (www.robotstxt.org) Textový soubor http://example.com/robots.txt # comment User-Agent: * Disallow: /statistiky User-Agent: Bot Disallow: /

Reindexace stránek (1) Každý den se vybere množina stránek pro reindexaci Při výběru se hodnotí Datum poslední návštěvy Rank (Srank) Frekvence změn

Reindexace stránek (2) Přetěžování webserverů Shapování podle IP adresy Omezení max počet URL / sec

Ne-HTML formáty PDF DOC (MS Word) RTF PPT (v roce 2009) Operátor filetype:

Část 4 Aktuální údaje z provozu

Velikost databáze (1) Počet dokumentů

Velikost databáze (2) Počet dokumentů Indexy Obsah dokumentů (texty) Průměrný text 355 miliónů 1,8 TB 1,4 TB 6 kb / dokument

Zátěž během týdne 1/4 zátěže resp. 1/6 až 400 dotazů/s

Doba odezvy během týdne Doba odezvy v msec

Úspěšnost query cache Úspěšnost cache v %

Výkon robota Rychlost stahování Průměrná stránka Denní objem > 450 stránek / sec ~11 kb (zdojový kód) ~40 miliónů dokumentů cca 410 GB dat

Stáří dokumentů ve dnech Minimální 1 Maximální 135 Průměr 6,9 Nejčastěji 1,2 9,5

Novinky v roce 2009 Screenshot generátor Rozpoznání citlivého obsahu Populární odkazy Podpora GEO-mikroformátu Nová verze vyhledávání

Screenshot generátor - snímání 10 URL/sec (1M URL/den) Max >20 url/sec 6 GB dat/den Rozlišení 700x525 px Barevná hloubka 5 bitů Formát PNG

Screenshot generátor - storage 660M obrázků 150M unikátních dokumentů Data cca 1,6TB PNG v speciální data storage 2,2kB avg img

Screenshot generátor - výdej >1 800 img/sec NoImage ~0,75% http://fimg.seznam.cz/?spec=ft100x75&url=http%3a//search.seznam.cz/ Zkracování cesty http://www.vse.cz/vedeni/hindls.php http://www.vse.cz/vedeni/ http://www.vse.cz/

Výdej Screenshot generátor - HW 2 x 8 serverů 2 x QuadCore 8GB RAM Generátor 1 x 4 servery x 4 vituály x 10 Mozilla 2 x QuadCore Repository 1 x 1 server 16 x 1TB SATA

Rozpoznání citlivého obsahu

Rozpoznání citlivého obsahu 1. Detekce adult dotazů 2. Detekce adult dokumentů http://search.seznam.cz/?q=pupendo+fotky filtr funguje automaticky, stejné jako s parametrem &safe=auto http://search.seznam.cz/?q=pupendo+fotky&safe=no filtr je vypnutý bez ohledu na vyhodnocení dotazu http://search.seznam.cz/?q=pupendo+fotky&safe=yes filtr je zapnutý a do SERP nejsou zařazeny nevhodné stránky bez ohledu na zadaný dotaz

Populární odkazy Text odkazu z textu odkazu na stránce Jen u prvního výsledku Podstránky webu Statistické zpracování

Oprava překlepů

Miniaplikace

Podpora GEO-mikroformátu http://microformats.org/wiki/geo <cokoliv class="geo"> <cokoliv class="latitude">50.071583</cokoliv > <cokoliv class="longitude">14.400785</cokoliv > </cokoliv>

Nová verze vyhledávání Aktuálně na http://searchtest.seznam.cz Hlavní změny OR + expanze dotazu Nová lemmatizace Lepší oháčkování Kolokace Využití Admintools

OR, expanze dotazu Query: Vysoká škola ekonomická v Praze Nové hledání Staré hledání

Nová lemmatizace + Lepší oháčkování Umí i nová a převzatí slova Staré hledání barum bar barům bar Nové hledání barum barum barům bar

Kolokace Význam spojitosti dvou sousedních slov Zohledňění ve výpočtu vzdál. slov na stránce Dotaz plzeňské pivo kolokace=0,9 Dotaz jiří topolánek kolokace=0,4 Dotaz vše uk kolokace=0,1

AdminTools Porovnání vybraných vyhledávačů Ověřování dopadů změn v hledání Automatické nastavení vah pro hledání Externí kalibrátoři hodnotí řádově stovky dotazů a desetitisíce dokumentů (počet se neustále navyšuje) Víc informací o AdminTools na další přednášce

Konec Děkuji za pozornost http://fulltext.sblog.cz

Bonusy 1. TOP 10 dotazů 2. SEO

Top 10 dotazů r. 2008 1. "" 2. youtube 3. libimseti.cz 4. superhry 5. freefoto 6. freevideo 7. redtube.com 8. sms zdarma 9. google 10.porno r. 2009 1. "" 2. youtube.com 3. libimseti.cz 4. superhry 5. o2 6. freevideo 7. facebook 8. aukro.cz 9. google 10.porno

1. URL 2. Obsah stránky SEO (search engine optimalization) 3. JavaScript a Flash

URL Vhodně zvolená doména www.csas.cz www.ceskasporitelna.cz Optimalizované URL a rewrite super.cz/index.php?clid=18656 novinky.cz/vladni-spis-jak-zabranit-unikuinformaci-na-internet-unikl-na-internet Minimalizovat duplicity!!

Obsah stránky Titulek Důležitá součást stránky Unikátní na každé stránce Text Správně používat sémantické značky Nepoužívat text jen na obrázku

JavaScript a Flash Robot neumí procházet přes: formuláře JavaScript navigaci Flash presentace JavaScript přesměrování Textová alternativa k dynamické navigaci

Konec (2)