Bankovní institut vysoká škola Praha SEO Optimalizace pro internetové vyhledávače Bakalářská práce Jan Bambas Květen, 2010-1 -
Bankovní institut vysoká škola Praha Katedra informačních technologií a elektronického obchodování SEO Optimalizace pro internetové vyhledávače Bakalářská práce Autor: Jan Bambas Informační technologie, správce IS Vedoucí práce: Ing. Daniela Krupičková Praha Květen, 2010-2 -
Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a za použití literatury uvedené ve zdrojích. V praze, 30.5.2010 Jan Bambas, autor práce - 3 -
Anotace Bakalářská práce je zaměřena na tématiku SEO optimalizace pro internetové vyhledávače. Úvodní část práce nastiňuje hlavní cíle optimalizace, analyzuje současný stav vyhledávačů na komerčním poli a věnuje se základním technickým i obsahovým předpokladům pro optimalizaci. Z odborného hlediska jsou dále v práci popsány nejpoužívanější on-page a off-page optimalizační faktory a metody včetně krátkých praktických příkladů. Poslední část popisuje problematiku nepovolených optimalizačních metod, jejich význam a možnosti zneužití optimalizace. Annotation This bachelor thesis is focused on the topic of SEO search engine optimization. The introductory part describes the main goals of optimization, analyzes current state of commercial search engines and deals with basic technical and content prerequisites for optimization. The most commonly used on-page and off-page factors and methods are then described from technical point of view along with short practical examples. Last part describes the problematic of forbidden optimization methods, their significance and the potential of optimization abuse. - 4 -
Obsah 1 Úvod... 7 2 Optimalizace pro vyhledávače význam a předpoklady... 8 2.1 SEM Search Engine Marketing... 8 2.1.1 Vztah mezi SEM a SEO... 8 2.2 Internetové vyhledávače... 9 2.2.1 Fulltextové vyhledávače vs. katalogy... 10 2.2.2 Přehled nejvýznamnějších fulltextových vyhledávačů pro české návštěvníky.. 11 2.2.2.1 Seznam.cz... 12 2.2.2.2 Google (.com,.cz)... 12 2.2.2.3 Centrum.cz, Atlas.cz... 12 2.2.2.4 Jyxo.cz... 13 2.2.3 Podíl fulltextových vyhledávačů... 13 2.3 Rank známkování stránek... 15 2.3.1 PageRank (PR)... 15 2.3.2 S-rank... 16 2.3.3 Jyxorank... 16 2.3.4 Jak zjistit rank stránky... 17 2.4 Předpoklady pro SEO... 17 2.4.1 Technologické předpoklady... 18 2.4.1.1 Použití skriptů ve zdrojovém kódu... 18 2.4.1.2 Technické parametry webserverů... 19 2.4.1.3 Validita HTML... 19 2.4.2 Obsahové předpoklady... 20 2.4.2.1 Příprava obsahu webu... 20 2.4.2.2 Návrh obsahové struktury... 20 2.4.2.3 Duplicitní obsah... 22 2.4.2.3.1 Duplicitní obsah v důsledku nesprávně navržené architektury webu... 22 2.4.2.3.2 Duplicitní obsah v důsledku plagiátorství... 23 2.4.2.4 Zamezení indexace irelevantního obsahu... 23 2.4.2.4.1 Soubor robots.txt... 24 2.4.2.4.2 Omezení indexace pomocí HTML... 25 2.4.2.4.3 Soubor sitemap.xml - mapa stránek... 27 3 On-page optimalizace... 29 3.1 Keywords - klíčová slova... 29 3.2 Doménové jméno... 30 3.3 URL... 31 3.3.1 Požadavky na URL... 32 3.4 Title - titulek stránky... 33 3.5 Description popisek stránky... 34 3.6 Stop slova... 34 3.7 Nadpisy... 34 3.8 Zvýraznění řezem písma... 35 3.9 Popisky obrázků... 35 3.10 Popisky HTML elementů... 36 3.11 Text odkazu - anchor text... 36 4 Off-page optimalizace... 38 4.1 Off-page vazby... 38 4.2 Metody off-page optimalizace... 38-5 -
4.2.1 Přirozený linkbuilding, linkbaiting... 38 4.2.2 Výměna a koupě odkazů... 39 4.2.3 Registrace do katalogů... 39 4.2.4 Účast v diskusních fórech... 40 5 Black Hat SEO nepovolené metody... 41 5.1 Penalizace... 41 5.2 Komentářový SPAM... 42 5.3 Skrytý obsah... 42 5.4 Cloaking... 42 5.5 Doorway page, stuffing... 43 5.6 Odkazové farmy... 43 5.7 SPAM report... 43 6 Závěr... 45 7 Seznam použitých zdrojů... 47-6 -
1 Úvod V současné době je internet všeobecně nejpopulárnějším zdrojem informací. Přispěl k tomu mohutný rozvoj informačních technologií v posledním desetiletí, který měl za následek masivní rozšíření internetu do mnoha firem a domácností. S rozvojem internetu se ve velkém měřítku rozrostl počet webových prezentací a systémů, které dohromady tvoří základ pro jednu z nejvýznamnějších internetových služeb. Tím se stal internet zároveň prostorem, který se dostal na velice vysoký potenciál z hlediska realizace výdělečné činnosti a eventuelních zisků s ní spojených. S tím analogicky souvisí rozšíření možností pro využití propagace, reklamy a marketingu všeobecně. Předmětem této práce je využití optimalizací pro internetové vyhledávače (angl. Search Engine Optimization zkráceně SEO), jež se staly nedílnou součástí internetového marketingu a tvorby webových stránek - webdesignu. Vzhledem k tomu, že vyhledávače jsou aktuálně nejpoužívanějším prostředkem pro získávání informací z internetu, je optimalizacím pro vyhledávače kladen patřičný důraz v rámci webové propagace. V několika posledních letech se na trhu objevila řada firem, v jejichž nabídce jsou služby zaměřené na SEO. Kvalita těchto služeb se ve výsledku odráží v první řadě na růstu návštěvnosti optimalizovaných webů a v druhé řadě na růstu míry konverze návštěvníků v zákazníky tedy růstu reálných finančních příjmů. A vzhledem k tomu, že zisk je primárním cílem drtivé většiny provozovatelů webů, měly by být SEO služby pro propagaci stránek co nejefektivnější. V této práci je všeobecně popsána problematika, která s využitím SEO úzce souvisí. V úvodní kapitole je nastíněn základní význam SEO a hlavní cíle; jsou zde popsány jednotlivé vyhledávače a způsob jejich činnosti - vyhledávání, indexování a hodnocení stránek. Dále jsou v úvodu uvedeny základní předpoklady, které jsou z hlediska optimalizace významné a neměly by být opomíjeny. V dalších částech jsou jednotlivě rozepsány konkrétní metody, které by měly být v rámci kvalitní optimalizace zohledňovány. Ty jsou rozděleny na tři části on-page metody (realizované přímo při tvorbě stránek), off-page metody (uplatňované vně optimalizovaného webu) a nepovolené metody, jež jsou předmětem zneužívání SEO. - 7 -
2 Optimalizace pro vyhledávače význam a předpoklady 2.1 SEM Search Engine Marketing Search engine marketing (SEM) je jedním z moderních strategických prostředků marketingu. Jeho cílem je přitahovat zákazníky na webové stránky za pomoci internetových vyhledávačů, především za účelem prodeje nabízených služeb a produktů. SEM patří v současnosti mezi nejefektivnější marketingové metody v oblasti internetu a jeho význam stále stoupá. Růst významu je opodstatněn ohromným rozvojem internetu v poslední dekádě, způsobeným zejména vysokým nárůstem počtu uživatelů. Zároveň se masivně rozvinuly možnosti využití internetu v oblastech podnikání, obchodování a propagace. Změnil se i přístup uživatelů, kteří se trendu přizpůsobili a vyhledávají služby čím dál frekventovaněji prostřednictvím internetu na úkor dřívějšího hledání fyzického. Internetové vyhledávače se tak staly nejpopulárnějším prostředkem pro hledání a získávání informací. Jejich síla tkví zejména v univerzálnosti vyhledávání nejsou odborně specializované ani nijak strukturované a jsou schopny rychle poskytnout výsledky z prakticky libovolné oblasti veřejně zpřístupněných elektronických zdrojů. Nárůst popularity vyhledávačů se přímo úměrně odrazil na marketingovém přístupu těch subjektů, které informace k vyhledávání poskytují, tedy provozovatelů webů. ve většině případů je jejich primární snahou dosáhnout vysoké a pravidelné návštěvnosti na webových stránkách a získat tak co nejvyšší potenciál pro prodej služeb, produktů a informací. Právě tento cíl odpovídá hlavní myšlence search engine marketingu. Existuje mnoho konkrétních postupů a metod, jak požadovaného stavu docílit. 2.1.1 Vztah mezi SEM a SEO Search engine marketing lze obecně rozdělit na dvě základní části sponzorovaný a nesponzorovaný. Rozdělení je v praxi takové, že s vyhledavači buď spolupracujeme formou umisťování placených odkazů anebo se snažíme bezplatně přizpůsobit obsah stránek tak, aby vyhledávač automaticky při řazení výsledků umisťoval vyhledávanou stránku na co nejlepší pozici. Neplacená část se nazývá Search Engine Optimization (SEO) a zahrnuje všechny metody a praktiky, které vedou k uzpůsobení - 8 -
stránek tak, aby byly upřednostňovány ve výsledcích vyhledávání bez nutnosti použití finančních prostředků. SEO se však nezaobývá jen konkrétními optimalizačními technikami, věnuje se zejména optimalizaci obsahu stránek, protože právě obsah je ve skutečnosti tím nejdůležitějším, co návštěvníky na stránky přiláká. [12] Způsobem jak zlepšit svou pozici ve vyhledávačích se weboví vývojáři zabývali již od vzniku prvního vyhledávače, respektive od vzniku vyhledávače, který začal řadit výsledky vyhledávání podle jiných kritérií, než podle abecedy nebo datumu. V České republice však byla tato oblast marketingu v minulosti dosti opomíjena. Částečně to bylo způsobeno tím, že vyhledávače se u nás začaly více rozšiřovat daleko později než v zahraničí. Používání vyhledávačů u nás v posledních letech neustále roste, avšak stále existuje ještě řada lidí, kteří při vyhledávání procházejí častěji katalogy a neznají možnosti internetových vyhledávačů. [14] 2.2 Internetové vyhledávače Internetový vyhledávač je speciální software, který umožňuje na základě uživatelem zadaného dotazu vyhledávat webové stránky s takovým obsahem, který co možná nejvíce odpovídá právě zadanému dotazu (je vůči dotazu tzv. relevantní). V uživatelském rozhraní tvoří jeho základ jednoduché textové pole pro zadání výrazu k hledání, na nějž vyhledávač po zpracování reaguje zobrazením tzv. SERP (Search Engine Results Page) stránky se seznamem nalezených relevantních výsledků. Výsledky jsou na SERP seřazené podle určitých kritérií a faktorů, na jejichž základě je postaven algoritmus vyhledávání. Každý vyhledávač má tyto algoritmy rozdílné a jejich zdrojové kódy nezveřejňuje, nicméně i tak lze z výsledků vyhledávání odhalit základní principy, na kterých jsou algoritmy postaveny. Vyhledávač principielně pracuje tak, že automaticky prohledává obsah webu, stáhne jej, zaindexuje a uloží do své databáze. Mezi prohledávaný obsah patří webové stránky, textové dokumenty, PDF dokumenty a jiné soubory, které jsou pro vyhledavač z hlediska jejich obsahu indexovatelné. Vzhledem k tomu, že při hledání výrazů prochází vyhledávač celý dokument, jedná se o tzv. fulltextové vyhledávání. Při odeslání dotazu pak zadaný text vyhledá ve své databázi a provede nad ním výběrový dotaz, jehož výsledky zobrazí uživateli. Indexování obsahu využívá vyhledávací software zejména k rychlé orientaci v databázi, tudíž výsledky vyhledávání má uživatel téměř okamžitě k dispozici. - 9 -
Pokud některá stránka není vyhledávačem z jakéhokoliv důvodu stažena nebo zaindexována, je nemožné, aby se zobrazila na stránce s výsledky vyhledávání (SERP). Každý fulltextový vyhledávač se skládá ze dvou částí. První část je robot (také se nazývá crawler, spider, bot nebo pavouk) a druhá část je webové rozhraní. Robot má na starosti procházení webu, stahování souborů a jejich indexaci. Robota by šlo dále dělit ještě na getter, který stahuje soubory a na indexer, který má za úkol soubory zpracovávat a ukládat do databáze. Robot se po webu pohybuje úplně samostatně, nelze mu nařídit jak často má na stránku chodit (vyhledávači lze samozřejmě zaplatit za pravidelnou indexaci), ale pouze to, které stránky nesmí indexovat. Pamatuje si, kde byl a v jeho algoritmu je naprogramováno, kdy se na danou stránku má opět vrátit. [4] 2.2.1 Fulltextové vyhledávače vs. katalogy Vyhledávače se dělí na dva základní druhy, a to katalogové a fulltextové. První skupina vyhledávačů funguje na principu ruční (ve výjimečných případech automatické) registrace do webových katalogů, oproti tomu vyhledávače fulltextové fungují na základě automatického prohledávání obsahu internetu za pomocí softwarových robotů. Základním předpokladem k tomu, aby se vyhledávače o optimalizovaném webu dozvěděly, je předložit jej nějakým způsobem vyhledávacím robotům k indexaci. Vzhledem k tomu, že vyhledávače prohledávají obsah internetu prostřednictvím existujících odkazů směrovaných pouze z indexovaných webů, je zapotřebí nejprve takový odkaz vytvořit. K tomu slouží právě internetové katalogy, do kterých lze web manuálně registrovat a tím tak vytvořit zpětný odkaz, přes který se teprve vyhledávací robot na potřebný cíl dostane. Na první pohled se zdá, že platí, čím více katalogových registrací vytvoříme, tím více získáme zpětných odkazů a lepší pozice ve vyhledávačích. Avšak není tomu úplně tak. Je zapotřebí brát zejména ohled na fakt, že největší váhu mají odkazy především z webů s podobnou tématikou a nikoli ze všeobecných katalogů bez tematického zaměření. Nicméně odkazové katalogy jsou i tak snadnou, oblíbenou a efektivní cestou k předložení stránek vyhledávacím robotům. Optimalizace pro katalogové vyhledávače je jednoduchá. V podstatě záleží pouze na třech faktorech titulku, popisu webu a klíčových slovech. O to důležitější je jejich řádná příprava, vyhledávač totiž při hledání prochází pouze tyto tři údaje. Důležité - 10 -
je, aby popisek obsahoval dostatečný počet klíčových slov, nejlépe v prvním pádu a osobě, ale aby byl zároveň koncipovaný tak, aby zaujal případné návštěvníky. [20] Katalogy nejsou tak frekventovaně využívané, podle poslední dostupné statistiky z května roku 2005 používalo v té době katalogy k vyhledávání již jen 8 % uživatelů a tendenční vývoj byl klesající. Doby, kdy byly katalogy hlavními zdroji návštěvností, jsou již dávno pryč. Přispělo tomu hlavně přepnutí vyhledávání na fulltext.[14] Fakt, že nejvíce lidí přichází na weby z vyhledávačů však neznamená, že jsou katalogy bezvýznamné. Naopak při hledání určitých informací je pro uživatele mnohem jednodušší a rychlejší vyhledat požadovanou informaci za pomoci prolistování internetových katalogů. Nespornou výhodou katalogů je právě jejich hierarchické rozdělení a kategorizace, ve které se snáze orientuje oproti stránce SERP, na které jsou výsledky zobrazeny neroztříděné. Velký význam mají stále katalogy zejména v vyhledávání na základě uživatelem zadané lokality (např. pokud uživatel hledá službu v konkrétním městě), vyhledávače však tento deficit pozvolna a jistě dorovnávají. Nejvýznamnějšími internetovými katalogy webových stránek jsou v České republice Seznam.cz (zahrnující zejména Seznam Katalog, Zbozi.cz a Firmy.cz), Centrum.cz a Atlas.cz; ve světovém měřítku je největším katalogem Yahoo! (Yahoo.com). Dále je třeba zmínit projekt ODP Open Directory Project, který je upravován za pomoci dobrovolných editorů z celého světa, kteří jsou pověřeni nezávislým a prověřeným přidáváním registrací webových stránek. Právě v nestrannosti registrujících editorů tkví největší přednost tohoto projektu, díky tomu jsou i registrované stránky ve výsledcích vyhledávačů lépe vyhodnocovány. Google dokonce považuje ODP za tak významnou autoritu, že pokud nenalezne dostatečné množství informací přímo z popisku na daném webu, čerpá informace z databáze ODP. Podmínkou je však samozřejmě to, že web musí být v katalogu ODP zaregistrován. [12] 2.2.2 Přehled nejvýznamnějších fulltextových vyhledávačů pro české návštěvníky V této části práce je uveden přehled nejvýznamnějších fulltextových vyhledávačů z pohledu návštěvníka z České republiky. Patři mezi ně vyhledávače Seznam.cz (www.seznam.cz), Google (www.google.com, www.google.cz), Centrum.cz (www.centrum.cz), Atlas.cz (www.atlas.cz) a Jyxo.cz [fon. džikso] (www.jyxo.cz). - 11 -
2.2.2.1 Seznam.cz Seznam.cz je v současnosti na tuzemském poli nejpoužívanějším vyhledávačem a zároveň i nejnavštěvovanějším internetovým portálem. Návštěvnost portálu činí více něž 2 miliony uživatelů denně. [26] Kromě fulltextového vyhledávače provozuje i řadu vysoce navštěvovaných serverů - katalogové systémy Firmy.cz a Zboží.cz, zpravodajské servery Novinky.cz a Sport.cz, vyhledávač Mapy.cz, komunitní server Lidé.cz a v neposlední řadě velmi populární webmailový systém E-mail.cz (zahrnující domény @seznam.cz a @email.cz). Seznam.cz se stal v obecném povědomí synonymem pro český internet. Spolu s dalšími čtyřmi společnostmi ve světě - Baidu (Čína), Naver (Jižní Korea), Yahoo Japan (Japonsko) a Yandex (Rusko) - představuje Seznam.cz hrstku těch, které ve světě vzdorují globálnímu hráči Google na poli on-line vyhledávání. [11] 2.2.2.2 Google (.com,.cz) Celosvětově největší a nejpoužívanější je vyhledávač americké společnosti Google, Inc., který kromě propracovaného fulltextu nabízí i specializované vyhledávací moduly pro kategorie, jako jsou obrázky, videa, mapy či zpravodajství. Nabízí mimo jiné i užitečné webové služby a software, např. Google Adsense (moduly pro textové reklamy), Google Chrome (webový prohlížeč), Google Analytics (přístupové statistiky), Google Android (operační systém pro mobilní zařízení), Google Earth (satelitní mapy), Gmail (webmail) a další. Právě díky řadě rozšíření, spolehlivosti a obecné univerzálnosti se vyhledávač Google těší obrovské popularitě mezi uživateli. Vyhledávač podporuje velké množství jazykových rozhraní, včetně češtiny s podporou skloňování. 2.2.2.3 Centrum.cz, Atlas.cz Centrum.cz je fulltextový a katalogový vyhledávač české společnosti Centrum Holdings (do roku 2008 NetCentrum). V současnosti tvoří na českém trhu dvojku mezi vyhledávači, avšak s velkým odstupem za vyhledávačem Seznam.cz. Internetový portál Centrum.cz je mezi uživateli oblíben zejména díky provozování řady redakčních serverů, mimo jiné i serveru Aktuálně.cz, který patří k největším zpravodajským serverům - 12 -
v tuzemsku. Kromě redakčních serverů se stal oblíbeným také díky populárnímu webmailovému serveru. [16] K fulltextovému vyhledávání používá Centrum.cz systém Morfeo, který vychází z původní open-source technologie Sherlock Holmes search engine. [15] Společnost Centrum Holdings v roce 2008 převzala i provoz vyhledávače Atlas.cz, který tvoří v současnosti trojku mezi českými vyhledávači. Atlas.cz byl historicky prvním internetovým portálem, který v tuzemsku nabídl vlastní fulltextový vyhledávač. [32] 2.2.2.4 Jyxo.cz Jedná se o další původně český vyhledávač, provozovaný v současnosti společností CET21 (provozovatel TV Nova). Společnost kromě vyhledávače Jyxo provozuje další významné projekty, jako např. zpravodajský server TN.cz nebo blogovací systém Blog.cz. Vyhledávač disponuje velice propracovanou českou lokalizací, podporující skloňování a časování včetně korekcí pravopisných chyb a překlepů. [33] Jyxo je technologie pro zpracování rozsáhlého množství dat - sběr, analýzu, vyhledávání. Spolu s napojením na internet je používána jako výkonný fulltextový vyhledavač. Přidáním dalších modulů je možné ji využít i pro prohledávání databází či čtení jiných formátů. [8] 2.2.3 Podíl fulltextových vyhledávačů Ze statistik internetového portálu Navrcholu.cz, který disponuje monitorovacím systémem pro návštěvnost českých webů, vyplývá, že dvě třetiny českých uživatelů používají vyhledávač Seznam.cz (včetně vyhledávání na dceřiných serverech Firmy.cz a Zboží.cz); necelá jedna třetina pak vyhledávač Google a cca 3 procenta vyhledávání tvoří uživatelé vyhledávačů Centrum.cz a Atlas.cz. Vyhledávač Jyxo tvoří již velmi zanedbatelnou část podílu necelé 1 procento uživatelů. Z těchto výsledků vyplývá, že optimalizace pro vyhledávače Seznam.cz a Google by neměla být v žádném případě zanedbávána. [21] Pro SEO má však podíl na trhu vyhledávačů pouze informativní charakter. Srovnání přístupů z vyhledávačů by bylo nutné porovnávat se servery, které mají stejné - 13 -
zaměření. To znamená porovnávat internetový obchod se souhrnnou sekcí Internetové obchody, nebo ještě lépe s podobně zaměřeným internetovým obchodem. Technicky zaměřený server bude mít pravděpodobně více návštěvníků z Googlu, naopak u magazínu pro ženy by se dal očekávat větší podíl Seznamu atd. [5] Na obrázku č. 1 lze sledovat statistiky přístupů z jednotlivých vyhledávačů na servery s podobným zaměřením. Pokud jednotlivé skupiny analyzujeme, zjistíme, že závislost použitého vyhledávače odpovídá předpokládanému zastoupení pohlaví, věku a obecné technické vyspělosti adekvátní zájmové skupiny. Evidentní je například porovnání kategorie Hardware a kategorie Zdraví, které tvoří dva opačné póly v rámci spektra českých uživatelů. Obr. č. 1: Statistiky přístupů [29] - 14 -
2.3 Rank známkování stránek Vyhledávače řadí výsledky vyhledávání podle různých faktorů. Jedním z významných faktorů, který vyhledávače při řazení výsledků na SERP stránkách zohledňují, je hodnocení stránek rank. Zjednodušeně lze tvrdit, že rank stránky odpovídá kvalitě jejího obsahu z toho vyplývá, že čím vyšší hodnocení stránka má, tím lepší pozici na SERP zaujímá. Rank je vypočítáván jednotlivě pro každou indexovanou webovou stránku, a to na základě algoritmů, které závisí na použitém vyhledávači. Jako první přišel s hodnocením stránek vyhledávač Google, který vytvořil algoritmus, který zohledňoval počet stránek, které na vyhledanou stránku odkazovaly. Hlavní logikou myšlenky byl předpoklad, že množství odkazů z cizích zdrojů je přímo úměrné kvalitě obsahu stránky. Takové stránky pak byly hodnoceny vyšším rankem a byly upřednostňovány ve výsledcích na SERP. Jednotlivé vyhledávače mají své vlastní rankové systémy, jejichž algoritmy však z marketingových důvodů zachovávají v tajnosti. Není však složité výpočet ranku na základě pozic v SERP odhadnout, jeho základ je u všech vyhledávačů víceméně stejný a liší se jen v drobnostech. Každý vyhledávač sice hodnotí stránky mírně odlišně od konkurentů, i tak je však odlišnost značně patrná na výsledcích vyhledávání. Pokud například zadáme konkrétní hledaný výraz do vyhledávače Seznam, jeho stránky SERP se většinou liší od SERP vyhledávačů Google, Jyxo atd. Mezi nejznámější hodnotící systémy patří PageRank (vyhledávač Google), v České republice pak dále S-Rank (Seznam), Q (Centrum) a JyxoRank (Jyxo). 2.3.1 PageRank (PR) PageRank je algoritmus, který ukazuje v jedenáctistupňové škále od 0 do 10 hodnověrnost WWW stránky. Velmi zjednodušeně řečeno, PageRank představuje hodnotu důvěryhodnosti, tj. kolik stránek současně hodnocených pomocí téhož vzorce na danou stránku odkazuje. Jinými slovy, každá stránka předává část své hodnověrnosti stránkám, na které odkazuje. Současně míra předávání této hodnověrnosti klesá s množstvím odkazů na stránce uvedených. PageRank je důležitý faktor, kterým se určuje umístění stránek na stránce výsledků vyhledávání (SERP). Není však nejdůležitější. Relevanci stránky určuje u Googlu přes 200 různých faktorů a PageRank je jen jedním z nich. [1] - 15 -
Původní algoritmus PageRanku jak byl zveřejněn jeho tvůrci: PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn)) PR(A) je PageRank stránky A, PR(Ti) je PageRank stránek Ti, které odkazují na A, C(Ti) je počet odchozích odkazů na stránce Ti a d je faktor útlumu (damping factor), který je mezi 0 a 1. V současnosti není aktuální algoritmus PageRanku znám, takže o jeho nastavení či tvaru se vedou jen dohady. Měl by ale vycházet z principů této rovnice. [14] 2.3.2 S-rank S-rank je alternativou Pageranku, kterou používá český vyhledávač Seznam.cz. Narozdíl od výše uvedeného systému používá škálu hodnocení 0 100. Hodnocení kvality se počítá opět vzestupně tedy čím vyšší číslo S-ranku, tím vyšší kvalita obsahu. Podobně jako Pagerank je vypočítáván na základě počtu odkazů na stránku směrujících a počtu odkazů, které stránka obsahuje. Čím více odkazů na kvalitní (vysoce hodnocené) weby, tím vyšší rank. A dále čím je vyšší hodnota S-ranku, tím frekventovaněji jsou stránky navštěvovány roboty. Hlavní rozdíl oproti Pageranku je ten, že S-rank hodnotí pouze ty stránky, které mají českou nebo slovenskou doménu. 2.3.3 Jyxorank Posledním systémem, o kterém bych se v souvislosti ranku stránek zmínil, je Jyxorank. Jak již název napovídá, jedná se o hodnotící systém českého vyhledávače Jyxo.cz. Podobně jako Pagerank používá pro hodnocení jedenáctistupňovou škálu 0 10, přičemž vyšší hodnota odpovídá kvalitnější stránce. Můžeme se však někdy setkat i s osmibitovou škálou, která odpovídá hodnotám 0 255. Zajímavostí je, že v minulosti byly podle Jyxoranku řazeny výsledky vyhledávače Seznam.cz. V roce 2006 nasadil Seznam.cz svůj vlastní systém S-rank. Jyxorank dodnes využívají kromě vyhledávače Jyxo.cz ještě Atlas.cz a Volny.cz. - 16 -
2.3.4 Jak zjistit rank stránky Nejrychlejší cestou, jak zjistit rank dané stránky, je návštěva webových stránek, které tuto on-line službu (tzv.checker) nabízejí. V České republice jich existuje celá řada, jmenujme např. http://rank.isecure.cz/ nebo http://pagerank.jklir.net/. Oba uvedené checkery nabízejí zobrazení všech tří popsaných hodnotících systémů (Pagerank, S-rank, Jyxorank); druhý z nich pak nabízí i zobrazení dalších, avšak u nás méně využívaných systémů např. Alexa-rank, Compete-rank, MozRank či Yahoo Backlinks. Vyhledávač Google nabízí mimo jiné katalogovou službu Google Directory, která v seznamu vyhledaných stránek automaticky zobrazuje jejich hodnocení. Dále je nutno zmínit i různé softwarové utility, které některé vyhledávače nabízejí. Nejznámější utilitou je Google Toolbar. Jedná se o nástrojovou lištu do webových prohlížečů, která zprostředkovává uživateli softwarové služby společnosti Google. Jednou z těchto služeb je i zobrazení Pageranku stránek. Obdobnou alternativou je nástroj Lištička českého vyhledávače Seznam.cz (zobrazující S-rank). 2.4 Předpoklady pro SEO Ačkoli kvalitní a hodnotný obsah je nejvýznamnějším stavebním prvkem webové optimalizace, v současné době již sám o sobě nestačí k umístění na vysokých příčkách ve vyhledávačích. Web musí být budován také s plným ohledem na programové technologické postupy, kterými lze vysokého umístění dosáhnout. Nevhodně navržený web se stává podnětem pro nesprávné shromažďování dat a indexování ze strany vyhledávače; v nejhorším případě nemusí být obsah webu indexován vůbec. Právě z toho důvodu je třeba brát ohled jak na optimalizaci obsahovou, tak optimalizaci technologickou. Hlavní úsilí optimalizace pro vyhledavače má základ v architektuře webu. Obsah spočívá na jejím vrcholu. Optimální architektura webu usnadňuje vyhledávači procházení webem a jeho porozumění. Proto je vytvoření webu s architekturou přizpůsobenou vyhledávačům hlavní faktor přispívající k dosažení a udržení dobré pozice ve výsledcích hledání. Architektura by také měla být vývojářem zvažována v průběhu existence webu, vedle dalších faktorů, jako třeba vzhledu a použitelnosti. Pokud by nová vlastnost znemožnila vyhledávači přístup k obsahu, překážela mu nebo jej mátla, přínos - 17 -
dobrého obsahu se může závažně snížit. Například web, který nevhodně používá technologie Flash nebo AJAX, může většinu svého obsahu vyhledávači zneviditelnit. [3] Vhodně navržená navigační struktura webu může zvýšit jeho souhrnný PageRank (součet PageRanku všech stránek) a zároveň PageRank přesunout z méně důležitých stránek na stránky důležitější. Obvykle bývá ideální hierarchická (stromová) navigační struktura posilující váhu stránek na vyšší úrovni hierarchie na úkor stránek na úrovních nižších. Stránky umístěné výše v navigační struktuře zpravidla obsahují obecnější klíčová slova s vyšší konkurencí ve vyhledavačích a potřebují tudíž ke svému zviditelnění vyšší PageRank. Stránky hluboko v navigační struktuře vysoký PageRank většinou nepotřebují, protože jsou jejich klíčové fráze velmi konkrétní a málo konkurenční. [9] 2.4.1 Technologické předpoklady 2.4.1.1 Použití skriptů ve zdrojovém kódu V rámci SEO optimalizace je zapotřebí brát v úvahu fakt, že vyhledávače procházejí a indexují jen programově generovaný obsah stránky zdrojový kód HTML. To znamená, že pokud webová stránka obsahuje v původním zdrojovém kódu programové skripty (PHP, JavaScript, Ajax, Flash, XML,...), vyhledávač vidí pouze výsledek jejich činnosti, tedy HTML. Z toho důvodu by se do takových skriptů neměl z hlediska SEO začleňovat negenerovaný obsah webu, vyhledávače do zdrojových kódů skriptu nevidí a tím pádem je neindexují. Takový problém nastává například při tvorbě webové navigace, kterou je v poslední době v oblibě vývojářů tvořit právě za pomoci neindexovatelných technologií; zejména se jedná o techniky JavaScript a Flash. Tyto technologie sice rozšiřují možnosti vývojářů pro zpracování webu, nicméně jsou vůči optimalizaci často nekompatibilní. Nicméně i tak existují metody, pomocí kterých mohou vývojáři obsah skrytý pod skripty vyhledávačům zobrazit či nahradit. Základní metodou je použití zástupného HTML pro texty skryté pod skripty. Například pokud je na webu vytvořená navigace s odkazy pouze ve skriptu Flash, měla by být kvůli vyhledávačům doplněna zároveň o navigaci v HTML, kterou již bezpečně rozpoznají. Pokud by doplňující navigace nebyla na stránce použita, vyhledávač by - 18 -
indexoval pouze první stranu; ostatní by pro něj byly nedostupné a tím pádem neindexovatelné. [14] Jediným negativním dopadem této metody je nutnost vytvoření grafické kompozice pro sekundární navigaci, a to je často v obecném rozporu s odůvodněným použitím Flashových skriptů, které tvoří základní prvky designu stránek. Navíc ne ve všech případech lze Flash nebo JavaScript za pomocí HTML zastoupit; tvůrce webu by měl tedy použití takovýchto skriptových technologií zvážit. Druhou metodou pro zpřístupnění skriptů vyhledávačům je použití kompatibilních a tedy rozpoznatelných skriptů. Tato metoda je však značně diskutabilní, výsledky jsou totiž individuální v závislosti na použitém vyhledávači. Například Google již vyvinul technologie pro rozpoznávání obsahu ve skriptu Flashe, tím pádem při správném použití dosahuje kompatibility i vůči této technologii. Avšak oproti tomu tuzemský majoritní vyhledávač Seznam takovýto obsah stále indexovat neumí a tudíž by pro něj nedoplněná Flashová verze měla z hlediska optimalizace nulový význam. [34] 2.4.1.2 Technické parametry webserverů Při optimalizaci se často vyplatí zohledňovat výběr technických prostředků, na kterých je web provozován. V případě technických problémů, nestability webových serverů či příliš dlouhé odezvy se může stránka stát pro vyhledávače nedostupnou a tím pádem neindexovatelnou. Pokud se vyhledávacímu robotu nepodaří kvůli těmto problémům stránku stáhnout a zaindexovat, zohlední ji často snížením ranku. Pokud je stránka z jakýchkoli důvodů nedostupná opakovaně, může se stát, že ji vyhledávač natrvalo vyřadí ze své databáze a nadále ji neindexuje. 2.4.1.3 Validita HTML Podstatnou roli hraje také validita zdrojového kódu HTML. Při jejím nedodržení může dojít k případu, že se obsah stránky stane pro vyhledávač nedostupný, ačkoli ve webových prohlížečích se návštěvníkům zobrazuje zdánlivě bez problémů. V současnosti sice dokáží vyhledávače podobně jako prohlížeče - rozpoznat i zdrojové kódy s chybami, nicméně se může stát, že webový obsah splyne se značkami HTML a vyhledávače je špatně zaindexují. - 19 -
Validitu HTML kódu je možné ověřit za pomoci speciálních webových aplikací - tzv. validátorů. Nejznámější a nejpoužívanější validátor HTML se nachází na stránkách konsorcia W3C [31] 2.4.2 Obsahové předpoklady 2.4.2.1 Příprava obsahu webu Kvalitní obsah je tím nejdůležitějším faktorem pro optimalizaci. Pokud bychom neměli před optimalizací dostatečné množství obsahu, či bychom jej měli dostatek, avšak takový, který návštěvníkovi není schopen poskytnout užitečné informace, ztrácí optimalizace webu na významnosti. Velmi často se v poslední době masového rozvoje nových webů stává, že mnoho provozovatelů (zejména menších firemních prezentačních webů) si důležitost obsahu neuvědomuje a apeluje v první řadě na designové provedení na úkor obsahové kvality. Taková investice je pro jakoukoliv webovou prezentaci zcela neefektivní. To samé platí pro optimalizace pokud není co optimalizovat (v tomto případě obsah), jedná se principielně o nesmyslný krok. Je však třeba se na věc podívat i z druhé strany. I velmi kvalitní a informačně přínosný obsah sám o sobě v žádném případě neznamená vítězství. Pokud není vhodně upraven do podoby, která je pro vyhledávač či návštěvníka webu srozumitelná, je z praktického hlediska k ničemu. Základními kroky pro prvotní práci s vytvořeným obsahem je jeho rozčlenění do vhodné obsahové struktury, dále typografická úprava, designové zpracování a v neposlední řadě také vytvoření mapy stránek (sitemap) a znepřístupnění či skrytí takového obsahu, který je pro návštěvníka irelevantní (např. zastararé soubory, testovací stránky, administrační rozhraní, zálohy atd.). 2.4.2.2 Návrh obsahové struktury Pro webovou prezentaci je z uživatelského hlediska žádoucí, aby byla nejen obsahově přínosná, ale také přehledná. Obsahová struktura webu by měla být vytvořena takovým způsobem, aby umožňovala uživateli snadný pohyb mezi jednotlivými webovými sekcemi a stále jej přehledně informovala o aktuální poloze. Snižuje se tím riziko, že se uživatel během procházení přestane na webu orientovat. - 20 -