MASARYKOVA UNIVERZITA

MASARYKOVA UNIVERZITA FILOZOFICKÁ FAKULTA Ústav české literatury a knihovnictví Kabinet informačních studií a knihovnictví Současné trendy v oblasti SEO Bakalářská diplomová práce Autor práce: Dita Drahovzalová Vedoucí práce: PhDr. Michal Lorenz Brno 2011

Bibliografický záznam DRAHOVZALOVÁ, Dita. Současné trendy v oblasti SEO. Brno : Masarykova univerzita, Filozofická fakulta, Ústav české literatury a knihovnictví, 2011. 56 s. Vedoucí bakalářské práce PhDr. Michal Lorenz. Anotace Bakalářská práce zachycuje aktuální trendy a vývoj v oblasti optimalizace pro vyhledávače (SEO). Jejím cílem bylo vytvořit přehled o situaci v tomto odvětví a představit nové metody, které se v současné době používají. Práce je rozdělena do dvou hlavních částí: v teoretické části jsou popsány současné trendy na základě dostupné literatury a internetových zdrojů, praktická část pak zahrnuje výsledky výzkumu na základě rozhovorů s odborníky na oblast SEO. V závěru práce je uveden stručný náhled do budoucnosti z pohledu SEO. Annotation The bachelor thesis captures current trends and development in the sphere of Seach Engine Optimization (SEO). The aim was to provide an overview of the situation in this field, and describe the new methods being used. The thesis is divided into two main parts: the theoretical part describes current trends as dealt with in the literature and online sources, and the practical part presents the results of interviews with SEO experts. The thesis also includes a glimpse into the future from the SEO perspective. Klíčová slova SEO, optimalizace pro vyhledávače, Linkbuilding, SocialRank, Black Hat SEO, sémantický web, ontologie, Web 3.0 Keywords SEO, Search Engine Optimization, Linkbuilding, SocialRank, Black Hat SEO, Semantic Web, Ontologies, Web 3.0

Prohlášení Prohlašuji, že jsem předkládanou práci zpracovala samostatně a použila jen uvedené prameny a literaturu. V Brně dne 27.4.2011 Dita Drahovzalová

Poděkování Na tomto místě bych ráda poděkovala PhDr. Michalu Lorenzovi za podporu, vedení a podnětné připomínky týkající se této práce. Dále mnohokrát děkuji Vítu Fleischerovi a Vladimíru Foglovi za ochotu, cenné rady a drahocenný čas, který mi věnovali.

OBSAH Úvod... 7 1 Co je SEO... 8 2 Metody aplikace SEO... 8 2.1 On-page faktory... 8 2.1.1 Klíčová slova... 8 2.1.2 Důležité tagy... 9 2.1.3 URL adresa... 10 2.1.4 Unikátní obsah... 11 2.1.5 Struktura webu... 11 2.1.6 Kaskádové styly... 12 2.2 Off-page faktory... 13 2.2.1 Anchor text... 13 2.2.2 Linkbuilding... 14 2.2.2.1 Interní zpětné odkazy... 15 2.2.2.2 Externí zpětné odkazy... 15 2.2.3 SocialRank... 17 2.2.3.1 Optimalizace pro sociální sítě... 17 3 Nástroje SEO... 18 3.1 Webová analytika... 18 3.1.1 Google Analytics... 18 3.2 Teplotní mapy... 19 4 Zakázané metody... 20 4.1 Black Hat SEO... 20 4.1.1 Doorway stránky... 21 4.1.2 Cloaking... 21 4.1.3 Odkazové farmy... 21 4.2 Obsahové farmy... 22 4.3 Na co si dát pozor... 23 5 Nové trendy v SEO... 23 5.1 Sémantický web... 23 5.1.1 Ontologie... 24 5.1.2 Jazyky sémantického webu... 25 5

5.1.2.1 HTML... 25 5.1.2.2 XML... 26 5.1.2.3 XHTML... 26 5.1.2.4 RDF... 27 5.1.2.5 OWL... 28 5.1.2.6 SPARQL... 29 5.1.3 FOAF... 30 5.2 Web 3.0... 31 5.2.1 Mikroformáty... 31 PRAKTICKÁ ČÁST... 32 6 Analýza aktuálních trendů... 32 6.1 Cíl výzkumu... 32 6.2 Použité metody... 32 6.3 Zkoumaný vzorek... 33 6.4 Analýza odpovědí... 33 6.4.1 Důležité faktory SEO... 33 6.4.2 Změny v oblasti SEO... 34 6.4.3 Tvorba webu... 35 6.4.4 SEO jako samostatná disciplína... 36 6.4.5 Analýza použitelnosti webu... 37 6.4.6 Analýza úspěšnosti optimalizace... 37 6.4.7 Budoucnost vyhledávání... 39 6.4.8 Vývoj v oblasti vyhledávačů... 39 6.4.9 Sémantický web... 40 6.5 Závěry z výzkumu... 41 7 Náhled do budoucna z pohledu SEO... 42 Závěr... 44 Použitá literatura... 45 Seznam příloh... 54 Příloha č. 1: Seznam použitých zkratek... 55 Příloha č. 2: Seznam otázek k rozhovoru... 56 6

ÚVOD Optimalizace internetových stránek pro vyhledávače (SEO) patří mezi oblasti podléhající trvalému dynamickému rozvoji, přesto se však může zdát, že v současné době má období svého největšího rozmachu již za sebou. Ve své práci jsem se proto snažila zjistit, nakolik je tato otázka stále aktuální, a odhalit nejnovější metody při provádění optimalizace. Jedním z důležitých aspektů bylo, v jaké situaci se nacházejí odborníci, kteří se na tuto oblast specializují. Metody, jež měly obrovský význam v minulosti, pomalu zastarávají a s nastalou situací je nutné se nějakým způsobem vyrovnat. Účelem této práce bylo definovat nejnovější trendy v této oblasti a zjistit, jaký je v dané sféře skutečný stav. Jedním z úkolů této práce bylo určit, zda je zaměření na tuto oblast stále aktuální, nebo již bylo překonáno a zatlačeno do pozadí v důsledku vývoje nových, modernějších technologií. Práce je rozdělena na teoretickou část a praktickou část. Při zpracování teoretické části práce jsem využila dostupnou literaturu a dříve zveřejněné práce, které jsem porovnala se současnou praxí v tomto oboru, přičemž celá práce je zaměřena především na vyhledávač Google. První kapitola vysvětluje význam termínu SEO. Druhá kapitola obsahuje souhrn základních principů SEO a nejběžnější osvědčené metody, které jsou popsány jen stručně. Aspektům, které jsou pro tuto sféru stále důležité a jejichž význam se postupně mění, jsem pak věnovala větší pozornost a jsou zpracovány podrobněji. Ve třetí kapitole jsou stručně představeny moderní nástroje podporující aplikaci principů SEO, čtvrtá kapitola pak popisuje stále aktuální zakázané metody. V páté kapitole jsou představeny nejnovější trendy. V praktické části práce jsem provedla kvalitativní výzkum vedený formou řízených (polostandardizovaných) rozhovorů se specialisty a odborníky na danou oblast, a následně jsem provedla analýzu jejich zkušeností a názorů. V závěru práce jsem se pak pokusila poodhalit budoucnost vyhledávačů i SEO jako samostatné oblasti. 7

1 CO JE SEO SEO je zkratka anglického názvu Search Engine Optimization, což znamená optimalizace pro vyhledávače [53]. Jedná se o proces vylepšování internetových stránek s cílem zajistit jejich lepší návštěvnost z internetových vyhledávačů, a to nejen co do počtu návštěv, ale také z hlediska pohybu návštěvníků po stránkách [68]. Účelem provádění úprav je dosáhnout umístění dané webové stránky ve výsledcích hledání ve vyhledávačích na co nejvyšší pozici, protože čím výše v seznamu výsledků se stránka objeví, tím více bude mít z internetového vyhledávače návštěvníků [47]. Základem SEO je úprava obsahu, struktury a kódování stránky, aby co nejlépe vyhovovalo algoritmům používaným internetovými vyhledávači k indexaci stránky 1. Dále musí stránky co nejlépe odpovídat zadaným klíčovým slovům, podle nichž je uživatelé hledají. Nestačí, aby se stránka často vyskytovala ve výsledcích hledání, ale musí být pro dané vyhledávání také relevantní. 2 METODY APLIKACE SEO 2.1 ON-PAGE FAKTORY On-page faktory se vztahují k samotnému obsahu a struktuře stránky a přímo určují relevanci stránky pro dané vyhledávání. On-page optimalizace se zabývá mimo jiné rozložením klíčových slov, správným použitím důležitých tagů, formátem adresy URL nebo správnou strukturou webu [19]. 2.1.1 Klíčová slova Jako klíčová slova se označují slova nebo fráze, které uživatelé zadávají do vyhledávacího políčka ve vyhledávači. Klíčová slova jsou jedním z nejdůležitějších kritérií při hodnocení stránky. Zatímco dříve se sledovala převážně hustota klíčových slov, která nesměla být příliš malá, ale naopak ani příliš velká, aby vyhledávače 1 Stránka byla navštívena a zanalyzována vyhledávacím robotem a výsledek byl přidán do vyhledávací databáze. 8

nevyhodnotily stránku jako spam 2, nyní se spíše věnuje pozornost jejich umístění na stránce. Vyhledávače nejprve sledují, zda se klíčová slova vyskytují v horní části stránky, protože relevantní stránky se zpravidla zabývají daným tématem hned od začátku, a dále sledují umístění klíčových slov v hlavních oddílech stránek nebo ve zvýrazněném textu (tučný text, odrážky), protože text uvedený na těchto místech je pro obsah stránky zpravidla relevantní. Za účelem zvýšení hodnocení stránky je proto vhodné klíčová slova umisťovat do nadpisů článků, oddílů stránek a tabulek, do textu odkazů (anchor text), do popisků obrázků a videí, nebo do rozbalovacích nabídek a záložek [77], přičemž je výhodné je umisťovat vždy hned na začátek řetězce. Výběr vhodných klíčových slov usnadňují různé nástroje. Například program Google AdWords 3 pomůže na základě zadaného klíčového slova nebo fráze vytvořit dlouhý seznam slov týkajících se dané oblasti. V poslední době se provádí optimalizace především na tzv. long-tail klíčová slova [58], což jsou víceslovné fráze, které nejsou tak obecné a mnohem lépe definují předmět vyhledávání. Do vyhledávačů jsou zadávána méně často než obecná slova, jsou však mnohem lépe cílená, takže mohou být přínosnější. Zatímco například obecné slovo matrace přiláká velký počet návštěvníků hledajících matrace všeho druhu, fráze gelové matrace přivede návštěvníků mnohem méně, ti však již většinou mají zájem přímo o tyto konkrétní matrace, což například pro obchod znamená větší pravděpodobnost uskutečnění jejich prodeje. Přestože obecná klíčová slova vykazují vyšší míru vyhledávání, méně často hledané long-tail fráze je mohou co do počtu návštěvníků v celkovém součtu převýšit [7]. 2.1.2 Důležité tagy Již při vytváření stránek je vhodné se držet norem a začlenit do stránky doporučené sémantické značky (tagy), které slouží k označení důležitých částí stránky (hlavní nadpis, zvýrazněný text atd.), pomocí nichž vyhledávač snáze pozná, čeho se 2 3 Spamdexing je nekorektní způsob zvyšování preferencí stránek ve vyhledávačích. Spočívá v úmyslném a umělém nahromadění klíčových slov na stránkách, které následně ovlivní způsob jakým vyhledávače hodnotí obsah těchto stránek. https://adwords.google.com 9

stránka týká [19]. Význam používání základních tagů se příliš nemění, stále se používají jednak proto, že je to součástí dohodnutých konvencí, a pak také proto, že je to důležité pro vyhledávače. Nejvyšší váhu při hodnocení má titulek stránky (title tag). Vyhledávač se snaží najít výsledky, jež mají hledané slovo nebo frázi zařazenou přímo v titulku, proto by každá stránka webu měla mít jedinečný titulek, který nejlépe vystihne, jaký obsah se na dané stránce nachází. Kromě toho se titulek zobrazuje jako název okna nebo záložky v prohlížeči, což je mnohem přehlednější pro uživatele, zejména pokud má otevřeno více záložek [71]. Vzhledem k tomu, kolik toho již bylo o základních principech SEO napsáno a jak je důležitost tohoto tagu neustále zdůrazňována, je celkem překvapivé, že i v dnešní době při zadání fráze untitled document Google nalezne téměř 50 milionů dokumentů. Důležité je používat také popis stránky (meta tag description), jehož význam je často opomíjen [2]. Důvodem k jeho opomíjení může být skutečnost, že především meta tagy description a keywords byly v minulosti často zneužívány, proto jim Google přikládal jen malý nebo vůbec žádný význam. K obsahu meta tagu description sice nedávno začal znovu přihlížet, nicméně meta tag keywords i nadále ignoruje [70]. Význam uvádění popisu stránky spočívá v tom, že se může zobrazovat ve výsledcích vyhledávání pod odkazem tvořeným titulkem stránky [52], může to tedy být první věc, kterou se uživatel o stránce dozví. 2.1.3 URL adresa Z hlediska optimalizace je důležitým faktorem rovněž URL adresa. Doména, jejíž název se nemění, je vždy obrovskou výhodou, protože dokumenty lze dohledat opakovaně na stejné adrese. Adresa by měla být co nejkratší a hlavně srozumitelná, aby se snáze pamatovala, a tudíž podpořila zájem ostatních uživatelů o odkazování na stránku. Bude-li navíc obsahovat klíčová slova, může stránce pomoci dosáhnout vyššího umístění ve výsledcích vyhledávání [39]. Existují dva druhy URL adres: statické a dynamické. Statické adresy bývají zpravidla kratší a efektivnější, neboť obvykle obsahují klíčová slova. Ta se dříve často oddělovala podtržítky, ale nyní se rozhodně doporučuje nahradit podtržítka spojovacími 10

čárkami [35]. Naproti tomu automaticky generované dynamické adresy jsou zpravidla poměrně dlouhé a obsahují znaky jako? = @. Vyhledávače obvykle zdůrazňují potřebu použití statických URL adres oproti adresám dynamickým. Google již dokáže zpracovat i dynamické adresy poměrně dobře, nicméně některé vyhledávače i nadále zpracovávají pouze statické adresy a dynamické nikoliv [57]. Přestože je používání URL adres obsahujících klíčová slova často námětem k diskusím 4, pro uživatele jsou rozhodně přínosnější, protože je z nich ihned poznat, čeho se daná stránka týká. 2.1.4 Unikátní obsah Více než kdy dříve se klade důraz na kvalitu obsahu [75]. Bude-li obsah špatně napsaný, případně nebude-li nikdy aktualizován nebo nebude obsahovat skutečně cenné a především relevantní informace k předmětu vyhledávání, nebude kladně hodnocen ani vyhledávači ani samotnými uživateli. Obsah by měl být pro návštěvníky dostatečně zajímavý a, pokud možno, i v něčem jedinečný, aby udržel pozornost návštěvníků co nejdéle. Hodnotí se mimo jiné také to, jak často uživatelé klikají na daný odkaz ve výsledcích vyhledávání, zda si uživatel stránku jen zběžně prohlédne, nebo zda prochází její obsah a případně používá další odkazy, a také zda se na web vrací [50]. 2.1.5 Struktura webu Všechny stránky webu by měly být vzájemně co nejlépe provázány pomocí odkazů tak, aby bylo jejich procházení co nejsmysluplnější. Jednotlivé stránky by neměly tvořit jen nepřehlednou změť, ale měly by být sestaveny do jednoduché struktury nejčastěji se používá stromová struktura. Především je třeba vytvořit vazby mezi souvisejícími oddíly a seskládat je tak, aby uživatel byl schopen uhodnout, kde nalezne požadované informace [49]. Proto je vhodné rozdělit web do několika základních sekcí, jejichž velikost by měla být vyvážená, takže žádná z nich by například neměla být co do rozsahu dvakrát větší než jiná [40]. Na základě pojmenování 4 http://blog.seochat.sk/2008-09-24/dynamicke-vs-staticke-url-google-wtf/ 11

jednotlivých sekcí by pak měl být uživatel schopen plynule přecházet od věcí, které zná, k věcem jemu neznámým. 2.1.6 Kaskádové styly Kaskádové styly se označují zkratkou CSS (Cascading Style Sheets) a slouží k formátování obsahu napsaného v jazyce HTML 5, XHTML 6 a XML 7 za účelem úpravy fyzického vzhledu stránky (barva textu, pozadí, velikost písma, rámeček, odrážky atd.) [22]. Účelem je oddělení samotného obsahu stránky od jejího vzhledu, kdy se vlastní obsah stránky ukládá do jednoho souboru, zatímco styl určující vzhled stránky se ukládá do jiného samostatného souboru s příponou.css [89]. Tím dochází ke zmenšení objemu kódu HTML, což umožňuje také rychlejší načítání stránky. Zatímco dříve se styl stránky určoval pomocí tagu přímo v kódu stránky, tento způsob byl zavržen a nyní se úprava stránky provádí pomocí prvku <style>, čímž se výrazně rozšířily možnosti formátování, protože HTML nemá schopnost některé vlastnosti stránky upravovat. Výhodou je to, že jediný styl lze použít pro více stránek, takže celý web má jednotnou strukturu, a navíc v případě provádění úprav není nutné upravovat všechny výskyty elementu, ale lze danou položku změnit jen jednou a výsledek se projeví všude [80]. Kód CSS je sice také možné ukládat přímo do kódu HTML, nicméně bychom se tím připravili o výhodu provádění hromadných změn. Pomocí stylů CSS lze rovněž zlepšit funkčnost webu, protože styly mohou definovat vzhled stránky i v případě, že se nemá načítat složitější obsah, zejména při pomalejším připojení nebo zobrazení na mobilních zařízeních s malým displejem. Takže například po vypnutí obrázků v prohlížeči se může místo nich zobrazit vhodný slovní popis, který výraznou měrou usnadňuje práci se stránkami [22]. 5 6 7 HyperText Markup Language extensible HyperText Markup Language extensible Markup Language 12

2.2 OFF-PAGE FAKTORY Tyto faktory nelze při optimalizaci ovlivnit přímo, neboť v tomto případě se nepřihlíží k prvkům, které se vyskytují na stránce jako takové. Jedním z faktorů, které slouží k řazení stránek ke výsledcích vyhledávání, je rank, což je hodnota vyjadřující kvalitu a důležitost stránky. Každý vyhledávač má pro svůj rank jiný název například Google má PageRank, Seznam má S-rank. Svůj PageRank má každá stránka, nebo spíše každá URL adresa. Tento algoritmus stránce přidělí vyhledávač na základě návštěvnosti a kvality jiných stránek, jež na ni odkazují. Jinými slovy to znamená, že pokud stránku navštěvuje velký počet uživatelů a spousta z nich na ni dále odkazuje ve svých textech, slouží to jako doporučení, že je stránka relevantní a obsahuje užitečné informace [19]. 2.2.1 Anchor text Jako anchor text se označuje viditelný, prokliknutelný text odkazu vedoucího na jinou stránku. Jedná se pravděpodobně o nejdůležitější ze všech off-page faktorů, dá se říci, že je přibližně stejně důležitý jako title tag [19]. Vyhledávače používají text odkazu k rychlému zjištění obsahu odkazované stránky, takže slova uvedená v textu odkazu mohou výrazně ovlivnit hodnocení, jež bude dané stránce přiděleno. V textu odkazu by mělo být co nejvýstižněji uvedeno, kam odkaz vede, nebo jakou akci klinutí na něj spustí. Princip anchor textu spočívá v tom, že pro uživatele je mnohem srozumitelnější, když jsou v odkazu uvedena klíčová slova místo samotné URL adresy, na kterou odkaz vede. Chceme-li tedy například odkazovat na encyklopedii Wikipedie, zadáme do zdrojového kódu stránky tento odkaz: <a href="http://cs.wikipedia.org/wiki/hlavn%c3%ad_strana ">Wikipedie</a> Textem odkazu je v tomto příkladu slovo Wikipedie, takže na vlastní stránce se pak místo složité adresy http://cs.wikipedia.org/wiki/hlavn%c3%ad_strana zobrazí pouze slovo Wikipedie, čímž se výrazně zlepší čitelnost textu. Podobně lze v běžném 13

textu vytvořit odkazy na klíčové fráze vedoucí na odpovídající cílové stránky v rámci jednoho webu [34]. V minulosti se často využívaly odkazy typu klikněte zde, tento styl psaní odkazů však již byl zavržen. Algoritmy vyhledávačů nyní přidělují textu odkazů vysokou známku hodnocení, proto lze vhodným zvolením anchor textu dosáhnout vyšších pozic ve výsledcích vyhledávání. Pomocí služby Google Webmaster Tools (nástroje pro webmastery) 8, která je k dispozici zdarma, pak mohou vlastníci stránek najít nejčastější slova používaná v odkazech ukazujících na jejich stránku, což dále usnadňuje její optimalizaci. Některé odkazy však není třeba optimalizovat, k těm patří například odkazy vybízející uživatele k nějaké akci, např. Přidat k porovnání. U takových odkazů je pak rozhodující především jejich srozumitelnost pro uživatele, protože umístění ve vyhledávači zde nehraje roli [69]. 2.2.2 Linkbuilding Linkbuilding, neboli v překladu budování zpětných odkazů, je přirovnáváno k public relations [60]. Jelikož i v reálném životě platí, že čím více cest vede na jedno místo, tím lépe toto místo prosperuje, snažíme se vytvářením zpětných odkazů dosáhnout vyšší návštěvnosti webu tím, že k němu povede co nejvíce odkazů. Na základě analýzy odkazů robot vyhodnocuje, jakým způsobem jsou stránky provázány, tedy odkud a jak často přicházejí na danou stránku uživatelé. Bez zpětných odkazů se nemůže žádná stránka dostat na přední místa ve výsledcích vyhledávání. Nejde však jen o počet odkazů, ale také o kvalitu webů, na nichž jsou odkazy umístěny. Stejně tak neplatí přímá úměra, že 50 odkazů z jedné stránky má stejnou váhu jako jeden odkaz z 50 domén. Kromě toho záleží i na tvaru a umístění zpětných odkazů [45]. Na internetu je k dispozici mnoho nástrojů, pomocí nichž lze zjistit, jaké odkazy na náš web již existují, což je velmi užitečným vodítkem při jejich budování. Přímo ve vyhledávačích pak tuto informaci zjistit pomocí příkazu link: [37]. 8 https://www.google.com/accounts/servicelogin?service=sitemaps&passive=true&nui=1&continue=https ://www.google.com/webmasters/tools/&followup=https://www.google.com/webmasters/tools/&hl=cs 14

2.2.2.1 Interní zpětné odkazy Důležitým pravidlem je zajištění provázanosti všech stránek stejného webu a vytvoření tzv. interních zpětných odkazů [55]. Jestliže je na hlavní stránce například zmíněno pět různých témat a každému z nich je pak věnována samostatná stránka, je nutné na těchto podstránkách vytvořit odkazy zpět na hlavní stranu. 2.2.2.2 Externí zpětné odkazy Externí zpětné odkazy jsou všechny odkazy, které vedou na některou z vlastních stránek z jakéhokoliv jiného webu [60]. Klíčovým faktorem při jejich vytváření je zaměření na weby s podobným obsahem a použití správných klíčových slov a frází v textu odkazů. Registrace do katalogů Jednou z metod získání zpětných odkazů je i registrace do katalogů, která je často nabízena zdarma. Katalogů je v dnešní době velká spousta, ne všechny jsou však kvalitní, proto pouhá registrace do stovek katalogů příliš velký užitek nepřinese. Katalog vhodný pro registraci by měl zahrnovat speciální sekci relevantní danému webu, měl by být pro uživatele přehledný a snadno použitelný a především by měl sloužit skutečně jako katalog a nikoliv jen k účelům SEO [44]. Důležité jsou také specializované oborové katalogy a katalogy regionální, které mohou přivést velkou spoustu dobře zacílených návštěvníků. V současné době je však rovněž nutné přihlédnout ke změnám, které ve svém vyhledávacím algoritmu provádí Google v rámci boje proti obsahovým farmám 9, protože se snadno může stát, že weby, které se umisťují na prvních pozicích jen díky registraci v mnoha různých marginálních katalozích, budou posunuty na pozice o poznání horší [3]. 9 Viz kapitola 4.2 Obsahové farmy 15

Vyměněné odkazy Výměnu odkazů je vhodné provádět s weby s podobným zaměřením, které však nepředstavují přímou konkurenci [63]. Vzhledem k tomu, že každá stránka má jiný PageRank, každý odkaz nabývá jinou hodnotu, a proto je vhodné získat odkazy ze stránek s vyšším hodnocením. Nicméně hodnoty PageRank a ostatních ranků se mohou poměrně rychle měnit, proto může být zavádějící řídit se pouze aktuálním hodnocením. Mnohem jistější je provádět výměnu odkazů s weby jejichž obsah a struktura slibuje dobré hodnocení z dlouhodobého hlediska, jak od vyhledávačů tak i od ostatních uživatelů. Nepřímé zpětné odkazy Pro nekomerční weby může být velmi užitečná aktivní účast v diskusích a přidávání hodnotných příspěvků do různých konferencí a fór. To však neplatí pro komerční weby, kde by umisťování odkazů bylo považováno za spam a vedlo by nejspíše k odstranění příspěvků [61]. Komerční weby však mohou využívat tzv. nepřímé odkazy, kdy stránka A neodkazuje přímo na stránku B, ale odkazuje na stránku C, kde je již odkaz na stránku B umístěn. Nepřímé odkazy mají sice mnohem menší hodnotu než odkazy přímé, naproti tomu jich lze vytvořit dostatečně velký počet, značně převyšující počet přímých odkazů, což tento nepoměr vyváží. Placené zpětné odkazy Zpětné odkazy je rovněž možné získat jako placenou službu, ať už se jedná o přednostní výpis v katalogu, který se zpravidla platí paušální částkou, nebo inzerát typu PPC (Pay Per Click), kdy se platí poplatek až v případě, že uživatel na daný odkaz klikne [73]. U tohoto typu reklamy pak lze zvolit, pro jaká klíčová slova se má inzerát zobrazovat, a také si nastavit výši poplatku dle vlastního uvážení kdo zaplatí více, bude ve výsledcích umístěn lépe. 16

2.2.3 SocialRank SocialRank se týká hodnocení webových stránek podle vyjádření uživatelů na sociálních sítích, kde se sdílí velké množství informací formou odkazu na jejich zdroj. Princip spočívá v tom, že čím více lidí odkazuje na danou stránku nebo článek, tím větší je jeho důležitost a váha. Doporučení zde slouží jako důkaz důvěryhodnosti [76]. SocialRank zjišťuje, jací uživatelé sociální sítě, jak často a jakým způsobem sdílí daný obsah [50]. Uživatel sociální sítě pak může být ohodnocen podle toho, kolik má přátel nebo fanoušků, téma diskuse lze hodnotit například podle počtu odpovědí a počtu zobrazení, a komunitu lze hodnotit podle počtu členů, jejich osobního hodnocení, délky členství atd. Toto hodnocení pak může být vyhledávači bráno v potaz při řazení výsledků vyhledávání. 2.2.3.1 Optimalizace pro sociální sítě Sociální sítě jsou fenoménem poslední doby a jejich obliba neustále roste. Proč je vhodné se na ně zaměřovat? Na sociální síti se může prezentovat každý sám, což je užitečnější, než když o někom mluví někdo cizí [33]. Prostřednictvím sociálních sítí lze k vlastním stránkám přilákat více lidí a navíc je možné hovořit přímo se zákazníky, což samozřejmě v konečném důsledku vede ke zvyšování obratu a zisku. Na rozdíl od ostatních médií lze na základě statistik [82], které podrobně zkoumají například věkové rozložení, pohlaví a také profesní zaměření uživatelů sociálních sítí, snadno vytvořit velmi dobře cílenou reklamní kampaň. Počet zaregistrovaných profilů v sociálních sítích roste velmi prudkým tempem, proto mají obrovský marketingový potenciál. Nejrozšířenější sociální sítí v České Republice je v současné době Facebook 10, který již začátkem roku 2011 překročil hranici tří milionů uživatelů 11. To tvoří přibližně 28 % celkové populace, což je téměř 50 % všech uživatelů internetu 12. 10 Sociální síť Facebook vznikla v roce 2004, v ČR se začala masově prosazovat v polovině roku 2009. 11 http://www.checkfacebook.com/ 12 http://www.facebook.com/note.php?note_id=145129692214232 17

3 NÁSTROJE SEO 3.1 WEBOVÁ ANALYTIKA Pomocí webové analytiky se zjišťují informace o chování návštěvníků na webových stránkách. Dokáže odhalit kolik návštěvníků na web přichází a odkud, z jakého zařízení nebo prostřednictvím jakého programu na stránku vstupují, jak se v rámci daného webu pohybují a také kudy odcházejí [84]. Dále je rovněž možné sledovat, jaká klíčová slova zadávají do interního prohlížeče, o jaký obsah mají největší zájem, jakou dobu na stránkách v průměru stráví, nebo také z jaké geografické oblasti přicházejí. Základním údajem webové analytiky je metrika [51]. V rámci analýzy webu lze sledovat mnoho různých metrik a na základě zjištěných informací je možné web upravit tak, aby byl efektivnější a přinášel vyšší zisky. Tato analýza je pak základem internetového marketingu 13. 3.1.1 Google Analytics Google Analytics vyvinutý společností Google je nejčastěji používaný nástroj k provádění webové analytiky [11]. Oblíbenost mu zajišťuje především to, že je velmi dobře propracovaný, přesto je však velmi jednoduchý na ovládání a obsahuje velké množství informací [15]. Kromě toho je k dispozici zdarma. Generuje podrobnou statistiku o návštěvnících webu, z níž lze mimo jiné zjistit odkud návštěvníci přicházejí, co na webu dělají a jak často se vracejí [6]. 13 Marketing (zpravidla propagace) produktů nebo služeb prostřednictvím internetu 18

3.2 TEPLOTNÍ MAPY Teplotní mapy (heat maps) jsou grafickým znázorněním chování uživatelů při návštěvě webové stránky [5]. Podle teplotních map lze zjistit, která místa na stránce jsou pro uživatele zajímavá a kterým nevěnují žádnou pozornost. Jednotlivá místa se pak na teplotních mapách znázorňují jinou barvou. Nejzajímavější a tedy nejteplejší místa jsou zbarvena červeně, méně zajímavá jsou zbarvena zeleně až modře. U jednodušších nástrojů se často navštěvovaná místa zobrazují jako světelné body. Podle teplotní mapy lze tedy snadno zjistit, zda uživatelé používají odkazy, které jsou k dispozici, nebo zda klikají na místo, které se jim jeví zajímavé a o němž se domnívají, že je dovede k dalším důležitým informacím. Jednodušší nástroje zaznamenávají pouze kliknutí na konkrétní místa na stránce, jiné zaznamenávají kliknutí kdekoliv na stránce. Propracovanější nástroje pak zobrazují i samotný pohyb kurzoru myši. Kromě sledování pohybů myši a klikání na stránky (click tracking) existuje i metoda sledování pohybu očí (eye tracking) [36]. Tato metoda je však složitější a pochopitelně i mnohem dražší, navíc ji lze provádět pouze u zlomku lidí, zatímco sledování jednotlivých kliknutí myší lze sledovat u všech návštěvníků webu. Na základě vygenerovaných teplotních map je pak možné stránky upravit tak, aby co možná nejlépe odrážely zájem uživatelů, čímž se zvýší použitelnost stránek. Zjistíme-li, že uživatelé pravidelně míjejí důležité informace, zvýrazníme je nebo je umístíme do některé z hlavních oblastí. A naopak, pokud uživatelé některé informace ignorují, můžeme je umístit do pozadí nebo zcela vymazat [13]. Výhodou teplotních map je to, že snadno poznáme, nakolik uživatelé používají určité nabídky, odkazy, tlačítka, obrázky atd. Hlavní nevýhodou je pak to, že v závislosti na návštěvnosti stránek může sběr potřebných dat trvat poměrně dlouho. Důležité je také zmínit, že neplacené nástroje pro tvorbu teplotních map nemusejí být vždy zcela přesné a věrohodné [5]. K nejznámějším nástrojům pro vytváření teplotních map patří CrazyEgg, ClickTale, ClickHeat, ClickDensity nebo například český myx. 19

4 ZAKÁZANÉ METODY S tím, jak se postupně mění algoritmy vyhledávačů, objevuje se snaha obejít a zneužít způsob, jakým roboty vyhledávačů pracují. Většina technik, které nyní patří mezi zakázané metody, byla dříve legální, nicméně vzhledem k tomu, že někteří specialisté začali při jejich použití příliš zacházet do extrémů, větší část komunity zabývající se SEO na ně nahlíží s nelibostí [8]. 4.1 BLACK HAT SEO Jako Black Hat SEO se obvykle označují techniky sloužící k dosažení lepšího hodnocení stránky neetickým způsobem. Pomocí těchto technik lze docílit dočasného zlepšení hodnocení stránek, pokud se však zjistí, že je na svých stránkách používáte, budete internetovými vyhledávači penalizováni. Black Hat SEO je jen krátkodobým řešením dlouhodobého problému vytvoření takových stránek, jež budou pro uživatele trvale přínosné [8]. Metody optimalizace Black Hat mohou být lákavé, neboť dokáží přinést dobré výsledky. Ty jsou nicméně jen krátkodobé, neboť fungují jen do doby, kdy jsou tyto stránky penalizovány za používání neetických praktik. Dobří webmasteři těmito technikami obecně pohrdají a rozhodně zrazují od jejich používání. Mezi techniky, kterým je vhodné se vyhnout, patří například zaplnění stránky pouze dlouhým seznamem klíčových slov bez skutečného obsahu 14. Klíčová slova je nutné umisťovat do textu s rozmyslem a v množství dostatečném, nikoliv však přemrštěném [10]. Penalizaci lze čekat také v případě, že v naději na přilákání větší pozornosti vyhledávacích robotů bude použit text příliš malý, aby jej bylo možné přečíst, nebo tzv. neviditelný text, což jsou klíčová slova napsaná ve stejné barvě, jakou má pozadí. 14 Metoda zvaná keyword stuffing 20

4.1.1 Doorway stránky Jednou z nejrozšířenějších zakázaných metod jsou tzv. doorway stránky. Jsou to jednoduché HTML stránky upravené pro několik klíčových slov nebo frází a jsou naprogramovány tak, aby se zobrazovaly pouze v některých vyhledávačích [9]. Jsou to však jen falešné stránky, které uživatelé nikdy neuvidí a které slouží jen k tomu, aby jim roboty vyhledávačů přidělily vysoké ocenění. Po kliknutí na danou stránku ve výsledcích vyhledávání bude uživatel automaticky přesměrován na zcela jinou stránku. Doorway stránky mají pro uživatele nulový užitek, neboť neobsahují žádné relevantní informace, pouze zahlcují výsledky vyhledávání, čímž se snižuje efektivnost vyhledávání. Mohou být přínosem pouze pro majitele stránek generujících zisk z reklamy na základě Click Rate 15 [69]. 4.1.2 Cloaking Cloaking je důmyslná technika, pomocí níž se vyhledávačům podsouvá jiný obsah než uživatelům [27]. Existuje mnoho metod a spoustu z nich nejsou vyhledávače dosud schopny odhalit. Princip spočívá v tom, že se na základě IP adresy detekuje příjemce stránky. Bude-li zjištěno, že ke stránce přistupuje vyhledávací robot, zobrazí se speciálně navržená a dokonale optimalizovaná stránka zajišťující vynikající pozici ve výsledcích vyhledávání. V opačném případě se pak zobrazí zcela jiná stránka, která je určená pro uživatele [49]. 4.1.3 Odkazové farmy Odkazovou farmu tvoří seskupení webových stránek, které jsou vzájemně provázány odkazy. Díky vysokému počtu odkazů pak má daný web vysoké hodnocení a zobrazuje se ve výsledcích vyhledávání na výhodných pozicích [27]. Vzhledem k tomu, že se většinou jedná o tisíce stránek (mohou jich být až miliony), obvykle jsou generovány pomocí automatizovaných programů a služeb. Jejich účelem je jednak 15 Počet kliknutí oproti počtu zobrazení reklamního prvku 21

zvyšování hodnocení díky vyššímu počtu zpětných odkazů, a jednak zvyšování návštěvnosti stránek. 4.2 OBSAHOVÉ FARMY V roce 2010 se začaly ve velkém rozmáhat tzv. obsahové farmy, což jsou weby firem zaměstnávajících tisíce autorů, kteří publikují velký počet článků na různá témata [12]. Největší z těchto farem, společnost Demand Media 16, produkuje průměrně 7000 kusů obsahu denně [48]. Autoři těchto článků však většinou nepatří k odborníkům či znalcům dané oblasti, naopak často mají o problému jen velmi matné povědomí. Kvalita obsahu na obsahových farmách je tedy zpravidla velmi nízká, nicméně díky tomu, že tyto stránky obsahují velké objemy různorodých materiálů, které jsou pravidelně (takřka nepřetržitě) doplňovány a rozšiřovány, získávají tyto farmy proti běžným webům značný náskok a ve vyhledávačích se umisťují na nejvyšších pozicích, které jsou pro zadavatele inzerce nejdražší. Cílem těchto stránek přitom není nabídnout uživatelům užitečné a kvalitní informace, mají čtenáře jen přilákat a následně je zase odvést prostřednictvím některé z mnoha nabízených placených reklam [3]. Tento fakt zasáhl vyhledávače jako úder bleskem, takže už dokonce vznikají obavy, zda je Google stále ještě vyhledávačem v pravém slova smyslu, což zase nutí Google k zavádění protiopatření [14]. Proto Google začátkem roku 2011 provedl úpravy ve svých vyhledávacích algoritmech s cílem rozpoznat skutečně kvalitní obsah a zvýšit relevanci výsledků vyhledávání, a současně penalizovat obsah z obsahových farem, aby bylo dosaženo jeho umístění na takových pozicích, kde už uživatele nebude zajímat [3]. Zjistilo se však, že se tento postih neprojevil pouze u obsahových farem, ale také u běžných webů, jimž v důsledku těchto změn klesla návštěvnost [78]. Proč tomu tak je, to zatím nikdo neví. Další otázkou také je, jak dlouho bude obsahovým farmám trvat, než budou schopny na změny v algoritmu reagovat a přizpůsobit se jim. Nicméně to znamená, že Google chce mít na výsledky vyhledávání mnohem větší vliv než kdy dříve, takže pro dosažení dobrého umístění možná nebude stačit provést úpravy v rámci SEO, ale bude se platit za umístění přímo Googlu. Pro firmy provádějící SEO to tak znamená výrazné ztížení podmínek [3]. 16 http://www.demandmedia.com/ 22

4.3 NA CO SI DÁT POZOR Obezřetnost je na místě zejména při výměně odkazů. Mohlo by se stát, že budeme odkazovat na web, který je penalizován za používání nelegálních technik SEO, což by mohlo snadno vést k tomu, že bude penalizována i naše stránka za odkazování na tento zakázaný web. Totéž platí také pro odkazování na stránku zahrnutou v odkazové farmě, proto je při výměně odkazů na místě velká ostražitost. Dále je třeba dát pozor například při přenášení stránek, aby se stejný obsah nevyskytoval na více URL adresách, což je rovněž považováno na nekalou praktiku. Penalizace se v tomto případě provádí nepřímo tím, že do výsledků vyhledávání je zařazena jen jedna stránka, která obsahuje největší počet zpětných odkazů, takže odkazy vedoucí na duplicitní stránky nebudou brány v potaz [27]. 5 NOVÉ TRENDY V SEO 5.1 SÉMANTICKÝ WEB V širším slova smyslu, tak jak ho v roce 2001 poprvé popsal Tim Berners-Lee 17, se termín sémantický web nevztahuje jen k obsahu webu, jak ho známe dnes, ale dotýká se uspořádání celého našeho života. Je to představa světa, kde jsou propojeny informace o naší osobnosti, o našich životech včetně základních potřeb, zvyklostí či zálib, a kde máme automaticky ihned k dispozici informace, které nás zajímají nebo by nás teoreticky zajímat mohly. V takovém světě nám počítače samy sladí pracovní život se životem soukromým a nejenže nám naplánují schůzky, ale pomohou nám také najít nejrychlejší způsob dopravy na dané místo. Kromě toho automaticky přizpůsobí okolní prostředí našich pracovišť a domovů podle okamžitých potřeb [4]. V užším slova smyslu představuje sémantický web síť, v níž jsou všechna data vzájemně propojena tak, že je lze velmi snadno vyhledat. Nejedná se jen o změť náhodně publikovaných dokumentů, ale data jsou vzájemně provázána, setříděna a předem zpracována tak, aby vyhledávač při zadání dotazu dokázal uživateli předložit 17 Vynálezce World Wide Webu a ředitel konsorcia W3C (mezinárodní konsorcium pro vývoj webových standardů pro World Wide Web) 23

k posouzení ucelený soubor kvalitních informací, které co nejpřesněji zodpoví jeho dotazy. K tomu je zapotřebí, aby zveřejněná data byla snadno srozumitelná nejen lidem, ale i počítačům včetně mobilních zařízení. Jádrem problému však je, jak docílit toho, aby stroje dokázaly porozumět samotnému obsahu zveřejněných dat. Nové technologie mají pomoci zpracovávat dokumenty tak, aby bylo zřejmé nejen to, jak při zobrazení na monitoru počítače graficky vypadají, případně co o jejich obsahu říkají pomocí klíčových slov sami jejich tvůrci, ale jaký je jejich skutečný obsah. Sémantický web nemá nahradit dnešní internet, má ho jen funkčně doplňovat a zlepšovat jeho využití. Je postaven na popisu informací pomocí vztahů mezi entitami. Tyto vztahy se v současné době vyjadřují nejčastěji pomocí rámce RDF 18, přičemž jako nosný formát pro výměnu dat se používá XML 7 [67]. Podstatou sémantického webu je vytváření informací podle standardizovaných pravidel, která umožní jejich snadné vyhledání, proto je nutné rozšířit stávající obsah webu o sémantické informace. Pokud bude mít obsah webu dobře definovanou sémantiku, budou stroje schopny vyhodnotit význam informací a vztahy mezi nimi. Softwarový agent by pak mohl pomocí webu porozumět požadavku uživatele a najít vhodné řešení daného problému [17]. 5.1.1 Ontologie Ve filosofii je ontologie chápána jako nauka o bytí. Ve výpočetní technice pak ontologie popisuje to, co již existuje a může být tudíž reprezentováno v informačním nebo znalostním systému [79]. Ontologie se používají v sémantickém webu jako datový model představující určitou znalost, tedy pro přiřazení významu datům. Tento datový model slouží pro popis světa složeného z typů, vlastností a vztahů. Při tvorbě ontologií je typicky snaha o co nejpřesnější podobnost mezi objekty reálného světa a vlastnostmi modelu [42]. V rámci sémantického webu mají ontologie poskytovat sémantiku pro webové zdroje, slouží tedy k popisu zdrojů a jejich obsahu [1]. Pomocí ontologií lze vytvářet metadata, neboli informace o informacích. Tato metadata pak dokumentům nebo jejich 18 Resource Description Framework 24

částem dodávají tolik potřebné významové informace. Účelem ontologií je podpora porozumění mezi lidmi, podpora komunikace mezi počítačovými systémy a podpora návrhu znalostně orientovaných systémů. Jejich výhodou tak je, že jsou srozumitelné pro člověka a zároveň jsou strojově zpracovatelné [74]. 5.1.2 Jazyky sémantického webu 5.1.2.1 HTML HTML (Hypertext Markup Language) je jednou ze základních technologií pro vytváření webových stránek [30]. Pomocí HTML lze publikovat dokumenty obsahující například nadpisy, text, tabulky, seznamy, fotografie. Prostřednictvím hypertextových odkazů lze například kliknutím na tlačítko získávat další informace, které jsou k dispozici online. Jazykem HTML se popisuje struktura stránek, a to použitím prvků jako je odstavec, seznam, tabulka atd., které jsou zpravidla strukturovány do tabulkové formy. Jazyk HTML z větší části definuje, jak se má která část webové stránky zobrazit, nikoliv však co ve skutečnosti znamená. Vyhledávání stránek vytvořených pomocí jazyka HTML je tak velmi omezené [43]. Nicméně správné nastavení HTML značek je nejzákladnějším sémantickým označením obsahu stránky [81]. Vývoj HTML byl původně ukončen, přičemž poslední verzí je HTML 4.01 z roku 1999. Avšak v roce 2007 byla konsorciem W3C 19 založena nová pracovní skupina 20, jejímž účelem je pokračovat ve vývoji HTML se začleněním syntaxí klasického HTML a XML (viz níže). Tato skupina si klade za cíl uvolnit během let 2010 2012 specifikaci nové verze HTML5 [31]. 19 Mezinárodní konsorcium pro vývoj webových standardů pro World Wide Web, jeho zakladatelem byl Tim Berners-Lee (http://www.w3.org/) 20 HTML Working Group (http://www.w3.org/html/wg/) 25

5.1.2.2 XML XML (extensible Markup Language) je obecný značkovací jazyk, který vyvinulo konsorcium W3C. Značkovací se mu říká proto, že jednotlivé části dokumentu se označují pomocí značek. Jazyk XML slouží k reprezentaci strukturovaných informací: dokumentů, dat, konfigurací, knih, transakcí, faktur a dalších [88]. V současnosti je to jeden z nejrozšířenějších formátů pro sdílení strukturovaných informací mezi programy, mezi lidmi, mezi počítači a lidmi. Umožňuje přesnější a flexibilnější identifikaci dat, čímž výrazně zlepšuje funkčnost webu [43]. Jazyk XML je určen zejména pro výměnu dat mezi aplikacemi a pro publikování dokumentů, u nichž popisuje strukturu z hlediska významu jednotlivých částí bez ohledu na jejich vzhled [18]. Jeho největší výhodou je to, že není postaven na pevně vytvořené sadě značek, ale při dodržení přísnějších syntaktických pravidel si každý může definovat vlastní značky [43]. Vzhledem k tomu, že se jedná o jednoduchý, otevřený formát, který není svázaný se speciálním softwarem nebo technologií, lze v případě potřeby vytvořené texty zpracovávat pomocí libovolného textového editoru. Specifikace XML je k dispozici zdarma, takže každý si může snadno implementovat podporu XML do svých aplikací [18]. 5.1.2.3 XHTML Jazyk XHTML (extensible HyperText Markup Language) se měl podle původních předpokladů stát nástupcem jazyka HTML. Byl vyvinut za účelem definice obsahu, který je ve shodě s XML, a při dodržení jednoduchých směrnic je rovněž schopen provozu s uživatelskými agenty podporujícími HTML4 [87]. Stránky vytvořené pomocí jazyka XHTML musí splňovat mnohem přesnější syntaktická pravidla než dnešní stránky vytvořené na základě HTML [43]. Hlavní rozdíl mezi jazykem HTML a XHTML spočívá například v tom, že na rozdíl od HTML musí být všechny tagy v XHTML uzavřené. Nepárové tygy se uzavírají lomítkem ( místo používaného ve starších verzích HTML) a párové musí mít svůj koncový tag (např. ke každému tagu musí existovat tag ). Navíc v XHTML musí mít všechny atributy hodnotu, zatímco v HTML se 26

vyskytovaly atributy bez hodnoty (např. atribut multiple umožňující hromadný výběr hodnot) [38]. Největší výhodou jazyka XHTML je to, že díky přísným avšak jednoduchým pravidlům dokáží počítače kódy XML a tedy i XHTML velmi snadno automaticky zpracovávat [62]. 5.1.2.4 RDF Datový jazyk RDF (Resource Description Framework) pojmenovává jednotlivé položky a vztahy mezi těmito položkami tak, aby si počítače a programy byly schopny veškeré informace automaticky vyměňovat, aniž by docházelo ke ztrátě jejich významu. RDF doporučuje konsorcium W3C jako model k vyjádření struktury webových metadat, neboli dat o datech [65]. Základem RDF je tvrzení (statement) skládající se z trojice prvků subjektpredikát-objekt, kde subjekt představuje datový zdroj (URI, viz níže), predikát představuje jeho vlastnost nebo aspekt a vyjadřuje tak vztah mezi subjektem a objektem (role), a objekt má nějakou hodnotu (např. číslo nebo řetězec znaků). Tímto způsobem lze například definovat vztah mezi stránkou a jejím tvůrcem takto: tvůrcem (predikát) webu http://www.mujweb.cz/~novak/ (subjekt) je Petr Novák (objekt) [23]. Vazby popsané pomocí RDF lze pro zjednodušení přirovnat k současným odkazům, které svým způsobem vyjadřují vztah mezi aktuální stránkou a stránkou odkazovanou [83]. Rozdíl je v tom, že v případě sémantického webu mohou být takové vztahy vytvořeny mezi libovolnými dvěma zdroji, aniž by musely mít návaznost na aktuální stránku. Jinými slovy, současné odkazy se vztahují pouze k objektům fakticky existujícím na webu, zatímco pomocí RDF lze odkazovat i na objekty, které se na webu přímo nenacházejí (např. osoba jménem Petr Novák). Kromě toho je, na rozdíl od běžného webu, definován (pojmenován) i samotný vztah, což výrazně usnadňuje strojovou výměnu dat [65]. K vytvoření podobných strojově zpracovatelných tvrzení je nutné mít systém vhodných identifikátorů pro označení subjektu, predikátu a objektu, jakož i jazyk umožňující vyjádření těchto tvrzení a jejich výměnu mezi stroji. Základním prvkem RDF je tedy zdroj identifikovaný svým identifikátorem URI (Uniform Resource 27

Identifier), který slouží k jednoznačnému přiřazení významu. URI může být přiřazeno jakémukoliv objektu, pojmu nebo např. osobě a může obsahovat jak URL adresu, tak i jiný jednoznačný identifikátor (např. rodné číslo, unikátní kód atd.). Zdrojem pak mohou být věci přístupné prostřednictvím webu (webová stránka, elektronický dokument, obrázek, služba, nebo skupina dalších zdrojů), věci, které nejsou dostupné prostřednictvím webu (např. lidé, firmy), jakož i abstraktní koncepty, které fyzicky neexistují (např. tvůrce webu). K vyjádření tvrzení RDF strojově zpracovatelným způsobem se používá značkovací jazyk XML (Extensible Markup Language). RDF definuje speciální značkovací jazyk XML, který se označuje jako RDF/XML a slouží k vyjádření informací RDF a jejich výměně mezi stroji. Díky tomu, že RDF klade důraz na jednoduchost automatického zpracování webových zdrojů, stává se stavebním kamenem sémantického webu. Jelikož poskytuje strojům srozumitelnou sémantiku metadat, lze s jeho pomocí dosáhnout větší přesnosti ve vyhledávání zdrojů než při fulltextovém vyhledávání [65]. RDF Schema (RDFS) je jazyk pro popis slovníků [66]. Je sémantickým rozšířením jazyka RDF a slouží k tvorbě jednoduchých ontologií. Tam, kde jazyk RDF definuje třídy a vlastnosti pro popis zdrojů, jazyk RDF Schema poskytuje popis těchto tříd a vlastností a určuje, které třídy a vlastnosti mají být používány společně [65]. Zdroje mohou být definovány jako instance jedné nebo více tříd, přičemž třídy lze uspořádat do hierarchické struktury (třída pes může být podtřídou třídy savec, což je podtřída třídy živočich ). 5.1.2.5 OWL Jazyk OWL (Web Ontology Language) je vyvíjen pod záštitou konsorcia W3C jako základní ontologický jazyk sémantického webu. Je určen pro aplikace, které potřebují pochopit samotný obsah informací místo toho, aby je pouze prezentovaly uživatelům [23]. Pomocí jazyka OWL jsou stroje mnohem snáze schopny interpretovat obsah webu než při použití pouze systémů XML, RDF a RDF Schema. V současné době je jazyk OWL nejčastěji používaným jazykem pro reprezentaci znalostí. 28

Jazyk OWL existuje jako další vrstva nad jazykem RDFS, který byl záměrně navržen tak, aby bylo možné vytvářet popisy co nejúsporněji, a není proto dostatečný k vytváření přesných ontologií [72]. Zatímco v jazyce RDFS lze pouze vytvářet podtřídy již existujících tříd, v jazyce OWL lze z již existujících tříd vytvářet zcela nové třídy. Lze provádět výčet jejich obsahu, třídy se mohou protínat, slučovat a doplňovat, případně je také možné omezovat nebo vylučovat jejich vlastnosti [26]. Tohoto členění by bylo možné využít, pokud bychom chtěli vytvořit například vhodnou ontologii pro pizzu. Ta by pak mohla zahrnovat třeba informace, že mozzarella a gorgonzola jsou druhy sýra, že sýr není druh masa ani ryby, nebo že na vegetariánské pizze není žádné maso ani ryby. Pak by informace pizza, na níž je (pouze) mozzarella a gorgonzola byla jednoznačně interpretována (např. automatem pro přijímání objednávek na pizzu) jako spadající pod termín vegetariánská pizza [28]. Jazyk OWL existuje ve třech variantách: OWL Lite, OWL DL a OWL Full. Jednotlivé varianty jsou určeny pro specifické komunity implementátorů a uživatelů v závislosti na tom, jaký výrazový rozsah potřebují [54]. 5.1.2.6 SPARQL SPARQL (Simple Protocol And RDF Query Language) je dotazovací jazyk a protokol pro odvozování znalostí z RDF dokumentů [42]. Jazyk SPARQL patří mezi klíčové technologie sémantického webu a jeho použití je taktéž doporučeno konsorciem W3C. Jde o jeden z odvozovacích jazyků, které umožňují odvození nových znalostí na základě znalostí existujících. Pomocí jazyka SPARQL lze z báze znalostí (knowledge base) získat odpovědi na sofistikované dotazy, jako je například vyhledání jmen a e-mailových adres všech lidí na světě nebo vyhledání všech hlavních měst v Africe. Hlavním předpokladem pak je, aby data byla v bázi znalostí uložena takovým způsobem, aby stroj (vyhledávač) dokázal porozumět jejich významu, tj. musí být doplněna o metadata, která budou explicitně vyjadřovat jejich sémantiku. Hlavní výhodou jazyka SPARQL je to, že díky přítomnosti URI v RDF formátu jsou dotazy globálně jednoznačné. 29

5.1.3 FOAF FOAF je zkratka anglického termínu Friend of a friend (přítel přítele) a v současnosti se jedná o nejoblíbenější slovník sémantického webu. Slouží pro popis lidí, skupin a vztahů. K vytvoření slovníku FOAF vedla snaha definovat slovník RDF k vyjadřování metadat o lidech a jejich zájmech, vztazích mezi nimi a věcech, které dělají, neboť nezáleží jen na tom, co znáte, ale také koho znáte [16]. FOAF je jednoduchá technologie usnadňující sdílení a využití informací o lidech a jejich činnostech (např. fotografie, kalendáře, blogy 21 ), přenášení informací mezi webovými stránkami a jejich automatické rozšiřování, slučování a opětné použití online. Na základě těchto informací vzniká síť strojově čitelných stránek, ve kterých lze snadno vyhledávat například osoby s podobnými zájmy v určité lokalitě, nebo třeba zúžit filtrování emailů na základě priorit přidělených jednotlivým lidem. Pomocí technologie FOAF mohou uživatelé dávat na web informace a obrazové materiály v jakémkoliv formátu a všechny je vzájemně propojit. A právě toto propojení je jedním z nejzajímavějších prvků. Soubory FOAF obsahují odkazy see Also (viz také), pomocí nichž jsou vzájemně provázány dokumenty kdekoliv na webu a vytvářejí strojově čitelnou verzi dnešního webu založeného na hypertextových odkazech [21]. Vzhledem k tomu, kolik různých činností lidé provádějí a kolik různých materiálů vytvářejí (dokumenty, fotografie atd.), nemůže slovník FOAF pojmout vše, co bychom o nich chtěli říci, a proto využívá systém RDF, pomocí něhož může kombinovat různé deskriptivní slovníky (např. pro geografické údaje), které je navíc možné neustále doplňovat a rozšiřovat. Pojmový aparát lze rozšířit pomocí modulů, např. modul Relationship (vztah) popisuje vlastnosti pro přesnější určení vztahů mezi osobami (zahrnuje vlastnosti přítel, sourozenec, rodič, soused, zaměstnavatel, setkal se s, nepřítel atd.) [56]. Začátkem roku 2000 byl jako experimentální projekt propojených informací zahájen Projekt Friend to a Friend (FOAF) 22, který definuje a rozšiřuje slovní zásobu profilu FOAF. Lze jej považovat za první aplikaci sociálního sémantického webu slučující technologii RDF a ideu sociálního webu [20]. 21 Webové aplikace obsahující příspěvky zpravidla jednoho editora na jedné webové stránce. Blog plní funkci internetového deníku, může být odborný nebo osobní. 22 http://www.foaf-project.org/ 30