Internetové vyhledávače
Co je internetový vyhledávač služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované informace uživatel zadává do rozhraní vyhledávače klíčová slova, která charakterizují hledanou informaci a vyhledávač obratem na základě své databáze vypisuje seznam odkazů na stránky, které hledané informace obsahují (text, obrázky nebo jiné typy multimediálních informací) databáze je udržována převážně automaticky na rozdíl od internetových katalogů, které jsou udržovány převážně ručně cílem vyhledávačů je poskytnout uživateli při odpovědi na dotaz co nejrelevantnější informace, a proto různými způsoby hodnotí důležitost webových stránek, které mají ve své databázi (např. PageRank)
Jak vyhledávač pracuje pracuje z větší části automaticky - využívá desítky až statisíce počítačů kvalita vyhledávače je závislá na tom, jak kvalitní dává odpovědi, tj. jestli uživatel najde hledanou informaci na prvních místech odpovědi vyhledávače proto je nutné měřit kvalitu stránek, které vyhledávač má ve své databázi (např. PageRank u Google, S-Rank u Seznamu, JyxoRank u Jyxo) vyhledávač musí své metody neustále vylepšovat, aby vyhověl čím dál vyšším požadavkům svých návštěvníků
vyhledávače pracují v těchto krocích: 1) procházení webových stránek 2) vytvoření databáze výskytu slov 3) indexování 4) poskytování odpovědí na dotazy
ad.1) procházení webových stránek pro procházení webových stránek má internetový vyhledávač automatický program, tzv. vyhledávací robot (bot nebo spider pavouk ), který se pomocí hypertextových odkazů snaží navštívit všechny webové stránky na Internetu robot pracuje tak, že dostane na začátku seznam atraktivních stránek (tj. vstupních míst - seznam URL odkazů) většinou je to seznam rozcestníků (např. katalog Seznamu, Yahoo! Directory, atd.) robot každou stránku stáhne na svůj pevný disk a poznamená si její URL adresu, aby ji nenavštěvoval opakovaně na uložené stránce přečte všechny hypertextové odkazy na další webové stránky, čímž získá další místa, která stejným způsobem navštíví robot pracuje cyklicky, takže se po určitém čase na stránky vrací, aby zjistil jejich případné změny
http://odkazy.seznam.cz/ http://dir.yahoo.com/
ad. 2) databáze výskytu slov stránky, které robot uložil na pevný disk, je potřeba zpracovat a vytvořit z nich databázi v databázi jsou uvedena všechna nalezená slova a k nim adresy, na kterých se tato slova vyskytují databáze je tak schopna poskytnout informaci, na kterých stránkách se hledané slovo nachází problémem je velikost databáze, protože její sekvenční prohledání by trvalo neúměrně dlouho - následuje proto další krok, tzv. indexování
ad.3) indexování indexování databáze urychluje vyhledání požadované informace index je zároveň vytvořen tak, aby poskytoval na prvních místech stránky s nejvyšší užitnou hodnotou (tzv. relevancí - mají nejvyšší hodnocení kvality, nejvyšší váhu). pro výpočet relevance se používají různé algoritmy, které jsou založeny na různých znacích stránek a různých způsobech analýzy jejich obsahu, například: váha slov (je-li slovo v titulku stránky, nadpisu nebo blíže k začátku stránky, případně se na stránce opakuje), atraktivita stránky (vyšší hodnocení, když na ni odkazuje více jiných stránek), serióznost webu, sponzorované odkazy, technická kvalita
ad.4) poskytování odpovědí na dotazy vyhledávač poskytuje svým uživatelům vstupní formulář, do kterého jsou zadávána hledaná slova po odeslání dotazu jsou pomocí indexu získány z databáze odkazy na stránky, které hledané slovo obsahují podle kvality indexu jsou na prvních místech většinou odkazy na stránky, které jsou pro uživatele dostačující pro vyšší přehlednost se zobrazuje kromě odkazu ještě titulek stránky, okolí nalezených slov a případně i další informace (stáří informace, kvalita odkazu, )
Aktuálnost databáze z principu práce vyhledávače vyplývá, že nikdy nemá úplně aktuální informace - prezentuje je se zpožděním robot navštěvuje zajímavé adresy co nejčastěji (např. zpravodajské servery) nebo se dokonce uzavírá smlouva o snadnějším zpřístupnění obsahu pro robota (místo pasivního čekání na návštěvu robota jsou nové informace robotovi přímo zaslány) pro vyšší efektivitu se databáze aktualizuje po částech nebo průběžně nebo se co nejčastěji aktualizují alespoň nejzajímavější a nejčastěji hledané informace
SEO Search Engine Optimization technika, která dokáže stránky upravit tak, aby se co nejlépe umístily ve výsledcích vyhledávání SEO techniky se rozlišují na povolené a zakázané (tzv. Black Hat SEO, které vyhledávače tvrdě postihují například vyřazením ze svého indexu)
Vyhledávání na internetu Katalogy - slouží k zařazení stránek do stromu tématických kategorii. Při registraci do vyhledávačů katalogového typu je nutné vložit název a URL stránky, její popisek a kategorie, do kterých má být zařazena. Zadané údaje kontroluje před zařazením pracovník firmy, která katalog provozuje např.centrum a Seznam Fulltextové vyhledávače neboli indexéry - řadí stránky do své databáze podle toho, jaká slova se na nich vyskytují. Při vyhledávání zadáváme hledané klíčové slovo nebo klíčovou frázi charakterizující obsah stránky. Výsledkem je seznam stránek seřazených podle míry relevance k našemu dotazu http://morfeo.centrum.cz/
Hybridní neboli smíšené vyhledávače - Spojují principy obou typů výše popsaných vyhledávačů. V současné době je většina vyhledávačů hybridních. Rozdělení vyhledávačů není ostré, některé z nich jsou prostě spíše katalogy, jiné spíše indexéry. Metavyhledávače - umí přeložit uživatelův dotaz a zaslat ho více vyhledávačům současně, odpovědi získané od oslovených vyhledávačů zpracuje (vyloučení duplicit, setřídění podle relevance atd.) a zobrazí výsledek Vyhledávací centrály - zašle uživatelův dotaz vybraným (dle vašeho výběru) vyhledávačům a vám se rovnou zobrazí výsledek www.alenka.cz
Regionální vyhledávače a katalogy katalog Olomouckého kraje http://www.krajolomoucky.info/ Moravskoslezský Kraj http://www.moucha.cz/
Seznamy vyhledávačů http://www.searchenginesindex.com/cs/ http://www.vyhledavace.net/ http://vyhledavace.tym.cz/
www.google.com nejvíce navštěvovaný vyhledávač s českou verzí vznikl v r.1998 obsahuje unikátní způsob vyhodnocování odkazů, který je zajištěn přes systémy: PageRank - řazení dokumentů podle výpočtu míry relevance GoogleScout - odkazové vyhledávání příbuzných záznamů Open Directory - vyhledávání informací v předmětovém katalogu na principu rozcestníku frázové vyhledávání - v jednoduchém vyhledávání frázi uzavřít do uvozovek (např."solární fyzika"); v pokročilém vyhledávání je samostatné vyhledávací okénko základní vyhledávání možnosti vyhledávání: web, obrázky, skupiny, adresář AND, OR, NOT (přednastaveno AND)
je velmi vhodný pro hledání konkrétních věcí nebo jevů, protože používá unikátní technologii analýzy citovanosti, není vhodný pro hledání obecných témat, protože nemá propracovaný vyhledávací jazyk pokročilé vyhledávání možnosti vyhledávání: se všemi slovy, bez slov, s přesným výrazem, s kterýmkoliv ze slov, dále podle jazyka, data, formátu souboru, domény a URL AND, OR, NOT (přednastaveno AND) třídění výsledků dle míry relavance; pro každou stránku přidává kritérium citovanosti, a tím výrazně zlepšuje relevanci výsledků hledání; výhodou je, že pod každým nalezeným odkazem získáme část textu s tučně označenými slovy, která byla zadána zkracování: ne rozlišení velkých a malých písmen: ne jazyk: aj a dalších 35 světových jazyků včetně čj, help v aj
www.seznam.cz vznikl v r. 1996 na principu rozcestníku vyhledává v tematickém katalogu s fulltextem Empyreum vedle Googlu nejvíce navštěvovaný český gigaportál není vhodný pro zadávání příliš komplikovaných dotazů frázové vyhledávání - frázi uzavřít do uvozovek (např.""solární fyzika""); slova oddělit mezerou základní vyhledávání možnosti vyhledávání: procházení stromem hlavních sekcí zadání dotazu do hledacího okénka
další možnosti vyhledávání: v ČR nebo ve světě, v katalogu Seznamu, ve fullextu, ve firmách pokročilé vyhledávání AND OR NOT html pomocí dvojtečky (např. TITLE:internet) třídění výsledků - dle míry relevance; na relevanci odkazu má vliv, zda je zadaný výraz zastoupen v titulku, popisku, doméně druhého řádu či na jiném místě internetové adresy; pokud se výraz vyskytuje ve více z těchto součástí odkazu (např.: v titulku i v popisku zároveň), relevance je vyšší zkracování "*" nahradí libovolný počet znaků "*" pravé i levé rozšíření "?" jenom pravé rozšíření rozlišení velkých a malých písmen: ne jazyk: čj
Další české vyhledávače www.centrum.cz www.klikni.cz www.jyxo.cz www.kudy.cz www.opendir.cz
Příklady zahraničních vyhledávačů www.altavista.com www.yahoo.com www.msn.com www.lycos.com www.metacrawler.com www.wdirect.com