InternetovéTechnologie

Podobné dokumenty
InternetovéTechnologie

InternetovéTechnologie

konzultační hodiny: středa od 9:45-11:15 (předem napsat o konkrétním problému, který chcete konzultovat)

Internetové vyhledávače

konzultační hodiny: úterý od 9:45-11:15 (předem napsat o konkrétním problému, který chcete konzultovat)

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.


Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

SEO Optimalizace pro vyhledávače

Vyhledávání na Internetu

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

SEO. Jarda Hlavinka Informační architekt internet. portálů

SEO (optimalizace pro vyhledavače)

PRODUKTY. Tovek Tools

SEM, SEO a PPC? Kouzelné formulky?

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

JÁ DĚLÁM TO SEO DOBŘE,

6. SEO úvod do problematiky, terminologie, principy. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

Petr Nevrlý

Vyhledávání na portálu Knihovny.cz

konzultační hodiny: středa od 8:00-09:30 (předem napsat o konkrétním problému, který chcete konzultovat)

PRODUKTY. Tovek Tools

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

Search Engine Marketing jako základní kámen internetové propagace. František Štrupl, H1.cz

Petr Nevrlý

C3 Vyhledávání na Internetu

Quo vadis, vyhledávání (na webu)?

INTERNETOVÉ VYHLEDÁVAČE

7. SEO Nástroje pro analýzu úspěšnosti. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

MBI - technologická realizace modelu

Inovace bakalářského studijního oboru Aplikovaná chemie

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Internet. Osnova. II. Vyhledávací nástroje. Proč je vyhledávání na Internetu tolik komplikované? Jak se stát úspěšným hledačem pokladů na Internetu

Uživatelská podpora v prostředí WWW

Experimentální systém pro WEB IR

Marketing ve vyhledávačích

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

Mgr. Petr Šmejkal.

Elektronické inf. zdroje

Dobývání znalostí z textů text mining

Začínáme s Tovek Tools

Využití informačních technologií v cestovním ruchu P1

Role informační architektury a optimalizace pro vyhledavače v online publikování

Metodika korelační analýzy výsledků vyhledávače Seznam.cz

PRODUKTY Tovek Server 6

Petr Nevrlý

Internet zdroj informací

Máte to? Summon jako základní vyhledávací nástroj NTK

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

Produktový list. Firemní profily

Produktový list. Firemní profily

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

Nabídka internetového obchodu

INTERNETOVÉ VYHLEDÁVAČE

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Produktový list Zboží.cz. PPC reklama - internetová reklama placená za proklik

Forum Media emarketing

NABÍDKOVÝ KATALOG INTERNETOVÉHO MARKETINGU

SEO OPTIMALIZACE PRO VYHLEDÁVAČE JEDNODUŠE

Petr Nevrlý

WEB KNIHOVNY JAKO NÁSTROJ K PROPAGACI SLUŽEB A INFORMACÍ ING. PAVEL CIMBÁLNÍK

Užití sociálních sítí v SEO

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Lenka Maixnerová, Alena Šímová, Helena Bouzková, Filip Kříž, Ondřej Horsák, Marie Votípková. Národní lékařská knihovna, Praha, Česká republika

Z HISTORIE SPOLEČNOSTI

Zpráva o zhotoveném plnění

Výkonnostní marketing Jak maximalizovat efektivitu internetové reklamy. David Špinar, H1.cz

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

1 Webový server, instalace PHP a MySQL 13

Manuscriptorium jako základ pro virtuální badatelské prostředí

InternetovéTechnologie

Intranet jako podpora řízení dopravní firmy

Obsah ČÁST I JAK SE UCHÁZET O ZÁKAZNÍKY NA WEBU KAPITOLA 1

Seminář SEO jako součást internetového marketingu OS Chocholík Martina Hosová DiS.

Web 2.0 vs. sémantický web

Univerzita Karlova v Praze

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

České internetové medicínské zdroje v Národní lékařské knihovně

regalsistem.cz Analýza z hlediska SEO offpage webové prezentace

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

SEARCH ENGINE OPTIMIZATION

JAK PRACOVAT S INFORMACEMI TAK, ABY ONY PRACOVALY PRO NÁS? Přednáška kurzu Informační a databázové systémy v rostlinolékařství

SEO optimalizace Jiří Psota

Produktový list. Firemní profily

Produktový list. Firemní profily

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

EU-OPVK: VY_32_INOVACE_FIL17 Vojtěch Filip, 2013

1. Webový server, instalace PHP a MySQL 13

Jak vypadá opravdová discovery služba

InternetovéTechnologie

Transkript:

4 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky

Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu - Nástroj (server, aplikace, apod.) nabízející služby pro vyhledávání požadovaných informací na základě specifikace zadání od uživatele. Toto vyhledávání se provádí nad daty, která jsou pro tento účel pořízena a udržována.

Vyhledávače - Dělení podle architektury - centralizované (seznam.cz, Google, atd.) - decentralizované (Gnutella, FreeNet, atd.) - hybridní (Napster, BitTorrent, atd.) - Dělení podle obsahu a služeb - katalog (firmy.cz, seznam.cz, centrum.cz, atd.) - fulltextový vyhledávač (seznam.cz, Google, atd.) - Sociální (Twitter, Facebook, atd.) - Dělení podle modelu - Booleovský model (knihovní systémy) - Vektorový model - Fuzzy booleovský model

Vyhledávače - Centralizované - jádro tvoří centralizovaná databáze (index) vytvářená pomocí robotů - architektura klient/server - problematické zajištění aktuálnosti databáze a tvorby indexů nad různými typy dat - rychlé vyhledávání relevantních informací - snadná správa fyzických dat - Decentralizované - architektura peer-to-peer s využitím floodingu - aktuálnost hledaných dat odpovídá realitě - variabilita různých forem dotazů a nalezených dat - pomalá rychlost samotného vyhledávání a vysoké nároky na vytížení sítě - problematická správa dat z globálního pohledu - Hybridní

Vyhledávače - Katalogové - základ je databáze obsahující stromovou strukturu odkazů a informací o nich - plnění katalogů je především manuální - poskytují informace, kdy jejich relevantnost a aktuálnost závisí na aktualizaci informací o každé položce stromu zvlášť - dnes zpravidla propojené s fulltextovými vyhledávači - Fulltextové - základ je rozsáhlá databáze (index) obsahující informace o stránkách a jejich obsahu - správa a údržba dat je automatizovaná, a to pomocí robotů - poskytují informace, kdy jejich relevantnost a aktuálnost závisí na periodicitě a možnostech robota a indexování, využívá se ohodnocování jednotlivých položek - dnes se již možnosti indexace a vyhledávání rozšiřují i na dokumenty jiného formátu než WWW - Sociální - v podstatě kombinace fultextového a katalogového vyhledávání - základem je zaměření na specifický typ obsahu a informací

Typy vyhledávání - Typy dotazů - Navigační dotazy přístup na konkrétní stránku české aerolinie -> http://www.csa.cz - Informační dotazy získání konkrétní informace počasí Praha, skoda fabia recenze - Transakční dotazy nalezení informace pro následnou akci vyhledávání zboží, souborů, apod. - Doménové oblasti - Obecné vyhledávání - Oborové vyhledávání - Vertikální vyhledávání - Vyhledávání v hlubokém webu (deep/invisible web) - Meta-vyhledávání (www.hakia.com, www.qwiki.com)

Fulltextové vyhledávače - Fulltextové vyhledávání technika pro hledání informací založena na zkoumání každého slova ve zdrojových datech (dokument, databáze, apod.) - 3 fáze funkčnosti vyhledávače (Search Engine) - sběr dat - robot, spider, web crawler - uložení dat do databáze index - dotazování - Google.com, Yahoo.com, Altavista.com, Seznam.cz, Centrum.cz, atd.

Fulltextové vyhledávače Zdroj: http://eprints.rclis.org/archive/00007606/01/internet_search_engines.pdf

Crawler - Program, který po svém spuštění realizuje první fázi provozu vyhledávače - Jedná se v podstatě o princip procházení grafu - Vytvářejí kopie stránek v úložišti systému - Zpracovávají data podle svého určení (obrázky, dokumenty, apod.) - Zpravidla využívá parsování pouze na úrovni textových dat (HTML, XML, apod.) - Obvykle pracuje s omezením počtu či hloubky zanoření - Paměť pro již zpracované stránky - Již dříve zpracované stránky se navštěvují znovu z důvodu nalezení změn - Analyzují meta-tagy a soubor robots.txt Zdroj: http://dollar.biz.uiowa.edu/~pant/papers/crawling.pdf

Crawler - fetching - Buffer (frontier) - to-do list se seznamem ještě nenavštívených (ale známých) odkazů - omezení počtu zpracovaných URL - Historie - seznam URL, které již byly zpracovány - řešení proti zacyklení - využití při dalším zpracování zdroje - Úložiště - obsahuje načtené dokumenty/stránky pro další fáze parsování, indexování, vyhledávání

Crawler - parsing - zpracování obsahu načtené stránky (dokumentu) - hledání dalších URL v dokumentu - lexikální analýza - identifikace objektů (slov) k indexování - stoplisting eliminace neefektivních slov z textu (předložky, členy, apod.) - stemming/lematizace standardizace slov do základního tvaru (množná čísla, zdrobněliny, předpony, apod.) - thezaurus standardizace slov podle synonym ze slovníku - kanonizace URL zajištění jednotnosti všech URL (velikost písmen, port, absolutní URL, PHPSESID, atd.) - Důležitým prvkem je algoritmus řazení a ohodnocování nalezených dokumentů a jejich vnitřních URL (path-ascending, focused, atd.) určování, které URL a jak dále prohledávat

Crawler - parsing

Indexování Zdroj: http://eprints.rclis.org/archive/00007606/01/internet_search_engines.pdf - Data zpracována crawlerem se ukládají do databáze a vytváří se relace s URL - Využívá se invertovaný index setříděný seznam termů, kdy ke každému je evidována množina dokumentů - Zároveň probíhá výpočet váhy (ohodnocení relevance a důležitosti mezi slovem a stránkou, SEO) - TF a IDF (term frequency, inverse document frequency) - on-page faktory (umístění slova, vzdálenost slov, klíčová slova, popisky, apod.) - off-page faktory (adresa stránek, zpětné odkazy, PageRank)

Vyhledávání - Zpracování dotazu - tokenizace - parsování - stoplisting, stemming - vytvoření dotazu - rozšíření dotazu thesaurus - ocenění termů v dotazu - realizace dotazu nad invertovaným indexem - vyhledávání nad odpovídajícími dokumenty - setřídění podle ohodnocení dokumentů - Jazyková specifika - diakritika - transformace do unicode - tvarosloví - lokalizace stránky heuristická analýza charakteristických slov

Hodnocení nalezených informací - Z pohledu vyhledávače - frekvence výskytu termů - pozice termů - analýza vazeb (zpětné odkazy, PageRank, atd.) - popularita - datum publikování - velikost dokumentu vzhledem k výskytu termů - vzdálenost termů v dokumentu - význam termů vzhledem k obsahu a tématu dokumentu - Návštěvnost stránek - Penalizační faktory - Z pohledu uživatele - účel dokumentu a jeho typ (např. reklama vs. odborný text) - objektivnost, úplnost, důvěryhodnost, přesnost - autorství a umístění dokumentu - jazyková a stylistická kvalita - citované zdroje a reference - aktuálnost obsahu

Google pokročilé dotazy Zdroj: http://www.inforum.cz/inforum2004/pdf/peceny_ondrej.pdf - josef +I. (Ijepožadovanýterm, ikdyžsejednásstopword) http://www.google.com/patents - zákon o účetnictví (přesnáfráze) - brouk volkswagen vw (2.a3.termnesmíbýtvevýsledku) - ~help excel (zobrazístránkyoexceluobsahujícísynonymaslovahelp) - czechoslovakia 1950..1960 (zobrazístránkysinformacemiotermuaobsahujícíčíslenýrozsah) - define:orange (zobrazídefinicipojmu) - notebooky filetype:xls (omezenínaformátdokumentu) - intitle:medicentrum interna (1.termvnázvustránky, 2.termkdekoliv) - allintitle:letovy rad (obatermyvnázvustránky) - inurl:shop televize (1.termvURL, 2.termkdekoliv) - allinanchor:digitalni knihovna (obatermyvodkazenadokument) - školení site:stk.cz (termpouzevdokumentechdanédomény) - link:www.vsb.cz (dokumentyodkazujícínaurl) - related:www.vlada.cz (stránkypodobnézadanéstránce) - info:www.fei.vsb.cz (zobrazípřehledmožnýchinformacíourl) - cache:www.mlp.cz spořilov (zobrazídanoustránkuzarchívuazvýraznídanýterm) - (15/5)*2 (vypočtevýraz) - 10 USD in CZK (zobrazíaktuálnípřevodměny) - inurl:hesla filetype:txt (vyhledásouborystextemheslavurlakoncovkoutxt) - inurl:wcx_ftp.ini (najdesouborywcx_ftp.ini) - visa 4356000000000000..4356999999999999 (pokusísezjistitčíslokartyuvedenénainternetu) - intitle:index.of server.at site:vsb.cz (najdestránkynadanémserverusvýpisemainformacíoserveru)

Statistiky ČR - 6,7 mil, 65%, 1,4% z Evropy

Statistiky

Statistiky

Nejhledanější dotazy 2011 - http://www.zive.cz/bleskovky/bez-cenzury-skutecne-nejhledanejsislova-na-seznamu/sc-4-a-161558/default.aspx - http://www.zive.cz/clanky/duchem-doby-podle-seznamu-je-vaclavhavel/sc-3-a-161553/default.aspx - http://www.zive.cz/clanky/cesky-google-predstavil-nejhledanejsislova-za-rok-2011/sc-3-a-161488/default.aspx 2010 - http://www.zive.cz/clanky/nejhledanejsi-slova-v-ceskem-seznamu-zarok-2010/sc-3-a-155645/default.aspx - http://www.zive.cz/clanky/google-zeitgeist-2010-nejcasteji-hledameprahu/sc-3-a-154865/default.aspx - http://www.zive.cz/clanky/google-zeitgeist-duchem-doby-jewindows-7/sc-3-a-149966/default.aspx

www.google.com/insights

www.google.com/intl/en/press/zeitgeist/

search.seznam.cz/stats?collocation=v%c5%a1b

Problémy dnešního vyhledávání - Velikost indexu - co vše je jednotlivými vyhledávači indexováno (pokrytí) - vazba mezi růstem webu a indexy - Aktualizace indexu - zpoždění mezi publikací informace a jejím zaindexováním - Formáty dokumentů - významná část zdroje informací na internetu, která vyžaduje jiné postupy než klasické WWW stránky - Dynamicky generované, dynamické stránky a RIA - stránky vzniklé na základě požadavku, které navíc mohou mít pouze dočasnou platnost - dynamické prvky stránek je problematické indexovat - technologie podpory RIA přístupů - Index spamming - metody pro oklamání algoritmů pro hodnocení relevance stránek (seznamy pojmů a slov, neviditelný text, odkazy a křížové odkazy, stránky s výsledky hledání) - etický problém, nikoliv technologický - objevují se obrany ve formě penalizací neetických stránek - Google bomba - http://cs.wikipedia.org/wiki/google_bomba

Koncepční problémy a nedostatky - Zpracování přirozeného jazyka - pochopení významu slova vzhledem ke konceptu - Interakce uživatelů a vyhledávače - lidé často nemají představu o tom, co hledají - správná formulace dotazu je základ úspěchu - Ověřování informací - schopnost z nalezených výsledků vybrat a použít ty správné

Budoucnost vyhledávání - Technické a technologické zázemí - zajištění platformy a algoritmů pro efektivní provoz crawlerů, indexovacích a vyhledávacích serverů, a to s ohledem na rostoucí množství informací a nové podoby jejich prezentace - Inteligentní zpracování a tvorba dotazů - podpora tvorby dotazů a jejich interpretace - Selekce zdrojů pro vyhledávání - vnímání zdrojů podle důvěryhodnosti - různé typy informací představují různé doménové oblasti - Perzonalizace - Integrace vyhledávačů - vyhledávání v rámci počítače i internetu - rozhraní vyhledávače je součástí aplikací - Sémantika - z pohledu obsahu, indexování a hodnocení - z pohledu tvorby a provádění dotazů - Sociální sítě