InternetovéTechnologie



Podobné dokumenty
InternetovéTechnologie

InternetovéTechnologie

konzultační hodiny: středa od 9:45-11:15 (předem napsat o konkrétním problému, který chcete konzultovat)

Internetové vyhledávače

konzultační hodiny: úterý od 9:45-11:15 (předem napsat o konkrétním problému, který chcete konzultovat)

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky


Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

SEO Optimalizace pro vyhledávače

Vyhledávání na Internetu

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

PRODUKTY. Tovek Tools

SEO. Jarda Hlavinka Informační architekt internet. portálů

SEM, SEO a PPC? Kouzelné formulky?

SEO (optimalizace pro vyhledavače)

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

6. SEO úvod do problematiky, terminologie, principy. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Uživatelská podpora v prostředí WWW

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Petr Nevrlý

Pro úspěšné zvýšení návštěvnosti a dosažení předních pozic ve vyhledávačích provedeme nejdříve jednoduchou "SEO ANALÝZU WEBOVÉ PREZENTACE.

JÁ DĚLÁM TO SEO DOBŘE,

konzultační hodiny: středa od 8:00-09:30 (předem napsat o konkrétním problému, který chcete konzultovat)

Search Engine Marketing jako základní kámen internetové propagace. František Štrupl, H1.cz

PRODUKTY. Tovek Tools

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Quo vadis, vyhledávání (na webu)?

Petr Nevrlý

Vyhledávání na portálu Knihovny.cz

C3 Vyhledávání na Internetu

INTERNETOVÉ VYHLEDÁVAČE

7. SEO Nástroje pro analýzu úspěšnosti. Web pro kodéry (Petr Kosnar, ČVUT, FJFI, KFE, PINF 2008)

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

Inovace bakalářského studijního oboru Aplikovaná chemie

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

Marketing ve vyhledávačích

Experimentální systém pro WEB IR

PRODUKTY Tovek Server 6

MBI - technologická realizace modelu

Internet. Osnova. II. Vyhledávací nástroje. Proč je vyhledávání na Internetu tolik komplikované? Jak se stát úspěšným hledačem pokladů na Internetu

Petr Nevrlý

Dobývání znalostí z textů text mining

Začínáme s Tovek Tools

Využití informačních technologií v cestovním ruchu P1

Web 2.0 vs. sémantický web

Elektronické inf. zdroje

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

SEO OPTIMALIZACE PRO VYHLEDÁVAČE JEDNODUŠE

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Petr Nevrlý

Metodika korelační analýzy výsledků vyhledávače Seznam.cz

Nabídka internetového obchodu

INTERNETOVÉ VYHLEDÁVAČE

Role informační architektury a optimalizace pro vyhledavače v online publikování

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Internet zdroj informací

Web 2.0, Search 2.0 jak se to rýmuje?

Máte to? Summon jako základní vyhledávací nástroj NTK

NABÍDKOVÝ KATALOG INTERNETOVÉHO MARKETINGU

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

SEARCH ENGINE OPTIMIZATION

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Produktový list. Firemní profily

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

Produktový list. Firemní profily

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Autor: Jan Hošek

Produktový list Zboží.cz. PPC reklama - internetová reklama placená za proklik

Forum Media emarketing

InternetovéTechnologie

Dolování z textu. Martin Vítek

Mgr. Petr Šmejkal.

Univerzita Karlova v Praze

Seminář SEO jako součást internetového marketingu OS Chocholík Martina Hosová DiS.

Jak vypadá opravdová discovery služba

Dokumentační služba projektu MediGrid

regalsistem.cz Analýza z hlediska SEO offpage webové prezentace

SEO optimalizace Jiří Psota

Manuscriptorium jako základ pro virtuální badatelské prostředí

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Z HISTORIE SPOLEČNOSTI

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

EU-OPVK: VY_32_INOVACE_FIL17 Vojtěch Filip, 2013

Zpráva o zhotoveném plnění

Lenka Maixnerová, Alena Šímová, Helena Bouzková, Filip Kříž, Ondřej Horsák, Marie Votípková. Národní lékařská knihovna, Praha, Česká republika

InternetovéTechnologie

Vzdělávací obsah vyučovacího předmětu

1 Webový server, instalace PHP a MySQL 13

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

Intranet jako podpora řízení dopravní firmy

Produktový manuál.

Výkonnostní marketing Jak maximalizovat efektivitu internetové reklamy. David Špinar, H1.cz

Indexace pro souborová uložiště a Vyhledávací centrum

Nástroj pro monitorování a analýzu českého internetu a sociálních médií

Transkript:

7 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky

Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu - Nástroj (server, aplikace, apod.) nabízející služby pro vyhledávání požadovaných informací na základě specifikace zadání od uživatele. Toto vyhledávání se provádí nad daty, která jsou pro tento účel pořízena a udržována.

Vyhledávače - Dělení podle architektury - centralizované (seznam.cz, Google, atd.) - decentralizované (Gnutella, FreeNet, atd.) - hybridní (Napster, BitTorrent, atd.) - Dělení podle obsahu a služeb - katalog (firmy.cz, seznam.cz, centrum.cz, atd.) - fulltextový vyhledávač (seznam.cz, Google, atd.) - Sociální (Twitter, Facebook, atd.) - Sémantické

Vyhledávače Zdroj: http://www.llrx.com/features/searchenterprise.htm - Dělení podle modelu - Booleovský model (množiny) - Vektorový model - Fuzzy booleovský model - Shlukování, atd.

Vyhledávače - Centralizované - jádro tvoří centralizovaná databáze (index) vytvářená pomocí robotů - architektura klient/server - problematické zajištění aktuálnosti databáze a tvorby indexů nad různými typy dat - rychlé vyhledávání relevantních informací - snadná správa fyzických dat - Decentralizované - architektura peer-to-peer s využitím floodingu - aktuálnost hledaných dat odpovídá realitě - variabilita různých forem dotazů a nalezených dat - pomalá rychlost samotného vyhledávání a vysoké nároky na vytížení sítě - problematická správa dat z globálního pohledu - Hybridní

Vyhledávače - Katalogové - základ je databáze obsahující stromovou strukturu odkazů a informací o nich - plnění katalogů je především manuální - poskytují informace, kdy jejich relevantnost a aktuálnost závisí na aktualizaci informací o každé položce stromu zvlášť - dnes zpravidla propojené s fulltextovými vyhledávači - Fulltextové - základ je rozsáhlá databáze (index) obsahující informace o stránkách a jejich obsahu - správa a údržba dat je automatizovaná, a to pomocí robotů - poskytují informace, kdy jejich relevantnost a aktuálnost závisí na periodicitě a možnostech robota a indexování, využívá se ohodnocování jednotlivých položek - dnes se již možnosti indexace a vyhledávání rozšiřují i na dokumenty jiného formátu než WWW - Sociální - v podstatě kombinace fultextového a katalogového vyhledávání - základem je zaměření na specifický typ obsahu a informací - Sémantické

Typy vyhledávání - Typy dotazů - Navigační dotazy přístup na konkrétní stránku české aerolinie -> http://www.csa.cz - Informační dotazy získání konkrétní informace počasí Praha, skodafabiarecenze - Transakční dotazy nalezení informace pro následnou akci vyhledávání zboží, souborů, apod. - Doménové oblasti - Obecné vyhledávání - Oborové vyhledávání - Vertikální vyhledávání - Vyhledávání v hlubokém webu (deep/invisible web) - Meta-vyhledávání - (www.qwiki.com)

Fulltextové vyhledávače - Fulltextové vyhledávání technika pro hledání informací založena na zkoumání každého slova ve zdrojových datech (dokument, databáze, apod.) - 3 fáze funkčnosti vyhledávače (Search Engine) - sběr dat - robot, spider, web crawler - uložení dat do databáze index - dotazování - Google.com, Yahoo.com, Altavista.com, Seznam.cz, Centrum.cz, atd.

Zdroj: hhttp://myblogranksfirstingoogle.blogspot.cz/2010/09/work-flow-of-search-engines.html Fulltextové vyhledávače

Crawler - Program, který po svém spuštění realizuje první fázi provozu vyhledávače - Jedná se v podstatě o princip procházení grafu - Vytvářejí kopie stránek v úložišti systému - Zpracovávají data podle svého určení (obrázky, dokumenty, apod.) - Zpravidla využívá parsování pouze na úrovni textových dat (HTML, XML, apod.) - Obvykle pracuje s omezením počtu či hloubky zanoření - Paměť pro již zpracované stránky - Již dříve zpracované stránky se navštěvují znovu z důvodu nalezení změn - Analyzují meta-tagy a soubor robots.txt Zdroj: http://dollar.biz.uiowa.edu/~pant/papers/crawling.pdf

Crawler - fetching - Buffer (frontier) - to-do list se seznamem ještě nenavštívených (ale známých) odkazů - omezení počtu zpracovaných URL - Historie - seznam URL, které již byly zpracovány - řešení proti zacyklení - využití při dalším zpracování zdroje - Úložiště - obsahuje načtené dokumenty/stránky pro další fáze parsování, indexování, vyhledávání

Crawler - parsing Zdroj: https://developer.apple.com/library/mac/#documentation/userexperience/conceptual/searchkitconce pts/searchkit_basics/searchkit_basics.html - zpracování obsahu načtené stránky (dokumentu) - hledání dalších URL v dokumentu - lexikální analýza -identifikace objektů (slov) k indexování - stoplisting eliminace neefektivních slov z textu (předložky, členy, apod.) - stemming/lematizace standardizace slov do základního tvaru (množná čísla, zdrobněliny, předpony, apod.) - thezaurus standardizace slov podle synonym ze slovníku - kanonizace URL zajištění jednotnosti všech URL (velikost písmen, port, absolutní URL, PHPSESID, atd.) - Důležitým prvkem je algoritmus řazení a ohodnocování nalezených dokumentů jejich vnitřních URL (path-ascending, focused, atd.) určování, které URL a jak dále prohledávat

Crawler - parsing

Indexování Zdroj: https://developer.apple.com/library/mac/#documentation/userexperience/conceptual/searchkitconce pts/searchkit_basics/searchkit_basics.html - Data zpracována crawlerem se ukládají do databáze a vytváří se relace s URL - Využívá se invertovaný index setříděný seznam termů, kdy ke každému je evidována množina dokumentů - Zároveň probíhá výpočet váhy (ohodnocení relevance a důležitosti - mezi slovem a stránkou, SEO) - TF a IDF (term frequency, inverse document frequency) - on-page faktory (umístění slova, vzdálenost slov, klíčová slova, popisky, apod.) - off-page faktory (adresa stránek, zpětné odkazy, PageRank)

Vyhledávání - Zpracování dotazu - tokenizace - parsování - stoplisting, stemming - vytvoření dotazu - rozšíření dotazu thesaurus - ocenění termů v dotazu - realizace dotazu nad invertovaným indexem - vyhledávání nad odpovídajícími dokumenty - setřídění podle ohodnocení dokumentů - Jazyková specifika - diakritika - transformace do unicode - tvarosloví - lokalizace stránky heuristická analýza charakteristických slov

Hodnocení nalezených informací - Z pohledu vyhledávače - frekvence výskytu termů - pozice termů - analýza vazeb (zpětné odkazy, PageRank, atd.) - popularita - datum publikování - velikost dokumentu vzhledem k výskytu termů - vzdálenost termů v dokumentu - význam termů vzhledem k obsahu a tématu dokumentu - Návštěvnost stránek a jejich popularita - Penalizační faktory - Z pohledu uživatele - účel dokumentu a jeho typ (např. reklama vs. odborný text) - objektivnost, úplnost, důvěryhodnost, přesnost - autorství a umístění dokumentu - jazyková a stylistická kvalita - citované zdroje a reference - aktuálnost obsahu

Google pokročilé dotazy Zdroj: http://www.inforum.cz/inforum2004/pdf/peceny_ondrej.pdf - josef +I. (Ijepožadovanýterm, ikdyžsejednásstopword) http://www.google.com/patents - zákon o účetnictví (přesnáfráze) - brouk volkswagen vw (2.a3.termnesmíbýtvevýsledku) - ~help excel (zobrazístránkyoexceluobsahujícísynonymaslovahelp) - czechoslovakia1950..1960(zobrazístránkysinformacemiotermuaobsahujícíčíslenýrozsah) - define:orange (zobrazídefinicipojmu) - notebooky filetype:xls (omezenínaformátdokumentu) - intitle:medicentruminterna (1.termvnázvustránky, 2.termkdekoliv) - allintitle:letovyrad (obatermyvnázvustránky) - inurl:shoptelevize (1.termvURL, 2.termkdekoliv) - allinanchor:digitalniknihovna (obatermyvodkazenadokument) - školení site:stk.cz (termpouzevdokumentechdanédomény) - link:www.vsb.cz (dokumentyodkazujícínaurl) - related:www.vlada.cz (stránkypodobnézadanéstránce) - info:www.fei.vsb.cz (zobrazípřehledmožnýchinformacíourl) - cache:www.mlp.czspořilov (zobrazídanoustránkuzarchívuazvýraznídanýterm) - (15/5)*2 (vypočtevýraz) - 10 USD in CZK (zobrazíaktuálnípřevodměny) - inurl:hesla filetype:txt (vyhledásouborystextemheslavurlakoncovkoutxt) - inurl:wcx_ftp.ini (najdesouborywcx_ftp.ini) - visa 4356000000000000..4356999999999999 (pokusísezjistitčíslokartyuvedenénainternetu) - intitle:index.of server.atsite:vsb.cz (najdestránkynadanémserverusvýpisemainformacíoserveru)

Statistiky ČR - 7,5 mil, 73%, 1,4% z Evropy

Statistiky http://www.doba-webova.com/

Nejhledanější dotazy 2014 - http://skokani.seznam.cz/ - http://www.zive.cz/clanky/cesky-duch-doby-co-jsme-v-roce-2014-hledali-na-googlu/sc-3-a- 176453/default.aspx 2013 - http://www.zive.cz/clanky/cesky-duch-doby-co-jsme-v-roce-2013-hledali-na-googlu/sc-3-a- 171651/default.aspx - http://www.zive.cz/clanky/nejhledanejsi-na-seznamu-facebook-google-a-porno/sc-3-a- 171980/default.aspx 2012 - http://www.zive.cz/clanky/nejhledanejsi-slova-roku-2012-na-ceskem-seznamu/sc-3-a- 167107/default.aspx - http://www.zive.cz/clanky/zeitgeist-2012-co-jsme-letos-nejvice-hledali-na-googlu/sc-3-a- 166651/default.aspx 2011 - http://www.zive.cz/bleskovky/bez-cenzury-skutecne-nejhledanejsi-slova-na-seznamu/sc-4-a- 161558/default.aspx - http://www.zive.cz/clanky/duchem-doby-podle-seznamu-je-vaclav-havel/sc-3-a-161553/default.aspx - http://www.zive.cz/clanky/cesky-google-predstavil-nejhledanejsi-slova-za-rok-2011/sc-3-a- 161488/default.aspx

www.google.com/intl/en/press/zeitgeist/

search.seznam.cz/stats?collocation=v%c5%a1b

- https://www.google.cz/trends/

Problémy dnešního vyhledávání - Velikost indexu - co vše je jednotlivými vyhledávači indexováno (pokrytí) - vazba mezi růstem webu a indexy - Aktualizace indexu - zpoždění mezi publikací informace a jejím zaindexováním - Formáty dokumentů - významná část zdroje informací na internetu, která vyžaduje jiné postupy než klasické WWW stránky - Dynamicky generované, dynamické stránky a RIA - stránky vzniklé na základě požadavku, které navíc mohou mít pouze dočasnou platnost - dynamické prvky stránek je problematické indexovat - technologie podpory RIA přístupů - Index spamming - metody pro oklamání algoritmů pro hodnocení relevance stránek (seznamy pojmů a slov, neviditelný text, odkazy a křížové odkazy, stránky s výsledky hledání) - etický problém, nikoliv technologický - objevují se obrany ve formě penalizací neetických stránek - Google bomba -http://cs.wikipedia.org/wiki/google_bomba

Koncepční problémy a nedostatky - Zpracování přirozeného jazyka - pochopení významu slova vzhledem ke konceptu - Interakce uživatelů a vyhledávače - lidé často nemají představu o tom, co hledají - správná formulace dotazu je základ úspěchu - Ověřování informací - schopnost z nalezených výsledků vybrat a použít ty správné

Budoucnost vyhledávání - Technické a technologické zázemí - zajištění platformy a algoritmů pro efektivní provoz crawlerů, indexovacícha vyhledávacích serverů, a to s ohledem na rostoucí množství informací a nové podoby jejich prezentace - Inteligentní zpracování a tvorba dotazů - podpora tvorby dotazů a jejich interpretace - Selekce zdrojů pro vyhledávání - vnímání zdrojů podle důvěryhodnosti - různé typy informací představují různé doménové oblasti - Perzonalizace - Integrace vyhledávačů - vyhledávání v rámci počítače i internetu - rozhraní vyhledávače je součástí aplikací - Sémantika - z pohledu obsahu, indexování a hodnocení - z pohledu tvorby a provádění dotazů - Sociální sítě