Úvod do databázových systémů B



Podobné dokumenty
Distanční opora předmětu: Databázové systémy Tématický blok č. 7: Fulltextové vyhledávání Autor: RNDr. Jan Lánský, Ph.D.

Z HISTORIE SPOLEČNOSTI

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Vyhledávání nebo nalezení informací

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

Vyhledávání na Internetu

C3 Vyhledávání na Internetu

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

Internetové vyhledávače

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

Jak vyhledávat. Vyhledávače KAPITOLA 3

VY_32_INOVACE_IKTO2_0460 PCH

NEJVYŠŠÍ SPRÁVNÍ SOUD

NĚMECKÝ JAZYK. Charakteristika předmětu

České internetové medicínské zdroje v Národní lékařské knihovně

Vyhledávání informací

Web of Science. Přednáška kurzu informační a databázové systémy v rostlinolékařství

InternetovéTechnologie

Tento příklad popíše asi nejzákladnější promoci. Kdyţ si zákazník koupí 3 kusy, dva kusy zaplatí a jeden dostane zdarma.

Inovace bakalářského studijního oboru Aplikovaná chemie

Autor: JUDr. Lukáš Bohuslav Redakce: JUDr. Petr Flášar

Dozvíte se mimo jiné, jak přinutit internetový vyhledávač, aby našel přesně to, co potřebujete.

InternetovéTechnologie

Všem pedagogům, studentům i zaměstnancům s platnými přihlašovacími údaji do Informačního systému univerzity VŠFS.

Pokyny pro zpracování závěrečné práce

Autor: Jan Hošek

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor: Cizí jazyk Vyučovací předmět: Ruský jazyk

Jak na Medline efektivně

Využití tabulkového procesoru MS Excel

Petr Nevrlý

InternetovéTechnologie

JAK PRACOVAT S INFORMACEMI TAK, ABY ONY PRACOVALY PRO NÁS? Přednáška kurzu Informační a databázové systémy v rostlinolékařství

Cestovní zpráva. Program akce: Průběh akce. O Anopress

Reranking založený na metadatech

Vzdělávací obor Německý jazyk

Petr Nevrlý

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Obsah webových stránek [malých knihoven] (základ pro elektronické sluţby) Aleš Broţek Severočeská vědecká knihovna v Ústí nad Labem

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

INTERNETOVÉ VYHLEDÁVAČE

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Stonožka jak se z výsledků dozvědět co nejvíce

Přehled učiva. M Matematika. Čj Český jazyk. Prv Prvouka. 1. ročník. Anglický jazyk. l číselná řada 1-5, opakování tvarů v řadě Velká Dobrá

Pojmenuje a ovládá základní funkce počítače, seznámí se s jednoduchou historií vývoje počítačů. Pojmenuje a ovládá základní funkce počítače

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Experimentální systém pro WEB IR

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

Elektronické inf. zdroje

UŢIVATELSKÁ PŘÍRUČKA APLIKACE UVÁDĚNÍ PŘÍPRAVKŮ NA TRH ZÁKLADNÍ POPIS PRO PŘEDKLADATELE HLÁŠENÍ Brno Variex, CCV

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

Předmět: ANGLICKÝ JAZYK Ročník: 1.

WORK-LIFE BALANCE Jak na bakalářskou či diplomovou práci (III) - kvalita zdrojů, vyhledávání literatury

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Časy přítomný prostý a průběhový, minulý prostý a průběhový, budoucnost s going to a will, předpřítomný Rozhovor, popis činností, porozumění textu

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

HYDROEKOLOGICKÝ INFORMAČNÍ SYSTÉM VÚV TGM, v.v.i. Evidence úkolů řešených ve VÚV TGM, v.v.i. a jejich výstupů. Dokumentace evidence

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ

Základní informace o světových, českých a čínských vyhledávačích, seznámení s RSS technologií

Ontologie. Otakar Trunda

ECDL European Computer Driving Licence. Mezinárodní koncept počítačové gramotnosti

Windows 10 (5. třída)

Vzdělávací obor Německý jazyk

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

ÚPLNÉ ZNĚNÍ VYHLÁŠKA. č. 31/1995 Sb. ze dne 1. února 1995

Jak na to ve Wordu 2007 Uživatelské prostředí. Výukový materiál ZŠ Kaznějov

Využití XML v DB aplikacích

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

Internet. Osnova. II. Vyhledávací nástroje. Proč je vyhledávání na Internetu tolik komplikované? Jak se stát úspěšným hledačem pokladů na Internetu

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Windows 8.1 (5. třída)

Analýza publikačního systému. KÚ Zlínského kraje

Mějte dobrý web. Oslovte více lidí. Generujte vyšší zisk!

Novinky v e-zdrojích NLK. Adéla Jarolímková, NLK

VYHLEDÁVÁNÍ NA INTERNETU

Informační a znalostní systémy jako podpora rozhodování

OPAKOVÁNÍ SLOHOVÝCH ÚTVARŮ I. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

BIBLIOMETRIE PRO MĚŘENÍ KVALITY INFORMACÍ

Produktový list. Firemní profily

Ţivotopis v ISIS 1. Životopis v ISIS. Zpracoval: R. Čajka

PhDr. E. Lesenková, Ph.D. Mgr. A. Jarolímková, Ph.D. PhDr. H. Bouzková

Možnosti použití běžně používaných softwarových nástrojů ve výuce ČJL

NÁVOD NA OBSLUHU INTERNETOVÉ PREZENTACE. Ataxo Czech s.r.o.

Maturitní projekt do IVT Pavel Doleček

Využití informačních technologií v cestovním ruchu P1

SEO (optimalizace pro vyhledavače)

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

Depfix: Jak dělat strojový překlad lépe než Google Translate

Příklad rozpracování minimální doporučené úrovně pro úpravu. očekávaných výstupů v rámci podpůrných opatření. do učebních osnov vyučovacího předmětu

Přípravné kurzy k nové maturitě německý jazyk /základní úroveň/

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Systém KITCHEN MINDER 2 Referenční příručka

Nástroj pro monitorování a analýzu českého internetu a sociálních médií

Vzdělávací obsah vyučovacího předmětu

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jitka Vlčková Týdenní dotace hodin: 8 hodin Ročník: čtvrtý

OBSAH 1. Google Picasa Používání programu Picasa Organizování fotografií Vyhledávání Úprava fotografií

ODBORNÝ TEXT. doc. Mgr. Ing. Michal Tvrdoň, Ph.D. proděkan pro zahraniční styky Katedra ekonomie a veřejné správy

Ročník VI. Anglický jazyk. Období Učivo téma Metody a formy práce- kurzívou. Průřezová témata. Mezipřed. vztahy. Kompetence Očekávané výstupy

Začínáme s Tovek Tools

Transkript:

Úvod do databázových systémů B RNDr. Jan Lánský, Ph.D. 1. přednáška Fulltextové vyhledávání Slajdy 3-26 převzaty z Michal Kopecký: Databázové Aplikace (DBI026, MFF UK)

Obsah přednášky Teoretické základy fulltextového vyhledávání (slajdy 3-26) Webové vyhledávače (slajdy 27-34) Webový vyhledávač google (slajdy 35-47) Příklady na cvičení (slajdy 48-50) Databáze odborných článků ProQuest 2

Fulltextové vyhledávání Prohledávají se volně psané texty, kde můţe být stejná událost popsaná více autory rozdílně Různá slova stejného významu (Synonyma) Různé slovní obraty a opisy 3

Porozumění textu Posloupnost slov v přirozeném jazyce. Kaţdé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. Tyto představy reprezentují reálné předměty.... 4

Porozumění textu Synonymie slov Více slov můţe mít pro autora stejný význam krychle = kostka buldozer = nakladač... 5

Porozumění textu Homonymie slov Jedno slovo můţe mít pro autora několik významů taška: střešní, nákupní koruna: platidlo, královská k., k. stromu třída: školní, kategorie v teorii mnoţin los: zvíře, poukázka ke slosování... 6

Porozumění textu Homonymie slov Jedno slovo můţe pouţívat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) kontroly: 1. p. m.č., 2. p. j.č. není zřejmé, zda se jedná o jednu, nebo více kontrol Jeden tvar slova můţe mít různý význam plesy: podst. jm. ples, podst. jm. pleso žena: podst. jm. žena, sloveso hnát hnát: sloveso hnát, podst. jm. hnát tři: číslovka tři, sloveso třít pět: číslovka pět, sloveso pět 7

Porozumění textu Významy slov se mohou překrývat. Hierarchicky zvíře > kůň > hřebec Asociace kalkulátor ~ počítač ~ procesor... 8

Porozumění textu Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píše nebo čte. Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo mnoţinu předmětů. máma, pokoj,... Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získat stejnou informaci jako autor, ani navzájem. 9

Porozumění textu Homonymie a nejednoznačnosti narůstají při přechodu od slov k větám. Homonymie vlastních jmen na začátku věty Dohnal zvítězil. (Čtrnáctý zvítězil.) Dohnal předešel gen. Kvapila velmi výrazně. - jedna, nebo dvě věty? Homonymie spojky a v předmětu věty Funkce rezistoru a zesilovače v radiotechnice. (funkce rezistoru v radiotechnice) a (funkce zesilovače v radiotechnice) (funkce rezistoru) a (funkce zesilovače v radiotechnice) (funkce rezistoru) a (zesilovače v radiotechnice) Homonymie podmětu a předmětu Popílek přikryl sníh. co leţí navrchu? 10

Porozumění textu Příklad české věty s více gramaticky moţnými významy viz např. Podivné fungování gramatiky, http://www.scienceworld.cz/sw.nsf/lingvistika věta Ženu holí stroj můţe - podle volby přísudku ve větě - znamenat: Poháním stroj pomocí hole (hnát) Ţena pouţívá depilační přístroj (holit) Návod k nekonvenčnímu způsobu oblékání (strojit) a další 11

Porozumění textu Příklad anglické věty s více gramaticky moţnými významy viz např. Podivné fungování gramatiky, http://www.scienceworld.cz/sw.nsf/lingvistika věta Time flies like an arrow můţe - podle volby přísudku ve větě - znamenat: Čas letí jako voda (fly) Časové mouchy/zipy mají rády šíp (like) a další 12

Fulltextové vyhledávání Samotná formulace dotazu, který by vrátil všechny dokumenty, které tazatele zajímají a ţádné jiné obvykle nelze zformulovat Spolu s vyhovujícími relevantními odpověďmi se obvykle vrací i odpovědi nerelevantní 13

Fulltextové vyhledávání Striktní boolská logika není pro formulaci dotazů příliš vhodná Dokument buďto vyhovuje dotazu, nebo nevyhovuje Dotazování v textech vyţaduje třídit odpovědi podle předpokládané vhodnosti pro tazatele Je potřebné mít moţnost definovat míru shody dotazu s dokumentem 14

Přesnost a úplnost Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu Jak porovnat kvalitu odpovědí navzájem? Dokumenty v databázi Relevantní dokumenty Vrácené v DIS 1 Vrácené v DIS 2 15

Přesnost a úplnost Dva tazatelé mohou mít při poloţení shodného dotazu různý názor na relevanci vrácených dokumentů Jak vyhovět subjektivnímu názoru tazatelů? Dokumenty v databázi Relevantní Vrácené dok. Relevantní 16

Přesnost a úplnost Kvalita výsledné mnoţiny dokumentů se měří na základě těchto čísel Přesnost (Precision) P = Nvr / Nv Pravděpodobnost, ţe dokument zařazený v odpovědi je skutečně relevantní Úplnost (Recall) R = Nvr / Nr Pravděpodobnost, ţe skutečně relevantní dokument je zařazený v odpovědi 17

Přesnost a úplnost Koeficienty jsou opět závislé na subjektivním názoru tazatele Dokument vrácený na výstupu můţe uspokojovat poţadavky dvou uţivatel, kteří poloţili stejný dotaz, různou měrou. 18

Přesnost a úplnost V ideálním případě P=R=1 V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běţném případě Odpověď na první verzi dotazu není ani přesná, ani úplná 1 0 0 Počáteční odpověď 1 Optimum 19

Přesnost a úplnost Ladění dotazu Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi 1 R Optimum Teoreticky je sice moţné dosáhnout optima, ale 0 0 P 1 20

Přesnost a úplnost vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé, tj. P*R konst. < 1 Při snaze zvýšit P se na výstup dostane méně relev. dokumentů. Při snaze zvýšit R se na výstup dostane s více relev. dok. i mnohem více těch nerelevantních. 1 0 R 0 P 1 Optimum 21

Kritérium predikce Při formulaci dotazů je potřebné uhádnout, které termy (slova) byly v dokumentu autorem pouţity pro vyjádření dané myšlenky Problémy m.j. způsobují Synonyma (autor mohl pouţít synonymum, které si tazatel při formulaci dotazů ani nemusí neuvědomí) Překrývající se významy slov Opisy jedné situace jinými slovy 22

Kritérium predikce Částečným řešením je zařazení tezauru, který obsahuje Hierarchie slov a jejich významů Synonyma slov Asociace mezi slovy Tazatel můţe tezaurus vyuţít při formulaci svých dotazů 23

Kritérium predikce Při ladění dotazů má uţivatel tendenci postupovat konzervativně V dotazu zůstávají často ty jeho části, které uţivatele napadly na začátku a mění se jen podruţné části, které nekvalitní výsledek nemusí nijak zásadně ovlivnit Vhodné je uţivateli pomoci s odstraněním nevhodných částí dotazu, které nepopisují relevantní dokumenty a naopak s přidáváním formulací, které relevantní dokumenty popisují 24

Kritérium maxima Tazatel obvykle není schopen (nebo ochoten) procházet příliš mnoho dokumentů do té míry, aby se rozhodl, zda jsou pro něj relevantní nebo ne Obvykle 20-50 podle velikosti Potřeba nejen dokumenty rozlišovat na odpovídající/neodpovídající dotazu, ale řadit je na výstupu podle míry předpokládané relevance 25

Kritérium maxima V důsledku kritéria maxima se při ladění dotazu uţivatel obvykle snaţí zvýšit přesnost Malé mnoţství dokumentů v odpovědi, obsahující co největší poměr relevantních dokumentů lepší Rel. Vr. horší Vr. Rel. Některé oblasti pouţití vyţadují co nejvyšší přesnost i úplnost Právnictví 26

Internetové vyhledávače Sluţba, která umoţňuje najít webové stránky, které obsahují poţadované informace (zadané ve vyhledávacím poli) Cílem vyhledávačů je poskytnout co nejrelevantnější informace. Světové: Google Bing AltaVista Yahoo České: Seznam Centrum Atlas Jyxo 27

Jak vyhledávače fungují? Zjednodušeně ve třech krocích: 1. Sběr dat pomocí crawlerů (robotů) 2. Zpracování do databáze (indexování) 3. Zpřístupnění uţivatelům pomocí vyhledávacího okna

Jak vyhledávače fungují? Zdroj: http://computer.howstuffworks.com/in ternet/basics/search-engine1.htm

Nejsou však všemocné Neviditelný web Intranety Zaheslovaný obsah Obsah přístupný přes formuláře Flash prezentace Robots.txt Databáze

Jak poznat kvalitní informační zdroj? Odborná erudice autora (vyhledání informací o autorovi) Scientometrie metoda stanovení kvality vědecké práce čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu Spolehlivost informačního zdroje míra citovanosti, zjišťovaná impact faktorem (kolikrát byl časopis citován během dvou let od jeho publikování)

Jak poznat kvalitní informační zdroj? Stáří informace uţitná hodnota informace klesá v závislosti na čase (existují však informace, jejichţ uţitná hodnota v čase neklesá). Informační cyklus se díky moţnosti publikovat online dramaticky zrychlil.

Problémy při vyhledávání - nevýznamová a nespecifická slov Vyuţití negativního slovníku, seznam stopslov Vytvoření negativního slovníku: Volba druhů slov, které nenesou význam a slouţí pouze pro syntaktické účely Volba slov s vysokou frekvencí v textu dokumentu Volba velmi krátkých slov

Četnost anglických slov Tipnete si 5 nejčastějších? 5. a 4. and 3. to 2. of 1. the Co je v seznamu dříve, sloveso nebo podstatné jméno? Sloveso (be, 21. místo) Jaké je první podstatné jméno? Kolikáté je v pořadí? Word (45. místo) Zdroj: http://www.world-english.org/english500.htm

Google Internetový vyhledávač stejnojmenné firmy 25 miliard webových stránek, 400 miliónů dotazů za den, 1,3 miliardy obrázků (rok 2006) 47,7 % podíl na světovém trhu (rok 2006) 44 % podíl na trhu ČR (rok 2010) www.google.com www.google.cz 35

Google Základní vyhledávání Napíšeme klíčové slovo nebo slova, která má hledaná stránka obsahovat Zkusím štěstí vrátí jednu (nejrelevantnější stránku) Vyhledávání google vrátí seznam nejvíce relevantních stránek řazených dle relevance 36

Google - výsledky 37

Google výsledky Stránky řazeny dle relevance (nejvíce relevantní nahoře). Zobrazí prvních 10 výsledků. Na další výsledky se lze přepnout pod obrázkem dole. 38

Google výsledky V levém panelu rozklikneme Více nástrojů Prohledat web / stránky pouze česky Časové omezení, kdy byla stránka naposledy aktualizována Jen stránky s obrázky Náhledy stránek 39

Google - obrázky V levém panelu přepneme na Obrázky Velikost obrázků Typ obrázků (obličej, fotka) Barva 40

Google videa V levém panelu přepneme na Videa Prohledat web / stránky pouze česky Délka trvání videa Poslední aktualizace Kvalita Titulky Zdroj 41

Google specializace V levém panelu rozklikneme poloţku Více Vše, Obrázky, Videa Mapy Zprávy, Nakupování, Knihy, Blogy, Aktualizace, Diskuze 42

Google - mapy 43

Google rozšířené vyhledávání 44

Google rozšířené vyhledávání Přesná fráze slova v textu za sebou, přesný gramatický tvar 45

Google rozšířené vyhledávání jazyk dokumentu, stát formát (pdf, ppt, doc, xml, ) konkrétní doména (com, vsfs.cz,) 46

Google kalkulačka Matematické operace + - * / Matematické funkce sin, cos, log, exp, Převody jednotek 5 mil v kilometrech 10 galonu v litrech 47

Google - Úkoly Jak se jmenoval čínský kosmonaut, který letěl do vesmíru v roce 2003? Který z amerických prezidentů neměl za rodný jazyk angličtinu? Jak se jmenuje algoritmus pouţívaný v kompresním programu RAR? 48

Google - Úkoly Najděte původní slajdy, ze kterých jsou převzaty slajdy 3 26 v naší prezentaci. Najděte fotografii autora původních slajdů z předchozího úkolu. Na kterých vysokých školách v Praze se vyučují databázové systémy? Naplánujte mezi těmito školami vhodnou cestu, určete její délku. 49

Google - Úkoly Jaké je oblíbené zvíře rektorky VŠFS? Spočítejte: sin (pi/6) + log (100) Kolik váţí celkem 151 unci a 12 liber? Co vše můţe znamenat slovo METRO? Ke kaţdému významu najděte obrázek (či video). 50