PV030 Textual Information Systems

Podobné dokumenty
PV030 Textual Information Systems

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

NLP & strojové učení

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Big data ukážou mapu, TOVEK řekne kudy jít

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

Úvod do databázových systémů

Úvod do databázových systémů

MBI - technologická realizace modelu

Analýza staročeské morfologie v Excelu

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Komunikace člověk počítač v přirozeném jazyce

Ontologie. Otakar Trunda

Karel Pala, Vít Suchomel

Informační zabezpečení studia na Zahradnické fakultě MENDELU. Elektronické informační zdroje

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

DELTAX Systems a.s. Znalostní systém řízení Komplexní služby SI IT řešení na klíč

Datové typy a struktury

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

PRODUKTY. Tovek Tools

1 Úvod do kompilátorů

Vyhledávání v citační databázi Web of Science (WOS)

Dobývání znalostí z textů text mining

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek

Výroková a predikátová logika - VIII

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

PRODUKTY Tovek Server 6

Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek

Výroková a predikátová logika - VIII

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Kurz Databáze. Obsah. Návrh databáze E-R model. Datová analýza, tabulky a vazby. Doc. Ing. Radim Farana, CSc.

Sémantický web a extrakce

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Algoritmizace prostorových úloh

Logika pro sémantický web

ČSN ISO/IEC OPRAVA 1

Výměnný formát XML DTM DMVS PK

Michal Krátký, Miroslav Beneš

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

FUNKCE 3. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen Ročník: sedmý. Vzdělávací oblast: Informatika a výpočetní technika

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Automaty a gramatiky(bi-aag) Formální překlady. 5. Překladové konečné automaty. h(ε) = ε, h(xa) = h(x)h(a), x, x T, a T.

Logika a logické programování

Inovace výuky prostřednictvím šablon pro SŠ

Návrh uživatelských rozhraní NOV-WEB. Jakub Bartoš, Pavel Dvořák, Jakub Motyčka, Kamil Procházka

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Formální jazyky a gramatiky Teorie programovacích jazyků

Jazyky pro popis dat

Inovace bakalářského studijního oboru Aplikovaná chemie

Workshop o paralelním korpusu InterCorp

Dynamicky vázané metody. Pozdní vazba, virtuální metody

Petr Nevrlý

Začínáme s Tovek Tools

Databázové a informační systémy

Jak na Medline efektivně

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Informatika Datové formáty

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Úvod do databázových systémů

Datová kvalita. RNDr. Ondřej Zýka

Databázové a informační systémy Jana Šarmanová

EXTRAKT z mezinárodní normy

Dolování v objektových datech. Ivana Rudolfová

37. Indexování a optimalizace dotazů v relačních databázích, datové struktury, jejich výhody a nevýhody

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

Výukový materiál zpracován v rámci projektu EU peníze školám

Datová kvalita. RNDr. Ondřej Zýka

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Informace a znalosti v organizaci

model arabské morfologie Otakar Smrž

Lokační referenční metody a jejich interpretace ve standardech

Systém elektronického rádce v životních situacích portálu

Elektronické informační zdroje. Dřevařství a příbuzné obory

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

GISON: ontologická integrace urbanistických datových sad IPR

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

Tam, kde anglické příklady neodpovídají českému jazykovému systému, se český překlad neuvádí.

Přehled učiva. M Matematika. Čj Český jazyk. Prv Prvouka. 1. ročník. Anglický jazyk. l číselná řada 1-5, opakování tvarů v řadě Velká Dobrá

Prolog PROgramming in LOGic část predikátové logiky prvního řádu rozvoj začíná po roce 1970 Robert Kowalski teoretické základy Alain Colmerauer, David

ALGORITMIZACE A PROGRAMOVÁNÍ

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

Vytvoření portálu odboru strukturálních fondů Ministerstva vnitra a zajištění jeho hostingu na serveru dodavatele

Sémantická interpretace

Databáze Bc. Veronika Tomsová

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky


Kapitola 1: Co je Microsoft Access? 27 Kapitola 2: Mnoho tváří aplikace Microsoft Access 41 Kapitola 3: Návrh databázové aplikace 75

Transkript:

PV030 Textual Information Systems Petr Sojka Faculty of Informatics Masaryk University, Brno Spring 2009 Đ Ý Petr Sojka PV030 Textual Information Systems

Đ Ý Petr Sojka PV030 Textual Information Systems

Osnova(Týden sedmý) Exkurs do počítačové lingvistiky. Korpusová lingvistika jako příklad TIS. Vyhledávací metody s předzpracování textu i vzorku(dotazu). Đ Ý Petr Sojka PV030 Textual Information Systems

Osnova(Týden sedmý) Exkurs do počítačové lingvistiky. Korpusová lingvistika jako příklad TIS. Vyhledávací metody s předzpracování textu i vzorku(dotazu). Đ Ý Petr Sojka PV030 Textual Information Systems

Osnova(Týden sedmý) Exkurs do počítačové lingvistiky. Korpusová lingvistika jako příklad TIS. Vyhledávací metody s předzpracování textu i vzorku(dotazu). Đ Ý Petr Sojka PV030 Textual Information Systems

Vytváření rejstříku lemmatizace Využití morfologie při vytváření slovníku kmen/ kořen slova (učit, uč); program ajka (abin), http://nlp.fi.muni.cz/projekty/ajka/ příklady; technika vzorů pro určení kmene. Đ Ý Petr Sojka PV030 Textual Information Systems

Vytváření rejstříku tezaurus Tezaurus slovník, obsahující hierarchické a asociativní vztahy a vztahy ekvivalence mezi jednotlivými termíny. Vazby mezi termíny/lemmaty: synonyna vazba na standardní termín (viz); vazba na příbuzný termín(viz také); RT related term; vazba na obecnější termín; BT broader term; vazbanaužšítermín; NT narrowerterm; hyperonyma (auto:dopravní prostředek); hyponyma (pták:sojka); meronymum (dveře:zámek); holonyma (ruka:tělo); antonyma (dobrý:zlý). Pes/Fík, Havel/president Đ Ý Petr Sojka PV030 Textual Information Systems

Konstrukce tezauru ručně/ poloautomatizovaně heuristiky konstrukce tezauru: hierarchická struktura/y tezauru oborové tezaury, sémantika závislá kontextově(př. pole, strom v informatice) sdružování termínů s podobnou frekvencí vyloučení termínů s vysokou frekvencí šíře aplikací tezauru a lemmatizátoru: kromě indexování spelování, základ pro grammar checker, plnotextové vyhledávání. projekty WORDNET, EUROWORDNET module add wordnet; wn wn faculty -over -simsn -coorn Đ Ý Petr Sojka PV030 Textual Information Systems

Hierarchický tezaurus Vytváření znalostní báze pro přesné vyhodnocení relevance dokumentů. topic zpracování sémantických map termínů. Visual Thesaurus http://www.visualthesaurus.com. Tovek Tools, Verity. Đ Ý Petr Sojka PV030 Textual Information Systems

Hierarchický tezaurus Vytváření znalostní báze pro přesné vyhodnocení relevance dokumentů. topic zpracování sémantických map termínů. Visual Thesaurus http://www.visualthesaurus.com. Tovek Tools, Verity. Đ Ý Petr Sojka PV030 Textual Information Systems

Hierarchický tezaurus Vytváření znalostní báze pro přesné vyhodnocení relevance dokumentů. topic zpracování sémantických map termínů. Visual Thesaurus http://www.visualthesaurus.com. Tovek Tools, Verity. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Part I Exkurs do počítačové lingvistiky Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Tokenization Phrase queries Đ Ý Petr Sojka PV030 Textual Information Systems

Počítačová lingvistika Tokenization Phrase queries vyhledávání řetězců slova jsou řetězce písmen. slovotvorba morfologická analýza. gramatika (CFG, DFG) syntaktická analýza. význam vět(til) sémantická analýza. kontext pragmatická analýza. plné porozumění a schopnost komunikace informace. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Corpus Query Procesor základní dotazy,,havel ; 45: Český prezident Václav <Havel> se včera na 89: jak řekl Václav <Havel>, každý občan 248: více než rokem <Havel> řekl Pravda vítězí regulární výrazy,,pravda pravda ;,,(P p)ravda ;,,(P p)ravd[a,u,o,y] ;,,pravd.* ;,,pravd.+ ;,,post?el ; posloupnost slov,,prezident(a u),,havl(a ovi) ;,,a tak ;,,prezident ;[]*,,Havel ;,,prezident (,,republiky,,vaclav )?,,Havel ; Đ Ý Petr Sojka PV030 Textual Information Systems

Corpus Query Procesor Tokenization Phrase queries dotazy na poziˇcní atributy [word =,,Havel ]; [lemma =,,prezident ][]*[lemma =,,Havel ];...ženu prezidentahavla... [lemma =,,hnát ][][lemma =,,Havel ]; [word =,,žen(u eme) &lemma!=,,žena ]; I...or!... not nˇekteré další moˇznosti [lemma =,,prezident ][]*[lemma =,,Havel ] withins;...10, 3 s [lemma =,,Havel ] within 20 </s>,,pravda <s>a:[word=,,žena Muž Člověk ][]*[lemma = a.lemma] Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Rub a líc relevantního vyhledávání Velká výpočetní síla dnešních počítačů umožňuje: efektivní uložení velkého objemu textových dat(komprese, indexování); efektivní vyhledávání textových řetězců. To všechno využije člověk sedící za počítačem, aby z takto zpracovaných textů získal informace, které ho zajímají. Opravdu? Example: V textové databázi je uloženo několik posledních ročníků denního tisku. Rád bych získal informace o prezidentu Václavu Havlovi. a/>havel b/>přesnější dotazy c/...... Počítač člověk + = hodnotné (výpočetní síla) (inteligence) informace Cílemvšech je + čas + peníze přenést conejvětšíčást inteligence(času, peněz,...) napočítač. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Rub a líc relevantního vyhledávání informace ideál ideálů ne Vyhledávání pragmatická analýza kontext ne informací Spravný semantická význam analýza vět TIL v začátcích Kontrola překlad syntaktická gramatika částečně pravopisu analýza CFG, DCG morfologická slovotvorba analýza lemma ano Kontrola Překlad jedn. slova jsou řetězce písmen řetězců vyhledávání ano Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Rub a líc získávání informací z přirozeného jazyka Víme opravdu, co je informace obsažená v textu v přirozeném jazyce? František Novák váží 100 kg. RDB objekt vlastnost hodnota atribut1, atribut2,... František Novák má rád pivo.? klíč hodnota František Novák má rád ր Janu Novotnou F. N. je starýpoctivec.? Jaro propuklo v plné síle. Slova přirozeného jazyka označují objekty, jejich vlastnosti a vztahy mezi nimi. Na slova a věty je možné pohlížet také jako na,,funkce svého druhu, definované významem. Textovou informaci (konkrétní objekty o nichž hovoříme, pragmatické informace,...) lzepakchápat jako,,výpočet těchtofunkcí. Tentovýpočetje pro nejednoznačnost často nepřesný nebo nemožný. Muž, který vystoupil na nejvyšší českou osmitisícovku, je můj vnuk. Đ Ý Petr Sojka PV030 Textual Information Systems

Korpusová lingvistika Tokenization Phrase queries Korpus: elektronická kolekce textů, často indexovaná lingvistickými značkami. Korpus jako textový informační systém: korpusová lingvistika. BNC, PennTreebank,DESAM, PNK,...;rozsahyřád milionůaž miliard pozic(slov), speciální metody nutné. Korpusové manažery CQP, GCQP, Manatee/Bonito, http://www.fi.muni.cz/~pary/korp/. Vnitřní architektura a implementace korpusu. see [MAR]. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Co je korpus? Definition: Korpus je rozsáhlý, vnitřně strukturovaný ucelený soubor textů v přirozeném jazyce elektronicky uložený a zpracovatelný. Indiánské jazyky nemají písmo pro nalezení gramatiky potřeba nejprve sepsat mluvené slovo. 1967 1. korpusvu. S.A.(Kučera, Francis)1000000 slov. Noam Chomsky odmítá korpusy. Dnes masové rozšíření. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Co je korpus? Definition: Korpus je rozsáhlý, vnitřně strukturovaný ucelený soubor textů v přirozeném jazyce elektronicky uložený a zpracovatelný. Indiánské jazyky nemají písmo pro nalezení gramatiky potřeba nejprve sepsat mluvené slovo. 1967 1. korpusvu. S.A.(Kučera, Francis)1000000 slov. Noam Chomsky odmítá korpusy. Dnes masové rozšíření. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Co je korpus? Definition: Korpus je rozsáhlý, vnitřně strukturovaný ucelený soubor textů v přirozeném jazyce elektronicky uložený a zpracovatelný. Indiánské jazyky nemají písmo pro nalezení gramatiky potřeba nejprve sepsat mluvené slovo. 1967 1. korpusvu. S.A.(Kučera, Francis)1000000 slov. Noam Chomsky odmítá korpusy. Dnes masové rozšíření. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Co je korpus? Definition: Korpus je rozsáhlý, vnitřně strukturovaný ucelený soubor textů v přirozeném jazyce elektronicky uložený a zpracovatelný. Indiánské jazyky nemají písmo pro nalezení gramatiky potřeba nejprve sepsat mluvené slovo. 1967 1. korpusvu. S.A.(Kučera, Francis)1000000 slov. Noam Chomsky odmítá korpusy. Dnes masové rozšíření. Đ Ý Petr Sojka PV030 Textual Information Systems

Korpusy na FI Tokenization Phrase queries WWW stránka Pavla Rychlého ( PARY) odkaz na základní informace. Bonito, Manatee. IMS CORPUS WORKBENCH sada nástrojů pro efektivní kódování, reprezentaci a dotazování nad velkými textovými soubory. Đ Ý Petr Sojka PV030 Textual Information Systems

Logický pohled na korpus Tokenization Phrase queries Posloupnost slov na očíslovaných pozicích (první slovo, n-té slovo), kterým jsou přidány znaˇcky (přidávání značek nazývané znaˇckování korpusu). Značky nesou morfologické, gramatické a libovolné další údaje o daném slovu. To vede k obecnějšímu pojmu poziˇcních atributů, které jsou nejdůležitější značkovací typ. Atributy z této třídy mají hodnotu (řetězec) na každé korpusové pozici. Na každou z nich je navázáno jedno slovo textu jako základní a poziční atribut word. Kromě tohoto atributu mohou být s každou pozicí svázány další poziční atributy libovolného textu představující morfologické a jiné značky. Strukturální atributy věty, odstavce, nadpis, článek, SGML. POS2 POS1 LEMMA WORD český Českého prezident prezidenta vaclav Václava havel Havla dnes dnes 0 1 2 3 4 10 7 Đ Ý Petr Sojka PV030 Textual Information Systems

Logický pohled na korpus Tokenization Phrase queries Posloupnost slov na očíslovaných pozicích (první slovo, n-té slovo), kterým jsou přidány znaˇcky (přidávání značek nazývané znaˇckování korpusu). Značky nesou morfologické, gramatické a libovolné další údaje o daném slovu. To vede k obecnějšímu pojmu poziˇcních atributů, které jsou nejdůležitější značkovací typ. Atributy z této třídy mají hodnotu (řetězec) na každé korpusové pozici. Na každou z nich je navázáno jedno slovo textu jako základní a poziční atribut word. Kromě tohoto atributu mohou být s každou pozicí svázány další poziční atributy libovolného textu představující morfologické a jiné značky. Strukturální atributy věty, odstavce, nadpis, článek, SGML. POS2 POS1 LEMMA WORD český Českého prezident prezidenta vaclav Václava havel Havla dnes dnes 0 1 2 3 4 10 7 Đ Ý Petr Sojka PV030 Textual Information Systems

Logický pohled na korpus Tokenization Phrase queries Posloupnost slov na očíslovaných pozicích (první slovo, n-té slovo), kterým jsou přidány znaˇcky (přidávání značek nazývané znaˇckování korpusu). Značky nesou morfologické, gramatické a libovolné další údaje o daném slovu. To vede k obecnějšímu pojmu poziˇcních atributů, které jsou nejdůležitější značkovací typ. Atributy z této třídy mají hodnotu (řetězec) na každé korpusové pozici. Na každou z nich je navázáno jedno slovo textu jako základní a poziční atribut word. Kromě tohoto atributu mohou být s každou pozicí svázány další poziční atributy libovolného textu představující morfologické a jiné značky. Strukturální atributy věty, odstavce, nadpis, článek, SGML. POS2 POS1 LEMMA WORD český Českého prezident prezidenta vaclav Václava havel Havla dnes dnes 0 1 2 3 4 10 7 Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Vnitřní architektura korpusu Dva klíčové pojmy interní reprezentace pozičních atributů jsou: Jednotná reprezentace: položky jsou pro všechny atributy zakódovány jako čísla typu integer, kde stejné hodnoty mají stejný číselný kód. Posloupnost položek je pak reprezentována jako posloupnost integerů. Interní reprezentací atributu word (stejně jako každého jiného poz. atributu) je array(0..p-1) of Integer,kdepje počet pozicvkorpusu. Invertovaný soubor: pro posloupnost čísel reprezentující posloupnost hodnot daného atributu je vytvořen invertovaný soubor. Tento soubor pro každou hodnotu(lépe kód hodnoty) obsahuje množinu výskytů položky v pozičním atributu. Inverzní soubor je potřebný pro vyhledávání, protože přímo ukazuje množinu výskytů dané položky, výskyty pak mohou být počítány v jednom kroku. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Vnitřní architektura korpusu Dva klíčové pojmy interní reprezentace pozičních atributů jsou: Jednotná reprezentace: položky jsou pro všechny atributy zakódovány jako čísla typu integer, kde stejné hodnoty mají stejný číselný kód. Posloupnost položek je pak reprezentována jako posloupnost integerů. Interní reprezentací atributu word (stejně jako každého jiného poz. atributu) je array(0..p-1) of Integer,kdepje počet pozicvkorpusu. Invertovaný soubor: pro posloupnost čísel reprezentující posloupnost hodnot daného atributu je vytvořen invertovaný soubor. Tento soubor pro každou hodnotu(lépe kód hodnoty) obsahuje množinu výskytů položky v pozičním atributu. Inverzní soubor je potřebný pro vyhledávání, protože přímo ukazuje množinu výskytů dané položky, výskyty pak mohou být počítány v jednom kroku. Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Vnitřní architektura korpusu (pokr.) Soubor se zakódovanými hodnotami atributu i inverzní soubor mají pomocné indexové soubory. Pro soubor se zakódovanými hodnotami: První datovou strukturou je seznam poloˇzek či,,lexikon : ten obsahuje množinu rozdílných hodnot. Interně se jedná o množinu řetězců vyskytujících se v posloupnosti položek, kde znak Null (osmičkové 000) je vložen za každé slovo. Seznam položek už definuje kód pro každou položku, protože předpokládáme, že první položkavseznamumá kód0,následující 1 atd. Pro vyhledávání řetězce v našem seznamu je užitečné mít index na pozici zaˇcátku ˇretˇezce v tomto souboru. Tento index pro každý kód položky dává konverzi z kódu položky na relativní adresu (v bytech)vseznamupoložek... Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Vnitřní architektura korpusu (pokr.) Soubor se zakódovanými hodnotami atributu i inverzní soubor mají pomocné indexové soubory. Pro soubor se zakódovanými hodnotami: První datovou strukturou je seznam poloˇzek či,,lexikon : ten obsahuje množinu rozdílných hodnot. Interně se jedná o množinu řetězců vyskytujících se v posloupnosti položek, kde znak Null (osmičkové 000) je vložen za každé slovo. Seznam položek už definuje kód pro každou položku, protože předpokládáme, že první položkavseznamumá kód0,následující 1 atd. Pro vyhledávání řetězce v našem seznamu je užitečné mít index na pozici zaˇcátku ˇretˇezce v tomto souboru. Tento index pro každý kód položky dává konverzi z kódu položky na relativní adresu (v bytech)vseznamupoložek... Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Vnitřní architektura korpusu (pokr.) Pro invertovaný soubor existují tři datové struktury: První je samostatný invertovaný soubor, který obsahuje množinu korpusových pozic. Druhýje index dotohotosouboru. Tentoindexvrací prokaždýkód položky vstupní bod náležící výskytu v inverzním souboru. Třetí je tabulka frekvence kódu položek, která dává pro každý kód položky číslo výskytu kódu v korpusu(které je samozřejmě stejné jako velikost množiny výskytů). Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Vnitřní architektura korpusu (pokr.) Pro invertovaný soubor existují tři datové struktury: První je samostatný invertovaný soubor, který obsahuje množinu korpusových pozic. Druhýje index dotohotosouboru. Tentoindexvrací prokaždýkód položky vstupní bod náležící výskytu v inverzním souboru. Třetí je tabulka frekvence kódu položek, která dává pro každý kód položky číslo výskytu kódu v korpusu(které je samozřejmě stejné jako velikost množiny výskytů). Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Vnitřní architektura korpusu (pokr.) Pro invertovaný soubor existují tři datové struktury: První je samostatný invertovaný soubor, který obsahuje množinu korpusových pozic. Druhýje index dotohotosouboru. Tentoindexvrací prokaždýkód položky vstupní bod náležící výskytu v inverzním souboru. Třetí je tabulka frekvence kódu položek, která dává pro každý kód položky číslo výskytu kódu v korpusu(které je samozřejmě stejné jako velikost množiny výskytů). Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Tokenization Phrase queries Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Definitions Word Astring ofcharacters as it appearsin thetext. Term A normalized word (case, morphology, spelling etc); an equivalence class of words. Token Aninstanceofaword or termoccurringin adocument. Type Aclass ofall tokenscontainingthesame character sequence. Đ Ý Petr Sojka PV030 Textual Information Systems

Arabic script example Tokenization Phrase queries ك ت ا ب آ ت اب un b ā t i k /kitābun/ a book Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Does stemming improve effectiveness? In general, stemming increases effectiveness for some queries, and decreases effectiveness for others. Examples: operational AND research, operating AND system, operative AND dentistry Porter Stemmer equivalence class ( oper ): operate operating operates operation operative operatives operational Đ Ý Petr Sojka PV030 Textual Information Systems

Tokenization Phrase queries Faster postings mergers: Skip pointers Đ Ý Petr Sojka PV030 Textual Information Systems

Phrase queries Tokenization Phrase queries Đ Ý Petr Sojka PV030 Textual Information Systems