Michal Laclavík Martin Šeleng. Vyh adávanie informácií

Podobné dokumenty
Uvoľnené úlohy v medzinárodných testovaniach a ich využitie vo vyučovaní

Základy algoritmizácie a programovania

E-learning na FCHPT STU v Bratislave. doc. Ing. Monika Bakošová, CSc.

Študijné plány platné pre študentov v akademikom roku 2018/2019

Seminár k záverečnej práci

Dodatok číslo 1 k Smernici rektora Školné a poplatky spojené so štúdiom na Slovenskej technickej univerzite v Bratislave na akademický rok 2014/2015

Automatizovaný prenos dát z valcových skúšobní bŕzd do informačného systému technických kontrol

Žiadosť o povolenie obhajoby dizertačnej práce

U N I V E R Z I N S K Á I T A I L V E R E N L N T A S O

Testovanie 5. v školskom roku 2015/2016. Testovanie sa uskutoční 25. novembra 2015 (streda). Žiaci budú testy písať v nasledovnom poradí:

Technická univerzita v Košiciach. Druhotné suroviny a odpady Návody na cvičenia

Špecifikácia testu. zo slovenského jazyka a literatúry a z maďarského jazyka a literatúry

Ukladanie údajov a databázové systémy. Prof. MUDr. Martin Rusnák, CSc Prof. MUDr. Viera Rusnáková, CSc PhDr. Marek Psota, PhD

PROJEKT Z DOPRAVNÝCH PROCESOV

Návrh, implementácia a prevádzka informačného systému

Skupina ELTODO Slovensko

INTEGROVANÝ SYSTÉM RIADENIA RIZÍK

1. ročník. Matematika


STROJNÍCKA FAKULTA STU V BRATISLAVE ÚSTAV VÝROBNÝCH SYSTÉMOV, ENVIRONMENTÁLNEJ TECHNIKY A MANAŽMENTU KVALITY

ŠTATÚT RADY KVALITY. Technickej univerzity vo Zvolene

SK CRIS ako nástroj integrácie dát o vede na národnej úrovni

Prijímacie skúšky kritériá pre školský rok 2017/2018

Úrad pre Slovákov ijúcich v zahrani í Radlinského 13, Bratislava 15 V Ý Z V A. . 4/2012 na predlo enie ponuky

Prehľad pedagogickej činnosti a výsledkov dosiahnutých vo výchovno vzdelávacej činnosti

Základy algoritmizácie a programovania

Možnosti pokračovania v štúdiu z bakalárskych študijných programov na inžinierske študijné programy fakulty BERG

VLADIMÍR KVASNIČKA JIŘÍ POSPÍCHAL. Algebra a diskrétna matematika

3D MODELY MIEST V URBÁNNOM PLÁNOVANÍ

PV 3 KM 30:70 Spolu: 16

Možnosti pokračovania v štúdiu z bakalárskych študijných programov na inžinierske študijné programy fakulty BERG

Výzva na predloženie ponuky

Seminár z matematiky 6 SEM Príprava na maturitnú skúšku z MAT Obsah (riešenie príkladov na MS) 4. MAT Cvičenia z matematiky 2 CVM Príprava na maturitn

CERTIFIKAČNÉ ELEKTRONICKÉ TESTOVANIA - PERSPEKTÍVA

Špecifikácia testov z vyučovacích jazykov pre T Špecifikácia testov

Stredná odborná škola podnikania, Masarykova 24, P R E Š O V. Cieľ, forma, obsah a rozsah talentovej skúšky

Vysokoškolská učebnica Fakulty priemyselných technológií TnUAD v Púchove

Štruktúra údajov pre kontajner XML údajov 1. Dátové prvky pre kontajner XML údajov

TECHNOLÓGIA MLIEKA II (spracovanie mlieka)

Task, async, await METÓ DY VÝPOČTOVEJ INTELIGENCIE A C# FA K ULTA E L E K T ROTECHNIKY A INFORMATIKY S LOVENSKÁ T E CHNICKÁ U NIVERZITA

Analytické systémy nad Hadoopom. Lukáš Antalov, Vedoucí týmu vývoje

Špecifikácia testu. z matematiky. pre celoslovenské testovanie žiakov 5. ročníka ZŠ v školskom roku 2016/2017

Tomáš Goga Geografický ústav SAV. Použitie počítačov (1) 1

Aplikácia INTEGROVANÉHO SYSTÉMU MANAŽÉRSTVA ORGANIZÁCIE (ISMO) na základe nových štandardov ISO v podmienkach vašej firmy

Základné informácie o odpadoch. Zita Takáčová Andrea Miškufová

PRVÉ ÚSPEŠNÉ KROKY V SMEROVANÍ ŽIAKOV ZŠ K POVOLANIU. PhDr. Zdenka Osvaldová

Príloha 1. Špecifikácia testov

Spôsob zabezpe enia povinnosti zberu, zhodnocovania a recyklácie

Špecifikácia testu. z matematiky. pre celoslovenské testovanie žiakov 9. ročníka ZŠ v školskom roku 2017/2018

Národný portál pre transfer technológií a ochrana a komercializácia duševného vlastníctva

Technik kontroly kvality v chemickej výrobe

Poznámka k prezentácii

Spoločnosť Wüstenrot monitoruje všetky bezpečnostné informácie a udalosti v informačnom systéme

Kritériá prijímania uchádzačov o magisterské štúdium na Fakulte managementu Univerzity Komenského v Bratislave na akademický rok 2016/2017

ŽELEZNIČNÁ DOPRAVNÁ PREVÁDZKA LABORATÓRNY DOPRAVNÝ VÝCVIK

S TN EN EUROKÓD 3: NAVRHOVANIE OCEĽOVÝCH KONŠTRUKCIÍ. ČASŤ 1-5 NOSNÉ STENOVÉ PRVKY

Matematika (platný od )

INTEGROVANÁ BEZPEČNOSŤ 2012

Kontrola používania alkoholických nápojov, omamných a psychotropných látok

Centrálny GIS MV SR. Ing. Kamil FAKO, PhD. OA, SITB MV SR

P RSO S N O ALIST S IKA K A RIADENIE UDSK S Ý K CH

Smernica o školnom a poplatkoch spojených so štúdiom na Vysokej škole DTI na akademický rok 2018/2019. Smernica č. SR-1/2018

Pravidlá udeľovania ocenenia Cena rektora Slovenskej technickej univerzity v Bratislave v znení dodatku č. 1

Prístupnosť elektronických dokumentov vo formáte PDF

. STREDNÁ PRIEMYSELNÁ ŠKOLA, Komenského 1, TRNAVA.. Denné, 4 ročné maturitné štúdium ( úroveň ISCED 3A ) pre absolventov základnej školy.

TRIEDNA KNIHA. pre základnú kolu pre iakov s autizmom. Trieda... kolský rok.../ M VVa SR 2011 / 2012 Triedna kniha Z pre iakov s autizmom

Žilinský kraj (aktuálne ponuky: 5) Výber zo štátnych zamestnancov. Finančné riaditeľstvo SR Lazovná 63, Banská Bystrica

PRVÁ ČASŤ ZÁKLADNÉ USTANOVENIA

Vybrané kapitoly z metód sociálnej práce I.

Historická geografia. doc. RNDr. Daniel Gurňák, PhD. B1-548 Konzultačné hodiny: utorok, streda 12:00-13:00

PROGRAM SPOLUPRÁCE STREDNEJ ODBORNEJ ŠKOLY, OSTROVSKÉHO 1 V KOŠICIACH A SPOLOČNOSTI AT&T V PRÍPRAVE ŽIAKOV NA BUDÚCE POVOLANIE. Ing.

MQL4. MQL4 MQL4 MQL4 MQL4 MQL4 Script MQL4 MQL4 MQL4 MQL4 MQL4 MQL4 MQL4 MQL4. MQL4 MQL4 MQL4 MQL4 Indicator MQL4 MQL4 MQL4 MQL4 MQL4 EA

Paneurópska vysoká škola Fakulta psychológie

Organizáciu maturitnej skúšky v školskom roku 2011/2012 upravuje zákon č. 245/2008 Z. z. o výchove a vzdelávaní (školský zákon) a o zmene a doplnení

ZÁKLADNÉ INFORMÁCIE. k papierovej forme testovania žiakov 5. ročníka ZŠ T September 2015

Metodické poznámky k výučbe oblasti Komunikácia prostredníctvom IKT Internet = web + ?

S Ú D N E I NŽ I N I E R S T V O

CENNÍK POPLATKOV ZA UBYTOVANIE NEŠTUDUJÚCICH V ŠTUDENTSKÝCH DOMOVOCH STU V BRATISLAVE

Inštitút pre podporu dojčenia The institute for breastfeeding support

Výsledky žiakov podľa stupňa najvyššieho dosiahnutého vzdelania

Smernica dekanky číslo 8_2015-S. Pravidlá udeľovania ocenenia Cena dekana Fakulty architektúry Slovenskej technickej univerzity v Bratislave

ŠPECIFICKÉ POŽIADAVKY ELEKTRONICKÉHO TESTOVANIA

VÝZVA NA PREDLOŽENIE CENOVEJ PONUKY V ZADÁVANÍ ZÁKAZKY S NÍZKOU HODNOTOU

Pozvánka na seminár NORMY SYSTÉMOV MANAŽÉRSTVA S UPLATNENÍM NOVÝCH PRÍSTUPOV. 31. marec, 2015 Žilinská univerzita v Žiline

Pokyny pre písanie práce ŠVOČ. Odporúčané nastavenia. Štruktúra práce

Dodatok číslo 1 k Smernici rektora Školné a poplatky spojené so štúdiom na Slovenskej technickej univerzite v Bratislave na akademický rok 2017/2018

Základné informácie. k papierovej forme testovania žiakov 5. ročníka ZŠ T September 2016

Používateľské požiadavky na platformu FASTER: Výsledky prieskumu

Kritériá prijatia žiakov na štúdium v SOŠ LT pre školský rok 2018/2019

POŽIADAVKY NORMY ISO 9001: OKTÓBRA 2017 HOTEL ELIZABETH TRENČÍN NORMA ISO 9001:2015 AKO SPRÁVNE POROZUMIEŤ POŽIADAVKÁM NORMY ISO 9001:2015

PROGRAMOVANIE A JEHO POZÍCIA VPREDMETE INFORMATIKA. Mgr. Ján Guniš

Smernica dekana. Číslo: 3/2012. Prijímanie uchádzačov na bakalárske štúdium na MTF STU v akademickom roku 2013/14

Ministerstvo školstva, vedy, výskumu a športu SR

Zachovanie mentálnej mapy pri interakcií s grafom. RNDr. Jana Katreniaková PhD.

REGISTER RIZÍK A PRÍLEŽITOSTÍ

PRV. TV SmTV1. NÁB Ně. AJ Sm. PČ Ku

Grafický program SOLIDWORKS výzva pre širšie uplatnenie absolventov SOŠ. Rozvojový projekt Grafické systémy 2013

OCHRANA INOVÁCIÍ PROSTREDNÍCTVOM OBCHODNÝCH TAJOMSTIEV A PATENTOV: DETERMINANTY PRE FIRMY EURÓPSKEJ ÚNIE ZHRNUTIE

východiská obranného plánovania všeobecné zásady obranného plánovania obranné plánovanie v NATO obranné plánovanie v Slovenskej republike obranné

FYZIKA - 6. ročník. šk. r / Časovo tematický plán vyučovania. Základná škola, Holubyho 15, Piešťany, / ISCED2 /

Transkript:

Michal Laclavík Martin Šeleng Vyh adávanie informácií Slovenská technická univerzita v Bratislave 2012

RNDr. Michal Laclavík, PhD., Mgr. Martin Šeleng, PhD. Lektori: Prof. Ing. Ján Parali, PhD. Mgr. Gabriela Kosková, PhD. Vydala Slovenská technická univerzita v Bratislave vo Vydavate stve STU, Bratislava, Vazovova 5. Text prešiel jazykovou úpravou vydavate stva. Schválilo vedenie Fakulty informatiky a informa ných technológií STU v Bratislave d a 28.2.2012, íslo rozhodnutia 2012.06.1 pre študijný program Softvérové inžinierstvo a Informa né systémy

ANOTÁCIA U ebný text sa venuje jednej z dôležitých oblastí sú asnej informatiky, ktorou je vyh adávanie informácií (information retrieval). Zameriava sa na vyh adávanie informácií na webe, ale tiež na oblas extrakcie informácií. Diskutuje o základných pojmoch z oblasti vyh adávania a získavania informácií z internetu a extrakcie informácií, ako aj o základných modeloch pre túto oblas. U ebný text sa venuje jednotlivým témam v poradí cyklu spracovania informácií: získanie údajov, predspracovanie, indexovanie alebo extrakcia a následné vyh adávanie. Dôležitou témou je hodnotenie úspešnosti systémov na vyh adávanie informácií. U ebný text vysvet uje aj existujúce architektúry a systémy, predovšetkým architektúry vytvorené firmou Google, ako aj vo ne dostupné softvérové riešenia, ktoré umož ujú tvorbu takýchto systémov. Príloha obsahuje príklady úloh z vyh adávania informácií aj s uvedením naj astejších chýb pri ich riešení. U ebný text je ur ený študentom informatického zamerania na vysokých školách technického, prírodovedného a ekonomického smeru, najmä však študentom Fakulty informatiky a informa ných technológií Slovenskej technickej univerzity v Bratislave, kde je predmet Vyh adávanie informácií povinne volite ným predmetom inžinierskeho štúdia pre študijné programy Softvérové inžinierstvo a Informa né systémy. v

OBSAH ANOTÁCIA... V OBSAH... VII Slovník... x Zoznam obrázkov... xi Zoznam tabuliek... xii 1 ÚVOD... 1 1.1 Skrátená história vyh adávania informácií... 2 1.2 O knihe... 3 1.2.1 Pre koho je kniha ur ená... 3 1.2.2 Príklady dokumentov... 4 1.2.3 Témy knihy... 5 1.2.4 alšie témy súvisiace s vyh adávaním informácií... 6 1.2.5 Príklady k jednotlivým témam... 8 1.3 Základné pojmy a architektúra vyh adávacieho systému... 8 1.3.1 Informa ný priestor, dopyt a výsledok... 8 1.3.2 Architektúra... 9 2 ZÍSKAVANIE DÁT ALEBO DOKUMENTOV... 13 2.1 Techniky s ahovania dokumentov z webu... 13 2.2 S ahova e so zameraním... 17 2.3 Spracovanie liniek... 17 2.4 Príklady... 18 3 ANALÝZA TEXTU, TEXTOVÉ OPERÁCIE... 19 3.1 Konverzia dokumentov na text... 20 3.2 Segmentácia textu... 21 vii

3.3 Tokenizácia textu... 23 3.4 Konverzia zna iek na termy... 24 3.4.1 Základný tvar slov... 25 3.4.2 Lematizácia a stemovanie v sloven ine... 26 3.5 Analýza textu pomocou knižnice Lucene... 27 3.6 Príklady... 28 4 MODELY A INDEXOVANIE... 29 4.1 Invertovaný index... 32 4.2 Invertovaný index z web dokumentov... 36 4.3 Frekvencia termov, váženie a normalizácia... 38 4.4 Príklady... 39 5 VYH ADÁVANIE A USPORIADANIE... 41 5.1 Vyh adávanie... 41 5.2 Usporiadanie... 43 5.2.1 Podobnos... 44 5.2.2 Algoritmus PageRank... 44 5.2.3 Algoritmus HITS... 48 5.2.4 Algoritmus OPIC... 52 5.2.5 Algoritmus SALSA... 56 5.3 Príklady... 59 6 REGULÁRNE VÝRAZY... 61 6.1 Úvod do regulárnych výrazov... 61 6.1.1 Zhrnutie vlastností regulárnych výrazov... 65 6.2 Regulárne výrazy v úlohách vyh adávania a extrakcie informácií... 66 6.2.1 S ahovanie dokumentov... 66 6.2.2 Predspracovanie textu... 67 6.2.3 Identifikácia entít... 68 6.3 Príklady... 71 7 EXTRAKCIA INFORMÁCIÍ... 73 7.1 Metódy extrakcie informácií... 75 7.1.1 Slovníkové metódy... 75 viii

7.1.2 Metódy založené na pravidlách a vzoroch... 76 7.1.3 Metódy strojového u enia... 76 7.2 Vyhodnotenie úspešnosti extrakcie informácií... 77 7.2.1 Manuálna anotácia... 77 7.3 Príklady... 78 8 HODNOTENIE ÚSPEŠNOSTI... 79 8.1 Príklady... 86 9 SÚ ASNÝ INTERNET... 87 9.1 Internetový vyh adáva Google... 87 9.2 Škálovate né riešenia na spracovanie ve kých objemov dát... 90 9.2.1 Distribuované súborové systémy... 90 9.2.2 Distribuované spracovanie dát Architektúra MapReduce... 91 9.3 Príklady... 94 10 SOFTVÉROVÉ KNIŽNICE A DÁTOVÉ ZDROJE... 95 10.1 Softvérové knižnice a systémy... 95 10.1.1 Textové operácie... 95 10.1.2 Lucene a súvisiace projekty... 96 10.1.3 Extrakcia informácií... 98 10.2 Dostupné dátové zdroje v slovenskom jazyku... 99 11 ZÁVER... 101 12 POUŽITÁ LITERATÚRA... 103 13 PRÍLOHA - SKÚŠKOVÉ TESTY... 109 13.1 Skúškový text z roku 2008... 109 13.2 Skúškový text z roku 2009... 112 13.3 Skúškový text z roku 2010... 116 13.4 Skúškový text z roku 2011... 120 13.5 Skúškový text z roku 2012... 124 INDEX... 129 ix

INDEX Akurátnos... 81 Analýza textu... 19 Anchor text...17, 37, 38, 89 BM25... 2, 31 Booleovský model... 29 Business Inteligence... 8 Cranfield experiment... 2, 79 Crawler... 13 Data Mining... 8, 77 Dolovanie dát... 8, 77 Dopyt... 9, 41, 80 Euklidovská vzdialenos... 44 Extrakcia informácií...68, 73, 75, 98 Focused Crawer... 17 GATE... 98 Gazetteer... 75 Google... 43, 87, 89 Hadoop... 91, 97 HITS... 48 Hodnotenie úspešnosti... 79 Identifikácia jazyka... 20 Indexovanie... 29, 31 Informa ný priestor... 9 Invertovaný index... 32, 35, 37 Kontext používate a... 7 Kosínusová korelácia... 30 Lematizácia... 25 Linky... 17 Lucene... 96 MapReduce... 90, 91, 92 Named Entity recognition... 73 Natural Language Processing... 6 Normalizácia... 38 Nutch... 96 Okapi... 2, 31 Ontea... 99 OpenNLP... 99 OPIC... 52 PageRank... 44, 88 Podniková inteligencia... 8 Pravdepodobnostný model... 31 Precision... 79, 80 Presnos... 79, 80 Recall... 79, 80 Regexy... 61 Regulárne výrazy... 61 Rozpoznávanie názvoslovných entít. 73 SALSA... 56 Segmentácia textu... 21 Sémantický web... 6 Solr... 97 Spracovanie prirodzeného jazyka... 6 S ahova... 13 S ahova so zameraním... 17 Stemovanie... 25 Stop slová... 24 Strojový preklad... 7 Termy... 24 Text linky... 17, 37, 38, 88 Tf-idf... 38 Tika... 98 Tokenizácia... 23 UIMA... 98 Úplnos... 79, 81 Usporiadanie... 43 Vektorový model... 30 Výsledok... 9, 80 Základný tvar slov... 25 129