Systém M-CAST Multilingual Content Aggregation System Vícejazyčný systém agregace informací

Podobné dokumenty
Systém M-CAST (Multilingual Content Aggregation System Vícejazyčný systém agregace informací)

M-CAST v knihovnách. Osnova. Obecně o projektu M-CAST. Ontologie. Typy dotazů a odpovědí. Český lingvistický modul. Dotazy, odpovědi, vyhledávání

SYSTÉM M-CAST V HYBRIDNÍCH KNIHOVNÁCH?

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

Systém M-CAST v českém kontextu

Digitální učební materiál

ZÁKLADNÍ ŠKOLA PŘI DĚTSKÉ LÉČEBNĚ Ostrov u Macochy, Školní 363 INOVACE VÝUKY CZ.1.07/1.4.00/

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

Hádanka. Co je těžší? (Co má větší hmotnost?) kilo železa nebo kilo peří?

Úvod do latinského deklinačního systému. -ae -ī -is -ūs -ēī

Dataprojektor, kodifikační příručky

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

vzory rodu ženského Metodický list - anotace: ují koncovky vají pravopis koncovek podstatných jmen rodu ženského. Tento materiál

Výukový materiál zpracován v rámci projektu EU peníze školám

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

Přídavná jména Střední průmyslová škola a Obchodní akademie Uherský Brod Český jazyk a literatura

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Univerzální vyhledávací portál jako integrační řešení pro digitální knihovny

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Informační vzdělávání PdF

Kolísání rodu substantiv

Mgr. Radmila Jonešová. Datum: Ročník: 5. Vzdělávací obor: Rozvoj čtenářské gramotnosti. Jak se chodí po silnici

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

Výukový materiál zpracován v rámci projektu EU peníze školám

diferencované - nelze volně zaměnit (přijel na jaře/ hovořili jsme o posledním vlhkém jaru)

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

VY_III/2_INOVACE_SADA01

Bibliografické databáze umění vyhledávat v záplavě pramenů relevantní informace

Soustava SI FYZIKÁLNÍ VELIČINY A JEDNOTKY

PROCVIČOVÁNÍ TVARŮ A PRAVOPISU PODSTATNÝCH JMEN PODLE VZORŮ

II. Nástroje a metody, kterými ověřujeme plnění cílů

Olympiáda v českém jazyce 44. ročník, 2017/2018

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

Žáci zodpoví všechny otázky. Určí slovní druhy a větné členy, vyjmenují znaky písemného a ústního projevu.

Vyhledávání na portálu Knihovny.cz

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

VY_12_INOVACE_26_MLUVNICKE_KATEGORIE_PODSTATNYCH_ JMEN. Předmět: Český jazyk Ročník: 4. Časová dotace: 45 min Datum ověření:

PRŮVODNÍ LIST k nově vytvořenému / inovovanému učebnímu materiálu

Historie SI. SI Mezinárodní soustava jednotek - Systéme International d Unités


Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, Praha 1. Olympiáda v českém jazyce, 42. ročník, 2015/2016 okresní kolo

Nové orgány na postupu

Soustava SI, převody jednotek

Elektronické inf. zdroje

Úvod do latinské jmenné flexe 1. deklinace. Úvodní lekce II, lekce 1

Evropská digitální knihovna a autorské právo

ebadatelna Zlínského kraje

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK

SKLOŇOVÁNÍ OBECNÝCH JMEN PŘEJATÝCH A CIZÍCH VLASTNÍCH JMEN

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

WWW portály v agrárním sektoru

Pracovní skupina pro věcné zpracování

1 mm = 0,01 dm 1 m = mm 1 mm = 0,001 m 1 km = m 1 m = 0,001 km

ZŠ ÚnO, Bratří Čapků 1332

Přídavná jména ADJEKTIVA

Tvořivá škola, registrační číslo projektu CZ.1.07/1.4.00/ Základní škola Ruda nad Moravou, okres Šumperk, Sportovní 300, Ruda nad

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Speciální vzdělávací Lehké mentální postižení

Grafické sčítání úseček teorie

Centrální portál českých knihoven

SLOVNÍ DRUHY- KVÍZ. Zakroužkuj správnou odpověď.

Manuscriptorium - 10 let

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

SADA VY_32_INOVACE_CJ1

Jak vypadá opravdová discovery služba

České digitalizační projekty, jejich výsledky a agregace

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Oborová brána TECH tech.jib.cz

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Název Písemná práce vyjm. sl., rod stř. a jeho vzory

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV

Otevřená data veřejné správy

Hospodářská informatika

VY_32_INOVACE_CJ5_5_12. Šablona III/2- Inovace a zkvalitnění výuky prostřednictvím ICT. Přídavná jména

Digitální knihovny v České republice

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

Otevřený přístup (Open Access) v Akademii věd ČR

Zpracování fondů.

Slovní druhy. Ohebné i neohebné

Morfologie. Gramatika gramatické tvary a konstrukce a jejich sémantické funkce - obecný úvod

EIZ ve společenských. enských vědách

Zhodnocení průběžného plnění Informační strategie hl. m. Prahy do roku 2010 (Cesta k e-praze) Duben 2009

Příruční mluvnice češtiny. 2. vyd., Praha: Lidové noviny, s. ISBN

23. Splnitelnost a platnost výrokových formulí, dedukce ve výrokové logice

Autorka: Barbora Nosálová. Metodický list

local content in a Europeana cloud

Sémantický web 10 let poté

VĚCNÝ POPIS DOKUMENTŮ (VĚCNÁ KATALOGIZACE) Mgr. Dagmar Smékalová

Zařazení materiálu: Inovace a zkvalitnění výuky prostřednictvím ICT

ZNAČKY A ČÍSLA, ŘADOVÉ ČÍSLOVKY

Střední odborná škola a Střední odborné učiliště Česká Lípa28. října 2707, příspěvková organizace

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

DRUŽICOVÝ ATLAS ČESKÉ REPUBLIKY

SKLOŇOVÁNÍ PODSTATNÝCH JMEN RODU MUŽSKÉHO

Web 2.0 vs. sémantický web

Novinky v e-zdrojích NLK. Adéla Jarolímková, NLK

Firmware řídící jednotky stejnosměrného generátoru

Transkript:

Systém M-CAST Multilingual Content Aggregation System Vícejazyčný systém agregace informací Marie Balíková Marie.Balikova@nkp.cz Petr Strossa Kizips@vse.cz 1

M-CAST v reálném světě Kdy byla Karlova univerzita zpřístupněna ženám? Kdy byly předány insignie české Karlově univerzitě? Kdy byl upálen Mistr Jan Hus? bližší informace Kde se konala schůze svazu zednářů Jan Hus? Jaké zásady se drží čeští zednáři? Co držel Zeus v pravé ruce? Dotazování v přirozeném jazyce M-CAST Odpověď blok odpovědi Přímá odpověď Úryvek odpovědi Vizualizace zdrojové stránky Vícejazyčný vyhledávací systém http://195.113.132.1:88/ 2

Kdy byla Karlova univerzita zpřístupněna ženám? Přímá odpověď: 1897 Úryvek odpovědi: Od roku 1897 byla ženám zpřístupněna Karlova univerzita 3

Český časopis historický 4

Kdy byl upálen Mistr Jan Hus? Přímá odpověď: 1415 Úryvek odpovědi 5

Literární noviny - 1952 6

Svobodný zednář - 1927-1928 7

Problematika autorského práva, licence 8

Zdroj: Macek J. - Husitské revoluční hnutí 9

Hus + papírová koruna 1

Kramerius 11

What is the anthem of European union? Otázka v angličtině, odpověď v polštině Ody do radości 12

Co je Europe direct? Otázka v češtině Odpověď v polštině serwis, który pomoże Państwu znaleźć odpowiedzina pytania dotyczące Unii Europejskiej 13

Pokročilé vyhledávání databáze Aleph Selekční termín: láska Zúžení dotazu: MDT 14

M-CAST (Multilingual Content Aggregation System based on TRUST Search Engine) projekt programu econtent (EDC 22249) cíl: prototyp vícejazyčného vyhledávacího systému, který umožní integrovat a prohledávat rozsáhlé soubory textů včetně multimédií poskytovat informační služby široké odborné i laické veřejnosti digitální knihovny informační zdroje nakladatelství databáze tiskových agentur databáze vědeckých informací financován Evropskou unií v rámci víceletého komunitárního programu na podporu rozvoje a užívání evropského digitálního obsahu v globálních sítích a současně překonávání jazykové různorodosti v informační společnosti 15

Účastníci projektu TRUST Vícejazyčný sémantický, kognitivní mechanismus vyhledávání textů využívající sémantické technologie, IST-1999-56416 Dotazování v přirozeném jazyce Vyhledávání ve: francouzštině, italštině, polštině, portugalštině 16

Architektura systému M-CAST 17

Lingvistický procesor French Language Module Italian Language Module Portuguese Language Module Czech Language Module English Language Module Extraction of text engine Indexation engine Documents Polish Language Module Index Visualization of Results 18

Francouzský lingvistický modul 19

Český lingvistický modul Návaznost na polský modul (TiP) Využití portugalských technologií (Priberam Informática) kostra morfologického analyzátoru SintaGest 2

Příklad vzoru pro rozpoznávání typu dotazu a odpovědi Question(WEIGHT) : Root("jaký")? Dist(,5) WeightNoun = 2 // Jaká je hmotnost Země? : Wrd(jak) WeightAdj = 2 // Jak těžký může být slon? : Wrd(kolik) WeightUnit = 2 // Kolik kg má dospělý kapr? : Wrd(kolik) Root("vážit") = 2 // Kolik váží kapr? Answer : WeightNoun Definition With Pivot Dist(,5) {Number6 WeightUnit} = 2 // Váha kapra může dosáhnout až 5 kg. : Pivot Dist(, 5) Cat(V) Dist(,5) {Number6 WeightUnit} = 2 // Roční kapr může dosáhnout 5 kg tělesné váhy. ; Answer(WEIGHT) : Number6 WeightUnit = 2 ; 21

Příklad definic konstant Const WeightNoun = AnyRoot(hmotnost, hmota, "tíha", "váha", "zatížení"); Const WeightAdj = AnyRoot("těžký", "lehký"); Const WeightUnit1 = AnyRoot(mikrogram, miligram, centigram, decigram, gram, dekagram, hektogram, kilogram, kilo, cent, megagram, miligram, tuna, "karát", pond, kilopond, megapond, libra); Const WeightUnit2 = AnyWrd(mg, cg, dg, g, dag, deka, Dg, dkg, hg, kg, q, Mg, t, p, kp, Mp, lb, "lb.", lbs, "lbs.", cwt, "cwt."); Const WeightUnit = AnyConst(WeightUnit1, WeightUnit2); 22

Pozorování Koncepce nástrojů navržených původně pro zpracování portugalštiny je použitelná i pro zpracování polštiny a češtiny. Specifika slovanských jazyků vyžadují určité úpravy přístupu, příp. i samotných nástrojů. 23

Problém volného slovosledu Jak daleko je do Brna? Jak je daleko do Brna? Jak je do Brna daleko? Do Brna je jak daleko? Do Brna jak je daleko? Do Brna je daleko jak? Daleko je do Brna jak? (+++) (+++) (++) (++) (+) (+) (+) 24

Návaznost na morfologickou analýzu Root( stát") & Cat(N(SING,MASC, GEN,,)) A jak zjistit, že státu naplňuje tento požadavek?... tedy vlastně: naplňuje ho to vůbec?! 25

Příklad morfologického vzoru (1) Sg. Nom. Gen. Dat. Akuz. Vok. Lok. Instr. kmen Pl. koncovka u u e ě em kmen koncovka y ů ům y y ech y 26

Příklad morfologického vzoru (2) Nom. Gen. Dat. Akuz. Vok. Lok. Instr. Sg. kmen koncovka a y +M e u o +M e ou kmen +E Pl. koncovka y ám y y ách ami 27

Statistika vzorů podst. jmen (1) POČET VZORŮ PŘIBLIŽNÝ POČET PODST. JMEN % 2 85 7 11 11 9 19 114 95 27 116 97 56 118 99 292 12 1 28

Statistika vzorů podst. jmen (2) Celkem potřebujeme kolem 3 vzorů. Podle 9 z nich se řídí aspoň 1 slov. Podle 15 z nich se řídí 1 až 3 slova. Podle 8 z nich se řídí jediné slovo. 29

Morfologie přídavných jmen (1) Kategorie: 3 stupně: 4 rody: 2 čísla: 7 pádů: světlý světlejší, nejsvětlejší světlý světlá, světlé světlý světlí světlý světlého, světlému,... Celkem: 3*4*2*7 = 168 tvarů! 3

Morfologie přídavných jmen (2) Některé tvary jsou systematicky stejné. Prakticky rozlišujeme: 3 stupně * 19 obecně odlišitelných kombinací rodu, čísla a pádu. 31

Morfologie přídavných jmen (3) Typy skloňování: 4 Typů stupňování a odvozování příslovcí: zhruba 5 (!) 32

Problém morfologické homonymie (1) Co je to kovové? Jistě 1. stupeň. Pokud jde o rod, číslo a pád, z 56 možných kombinací může jít o: 1., 4. nebo 5. pád jednotného čísla středního rodu; 1., 4. nebo 5. pád množného čísla mužského rodu neživotného; 1., 4. nebo 5. pád množného čísla ženského rodu; 2., 3. nebo 6. pád jednotného čísla ženského rodu; 4. pád množného čísla mužského rodu životného. Tj. celkem 13 možných interpretací! 33

Problém morfologické homonymie (2) Jak lze naplnit položky ROD, ČÍSLO a PÁD pro slovní tvar kovové? ROD = {1, 2, 3, 4} ČÍSLO = {1, 2} PÁD = {1, 2, 3, 4, 5, 6} (Jedině 7. pád to jistě není.) 4*2*6 = 48 možných interpretací! 34

A proč je to všechno potřebné? Dotaz 1: Kolik lidí žilo ve Spojených státech středoamerických? Dotaz 2: Kolik je ve Spojených státech nezaměstnaných žen? 35