PLIN021 Sémantická analýza v praxi

Podobné dokumenty
Korpusová lingvistika a počítačové zpracování přirozeného jazyka

JEB007 Mikroekonomie I

Vektory. Vektorové veli iny

P íklad 1 (Náhodná veli ina)

Po etní geometrie. Výpo et délky p epony: c 2 = a 2 + b 2 Výpo et délky odv sny: a 2 = c 2 b 2, b 2 = c 2 a 2

GENERAL GAME PLAYING Marika Ivanová Seminář Herní Algoritmy,

ČÁST PÁTÁ POZEMKY V KATASTRU NEMOVITOSTÍ

Integrování jako opak derivování

Smlouva na dodávku pitné vody

Micro plus nádoba. Zpracovala: Simona VRABCOVÁ

Normalizace rela ního schématu

Anketa pro rodiče dětí

Matematická logika cvi ení 47

VY_32_INOVACE_ / Měkkýši Měkkýši živočichové s měkkým tělem

Využití Pythagorovy věty III

Databázové a informační systémy

Automoto klub v AČR Hořice (AMK Hořice v AČR)

MOBILNÍ KOMUNIKACE STRUKTURA GSM SÍTĚ

Základní prvky a všeobecná lyžařská průprava

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Název: Geobotanický herbář

106/2001 Sb. VYHLÁŠKA Ministerstva zdravotnictví ze dne 2. března 2001 o hygienických požadavcích na zotavovací akce pro děti

VZD LÁVACÍ MATERIÁL III/2/P VY_32_INOVACE_P19. Po adové íslo: 19. Ro ník: 2. Datum vytvo ení: Datum ov ení:

Elektronický výcvikový obojek DOG-T05L

Čl. I. Vyhláška č. 106/2001 Sb., o hygienických požadavcích na zotavovací akce pro děti, ve znění vyhlášky č. 148/2004 Sb.

VeřejnosprávnÍ smlouva uzavřená podle 10c zákona 250/2000 Sb. o rozpočtových pravidlech územních rozpočtů

Statistika pro geografy. Rozd lení etností DEPARTMENT OF GEOGRAPHY

Binární operace. Úvod. Pomocný text

Vektor náhodných veli in - práce s více prom nnými

Matematický KLOKAN kategorie Benjamín

Vnitřní pravidla stanovená poskytovatelem pro poskytování služby denní stacionáře

Nabídka vzdělávacích seminářů

Obsah. Co doopravdy znamená LÍTOST =>

Ručně vedené podlahové mycí stroje s odsáváním B 40 W Bp Pack DOSE D 51. Vybavení: Diskové kartáče Konstrukce nádrž v nádrži Trakční motor 130 W

ČL. 2 PRAVIDLA REGISTRACE ZÁKAZNÍKŮ

DRAŽEBNÍ VYHLÁŠKA VEŘEJNÉ DOBROVOLNÉ DRAŽBY podle zák. č. 26/2000 Sb., o veřejných dražbách, ve znění pozdějších předpisů

PROBLEMATIKA PLÁNOVÁNÍ A VYKAZOVÁNÍ OSOBNÍCH NÁKLADŮ NA PROJEKTECH 7. RP

HRACÍ ŘÁD REGIONÁLNÍCH SOUTĚŽÍ ABV ČVS V ČR PRO SEZONU 2010

Kompozicionalita: jm na a reference, logick typy, rule-to-rule vs. interpretativn s mantika 1 / 14

Katedra obecné elektrotechniky Fakulta elektrotechniky a informatiky, VŠB - TU Ostrava 16. ZÁKLADY LOGICKÉHO ŘÍZENÍ

Zde se podrobně seznámíte s hlavními díly vzduchové clony. Vám názorně představí nejběžnější příklady instalací clon SAHARA MAXX HT.

ŘEZÁNÍ. Řezání (obr. A) je dělení materiálu úběrem malých třísek mnohozubým nástrojem pilou.

1. Hydrosférou rozumíme (vyberte nejsprávnější tvrzení):

Poměry a úměrnosti I

3.cvičení. k p = {X, Y } u(x, r 1 = XA ), v(y, r 1 = XA ) u v = {A, R} q = AR. 1. Bodem A kolmici: Zvolím bod X p k(a, r 1 = XA ),

Skalární sou in. Úvod. Denice skalárního sou inu

Rodina - kulturní odlišnosti mezi národy Metodický list

Kapitola VII - popisy cviků pro krasojízdu dvojic

MALOOBCHODNÍ CENÍK 2016 MODEL ELEGANT - CPL. Svislý i příčný dekor. Kvalitní konstrukce dveří Profily zasklívacích lišt

Obývací stěny Dětské pokoje Ložnice

Základní škola a Mateřská škola, Podhorní Újezd a Vojice, okres Jičín ŠKOLNÍ ŘÁD MŠ

1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

Studie proveditelnosti. Marketingová analýza trhu

Dohoda o poskytnutí fänančnĺ dotace

Zápis ze zasedání zastupitelstva obce ze dne od hod na OÚ

Jak se domluvit s nemluvnětem Moc nástrojů, kterými by malé dítě projevilo své emoce, k dispozici nemá. Snad jen úsměv - v případě, že je spokojené -

Z á p i s č. 1 z veřejného zasedání zastupitelstva obce Velehrad konaného dne v zasedací místnosti obecního úřadu Velehrad

K. Hodnocení dosažitelnosti emisních stropů stanovených regionu v roce 2010

ízení Tvorba kritéria 2. prosince 2014

Kapitola 8 Kůň našíř. Článek 30 Popis sestavy na koni našíř. Článek 31 Informace o provedení sestavy

Řešení IP v síti kabelové televize. Ing. Václav Jirovský, CSc. MFF UK, Praha Dattelkabel a.s., Praha

Zápis ze III. veřejného zasedání Zastupitelstva městyse Ostrovačice

Základy zpracování obrazů

veřejná zakázka na stavební prace s názvem: Sdružená kanalizační přípojka - Město Lázně Bělohrad

AMERICKÁ AKITA (American Akita)

KUPNÍSMLOUVA. Dodávka vrtacich souprav. uzavřená podle zákona č. 89/2012 Sb., občanského zákoníku, v platném znění mezi smluvními stranami

Míra subjektivně chápané zátěže a osobní růst u učitelů

VÝZVA K PODÁNÍ NABÍDKY JIŘICE DODÁVKA KOVOVÝCH KONSTRUKCÍ POSTELÍ

BEZPEČNOSTNÍ ODBĚROVÝ NÁVAREK. BON 9x NÁVAREK PRO MĚŘENÍ TEPLOTY

hliníkové ploty na celý život KATALOG PRODUKCE

14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1

% STĚNY OKNA INFILTRA STŘECHA PODLAHA 35 CE % 20 25% 15 20% 10 10% 10% 5

Pracovní právo. Zákoník práce. JUDr. Martin Šimák, Ph.D.

Základní škola Kaznějov, příspěvková organizace, okres Plzeň-sever

22. ledna 2016 Vydává Ministerstvo dopravy

1. Prodávající: Česká spořitelna, a.s. IČO: , DIČ: CZ se sídlem: Olbrachtova 1929/62, Praha 4, Krč

Školení hospodářů. Obecně pro všechny:

Rozvoj vzdělávání žáků karvinských základních škol v oblasti cizích jazyků Registrační číslo projektu: CZ.1.07/1.1.07/

Příloha č. 1: Zadávací dokumentace

Stanovení obvyklé ceny předmětné nemovitosti Datum místního šetření: Datum zpracování : 8.7.

CZ.1.07/1.4.00/

DOTEK z.s. Se sídlem Štefánikova 36, Český Těšín, Zastoupený paní Bc. Nives Bosákovou, ředitelkou pověřenou k podpisu Dohody

Umělá inteligence I. Roman Barták, KTIML.

na za átku se denuje náhodná veli ina

Nalezené klíče O víkendu byly na sídlišti v Mariánském Údolí nalezeny dva svazky klíčů. Majitel si může klíče vyzvednout na obecním úřadě.

MĚSTSKÁ ČÁST PRAHA 3 Rada městské části U S N E S E N Í

IRSKÝ VLKODAV (IRISH WOLFHOUND)

1 Data. 2 Výsledky m ení velikostí. Statistika velikostí výtrus. Roman Ma ák

Parkovací asistent PS8vdf

NÁVŠTĚVNÍ ŘÁD. venkovní bazény. Aquacentra Pardubice, Jiráskova ul provozovatel PAP Pardubice o.p.s.

Roman Truhlář: Ve srovnání s Belgií máme luxusní kola

Zadávací dokumentace veřejné zakázky malého rozsahu Poskytování úklidových služeb

Znalectví středověké hmotné kultury referát Koňský postroj ve středověku. Alžběta Čerevková učo:

Použití. Výhody stavebnicový systém pro montáž snímačů ze sortimentu ZPA Nová Paka, a.s. ale i ostatních výrobců (normalizované. Technické parametry

Evidence čerpacích stanic pohonných hmot. Zpráva o aktualizaci a stavu Evidence čerpacích stanic pohonných hmot v ČR k

Znalecký posudek - obvyklá cena, tržní. č /2015

OBEC PERNINK Obecně závazná vyhláška č. 1/2013, o místních poplatcích ČÁST I. ZÁKLADNÍ USTANOVENÍ

Město Mariánské Lázně

Konzistence databáze v nekonzistentním světě

Transkript:

PLIN021 Sémantická analýza v praxi OP VK Mezi bohemistikou a informatikou www.projekt-inova.cz Zuzana Nev ilová xpopelk@fi.muni.cz Centrum zpracování p irozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 29. íjna 2013

Vícezna nost, granularita Redundance Word Sense Disambiguation Algoritmy WSD

Je vícezna nost problém v NLP? rychlý fast auto car rychlé auto fast car vysoký high ²kola school vysoká ²kola university?

Granularita významu (sense): ko ka ˆ 2. malá n. st edn velká ²elma s hustým koºichem; zool. rod Felis ˆ 1. malá ko kovitá ²elma, chovaná v domácnostech ˆ 3. samice ko kovité ²elmy v bec ˆ 4. ob. koºi²ina na límci, kolem krku n. ramen ˆ 6. v c p ipomínající n kt. vlastnost ko ky ˆ 5. kocovina (Ha².) ˆ 7. druh d tek

Jak stanovit kriteria pro tu správnou granularitu? podle syntaktických kritérií: ˆ Lord zanechal v záv ti v²echen sv j majetek místnímu sirot inci. ˆ Student zanechal studia podáním písemné ºádosti.

Jak stanovit kriteria pro tu správnou granularitu? podle sémantických kritérií: ˆ abstraktní konkrétní ˆ ºivotný neºivotný ˆ lov k zví e ˆ emoce ˆ doména

Frekvence uºívání slova v daném významu

Redundance v p irozeném jazyce Tto vt ur t porozumte p e²toze nní správná. Studentky se na seminá i nudily. Myslete dop edu na nan ní zaji²t ní vlastního poh bu. U²et íte tím starosti svým blízkým.

Redundance v p irozeném jazyce ˆ na úrovni hlásek (n které hláskové sekvence se v daném jazyce nevyskytují) ˆ na syntaktické úrovni (shoda p ísudku s podm tem) ˆ na úrovni význam (pleonasmy, tautologie)

Word Sense Disambiguation Lexikální desambiguace: nalezení významu slova v daném kontextu. Pro lov ka podv domé, pro po íta e AI complete. WSD =... the problem of computationally determining which sense of a word is activated by the use of the word in a particular context. [Agirre and Edmonds, 2006] klasika ní úloha: ˆ jednotlivé významy tvo í t ídy ˆ podle kontextu se rozhodujeme, do kterých t íd slovo na vstupu pat í p edpoklady: významy jsou diskrétní a je jich kone ný po et, máme n jaký inventá význam

Word Sense Disambiguation: aplikace ˆ strojový p eklad machine translation (MT) ˆ inteligentní vyhledávání information retrieval (IR) ˆ inteligentní korektor p eklep ˆ...

Word Sense Disambiguation: p ístupy zpravidla ignorují teoretické, psychologické, logické aj. aspekty významu ˆ hloubkové (zahrnující znalosti o jazyce i o sv t ) ˆ povrchové p ístupy (bez dal²ích znalostí, po ítají s okolím)

Word Sense Disambiguation: p ístupy historický p ístup (expertní): v jakých kontextech m ºe slovo nabývat jakých význam? kohoutek ˆ botanika: rostlina ˆ chovatelství: lopatková kost ˆ technické vybavení budov: ru ní uzáv r ˆ...

Algoritmy zaloºené na znalostech historický start: strojov itelné slovníky (Machine Readable Dictionaries) reprezentant: Lesk v algoritmus (1986) = slovo w, jehoº okolí sdílí nejvíc slov s denicí (nebo s p íklady uºití) itého významu, má význam s i [Kilgarri and Rosenzweig, 2000]

Naivní Lesk v algoritmus: ko ka (SSJƒ) 1. malá ko kovitá ²elma, chovaná v domácnostech, na venkov zvl. pro hubení my²í; ko ka domácí (zool.); ²edivá, erná, t íbarevná k.; hladká srst ko ky; k. m ouká, p ede; k. íhá na my²; k. chytá ptáky; angorská k.; být fale²ný, úlisný jako k.; p en. expr. je to k. fale²ník; to d v e je k. lichotné, úlisné; [x] jsou na sebe jako pes a k. nenávidí se... 2. malá n. st edn velká ²elma s hustým koºichem; zool. rod Felis: k. plavá; k. divoká; k. domácí 3. samice ko kovité ²elmy v bec; rysí k.; lví k.; expr. kaºdá ko kovitá ²elma v bec (tygr, levhart aj.) 4. ob. koºi²ina na límci, kolem krku n. ramen 5. kocovina (Ha².) 6. v c p ipomínající n kt. vlastnost u ko ky: bot. velký trs ost ic vystupující z ra²elini²t (na blatech); tech. pojízdný vozík je ábu se zdvihacím ústrojím 7. druh d tek; devítiocasá k.

Naivní Lesk v algoritmus: vstup Aminokyselina DL-methionin okyseluje mo, ímº chrání mo ové ústrojí ps i ko ek (d leºitá vlastnost zvlá²t u kastrovaných jedinc ). {aminokyselina, DL-methionin, okyselovat, mo, ímº, chránit, mo ový, ústrojí, pes, i, d leºitý, vlastnost, zvlá²t, u, kastrovaný, jedinec} {aminokyselina, coº, DL-methionin, d leºitý, chránit, i, jedinec, kastrovaný, mo, mo ový, okyselovat, pes, u, ústrojí, vlastnost, zvlá²t }

Lesk v algoritmus: naivní {aminokyselina, coº, DL-methionin, d leºitý, chránit, i, jedinec, kastrovaný, mo, mo ový, okyselovat, pes, u, ústrojí, vlastnost, zvlá²t } 1: {a, angorský, být, erný, íhat, d v e, domácí, domácnost, expresivn, fale²ník, fale²ný, hladký, hubení, chovaný, chytat, jako, ko kovitý, lichotný, malý, m oukat, my², na, nenávid t, pes, pro, p enesen, p íst, pták, se, srst, ²edivý, ²elma, to, t íbarevný, úlisný, v, venkov, zoologicky, zvlá²t } 2: {divoký, domácí, Felis, hustý, koºich, malý, nebo, plavý, rod, s, st edn, ²elma, velký, zoologicky}. 6: {bláto, botanicky, je áb, na, n který, ost ice, pojízdný, p ipomínající, ra²elini²t, s, technicky, trs, u, ústrojí, v c, velký, vozík, vlastnost, vystupující, z, zdvihací} 7: {devítiocasá, druh, d tky}

Lesk v algoritmus: naivní {aminokyselina, coº, DL-methionin, d leºitý, chránit, i, jedinec, kastrovaný, mo, mo ový, okyselovat, pes, u, ústrojí, vlastnost, zvlá²t } D 1 = {pes,zvlá²t } D 2 = {} D 3 = {} D 4 = {} D 5 = {} D 6 = {u,ústrojí,vlastnost} D 7 = {}

Inverzní etnost v dokumentu [Manning et al., 2008] Term frequency tf etnost znaku t v ur itém dokumentu Po et dokument N Document frequency df t po et dokument, ve kterých se vyskytuje t Inverse document frequency idf t = log N df t P íklad: m jme dokumenty: {Máma mele maso}, {Ema maso solí, z masa bude ob d}, {Máma má Emu}, {Ema má mámu i ob d} N = 4 df t (maso) = 2 idf t (maso) = log 4 2 N = 4 df t (Ema) = 3 idf t (Ema) = log 4 3

Lesk v algoritmus: jednoduchý pro kaºdý význam s i slova w: nastav váhu v na 0: v(s i ) := 0 najdi mnoºinu slov O v okolí slova w pro kaºdé slovo o j z okolí O pro kaºdý význam s i pokud se o j nachází v denici n. p. uºití D i p i ti v(o) k v(s i ): v(s i ) := v(s i ) + v(o) vyber s i s nejvy²²ím v(s i ): return max(v(s i )) váha slova v(o) = idf o

Lesk v algoritmus: jednoduchý 1. malá ko kovitá ²elma, chovaná v domácnostech, na venkov zvl. pro hubení my²í; ko ka domácí (zool.); ²edivá, erná, t íbarevná k.; hladká srst ko ky; k. m ouká, p ede; k. se plíºí, íhá na my²; k. chytá ptáky; angorská k.; být fale²ný, úlisný jako k.; p en. expr. je to k. fale²ník; to d v e je k. lichotné, úlisné; [x] jsou na sebe jako pes a k. nenávidí se... 2. malá n. st edn velká ²elma s hustým koºichem; zool. rod Felis: k. plavá; k. divoká; k. domácí 3. samice ko kovité ²elmy v bec; rysí k.; lví k.; expr. kaºdá ko kovitá ²elma v bec (tygr, levhart aj.) 4. ob. koºi²ina na límci, kolem krku n. ramen 5. kocovina (Ha².) 6. v c p ipomínající n kt. vlastnost ko ky: bot. velký trs ost ic vystupující z ra²elini²t (na blatech); tech. pojízdný vozík je ábu se zdvihacím ústrojím 7. druh d tek; devítiocasá k.

Lesk v algoritmus: jednoduchý Aminokyselina DL-methionin okyseluje mo, ímº chrání mo ové ústrojí ps i ko ek (d leºitá vlastnost zvlá²t u kastrovaných jedinc ). i D i v(s i ) 1 D 1 = {pes(1, 525),zvlá²t (1, 83)} 3,355 2 D 2 = {} 0 3 D 3 = {} 0 4 D 4 = {} 0 5 D 5 = {} 0 6 D 6 = {u(0, 363),vlastnost(1, 79),ústrojí(2, 32)} 3,173 7 D 7 = {} 0

Agirre, E. and Edmonds, P. (2006). Word sense disambiguation: algorithms and applications. Text, speech, and language technology. Springer. Kilgarri, A. and Rosenzweig, J. (2000). English senseval: Report and results. In Proceedings of the 2nd International Conference on Language Resources and Evaluation, pages 12391244. Manning, C. D., Raghavan, P., and Schtze, H. (2008). Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA.