Hodnocení kvality sumarizátorů textů

Podobné dokumenty
Sumarizace textů. Univerzitní 8, Plzeň Karel Jezek 2 European Commission Joint Research Centre, IPSC Ispra

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

Vícekriteriální rozhodování. Typy kritérií

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

HODNOCENÍ DODAVATELE SUPPLIER EVALUATION

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST

4.4 Exploratorní analýza struktury objektů (EDA)

MODELOVÁNÍ A SIMULACE

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

ALGORITMUS SILOVÉ METODY

POUŽITÍ METODY PERT PŘI ŘÍZENÍ PROJEKTŮ

Umělé neuronové sítě a Support Vector Machines. Petr Schwraz

Regresní a korelační analýza

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce

POROVNÁNÍ MEZI SKUPINAMI

Teorie efektivních trhů (E.Fama (1965))

8a.Objektové metody viditelnosti. Robertsův algoritmus

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

Rozšíření bag-of-words modelu dokumentu: srovnání bigramů a 2-itemsetů

MODELOVÁNÍ SEISMICKÉHO ZDROJE JAKO REÁLNÁ TESTOVACÍ ÚLOHA PRO NELINEÁRNÍ INVERSNÍ ALGORITMUS

Matematika I A ukázkový test 1 pro 2018/2019

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

Automatická klasifikace dokumentů do tříd za použití metody Itemsets

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

ANALÝZA A KLASIFIKACE DAT

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má

ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

1.2. Postup výpočtu. , [kwh/(m 3.a)] (6)

ANALÝZA PRODUKCE OLEJNIN ANALYSIS OF OIL SEED PRODUCTION. Lenka Šobrová

APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.

LOGICKÉ OBVODY J I Ř Í K A L O U S E K

1. Spektrální rozklad samoadjungovaných operátorů 1.1. Motivace Vlastní čísla a vlastní vektory symetrické matice 1 1 A = 1 2.

Metody zvýšení rozlišovací obrazů

PODKLADY PRO PRAKTICKÝ SEMINÁŘ PRO UČITELE VOŠ. Logaritmické veličiny používané pro popis přenosových řetězců. Ing. Bc. Ivan Pravda, Ph.D.

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

31 : : : : : 39

6 LINEÁRNÍ REGRESNÍ MODELY

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Statistická analýza jednorozměrných dat

u (x i ) U i 1 2U i +U i+1 h 2. Na hranicích oblasti jsou uzlové hodnoty dány okrajovými podmínkami bud přímo

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE

Statistická šetření a zpracování dat.

Dynamika psaní na klávesnici v kombinaci s klasickými hesly

Posuzování výkonnosti projektů a projektového řízení

1. Nejkratší cesta v grafu

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

Spojité regulátory - 1 -

Určení tvaru vnějšího podhledu objektu C" v areálu VŠB-TU Ostrava

MANAŽERSKÉ ROZHODOVÁNÍ

Využití logistické regrese pro hodnocení omaku

27 Systémy s více vstupy a výstupy

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Neparametrické metody

Přemysl Žiška, Pravoslav Martinek. Katedra teorie obvodů, ČVUT Praha, Česká republika. Abstrakt

Řešení radiační soustavy rovnic

Staré mapy TEMAP - elearning

Klasifikace a predikce. Roman LUKÁŠ

Úloha II.P... Temelínská

A u. jsou po řadě počáteční a koncové body úsečky; t je parametr:

MODEL LÉČBY CHRONICKÉHO SELHÁNÍ LEDVIN. The End Stage Renal Disease Treatment Model

Dopravní plánování a modelování (11 DOPM )

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

XXX. ASR '2005 Seminar, Instruments and Control, Ostrava, April 29,

Znamená vyšší korupce dražší dálnice? Evidence z dat Eurostatu. Michal Dvořák *

VÝVOJ SOFTWARU NA PLÁNOVÁNÍ PŘESNOSTI PROSTOROVÝCH SÍTÍ PRECISPLANNER 3D. Martin Štroner 1

Numerické metody optimalizace

Optimalizace metod pro multimediální aplikace v geodézii v prostředí IP sítí

Příspěvky do Fondu pojištění vkladů Garančního systému finančního trhu

Hodnocení účinnosti údržby

MĚŘENÍ ELEKTRICKÝCH PARAMETRŮ V OBVODECH S PWM ŘÍZENÝMI ZDROJI NAPĚTÍ Electric Parameter Measurement in PWM Powered Circuits

NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT

Metody analýzy rizika. Předběžné hodnocení rizika. Kontrolní seznam procesních rizik. Bezpečnostní posudek

EKONOMICKO-MATEMATICKÉ METODY

Numerická matematika A

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky LOGICKÉ OBVODY pro kombinované a distanční studium

Dolování z textu. Martin Vítek

Konverze kmitočtu Štěpán Matějka

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

MOŽNOSTI PREDIKCE DYNAMICKÉHO CHOVÁNÍ LOPAT OBĚŽNÝCH KOL KAPLANOVÝCH A DÉRIAZOVÝCH TURBÍN.

Konstrukce zásobníkového automatu LALR(1)

VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH

VLIV APLIKOVANÉ TECHNOLOGIE NA EFEKTIVNOST V SEKTORU VÝROBY MLÉKA # THE EFFECT OF APPLIED TECHNOLOGY ON THE EFFICIENCY IN DAIRY PRODUCTION

České vysoké učení technické v Praze Fakulta biomedicínského inženýrství

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

ROZHODOVÁNÍ VE FUZZY PROSTŘEDÍ

Energetická náročnost budov

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

Transkript:

Hodnocení kvalty sumarzátorů textů Josef Stenberger 1, Karel Ježek 1 1 Katedra nformatky a výpočetní technky, FAV, ZČU Západočeská Unverzta v Plzn, Unverztní, 306 14 Plzeň {jsten, jezek_ka}@kv.zcu.cz Abstrakt. Příspěvek se zabývá možnostm hodnocení kvalty výsledků sumarzátorů textů. Jsou zde popsány jednotlvé třídy metod hodnocení. Větší pozornost je věnována třídě metod založených na podobnost obsahu. Uvádíme dvě nové metody hodnocení kvalty extraktů, které využívají sngulární dekompozc. Článek prezentuje výsledky testování tří sumarzátorů hodnocených z hledska standardní kosnové metody a dvou nových metod založených na sngulární dekompozc. Podobnost obsahu extraktu je měřena jak k plnému textu tak k jeho abstraktu. Klíčová slova: sumarzace, extrakt, abstrakt, sngulární dekompozce 1 Úvod Automatcká sumarzace textů je vědecká dscplína, která v dnešní době poutá stále větší pozornost. Obrovské množství elektronckých nformací se musí redukovat, aby se s nm užvatel mohl efektvněj vypořádat. Exstuje mnoho sumarzačních metod. První skupnu tvoří extraktvní metody (Summarzaton by Extracton), jejchž cílem je vybrat nejvýznamnější věty v sumarzovaném textu a výsledkem je tedy extrakt. V dnešní době se začínají vyvíjet také algortmy, které by umožňovaly automatckou tvorbu abstraktu generováním nových vět (Summarzaton by Generaton). Tyto metody jsou však stále málo dokonalé. Pokud však chceme vylepšovat sumarzační metody, musíme nejprve vyvnout způsoby, jak posuzovat jejch kvaltu. Tento příspěvek se zabývá přístupy k hodnocení extraktů. Metody lze rozdělt do dvou skupn. První tvoří metody, které zjšťují, nakolk je automatcký systém schopný zachytt hlavní myšlenky zdrojového dokumentu (content evaluaton). Metody druhé skupny měří textovou kvaltu výstupu sumarzátoru hodnotí čtvost, gramatku a logckou souvslost extraktu (text qualty evaluaton). Dále je možné rozdělt metody na vntřní (ntrstc) a vnější (extrnsc). První skupna metod vychází z obecných požadavků na abstrakty. Zkoumá tedy nformatvnost, pokrytí a správnost abstraktů (extraktů). Druhá zkoumá jejch kvaltu vzhledem k určtému cílovému použtí. V aktuálním výzkumu jsou domnantní následující řešení: 1. Srovnání extraktu s referenčním textem (vntřní hodnocení) vz kap., 3 a 5. Subjektvní hodnocení soudců (vntřní hodnocení) 3. Aplkačně založené hodnocení (vnější hodnocení) vz kap. 4

Pro extrakty vět je často měřena podobnost výběru vět extraktu s referenčním extraktem (co-selecton). Jako hlavní metrky se používají přesnost, úplnost a F-skóre [5]. Tyto metody sebou však přnáší také některá omezení. Například lze je použít pouze pro extraktvní sumarzátory. Tuto nevýhodu odstraňují metody založené na podobnost obsahu (content-based), které měří podobnost s referenčním extraktem na úrovn slov [5]. Aplkačně založené metody (task-based) měří kvaltu extraktů z hledska jejch použtí pro určtý úkol. Příkladem je kategorzace textů (vz kap. 4). Metody založené na společném výběru částí textu Tyto metody měří kvaltu z hledska společného výskytu částí textu (většnou vět) v extraktech. Je zde nutné mít k dspozc referenční extrakt nebol extrakt, který se považuje za správný (gold standard). Tento extrakt se nejčastěj získává tak, že několk ldí (soudců) vybere věty, které by dle jejch mínění neměly v extraktu chybět. Věty, které jsou vybrány nejvíce soudc se zařadí do referenčního extraktu. V další část uvádíme tř možnost měření kvalty..1 Přesnost a úplnost Koefcenty přesnost a úplnost jsou defnovány jako: Koefcent přesnost (Precson): P ( E ) = A A + C (1) Koefcent úplnost (Recall): R ( E ) = A A + B () E = vyhodnocovaný extrakt A = počet shodných vět ve vyhodnocovaném a referenčním extraktu C = počet vět, které jsou ve vyhodnocovaném extraktu, ale nejsou v referenčním B = počet vět, které jsou v referenčním extraktu, ale nejsou ve vyhodnocovaném. Kappa Kappa je statstcká míra, která má následující výhody: Vylučuje náhodnou shodu, která je defnována jako úroveň kvalty, která bude dosažena náhodným výběrem vět. Umožňuje určení pravděpodobnost shody mez soudc. Koefcent Kappa (K) je defnován následovně: P( S ) P( N ) K =, (3) 1 P( N )

kde P(S) je pravděpodobnost shody mez systémem (resp. soudcem) a referenčním extraktem (resp. jným soudcem) a P(N) je pravděpodobnost náhodné shody. Tedy K=0, pokud je shoda sumarzačního systému stejná jako př náhodné shodě a K=1, pokud je hodnocený extrakt shodný s referenčním (perfektní shoda). Pokud je shoda horší, než by se očekávalo př náhodné shodě, kappa může být také záporné..3 Relatvní přínos Jednotlví soudc nejprve ohodnotí věty (0-10). Ohodnocení automatckých extraktů se potom zvyšuje přítomností vět s vysokým ohodnocením a snžuje přítomností redundantních vět [5]. 3 Metody založené na podobnost obsahu Manuální extrakty (vytvořené soudc) však obecně nesdílejí mnoho stejných vět, a proto je problém získat referenční extrakt. Další nevýhodou výše popsaných metod je neschopnost zachytt sémantku vět. Porovnejme například význam následujících dvou vět: S1: Návštěva prezdenta Spojených států amerckých v Číně S: Amercký prezdent navštívl Čínu Do referenčního extraktu bude zařazena pouze jedna z těchto vět. Př hodnocení metodam založeným na společném výběru vět se bude přítomnost druhé věty v extraktu brát jako chyba. S těmto nepříjemným vlastnostm se lze vypořádat použtím metod založených na podobnost obsahu. Tyto metody počítají podobnost extraktů na nžší úrovn než jenom na úrovn celých vět. Nabízí se zde tř možnost: a) počítat podobnost vyhodnocovaného extraktu s referenčním extraktem, b) počítat průměr z podobností vyhodnocovaného extraktu s jednotlvým manuálním extrakty, c) počítat podobnost vyhodnocovaného extraktu s plným dokumentem. Následují tř běžná měření podobnost. 3.1 Kosnová podobnost Kosnová podobnost (Cosne Smlarty) se spočítá podle následujícího vzorce: cos( X, Y ) = x * y, x * ( y ) ( ) (4)

kde X a Y jsou reprezentace textu ve vektorovém modelu. U kosnové podobnost se pro reprezentace textu používají slova nebo lemmata. 3. Překrytí obsahu Překrytí obsahu (Unt Overlap) lze spočítat následujícím způsobem: X Y overlap ( X, Y ) =, (5) X + Y X Y kde X a Y jsou množnové reprezentace textu. S je mohutnost množny S. Zde se jako jednotky reprezentace textu používají množny slov nebo lemmat. 3.3 Nejdelší subsekvence Nejdelší subsekvenc (Longest Common Subsequence) můžeme spočítat následující formulí: length( X ) + length( Y ) edt d ( X, Y ) lcs( X, Y ) =, (6) kde length(x) je počet slov řetězce X a edt d (X,Y) je mnmální počet operací vložení a vymazání slov potřebný k transformac X na Y. 4 Aplkačně založené metody Aplkačně založené metody zjšťují kvaltu skrze užtí automatckých extraktů pro daný praktcký úkol. Testovat je možné například zvýšení rychlost č přesnost vyhledávání dokumentů, pokud je vyhledávání založené na extraktech místo na plných dokumentech (Korelace relevance). Dalším možným měřením je úspěšnost kategorzace dokumentů do tématckých skupn, pokud se ndexují extrakty místo původních dokumentů. 4.1 Korelace relevance Korelace relevance (RC - Relevance correlaton) je nová technka, která umožňuje měřt relatvní pokles výkonu získávání nformací, pokud se ndexují extrakty místo plných dokumentů [5]. Předpokládejme, že máme dotaz Q a kolekc dokumentů D, vyhledávací systém seřadí dokumenty D podle jejch relevance k dotazu Q. Potom provedeme substtuc plných dokumentů za extrakty S a stejný vyhledávací systém seřadí dokumenty S podle jejch relevance k dotazu Q. Pokud jsou extrakty dobrou náhradou původních dokumentů, předpokládá se, že pořadí v obou případech budou podobná. Exstuje několk metod pro měření podobnost pořadí (Kendall s tau [8], Spearman s rand correlaton [8]). Protože však máme navíc k dspozc (z vyhledávacího systému) relevanc jednotlvých dokumentů k dotazu, můžeme spočítat RC následujícím způsobem:

RC = ( x x) ( x x)( y y) ( y y) kde x je relevance dokumentu D k dotazu Q, y je relevance dokumentu S k dotazu Q. x (resp. y ) je průměrná relevance dokumentů D (resp. S ) k dotazu Q., (7) 4. Kategorzace dokumentů Tato metoda zjšťuje vhodnost použtí extraktů místo plných textů pro pozdější kategorzac. Pro měření je potřebná zatříděná kolekce dokumentů. Př tomto způsobu testování se ke klasfkac používá automatcký klasfkátor. Z důvodu oddělení chyby klasfkátoru a chyby sumarzátoru je pak nutné použtí některých základních hodnot pro porovnání. Výsledné hodnoty klasfkace extraktů jsou proto porovnávány např. s výsledky hodnocení původních dokumentů nebo hodnocení náhodně vybraných vět. Posledním problémem zůstává míra určující kvaltu extraktu. Obecně se používají koefcenty přesnost kategorzace P a úplnost kategorzace R: p P =, (8) q p R =, (9) r kde p je počet tříd, do kterých je dokument správně zatříděn klasfkátorem, q je celkový počet tříd, do kterých je dokument klasfkátorem zařazen a r je počet relevantních tříd, do kterých byl dokument klasfkovaný př předchozím ručním zatřďování. Potom P a R pro celou kolekc je průměrem P a R přes všechny dokumenty. Z defnce je možné vdět, že oba ukazatele spolu souvsí a zvyšováním jednoho se druhý bude snžovat. Př zařazení dokumentu do co nejvyššího počtu tříd bude vysoká úplnost, př snžování počtu tříd se bude zvedat přesnost. Z toho důvodu se pak používá pro hodnocení klasfkace např. průměr z obou hodnot [4]. 5 Hodnocení sngulární dekompozcí Sngulární dekompozce je proces, který je schopen najít v dokumentu hlavní témata (n-tce slov) a hodnoty jejch významnost. Tuto vlastnost využívají naše dvě nová hodnocení, která zjšťují podobnost hlavního tématu (respektve n hlavních témat) automatckého extraktu a referenčního dokumentu. Protože jsou tyto metody založeny na podobnost obsahu, lze jako referenční dokument použít manuální abstrakt, který může obsahovat nově vytvořené věty.

5.1 Sngulární dekompozce (Sngular Value Decomposton) Sngulární dekompozce (SVD) je numercký proces, který se hojně používá př redukc dat. V poslední době byly navrženy algortmy, které sngulární dekompozcí řeší klasfkac nebo vyhledávání dokumentů (latentní sémantcké ndexování). SVD byla jž použta pro sumarzac [3]. Na této myšlence jsou založeny naše hodnotící algortmy. Proces začíná vytvořením matce termů prot větám A = [A 1, A,, A n ], kde každý sloupcový vektor A reprezentuje vektor frekvencí termů ve větě v dokomponovaném dokumentu. Pokud dokument obsahuje m termů a n vět, získá se matce A o rozměrech m n. Matce A je zpravdla řídká, protože normálně se každé slovo v každé větě nevyskytuje. Sngulární dekompozce matce A je potom defnována jako: A T = UΣV, (10) kde U = [u j ] je m n sloupcově ortonormální matce, jejíž sloupce se nazývají levé sngulární vektory, Σ = dag(σ 1, σ,,σ n ) je n n dagonální matce, jejíž dagonální prvky jsou nezáporná sngulární čísla seřazená sestupně a V = [v j ] je n n ortonormální matce, jejíž sloupce se nazývají pravé sngulární vektory (vz obr. 1). Pokud r je řád matce A, potom (vz []) Σ splňuje: σ... 1 σ σ r > σ r+ 1 =... = σ n = 0. (11) Obr. 1. Sngulární dekompozce Na nterpretac aplkování SVD na matc termů prot větám se můžeme dívat ze dvou pohledů. Z transformačního pohledu SVD zprostředkovává mapování mez m- dmenzonálním prostorem vektorů frekvencí termů a r-dmensonálním sngulárním vektorovým prostorem. Ze sémantckého pohledu SVD poskytuje latentní sémantckou strukturu dokumentu reprezentovaného matcí A. Tato operace vyjadřuje rozklad orgnálního dokumentu do r lneárně nezávslých bázových vektorů. Každý term věta dokumentu jsou ndexovány těmto bázovým vektory. Unkátní vlastností sngulárního rozkladu je schopnost zachytt a modelovat vntřní vztahy mez termy tak, že může sémantcky shlukovat termy a věty. Dále, jak je demonstrováno v [],

pokud se v dokumentu často vyskytuje určtá kombnace slov, pak bude tato kombnace zachycena a reprezentována jedním ze sngulárních vektorů. Velkost odpovídajícího sngulárního čísla ndkuje významnost kombnace v dokumentu. Každá věta obsahující tuto kombnac slov bude promítnuta blízko odpovídajícího sngulárního vektoru a věta, která nejlépe reprezentuje tuto kombnac bude mít největší hodnotu v tomto vektoru. Každá kombnace slov popsuje určté téma dokumentu. Lze tedy na základě předchozích faktů říc, že každý sngulární vektor reprezentuje určté téma dokumentu a velkost korespondujícího sngulárního čísla reprezentuje významnost tohoto tématu [3]. Na základě předchozí dskuse jsme navrhl metodu hodnotící kvaltu extraktů. Tato metoda využívá sngulární rozklad matce termů prot větám, konkrétně matc U, která popsuje míru významnost termů v hlavních tématech (sngulárních vektorech) dokumentu. Př hodnocení měříme podobnost mez matcí U získanou sngulárním rozkladem orgnálního dokumentu (nebo referenčního extraktu nebo abstraktu) a matcí U získanou sngulárním rozkladem hodnoceného extraktu. Pro zjštění této podobnost jsme navrhl následující dvě měření. 5. Podobnost hlavního tématu Tento způsob měření porovnává první levé sngulární vektory získané sngulárním rozkladem referenčního dokumentu (plný text, referenční extrakt nebo abstrakt) a extraktu. Tyto vektory odpovídají hlavnímu tématu dokumentu. Čím více se tedy podobá hlavní téma extraktu hlavnímu tématu referenčního dokumentu, tím je extrakt kvaltnější. Podobnost měříme úhlem mez vektory, které jsou normalzované, takže můžeme použít následující vzorec: n cosϕ = ue ur, (1) í = 1 kde ur je první levý sngulární vektor rozkladu referenčního dokumentu, ue je první levý sngulární vektor extraktu (hodnoty odpovídající termům jsou uspořádány podle referenčního dokumentu a na místě chybějících termů jsou nuly), n je počet různých termů referenčního dokumentu. 5.3 Podobnost n nejvýznamnějších témat Tento způsob hodnotí podobnost z pohledu n hlavních témat porovnávaných dokumentů. Nejprve vytvoříme sngulární rozklady referenčního dokumentu a hodnoceného extraktu. Potom pro oba dokumenty vynásobíme matce U a Σ. Získáme tím matce S e ( pro extrakt) a S r (pro referenční dokument): S = Σ, (13) e U e e S = Σ. (14) r U r r

Důvodem tohoto násobení je zvýhodnění hodnot v matc U, které patří k nejvyšším sngulárním číslům (nevýznamnějším tématům). Pro každý vektor termu (vz obr. ) pak spočítáme jeho délku (pro extrakt referenční dokument): n d k = s k = 1,, (15) kde d k je délka vektoru k-tého termu, n je počet témat. V našch expermentech jsme zvoll konstantní počet tří nejvýznamnějších témat. Obr.. Vytvoření výsledných vektorů ref. dokumentu a extraktu Z délek vektorů termů sestavíme výsledný vektor délek termů v latentním prostoru vznklém sngulární dekompozcí (vz obr. ). Získáme tím tedy dva výsledné vektory jeden pro extrakt (de) a druhý pro referenční dokument (dr). Tyto vektory potom znormalzujeme. Pro změření jejch podobnost použjeme opět kosnovou míru analogcky s (1): n cosϕ = de dr. (16) í = 1 Tato metoda má následující výhodu oprot předchozí. Pokud budeme uvažovat orgnální dokument jako referenční a ten bude obsahovat dvě přblžně stejně důležtá témata (odpovídající sngulární čísla budou mít přblžně stejnou hodnotu), pak se může stát, že v extraktu převládne druhé nejvýznamnější téma nad prvním a hlavní téma bude vyhodnoceno jako velm rozdílné. Tuto nevýhodu odstraníme, pokud hodnotíme podle více témat. 6 Testování 6.1 Testovací kolekce K testování nových metod jsme použl kolekc Computaton and Language Collecton (cmp-lg) [7], která byla vytvořena korporací MITRE a unverztou v Ednburghu. Tato kolekce formátu xml slouží jako zdroj pro testování v oblast

dolování znalostí a sumarzace textů. Vyskytují se zde vědecké dokumenty dlouhé průměrně 169 vět a také jsou zde jejch abstrakty. Tabulka 1. Detaly o testovací kolekc cmp-lg Počet dokumentů 178 Mnmální počet vět v dokumentu 45 Maxmální počet vět v dokumentu 750 Průměrný počet vět v dokumentu 169 Průměrný počet slov v dokumentu 4504 Průměrný počet významových slov v dokumentu 1653 Průměrný počet různých významových slov v dokumentu 59 6. Výsledky Úkolem testování bylo porovnání nových hodnocení, založených na sngulární dekompozc, se standardní kosnovou podobností. Porovnával jsme extrakty tří sumarzátorů. Prvním je náš sumarzátor, založený na myšlence sumarzování sngulární dekompozcí [6]. Druhým je náhodný sumarzátor (RANDOM), který vybírá náhodné věty dokumentu. Ten slouží ke stanovení spodní hrance úspěšnost. Třetí je sumarzátor se zabudovanou pozční heurstkou (LEAD) [5]. Ten preferuje věty na začátku dokumentu. Z výsledků lze tedy zkoumat, zda a nakolk se vyskytují důležté nformace na začátku dokumentu. Nejprve jsme jako referenční dokument vzal plný text. Zkoumal jsme tedy podobnost plného textu a jeho extraktu. Potom jsme porovnával abstrakt, který byl v kolekc přpojen ke každému článku, a automatcký extrakt. Sumarzační poměr byl stanoven na 3%, 5% a 10%. Jako sumarzační jednotku jsme nejprve bral větu, ale toto nastavení penalzovalo náhodné a pozční extrakty, které mohou vybrat velm krátké věty a celé extrakty tedy mohou být podstatně kratší. Proto bylo nakonec jako sumarzační jednotka nastaveno slovo a všechny extrakty byly přblžně stejně dlouhé. Důležtým faktorem kvalty sngulárního rozkladu je kvalta lematzačního slovníku. Př našem testování jsme použl lematzační slovník (SMART s Englsh Stoplst), jehož autory jsou M.W. Berry a S. Dumas [1]. Hodnoty v následujících tabulkách udávají kosnus odchylky vektorů. Tabulka. Hodnocení kvalty 3% extraktů (ref. dokument je plný text) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.651 0.51 0.46 Podobnost hlavního tématu 0.694 0.390 0.371 Podobnost třech hlavních témat 0.650 0.40 0.378

Tabulka 3. Hodnocení kvalty 5% extraktů (ref. dokument je plný text) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.71 0.603 0.504 Podobnost hlavního tématu 0.767 0.453 0.449 Podobnost třech hlavních témat 0.653 0.486 0.449 Tabulka 4. Hodnocení kvalty 10% extraktů (ref. dokument je plný text) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.788 0.733 0.617 Podobnost hlavního tématu 0.858 0.608 0.565 Podobnost třech hlavních témat 0.7 0.600 0.556 V předchozích tabulkách je vdět, že u kosnové podobnost není přílš velký rozdíl mez propracovanou sumarzační technkou (SVD) a náhodným výběrem vět. U obou hodnocení sngulární dekompozcí je rozdíl podstatně větší. Pozční sumarzátor byl vyhodnocen jako horší než náhodný. Tabulka 5. Hodnocení kvalty 3% extraktů (ref. dokument je abstrakt) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.543 0.40 0.551 Podobnost hlavního tématu 0.35 0.095 0.95 Podobnost třech hlavních témat 0.308 0.100 0.84 Tabulka 6. Hodnocení kvalty 5% extraktů (ref. dokument je abstrakt) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.57 0.71 0.604 Podobnost hlavního tématu 0.353 0.110 0.341 Podobnost třech hlavních témat 0.319 0.119 0.335

Tabulka 7. Hodnocení kvalty 10% extraktů (ref. dokument je abstrakt) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.599 0.308 0.669 Podobnost hlavního tématu 0.387 0.149 0.403 Podobnost třech hlavních témat 0.353 0.147 0.380 Dále jsme zjšťoval podobnost extraktů s abstrakty. U 3% extraktů byl vyhodnocen SVD sumarzátor jako nejlepší, ale u delších extraktů (5% a 10%) jej jž převýšl pozční sumarzátor. Toto zdánlvě překvapující zjštění potvrdlo, že na začátku článků se vyskytují významné nformace. Je to vlastnost, které využívají např. heurstcké sumarzátory (pozční heurstka vyšší ohodnocení vět v úvodech článků). 7 Závěr Tento příspěvek představl moderní trendy př hodnocení kvalty sumarzátorů. Popsal jsme také novou hodnotící metodu založenou na sngulární dekompozc. Testování prokázalo, že nová metoda je schopna rozlšt kvaltní extrakty od náhodných výběrů vět lépe než dnes používaná kosnová metoda. Dále jsme zaznamenal, že SVD je velce ctlvá na kvaltu stoplstu a lematzační proces. V dalším výzkumu plánujeme zkvaltnění výstupu našeho SVD sumarzátoru. Budou zkoumány následující možnost rezoluce anafor, redukce a kombnace vět a vyloučení podobných vět. Cílem je vyvnout ntelgentní sumarzační systém, který bude schopen prezentovat koherentní extrakty, které by správně vysthovaly původní dokument. Je zřejmé, že bez kvaltních hodnotících metod se neobejdeme. Příspěvek vznkl za částečné podpory výzkumného záměru MSM 3500005 a ME494. Reference 1. Berry M.W., Dumas S. http://www.cs.utk.edu/~ls/.. Berry M.W., Dumas S.T., O Bren G.W. Usng Lnear Algebra for Intellgent Informaton Retreval. SIAM Revew. 1995. 3. Gong Y., Lu X. Generc Text Summarzaton Usng Relevance Measure and Latent Semantc Analyss. Sborník 4. konference ACM SIGIR 001. New Orleans, USA 001. 4. Hynek J., Ježek K. Practcal Approach to Automatc Text Summarzaton. Sborník 7. konference ELPUB 03. Gumaraes, Portugalsko 003.

5. Radev R., Teufel S., Saggon H., Lam W., Bltzer J., Q H., Celeb A., Lu D., Drabek E. Evaluaton Challenges n Large-scale Document Summarzaton. Sborník 41. konference ACL 003. Sapporo, Japonsko 003. 6. Stenberger J., Ježek K. Text Summarzaton and Sngular Value Decomposton. Sborník 3. konference ADVIS 04. Izmr, Turecko 004. 7. TIPSTER Text Summarzaton Evaluaton Conference (SUMMAC). http://www-nlpr.nst.gov/related_projects/tpster_summac/cmp_lg.html 8. Segel S., Castellan N. J. Jr. Nonparametrc Statstcs for the Behavoral Scences. Berkeley, CA: McGraw-Hll, nd edn., 1988 Annotaton: Qualty Evaluaton of Text Summarzers Ths paper descrbes possbltes of summary qualty evaluaton. Frstly, we menton the taxonomy of evaluaton approaches. Further, we pay close attenton to contentbased methods. Then, two new evaluaton methods that use sngular value decomposton are proposed. Fnally, we present evaluaton results for three dfferent summarzers from the angle of standard cosne content-based method and the two new evaluaton methods based on the sngular value decomposton. In the tests the content smlarty between an orgnal document and ts summary and between the summary and ts correspondng abstract was compared.