Hodnocení kvalty sumarzátorů textů Josef Stenberger 1, Karel Ježek 1 1 Katedra nformatky a výpočetní technky, FAV, ZČU Západočeská Unverzta v Plzn, Unverztní, 306 14 Plzeň {jsten, jezek_ka}@kv.zcu.cz Abstrakt. Příspěvek se zabývá možnostm hodnocení kvalty výsledků sumarzátorů textů. Jsou zde popsány jednotlvé třídy metod hodnocení. Větší pozornost je věnována třídě metod založených na podobnost obsahu. Uvádíme dvě nové metody hodnocení kvalty extraktů, které využívají sngulární dekompozc. Článek prezentuje výsledky testování tří sumarzátorů hodnocených z hledska standardní kosnové metody a dvou nových metod založených na sngulární dekompozc. Podobnost obsahu extraktu je měřena jak k plnému textu tak k jeho abstraktu. Klíčová slova: sumarzace, extrakt, abstrakt, sngulární dekompozce 1 Úvod Automatcká sumarzace textů je vědecká dscplína, která v dnešní době poutá stále větší pozornost. Obrovské množství elektronckých nformací se musí redukovat, aby se s nm užvatel mohl efektvněj vypořádat. Exstuje mnoho sumarzačních metod. První skupnu tvoří extraktvní metody (Summarzaton by Extracton), jejchž cílem je vybrat nejvýznamnější věty v sumarzovaném textu a výsledkem je tedy extrakt. V dnešní době se začínají vyvíjet také algortmy, které by umožňovaly automatckou tvorbu abstraktu generováním nových vět (Summarzaton by Generaton). Tyto metody jsou však stále málo dokonalé. Pokud však chceme vylepšovat sumarzační metody, musíme nejprve vyvnout způsoby, jak posuzovat jejch kvaltu. Tento příspěvek se zabývá přístupy k hodnocení extraktů. Metody lze rozdělt do dvou skupn. První tvoří metody, které zjšťují, nakolk je automatcký systém schopný zachytt hlavní myšlenky zdrojového dokumentu (content evaluaton). Metody druhé skupny měří textovou kvaltu výstupu sumarzátoru hodnotí čtvost, gramatku a logckou souvslost extraktu (text qualty evaluaton). Dále je možné rozdělt metody na vntřní (ntrstc) a vnější (extrnsc). První skupna metod vychází z obecných požadavků na abstrakty. Zkoumá tedy nformatvnost, pokrytí a správnost abstraktů (extraktů). Druhá zkoumá jejch kvaltu vzhledem k určtému cílovému použtí. V aktuálním výzkumu jsou domnantní následující řešení: 1. Srovnání extraktu s referenčním textem (vntřní hodnocení) vz kap., 3 a 5. Subjektvní hodnocení soudců (vntřní hodnocení) 3. Aplkačně založené hodnocení (vnější hodnocení) vz kap. 4
Pro extrakty vět je často měřena podobnost výběru vět extraktu s referenčním extraktem (co-selecton). Jako hlavní metrky se používají přesnost, úplnost a F-skóre [5]. Tyto metody sebou však přnáší také některá omezení. Například lze je použít pouze pro extraktvní sumarzátory. Tuto nevýhodu odstraňují metody založené na podobnost obsahu (content-based), které měří podobnost s referenčním extraktem na úrovn slov [5]. Aplkačně založené metody (task-based) měří kvaltu extraktů z hledska jejch použtí pro určtý úkol. Příkladem je kategorzace textů (vz kap. 4). Metody založené na společném výběru částí textu Tyto metody měří kvaltu z hledska společného výskytu částí textu (většnou vět) v extraktech. Je zde nutné mít k dspozc referenční extrakt nebol extrakt, který se považuje za správný (gold standard). Tento extrakt se nejčastěj získává tak, že několk ldí (soudců) vybere věty, které by dle jejch mínění neměly v extraktu chybět. Věty, které jsou vybrány nejvíce soudc se zařadí do referenčního extraktu. V další část uvádíme tř možnost měření kvalty..1 Přesnost a úplnost Koefcenty přesnost a úplnost jsou defnovány jako: Koefcent přesnost (Precson): P ( E ) = A A + C (1) Koefcent úplnost (Recall): R ( E ) = A A + B () E = vyhodnocovaný extrakt A = počet shodných vět ve vyhodnocovaném a referenčním extraktu C = počet vět, které jsou ve vyhodnocovaném extraktu, ale nejsou v referenčním B = počet vět, které jsou v referenčním extraktu, ale nejsou ve vyhodnocovaném. Kappa Kappa je statstcká míra, která má následující výhody: Vylučuje náhodnou shodu, která je defnována jako úroveň kvalty, která bude dosažena náhodným výběrem vět. Umožňuje určení pravděpodobnost shody mez soudc. Koefcent Kappa (K) je defnován následovně: P( S ) P( N ) K =, (3) 1 P( N )
kde P(S) je pravděpodobnost shody mez systémem (resp. soudcem) a referenčním extraktem (resp. jným soudcem) a P(N) je pravděpodobnost náhodné shody. Tedy K=0, pokud je shoda sumarzačního systému stejná jako př náhodné shodě a K=1, pokud je hodnocený extrakt shodný s referenčním (perfektní shoda). Pokud je shoda horší, než by se očekávalo př náhodné shodě, kappa může být také záporné..3 Relatvní přínos Jednotlví soudc nejprve ohodnotí věty (0-10). Ohodnocení automatckých extraktů se potom zvyšuje přítomností vět s vysokým ohodnocením a snžuje přítomností redundantních vět [5]. 3 Metody založené na podobnost obsahu Manuální extrakty (vytvořené soudc) však obecně nesdílejí mnoho stejných vět, a proto je problém získat referenční extrakt. Další nevýhodou výše popsaných metod je neschopnost zachytt sémantku vět. Porovnejme například význam následujících dvou vět: S1: Návštěva prezdenta Spojených států amerckých v Číně S: Amercký prezdent navštívl Čínu Do referenčního extraktu bude zařazena pouze jedna z těchto vět. Př hodnocení metodam založeným na společném výběru vět se bude přítomnost druhé věty v extraktu brát jako chyba. S těmto nepříjemným vlastnostm se lze vypořádat použtím metod založených na podobnost obsahu. Tyto metody počítají podobnost extraktů na nžší úrovn než jenom na úrovn celých vět. Nabízí se zde tř možnost: a) počítat podobnost vyhodnocovaného extraktu s referenčním extraktem, b) počítat průměr z podobností vyhodnocovaného extraktu s jednotlvým manuálním extrakty, c) počítat podobnost vyhodnocovaného extraktu s plným dokumentem. Následují tř běžná měření podobnost. 3.1 Kosnová podobnost Kosnová podobnost (Cosne Smlarty) se spočítá podle následujícího vzorce: cos( X, Y ) = x * y, x * ( y ) ( ) (4)
kde X a Y jsou reprezentace textu ve vektorovém modelu. U kosnové podobnost se pro reprezentace textu používají slova nebo lemmata. 3. Překrytí obsahu Překrytí obsahu (Unt Overlap) lze spočítat následujícím způsobem: X Y overlap ( X, Y ) =, (5) X + Y X Y kde X a Y jsou množnové reprezentace textu. S je mohutnost množny S. Zde se jako jednotky reprezentace textu používají množny slov nebo lemmat. 3.3 Nejdelší subsekvence Nejdelší subsekvenc (Longest Common Subsequence) můžeme spočítat následující formulí: length( X ) + length( Y ) edt d ( X, Y ) lcs( X, Y ) =, (6) kde length(x) je počet slov řetězce X a edt d (X,Y) je mnmální počet operací vložení a vymazání slov potřebný k transformac X na Y. 4 Aplkačně založené metody Aplkačně založené metody zjšťují kvaltu skrze užtí automatckých extraktů pro daný praktcký úkol. Testovat je možné například zvýšení rychlost č přesnost vyhledávání dokumentů, pokud je vyhledávání založené na extraktech místo na plných dokumentech (Korelace relevance). Dalším možným měřením je úspěšnost kategorzace dokumentů do tématckých skupn, pokud se ndexují extrakty místo původních dokumentů. 4.1 Korelace relevance Korelace relevance (RC - Relevance correlaton) je nová technka, která umožňuje měřt relatvní pokles výkonu získávání nformací, pokud se ndexují extrakty místo plných dokumentů [5]. Předpokládejme, že máme dotaz Q a kolekc dokumentů D, vyhledávací systém seřadí dokumenty D podle jejch relevance k dotazu Q. Potom provedeme substtuc plných dokumentů za extrakty S a stejný vyhledávací systém seřadí dokumenty S podle jejch relevance k dotazu Q. Pokud jsou extrakty dobrou náhradou původních dokumentů, předpokládá se, že pořadí v obou případech budou podobná. Exstuje několk metod pro měření podobnost pořadí (Kendall s tau [8], Spearman s rand correlaton [8]). Protože však máme navíc k dspozc (z vyhledávacího systému) relevanc jednotlvých dokumentů k dotazu, můžeme spočítat RC následujícím způsobem:
RC = ( x x) ( x x)( y y) ( y y) kde x je relevance dokumentu D k dotazu Q, y je relevance dokumentu S k dotazu Q. x (resp. y ) je průměrná relevance dokumentů D (resp. S ) k dotazu Q., (7) 4. Kategorzace dokumentů Tato metoda zjšťuje vhodnost použtí extraktů místo plných textů pro pozdější kategorzac. Pro měření je potřebná zatříděná kolekce dokumentů. Př tomto způsobu testování se ke klasfkac používá automatcký klasfkátor. Z důvodu oddělení chyby klasfkátoru a chyby sumarzátoru je pak nutné použtí některých základních hodnot pro porovnání. Výsledné hodnoty klasfkace extraktů jsou proto porovnávány např. s výsledky hodnocení původních dokumentů nebo hodnocení náhodně vybraných vět. Posledním problémem zůstává míra určující kvaltu extraktu. Obecně se používají koefcenty přesnost kategorzace P a úplnost kategorzace R: p P =, (8) q p R =, (9) r kde p je počet tříd, do kterých je dokument správně zatříděn klasfkátorem, q je celkový počet tříd, do kterých je dokument klasfkátorem zařazen a r je počet relevantních tříd, do kterých byl dokument klasfkovaný př předchozím ručním zatřďování. Potom P a R pro celou kolekc je průměrem P a R přes všechny dokumenty. Z defnce je možné vdět, že oba ukazatele spolu souvsí a zvyšováním jednoho se druhý bude snžovat. Př zařazení dokumentu do co nejvyššího počtu tříd bude vysoká úplnost, př snžování počtu tříd se bude zvedat přesnost. Z toho důvodu se pak používá pro hodnocení klasfkace např. průměr z obou hodnot [4]. 5 Hodnocení sngulární dekompozcí Sngulární dekompozce je proces, který je schopen najít v dokumentu hlavní témata (n-tce slov) a hodnoty jejch významnost. Tuto vlastnost využívají naše dvě nová hodnocení, která zjšťují podobnost hlavního tématu (respektve n hlavních témat) automatckého extraktu a referenčního dokumentu. Protože jsou tyto metody založeny na podobnost obsahu, lze jako referenční dokument použít manuální abstrakt, který může obsahovat nově vytvořené věty.
5.1 Sngulární dekompozce (Sngular Value Decomposton) Sngulární dekompozce (SVD) je numercký proces, který se hojně používá př redukc dat. V poslední době byly navrženy algortmy, které sngulární dekompozcí řeší klasfkac nebo vyhledávání dokumentů (latentní sémantcké ndexování). SVD byla jž použta pro sumarzac [3]. Na této myšlence jsou založeny naše hodnotící algortmy. Proces začíná vytvořením matce termů prot větám A = [A 1, A,, A n ], kde každý sloupcový vektor A reprezentuje vektor frekvencí termů ve větě v dokomponovaném dokumentu. Pokud dokument obsahuje m termů a n vět, získá se matce A o rozměrech m n. Matce A je zpravdla řídká, protože normálně se každé slovo v každé větě nevyskytuje. Sngulární dekompozce matce A je potom defnována jako: A T = UΣV, (10) kde U = [u j ] je m n sloupcově ortonormální matce, jejíž sloupce se nazývají levé sngulární vektory, Σ = dag(σ 1, σ,,σ n ) je n n dagonální matce, jejíž dagonální prvky jsou nezáporná sngulární čísla seřazená sestupně a V = [v j ] je n n ortonormální matce, jejíž sloupce se nazývají pravé sngulární vektory (vz obr. 1). Pokud r je řád matce A, potom (vz []) Σ splňuje: σ... 1 σ σ r > σ r+ 1 =... = σ n = 0. (11) Obr. 1. Sngulární dekompozce Na nterpretac aplkování SVD na matc termů prot větám se můžeme dívat ze dvou pohledů. Z transformačního pohledu SVD zprostředkovává mapování mez m- dmenzonálním prostorem vektorů frekvencí termů a r-dmensonálním sngulárním vektorovým prostorem. Ze sémantckého pohledu SVD poskytuje latentní sémantckou strukturu dokumentu reprezentovaného matcí A. Tato operace vyjadřuje rozklad orgnálního dokumentu do r lneárně nezávslých bázových vektorů. Každý term věta dokumentu jsou ndexovány těmto bázovým vektory. Unkátní vlastností sngulárního rozkladu je schopnost zachytt a modelovat vntřní vztahy mez termy tak, že může sémantcky shlukovat termy a věty. Dále, jak je demonstrováno v [],
pokud se v dokumentu často vyskytuje určtá kombnace slov, pak bude tato kombnace zachycena a reprezentována jedním ze sngulárních vektorů. Velkost odpovídajícího sngulárního čísla ndkuje významnost kombnace v dokumentu. Každá věta obsahující tuto kombnac slov bude promítnuta blízko odpovídajícího sngulárního vektoru a věta, která nejlépe reprezentuje tuto kombnac bude mít největší hodnotu v tomto vektoru. Každá kombnace slov popsuje určté téma dokumentu. Lze tedy na základě předchozích faktů říc, že každý sngulární vektor reprezentuje určté téma dokumentu a velkost korespondujícího sngulárního čísla reprezentuje významnost tohoto tématu [3]. Na základě předchozí dskuse jsme navrhl metodu hodnotící kvaltu extraktů. Tato metoda využívá sngulární rozklad matce termů prot větám, konkrétně matc U, která popsuje míru významnost termů v hlavních tématech (sngulárních vektorech) dokumentu. Př hodnocení měříme podobnost mez matcí U získanou sngulárním rozkladem orgnálního dokumentu (nebo referenčního extraktu nebo abstraktu) a matcí U získanou sngulárním rozkladem hodnoceného extraktu. Pro zjštění této podobnost jsme navrhl následující dvě měření. 5. Podobnost hlavního tématu Tento způsob měření porovnává první levé sngulární vektory získané sngulárním rozkladem referenčního dokumentu (plný text, referenční extrakt nebo abstrakt) a extraktu. Tyto vektory odpovídají hlavnímu tématu dokumentu. Čím více se tedy podobá hlavní téma extraktu hlavnímu tématu referenčního dokumentu, tím je extrakt kvaltnější. Podobnost měříme úhlem mez vektory, které jsou normalzované, takže můžeme použít následující vzorec: n cosϕ = ue ur, (1) í = 1 kde ur je první levý sngulární vektor rozkladu referenčního dokumentu, ue je první levý sngulární vektor extraktu (hodnoty odpovídající termům jsou uspořádány podle referenčního dokumentu a na místě chybějících termů jsou nuly), n je počet různých termů referenčního dokumentu. 5.3 Podobnost n nejvýznamnějších témat Tento způsob hodnotí podobnost z pohledu n hlavních témat porovnávaných dokumentů. Nejprve vytvoříme sngulární rozklady referenčního dokumentu a hodnoceného extraktu. Potom pro oba dokumenty vynásobíme matce U a Σ. Získáme tím matce S e ( pro extrakt) a S r (pro referenční dokument): S = Σ, (13) e U e e S = Σ. (14) r U r r
Důvodem tohoto násobení je zvýhodnění hodnot v matc U, které patří k nejvyšším sngulárním číslům (nevýznamnějším tématům). Pro každý vektor termu (vz obr. ) pak spočítáme jeho délku (pro extrakt referenční dokument): n d k = s k = 1,, (15) kde d k je délka vektoru k-tého termu, n je počet témat. V našch expermentech jsme zvoll konstantní počet tří nejvýznamnějších témat. Obr.. Vytvoření výsledných vektorů ref. dokumentu a extraktu Z délek vektorů termů sestavíme výsledný vektor délek termů v latentním prostoru vznklém sngulární dekompozcí (vz obr. ). Získáme tím tedy dva výsledné vektory jeden pro extrakt (de) a druhý pro referenční dokument (dr). Tyto vektory potom znormalzujeme. Pro změření jejch podobnost použjeme opět kosnovou míru analogcky s (1): n cosϕ = de dr. (16) í = 1 Tato metoda má následující výhodu oprot předchozí. Pokud budeme uvažovat orgnální dokument jako referenční a ten bude obsahovat dvě přblžně stejně důležtá témata (odpovídající sngulární čísla budou mít přblžně stejnou hodnotu), pak se může stát, že v extraktu převládne druhé nejvýznamnější téma nad prvním a hlavní téma bude vyhodnoceno jako velm rozdílné. Tuto nevýhodu odstraníme, pokud hodnotíme podle více témat. 6 Testování 6.1 Testovací kolekce K testování nových metod jsme použl kolekc Computaton and Language Collecton (cmp-lg) [7], která byla vytvořena korporací MITRE a unverztou v Ednburghu. Tato kolekce formátu xml slouží jako zdroj pro testování v oblast
dolování znalostí a sumarzace textů. Vyskytují se zde vědecké dokumenty dlouhé průměrně 169 vět a také jsou zde jejch abstrakty. Tabulka 1. Detaly o testovací kolekc cmp-lg Počet dokumentů 178 Mnmální počet vět v dokumentu 45 Maxmální počet vět v dokumentu 750 Průměrný počet vět v dokumentu 169 Průměrný počet slov v dokumentu 4504 Průměrný počet významových slov v dokumentu 1653 Průměrný počet různých významových slov v dokumentu 59 6. Výsledky Úkolem testování bylo porovnání nových hodnocení, založených na sngulární dekompozc, se standardní kosnovou podobností. Porovnával jsme extrakty tří sumarzátorů. Prvním je náš sumarzátor, založený na myšlence sumarzování sngulární dekompozcí [6]. Druhým je náhodný sumarzátor (RANDOM), který vybírá náhodné věty dokumentu. Ten slouží ke stanovení spodní hrance úspěšnost. Třetí je sumarzátor se zabudovanou pozční heurstkou (LEAD) [5]. Ten preferuje věty na začátku dokumentu. Z výsledků lze tedy zkoumat, zda a nakolk se vyskytují důležté nformace na začátku dokumentu. Nejprve jsme jako referenční dokument vzal plný text. Zkoumal jsme tedy podobnost plného textu a jeho extraktu. Potom jsme porovnával abstrakt, který byl v kolekc přpojen ke každému článku, a automatcký extrakt. Sumarzační poměr byl stanoven na 3%, 5% a 10%. Jako sumarzační jednotku jsme nejprve bral větu, ale toto nastavení penalzovalo náhodné a pozční extrakty, které mohou vybrat velm krátké věty a celé extrakty tedy mohou být podstatně kratší. Proto bylo nakonec jako sumarzační jednotka nastaveno slovo a všechny extrakty byly přblžně stejně dlouhé. Důležtým faktorem kvalty sngulárního rozkladu je kvalta lematzačního slovníku. Př našem testování jsme použl lematzační slovník (SMART s Englsh Stoplst), jehož autory jsou M.W. Berry a S. Dumas [1]. Hodnoty v následujících tabulkách udávají kosnus odchylky vektorů. Tabulka. Hodnocení kvalty 3% extraktů (ref. dokument je plný text) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.651 0.51 0.46 Podobnost hlavního tématu 0.694 0.390 0.371 Podobnost třech hlavních témat 0.650 0.40 0.378
Tabulka 3. Hodnocení kvalty 5% extraktů (ref. dokument je plný text) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.71 0.603 0.504 Podobnost hlavního tématu 0.767 0.453 0.449 Podobnost třech hlavních témat 0.653 0.486 0.449 Tabulka 4. Hodnocení kvalty 10% extraktů (ref. dokument je plný text) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.788 0.733 0.617 Podobnost hlavního tématu 0.858 0.608 0.565 Podobnost třech hlavních témat 0.7 0.600 0.556 V předchozích tabulkách je vdět, že u kosnové podobnost není přílš velký rozdíl mez propracovanou sumarzační technkou (SVD) a náhodným výběrem vět. U obou hodnocení sngulární dekompozcí je rozdíl podstatně větší. Pozční sumarzátor byl vyhodnocen jako horší než náhodný. Tabulka 5. Hodnocení kvalty 3% extraktů (ref. dokument je abstrakt) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.543 0.40 0.551 Podobnost hlavního tématu 0.35 0.095 0.95 Podobnost třech hlavních témat 0.308 0.100 0.84 Tabulka 6. Hodnocení kvalty 5% extraktů (ref. dokument je abstrakt) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.57 0.71 0.604 Podobnost hlavního tématu 0.353 0.110 0.341 Podobnost třech hlavních témat 0.319 0.119 0.335
Tabulka 7. Hodnocení kvalty 10% extraktů (ref. dokument je abstrakt) Hodnocení Sumarzátor SVD RANDOM LEAD Kosnová podobnost 0.599 0.308 0.669 Podobnost hlavního tématu 0.387 0.149 0.403 Podobnost třech hlavních témat 0.353 0.147 0.380 Dále jsme zjšťoval podobnost extraktů s abstrakty. U 3% extraktů byl vyhodnocen SVD sumarzátor jako nejlepší, ale u delších extraktů (5% a 10%) jej jž převýšl pozční sumarzátor. Toto zdánlvě překvapující zjštění potvrdlo, že na začátku článků se vyskytují významné nformace. Je to vlastnost, které využívají např. heurstcké sumarzátory (pozční heurstka vyšší ohodnocení vět v úvodech článků). 7 Závěr Tento příspěvek představl moderní trendy př hodnocení kvalty sumarzátorů. Popsal jsme také novou hodnotící metodu založenou na sngulární dekompozc. Testování prokázalo, že nová metoda je schopna rozlšt kvaltní extrakty od náhodných výběrů vět lépe než dnes používaná kosnová metoda. Dále jsme zaznamenal, že SVD je velce ctlvá na kvaltu stoplstu a lematzační proces. V dalším výzkumu plánujeme zkvaltnění výstupu našeho SVD sumarzátoru. Budou zkoumány následující možnost rezoluce anafor, redukce a kombnace vět a vyloučení podobných vět. Cílem je vyvnout ntelgentní sumarzační systém, který bude schopen prezentovat koherentní extrakty, které by správně vysthovaly původní dokument. Je zřejmé, že bez kvaltních hodnotících metod se neobejdeme. Příspěvek vznkl za částečné podpory výzkumného záměru MSM 3500005 a ME494. Reference 1. Berry M.W., Dumas S. http://www.cs.utk.edu/~ls/.. Berry M.W., Dumas S.T., O Bren G.W. Usng Lnear Algebra for Intellgent Informaton Retreval. SIAM Revew. 1995. 3. Gong Y., Lu X. Generc Text Summarzaton Usng Relevance Measure and Latent Semantc Analyss. Sborník 4. konference ACM SIGIR 001. New Orleans, USA 001. 4. Hynek J., Ježek K. Practcal Approach to Automatc Text Summarzaton. Sborník 7. konference ELPUB 03. Gumaraes, Portugalsko 003.
5. Radev R., Teufel S., Saggon H., Lam W., Bltzer J., Q H., Celeb A., Lu D., Drabek E. Evaluaton Challenges n Large-scale Document Summarzaton. Sborník 41. konference ACL 003. Sapporo, Japonsko 003. 6. Stenberger J., Ježek K. Text Summarzaton and Sngular Value Decomposton. Sborník 3. konference ADVIS 04. Izmr, Turecko 004. 7. TIPSTER Text Summarzaton Evaluaton Conference (SUMMAC). http://www-nlpr.nst.gov/related_projects/tpster_summac/cmp_lg.html 8. Segel S., Castellan N. J. Jr. Nonparametrc Statstcs for the Behavoral Scences. Berkeley, CA: McGraw-Hll, nd edn., 1988 Annotaton: Qualty Evaluaton of Text Summarzers Ths paper descrbes possbltes of summary qualty evaluaton. Frstly, we menton the taxonomy of evaluaton approaches. Further, we pay close attenton to contentbased methods. Then, two new evaluaton methods that use sngular value decomposton are proposed. Fnally, we present evaluaton results for three dfferent summarzers from the angle of standard cosne content-based method and the two new evaluaton methods based on the sngular value decomposton. In the tests the content smlarty between an orgnal document and ts summary and between the summary and ts correspondng abstract was compared.