Sumarizace textů. Univerzitní 8, Plzeň Karel Jezek 2 European Commission Joint Research Centre, IPSC Ispra

Podobné dokumenty
Hodnocení kvality sumarizátorů textů

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek

POROVNÁNÍ MEZI SKUPINAMI

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

Vícekriteriální rozhodování. Typy kritérií

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

ALGORITMUS SILOVÉ METODY

Statistická šetření a zpracování dat.

MODELOVÁNÍ A SIMULACE

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.

LOGICKÉ OBVODY J I Ř Í K A L O U S E K

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

Umělé neuronové sítě a Support Vector Machines. Petr Schwraz

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU

2. Definice pravděpodobnosti

8a.Objektové metody viditelnosti. Robertsův algoritmus

Neparametrické metody

6 LINEÁRNÍ REGRESNÍ MODELY

Hodnocení účinnosti údržby

permutace, popisující nějaké symetrie, je i π permutace, popisující nějakou symetrii.

POUŽITÍ METODY PERT PŘI ŘÍZENÍ PROJEKTŮ

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

Matematika I A ukázkový test 1 pro 2018/2019

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

u (x i ) U i 1 2U i +U i+1 h 2. Na hranicích oblasti jsou uzlové hodnoty dány okrajovými podmínkami bud přímo

ANALÝZA A KLASIFIKACE DAT

Přemysl Žiška, Pravoslav Martinek. Katedra teorie obvodů, ČVUT Praha, Česká republika. Abstrakt

Optimalizační přístup při plánování rekonstrukcí vodovodních řadů

Staré mapy TEMAP - elearning

Spojité regulátory - 1 -

KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Automatická klasifikace dokumentů do tříd za použití metody Itemsets

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má

Vkládání pomocí Viterbiho algoritmu

VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky LOGICKÉ OBVODY pro kombinované a distanční studium

Metody zvýšení rozlišovací obrazů

REGRESNÍ ANALÝZA. 13. cvičení

Řešení radiační soustavy rovnic

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

Metody analýzy rizika. Předběžné hodnocení rizika. Kontrolní seznam procesních rizik. Bezpečnostní posudek

Rozšíření bag-of-words modelu dokumentu: srovnání bigramů a 2-itemsetů

Univerzita Tomáše Bati ve Zlíně

Příspěvky do Fondu pojištění vkladů Garančního systému finančního trhu

Teoretické modely diskrétních náhodných veličin

Kinetika spalovacích reakcí

Energie elektrického pole

Posuzování výkonnosti projektů a projektového řízení

Digitální přenosové systémy a účastnické přípojky ADSL

Stanislav Olivík POROVNÁNÍ DVOU METOD HLEDÁNÍ ODRAZNÉHO BODU NA POVRCHU ELIPSOIDU

Dynamika psaní na klávesnici v kombinaci s klasickými hesly

Aplikace simulačních metod ve spolehlivosti

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

Konverze kmitočtu Štěpán Matějka

1. Spektrální rozklad samoadjungovaných operátorů 1.1. Motivace Vlastní čísla a vlastní vektory symetrické matice 1 1 A = 1 2.

Numerické metody optimalizace

MODELOVÁNÍ SEISMICKÉHO ZDROJE JAKO REÁLNÁ TESTOVACÍ ÚLOHA PRO NELINEÁRNÍ INVERSNÍ ALGORITMUS

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Obsah přednášky 1. Bayesův teorém 6. Naivní Bayesovský klasifikátor (NBK)

Maticová exponenciála a jiné maticové funkce

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

Řešení radiační soustavy rovnic

7. Analýza rozptylu jednoduchého třídění

EKONOMICKO-MATEMATICKÉ METODY

Teoretické modely diskrétních náhodných veličin

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Numerická matematika A

SCIENTIFIC PAPERS OF THE UNIVERSITY OF PARDUBICE APLIKACE NEURONOVÝCH SÍTÍ PRO DETEKCI PORUCH SIGNÁLŮ

Mechatronické systémy s elektronicky komutovanými motory

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE

Využití logistické regrese pro hodnocení omaku

Vysoké školy ekonomické v Praze

A u. jsou po řadě počáteční a koncové body úsečky; t je parametr:

27 Systémy s více vstupy a výstupy

KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla

4.4 Exploratorní analýza struktury objektů (EDA)

Společné zátěžové testy ČNB a vybraných pojišťoven

Simulační metody hromadné obsluhy

ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB. Vladimír Hanta 1, Ivan Gros 2

Hodnocení využití parku vozidel

Transformace dat a počítačově intenzivní metody

APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY

XXX. ASR '2005 Seminar, Instruments and Control, Ostrava, April 29,

Dopravní plánování a modelování (11 DOPM )

ČVUT FEL. X16FIM Finanční Management. Semestrální projekt. Téma: Optimalizace zásobování teplem. Vypracoval: Marek Handl

1 Projekce a projektory

Transkript:

Sumarzace textů Karel JEŽEK 1, Josef STEINBERGER 2 1 Katedra nformatky a výpočetní technky, FAV ZČU v Plzn Unverztní 8, 306 14 Plzeň Karel Jezek <jezek_ka@kv.zcu.cz> 2 European Commsson Jont Research Centre, IPSC Ispra T.P. 267, 21027 Ispra (VA), Italy Josef Stenberger <josef.stenberger@jrc.ec.europa.eu> Abstrakt. Jsme zahlcován stále větším množstvím nformací. Proto je v současné době velká pozornost věnována výzkumu a vývoj redukčních metod, které zachovávají co nejvyšší nformační hodnotu redukovaných dat. Úlohy tohoto typu známe pod názvem vytváření abstraktů, extraktů č sumarzace a lze je aplkovat na data všech možných forem. V tomto výkladu se zaměříme na data textového tvaru, který lze stále ještě považovat za základní formu pro sdílení nformací. Budou popsány prncpy a možnost jak klasckých sumarzačních metod, tak metod založených na moderních algebrackých postupech. Věnujeme také pozornost způsobu řešení těch úloh, které navazují na základní sumarzac jednoho dokumentu. Jedná se zajména o úlohy sumarzace vícedokumentové a aktualzační, kde je nutné řešt navíc problém nežádoucí redundantní nformace ve výsledku. Součástí výkladu bude pops způsobů hodnocení kvalty sumarzace a prezentování výsledků našeho vlastního výzkumu v této oblast. Klíčová slova: sumarzace, sumarzace textu, vícedokumentová sumarzace, aktualzační sumarzace, redukce dat, sngulární dekompozce, latentní sémantcká analýza. 1 Úvod Snadné a levné zpřístupnění nformací prostřednctvím zejména WWW, způsoblo jejch dříve nepředstavtelný nárůst a podnítlo zvýšený zájem o prostředky usnadňující jejch zvládnutí. Většna na webu přístupných stránek je tvořena textem. Proto je zvýšené úslí věnováno metodám, které zhušťují textem poskytované nformace, zkracují čas potřebný pro seznámení se s hlavním myšlenkam prezentovaným textem nebo alespoň rychle zprostředkují povědomí o tématech, kterým se text věnuje. Výsledné shrnutí musí pomocí výběru nebo s použtím zobecnění nformovat o obsahu a závěrech orgnálního textu. Přesto, že s pojmem sumarzace všchn běžně pracujeme, považujeme za vhodné uvést v úvodu jeho defnc. Vytváření souhrnu (sumarzac) můžeme defnovat např. jako: - Vytvoření stručné a přesné reprezentace obsahu dokumentu, - Vyjmutí nejdůležtější nformace ze zdrojového textu, která jej zestručňuje pro účely a úlohy užvatele. Sumarzace je úlohou, která je řešena od nepamět. Až do vznku počítačů samozřejmě manuálním způsobem, ale an použtí počítačů k jejímu řešení není horkou novnkou. Prvé pokusy se datují do polovny mnulého století. Za prvou publkac pojednávající o Petr Šaloun (ed.), DATAKON 2010, Mkulov, 16-19. 10. 2010, pp. 1-20.

Sumarzace textů počítačové sumarzac textu lze považovat Luhnovu prác [19], nsprovanou jž tehdy nformačním přetížením. Jím navržená metoda používá pro výběr vět do souhrnu frekvenc termů (slov nebo frází). Jným významným přínosem byla o něco pozděj uvedená Edmunsonova práce [7], která vycházela z poznatku, že věty s nejvyšší nformační hodnotou se obvykle vyskytují na začátku dokumentu. V devadesátých letech se v řešení sumarzačního problému začaly uplatňovat metody umělé ntelgence. Uveďme např. [17], popsující učící se systém založený na Nave Bayes klasfkátoru, který je trénován na korpusu dvojc dokument souhrn. Současné výkonné počítače, nástup WWW a nové poznatky využtelné př řešení sumarzační úlohy, spolu s potřebou řešt dnešní nformační přetížení jsou podnětem, na který reagovala řada výzkumných pracovšť pravdelně porovnávajících výsledky své práce na specalzovaných konferencích jako je Document Understandng Conference (DUC), nově Text Analyss Conference (TAC). Začaly se řešt úlohy sumarzace více dokumentů, multmedálních dokumentů a sumarzace aktualzační, která poskytuje nformace zohledňující předchozí znalost užvatele a podává mu jen nové nformace, vypouštěním nformací obsažených v dokumentech, se kterým jž byl dříve seznámen. Důležtou souvsející úlohou je vyhodnocování kvalty sumarzace a jejích kvanttatvních vlastností. Tyto vlastnost můžeme měřt podle následujících, vzájemně ortogonálních hledsek: - Sémantcké nformatvnost, - Souvslost textu, - Kompresního poměru. Sémantckou nformatvností rozumíme míru možnost zrekonstruovat ze souhrnu původní text. Souvslostí rozumíme míru s jakou na sebe navazují jednotlvé část souhrnu a vytváří tak ntegrovaný výsledný text. Kompresní poměr je podílem délky souhrnu a délky orgnálu. Způsob hodnocení může vycházet z porovnávání výsledného souhrnu s původním textem, s ručně vytvořeným souhrnem nebo se souhrnem vytvořeným jným sumarzačním systémem. Hodnotící metody mohou být rozděleny na: - Přímé metody, které jsou založené přímo na analýze souhrnu a jeho porovnání s orgnálem co do míry tematcké obsažnost, souvslost, čtelnost, gramatky apod. Porovnávat výsledek je možné s ručně vytvořeným abstraktem (od autora orgnálu nebo od profesonálního abstraktora), - Nepřímé metody, které jsou založené na míře použtelnost souhrnu pro zadaný účel. Tím může být např. klasfkační úloha, fltrování, vyhledávání nebo odpovídání na dotazy. Kvalta souhrnu pak může být určena kvanttatvním ukazatel jako jsou třeba přesnost a úplnost výběru podle souhrnu v porovnání s výběrem podle orgnálu nebo deálního, ručně konstruovaného souhrnu. Poznamenejme, že pojem deálního souhrnu je pouhou fkcí a pracovat s ním je třeba obezřetně. Další část příspěvku jsou uspořádány takto: Následující část zavádí termnolog a obecně pojednává o jednotlvých způsobech automatcké sumarzace. V další část se seznámíme s tradčním metodam, které jsou založeny na heurstckých č statstckých postupech a vznkly v mnulém mlénu, dále se věnujeme novějším sumarzačním postupům. V páté kaptole se budeme věnovat algebrackým způsobům sumarzace, které jsou pozoruhodné používáním metod matcové faktorzace. Šestá kaptola je věnována úlohám, které navazují na jednodokumentovou sumarzac a jsou předmětem zájmu současného výzkumu. Uvedeme rovněž výsledky některých vlastních prací. Sedmá část seznamuje se způsoby hodnocení kvalty sumarzace. Následuje závěr, s výhledem na další možný výzkum.

Zvaná přednáška 2 Typy sumarzátorů Exstuje několk navzájem nezávslých hledsek, která mohou být použta k zavedení taxonome sumarzátorů. Uveďme ta nejčastěj používaná hledska a z nch vycházející členění. - Forma souhrnu: o Extrakt je souhrn zcela tvořený sekvencem slov, které jsou okopírovány z původního dokumentu. Jako kopírované úseky mohou být použty fráze, věty nebo celé odstavce orgnálu. Jak lze předpokládat, extrakty trpí chabou souvslostí zařazených úseků, způsobenou zejména častým opomíjením anaforckých vztahů. Výběr vět může být proveden bez ohledu na kontext, výsledek bývá nevyvážený a nesourodý. o Abstrakt je souhrn, který nemusí obsahovat a většnou neobsahuje sekvence slov z orgnálního textu. V současné době se stále ještě jedná o úlohu, která je pro počítačové zpracování obtížně řeštelná. Vyžaduje analýzu vstupního textu včetně sémantcké analýzy a následnou syntézu, generující věty v přrozeném jazyce. - Úroveň zpracování souhrnu: o Povrchní přístupy, ve kterých jsou nformace reprezentovány prostřednctvím povrchních vlastností a jejch kombnacem. Povrchním vlastnostm jsou např. pozčně významné termy (vžlo se používat slovo term místo češtějšího termín), frekvenčně významné termy, termy specfcké pro zpracovávanou doménu nebo termy obsažené v užvatelově dotazu. Jejch výsledkem je extrakt. o Hlubší přístupy mohou produkovat extrakt nebo abstrakt. K určení významných částí textu využívají jeho sémantcké zpracování, zjšťují textové jednotky a jejch vzájemné vztahy jako jsou tezaurové relace, syntaktcké relace apod. Mohou využívat nformací o stavbě textu a rétorcké struktuře, případně hypertextových značek. - Účel, pro který je souhrn vytvářen: o Hodnotící souhrny, do kterých lze začlent krtky, recenze, posudky. Jejch charakterstckým rysem je, že vyjadřují mínění autora souhrnu o daném dokumentu. Tato okolnost zatím praktcky vylučuje hodnotící souhrny ze skupny automatcky generovatelných. o Indkatvní souhrny dávají zkrácenou formou nformac o hlavních tématech dokumentu, zachovávají jeho nejpodstatnější část. Měly by umožnt užvatel rozhodnout, zda čtení celého textu bude pro něj dostatečně přínosné. Jsou proto často využívány ve výstupech vyhledávacích systémů, kde nahrazují orgnální texty dokumentů. Jejch obvyklá délka bývá do 10% úplného textu. o Informatvní souhrny nahrazují orgnální dokument poskytnutím jeho stručného obsahu. Př zkrácení původního textu o 70-80%, může s souhrn zachovat důležté detaly orgnálu. Míra nformování čtatele by měla postačovat pro zběžné seznámení s tématem a vyhnout se tak čtení celého dokumentu. - Podle užvatelů můžeme souhrny rozdělt např. na: o Obecné souhrny, které jsou určeny pro šrokou třídu čtenářů, s různým zájmovým oblastm. Pro obecný souhrn jsou důležtá všechna v dokumentu obsažená témata.

Sumarzace textů o Souhrny založené na dotazu, jejch obsah je vytvořen tak, aby vybral z dokumentu nformace relevantní k dotazu užvatele. o Tematcky zaměřené souhrny vybírají nformace vztahující se k určtému tématu. o Aktualzační souhrny, zohledňující aprorní znalost užvatele. o Užvatelsky zaměřené souhrny obsahují pouze nformace týkající se oblastí zájmu jednotlvého užvatele nebo skupny užvatelů. - Na základě rozsahu: o Jednodokumentové souhrny. o Vícedokumentové souhrny. - Podle jazyka: o Multjazykové. o Monojazykové. - Dle použtého prncpu: o Heurstcké metody. o Statstcké metody (např. Nave Bayes, která je metodou s učtelem ). o Grafové metody (např. PageRank, která je metodou bez učtele ). o Algebracké metody (např. LSA, která je metodou bez učtele ). Jednotlvé prncpy se mohou vzájemně prolínat a doplňovat. V dalších částech s proto představíme alespoň některé zástupce jednotlvých skupn. 3 Klascké sumarzační metody 3.1 Heurstcké metody První pokusy s automatckou sumarzací jsou známé jž z polovny mnulého století. Pracovaly extraktvním způsobem s využtím povrchových ndkátorů pro výběr částí textu do výsledného extraktu. Za nejstarší je považován jž zmíněný algortmus publkovaný v [19]. Byl založen na předpokladu, že důležté termy se v textu často opakují, takže jejch frekvenc lze použít jako krterum pro výběr vět do extraktu. Algortmus nejprve zjstl počet výskytů jednotlvých slov (termů). Poté ohodnotl věty podle počtu a zjštěné významnost v nch obsažených slov a do souhrnu pak zařadl věty s nejvyšším ohodnocením. Běžná slova (tzv. stop slova) nebyla do ohodnocování zahrnuta. Jné heurstcké krterum bylo použto v [6]. Využívalo skutečnost, že důležtá slova se vyskytují v nadpsu, na začátku č na konc textu nebo bývají zdůrazněna přívlastky jako významný, výsledný, důsledek apod. Kombnace pozčního krtera spolu se zvýrazňujícím kontextem pak byla použta k ohodnocení a k výběru významných slov a jejch přítomnost ve větách ndkovala vhodnost vět k zařazení do souhrnu. 3.2 Statstcké metody Důležtost termů z dokumentu se odráží ve frekvenc jejch výskytu. Této skutečnost využíval jž Luhnuv sumarzátor a je dobře známa z ndexovacích mechansmů vyhledávacích systémů. Pokud se některé slovo ale bude vyskytovat v textech přílš často, jeho důležtost klesá. Proto je významnost termu t v dokumentu vyjadřována jako součn jeho frekvence výskytu tf a recproční hodnoty počtu jednotek s jeho přítomností (nverted document frequency) df. Do souhrnu jsou pak zařazovány věty, které jsou významné proto, že obsahují důležté termy. Postup sumarzace dokumentu může být popsán v následujících bodech:

Zvaná přednáška 1. Zkonstruuj pro každou větu zpracovávaného dokumentu vektor frekvence termů tf. 2. Zkonstruuj vektor D nverzní frekvence termů v celém dokumentu. 3. Vypočt významnost každé z vět dokumentu pomocí skalárního součnu tf D. 4. Do výsledku zařaď věty s nejvyšším skóre. Takto konstruovaný souhrn by pravděpodobně měl nedostatek. Přílš by akcentoval jedno hlavní téma dokumentu, které by bylo ve výsledku zastoupeno redundantně, proto bod 4 změníme, zařadíme do výsledku jen jednu větu v (s nejvyšším skóre) a dále provedeme: 5. Je-l délka výsledného souhrnu postačující, tak ukonč výpočet, jnak pokračuj dalším krokem. 6. Všechny termy, obsažené ve větě v, odstraň z vět dokumentu. Tím je z dokumentu současně odstraněna věta v. 7. Opakuj výpočet od bodu 1. V [10] byl použt obdobný postup se zdokonaleným vážením významnost termů. Pomocí tezauru WordNet bylo prosté načítání frekvence nahrazeno relevancí. Čítač výskytu termu byl nkrementován v případech nalezení výskytu synonym, hyponym (jedle pro strom), meronym (větev pro strom), č holonym (strom pro větev). Důmyslnější statstckou metodu, která je založena na Bayesově klasfkačním vzorc poprvé použl v [17]. Věty z dokumentu je možné klasfkovat do dvou tříd: 1. zařazené do souhrnu a 2. nezařazené do souhrnu. K natrénování metody je potřebný korpus dvojc (orgnální texty a jm příslušné souhrny). Dále je třeba určt příznaky, na jejchž základě je prováděna klasfkace vět. Použté příznaky zahrnují přítomnost důležtých slov zjštěných na základě jejch frekvence, slova začínající velkým písmenem, délka věty, fráze se zdůrazňujícím slovem, pozc. Sumarzátor může určt pro každou větu dokumentu její pravděpodobnost zařazení nebo nezařazení do souhrnu na základě hodnot jejích příznaků a znalost prorních pravděpodobností. Zjstí maxmální aposterorní pravděpodobnost, tj. nejpravděpodobnější hypotézu h {zařadt, nezařadt} př daných hodnotách příznaků f 1,f 2,... f k.. P(h f 1,f 2,... f k ) = P(f 1,f 2,... f k h) * P(h) / P(f 1,f 2,... f k ) (1) Obecnou Bayesovu formul (1) lze za předpokladu nezávslost příznaků (což sce není pravda, ale běžně se to toleruje) zjednodušt, použít místo složené pravděpodobnost součn pravděpodobností a počítat pravděpodobnost zařazení dle vzorce pro nave Bayes klasfkátor. P(h f 1,f 2,... f k ) = Π P(f j h) * P(h) / Π P(f j ) (2) P(f j h) představuje pravděpodobnost s jakou budou pro h = zařazení v souhrnu zařazeny věty s příznakem s hodnotou f j, analogcky pro h = nezařazení se jedná o pravděpodobnost s jakou budou pro h = nezařazení do souhrnu nezařazeny věty s příznakem majícím hodnotu f j. P(f j h) se zjstí z trénovacího korpusu dvojc (text a souhrn). P(f j ) představuje pravděpodobnost výskytu hodnoty příznaku fj ve větách textového korpusu. P(h) je poměr počtu vět v souhrnu k celkovému počtu vět v trénovacím korpusu pro případ kdy h=zařazení a obdobně pro h = nezařazení. Do výsledného souhrnu se vloží potřebný počet vět, řazených podle spočtené pravděpodobnost zařazení. Pro zamezení podtečení je vhodné vzorec převést do logartmckého tvaru a počítat zařazení vět na základě vyhodnocení: Vyber takové h {zařadt, nezařadt}, pro které je větší hodnota (log P(h) + log P(f j h))

Sumarzace textů Systém popsaný v [17] se poněkud lší od výše popsaného klasfkačního postupu. Neklasfkuje každou větu textu. Místo toho počítá pro každou větu skóre dané pravděpodobností jejího zařazení do souhrnu. Nejvýše hodnocených n vět pak tvoří souhrn. Výpočet se tím zrychlí cca dvojnásobně. Výsledky budou zhruba stejné, pokud použjeme převážně příznaky poztvní pro zařazování do souhrnu. 4 Pokročlé sumarzační metody 4.1 Metody využívající souvslost v textu Do této skupny můžeme zařadt jak metody využívající rétorcké struktury textu, tak metody pracující s anaforckým vztahy mez větam. Společná je pro ně potřeba zvládnutí hlubších lngvstckých znalostí než tomu je v případě jž zmíněných statstckých metod, které sumarzac v podstatě převádí na klasfkac a nebo algebrackých metod, o kterých pojednáme pozděj. Teore rétorckých struktur (RST) zkoumá způsoby uspořádání projevu. Prostřednctvím rétorckých relací zachycuje vzájemné vazby mez jednotlvým částm projevu (textu). Rozlšuje část zvanou nukleus, která obsahuje nejpodstatnější, tj. ústřední část textu s hlavním údaj a s ní svázané méně důležté, tzv. sateltní část. Nukleové a sateltní část jsou společně označovány jako textové jednotky a představují část vět nebo celé věty. Rétorcká struktura má podobu stromového grafu, jehož uzly jsou ohodnocovány podle jejch rétorcké role. Uzel, který v jedné úrovn má vlastnost sateltu, může v nžší úrovn RS-stromu být nukleus a vázat se s dalším sateltním uzlem. V [20] popsovaný sumarzační program pracuje s RS-stromem, který je vygenerován rétorckým analyzátorem. Do souhrnu vybírá textové jednotky podle výše jejch umístění v RS-stromu. Pro krátké souhrny jsou vybírány pouze významné jednotky sdružené s vntřním uzly stromu, které se nachází blízko jeho kořene. Čím delší souhrn je generován, tím od kořene vzdálenější významné jednotky textu jsou do něj zahrnuty. Prncp metody je tedy založen na předpokladu, že RS-strom reprezentuje parcální uspořádání částí textu podle jejch důležtost. Extraktvní způsob sumarzace dává málo uspokojvé výsledky, pokud orgnál obsahuje časté anaforcké výrazy. Anaforckým výrazem je slovo nebo fráze, odkazující zpět na nějaké dříve uvedené slovo nebo fráz (typckým příkladem jsou zájmena ten, on, ). Pro porozumění anaforckému výrazu je třeba znát jeho předchůdce. Je-l do extraktu vybrána věta obsahující anaforckou vazbu bez jejího kontextu, souhrn bude těžko srozumtelný. Soudržné vlastnost textu jsou tvořeny relacem mez výrazy a byly také využty pro sumarzac. V [1] je uvedena metoda nazývaná Lexkální řetězce. Ve zpracovávaném textu nejprve vyhledá řetězce příbuzných slov. Příbuzným termy jsou takové, které jsou synonyma, hyperonyma, hyponyma, antonyma apod. K posouzení příbuznost je využíván tezaurus Wordnet. Po zkonstruování těchto lexkálních řetězců, sumarzátor vypočte jejch skóre. To je určeno typem relací a jejch počtem v řetězc. Na základě hodnocení řetězců a jejch ncdence s větam jsou pak hodnoceny samotné věty. Do souhrnu jsou vybírány ty věty, ve kterých se koncentrují řetězce s nejvyšším skóre. V [3] je uveden podobný prncp. Namísto lexkálních řetězců používá k ohodnocení vět tzv. objekty a jejch vazby. Objektem může být jak slovo, tak fráze nebo její varantní, č redukovaná forma. Vazby jsou dány odkazy mez objekty. Věty jsou ohodnoceny na

Zvaná přednáška základě počtu a míry referencí objektů v nch obsažených. Do souhrnu jsou vybrány věty, které obsahují často zmňované objekty. 4.2 Metody modfkující původní text Automatcký extraktor není schopen (co se kvalty výsledku týká) konkurovat ručně vytvořenému abstraktu. Počítač je sce schopný poměrně dobře rozpoznat klíčová témata v dokumentu, vytržení vět nebo odstavců orgnálu a jejch složení do souhrnu však téměř vždy naruší kontnutu výsledného textu. Pokusy o vytvoření automatckého sumarzátoru, který by pracoval neextraktvním způsobem a lépe zachoval souvslost textu se začaly objevovat před cca 10 t lety. Lze je rozdělt do dvou skupn: Prvá skupna místo překopírování celých vytpovaných vět nebo odstavců, konstruuje souhrn za pomoc jejch komprese. Sumarzátory pracující tímto způsobem jsou popsány např. v [13], [16], [27]. Vychází z předpokladu, že věty navržené do souhrnu bývají většnou dlouhé. Dlouhé věty totž s větší pravděpodobností obsahují důležté termy. Často však také obsahují méně důležté část. Úsek textu vybraný ke komprmac je zpracován syntaktckým analyzátorem, který dentfkuje v souvětích vedlejší věty, tj. kanddáty na vypuštění. Vyhodnocení vhodnost č nevhodnost kanddáta používá obvykle více hledsek. Např. počet zbylých důležtých termů ve zkrácené větě, hloubka vedlejší věty v syntaktckém stromu, počet odstraněných lstů stromu, počet odstraněných vlastních jmen, porušení anaforckých vazeb. Do druhé skupny lze zařadt [14], [21]. Generují věty nově, s pomocí cut and paste operací. Operace mohou mít podobu: - redukce věty - odstraňují relevantní fráze, slova, vedlejší věty. Odstraněno může být ve výsledku více komponent, pokud jsou shledány nezávažné. - Větné kombnace - slučují texty z více vět. Obvykle jsou použty společně s redukcí slučovaných vět. - Syntaktcké transformace přemístění větných částí na základě syntaktckého rozboru. Doplňují větné redukce a kombnace. - Parafrázování nahrazuje fráze jejch parafrázem (volné vyjádření obsahu jným slovy). - Generalzace / specfkace nahrazuje fráze nebo vedlejší věty jejch obecnějším/specfčtějším popsem. - Přeuspořádání mění pořadí extrahovaných vět. Zmňovaný cut and paste sumarzátor k realzac výše uvedených operací využívá spolupráce se syntaktckým analyzátorem, s co-referenčním systémem, tezaurem a s rozsáhlým slovníkem. 4.3 Grafové metody Iterační metody, o kterých v této část pojednáme, vznkly jako prostředek pro ohodnocování významnost uzlů hypertextové struktury Webu. Všeobecnou známost s získaly algortmy HITS[15] a PageRank [4]. S úspěchem byly použty pro vyhodnocování autortatvnost uzlů v socálních sítích, zejména v jedné z jejch konkrétních podob, v ctačních sítích [26], [8]. Sympatckou vlastností těchto metod pro vyhodnocování grafových struktur je jejch jazyková nezávslost a nepotřebnost hlubších lngvstckých znalostí př jejch nasazení k sumarzac. Původně byly tyto úlohy aplkovány na orentované grafy. Nechť G = (V, E) je orentovaný graf, s množnou vrcholů V a s množnou hran E, kde E je podmnožnou VxV. Pro daný vrchol V nechť In(V ) je množnou vrcholů, ze kterých vede větev do V a Out(V ) nechť je množna vrcholů do nchž vede větev z V.

Sumarzace textů Snad nejpopulárnějším algortmem pro vyhodnocování významnost vrcholů v grafu (rankng algorthm) je PageRank, používaný v Google k analýze Webu. Na rozdíl od jných hodnotících metod (např. HITS) PageRank ntegruje do jedné formule vlv vstupních výstupních charakterstk vrcholů. Pro každý vrchol tedy určuje pouze jedné PR (PageRank) skóre, dané vzorcem (3), ( V) = (1 d) / N + d * PR( Vj) PR, (3) Vj In( V) Out( Vj) ve kterém N je počet vrcholů a d je parametr (faktor tlumení) s hodnotou z ntervalu 0 až 1. Je patrné, že PageRank vrcholu závsí na PageRanku ostatních vrcholů. Vzhledem k cyklčnost grafu je výpočet teračním procesem, př kterém se propojené vrcholy navzájem ovlvňují. Faktor (1-d) představuje pravděpodobnost, se kterou bude př procházení grafem proveden přechod na lbovolný vrchol grafu. Naprot tomu d představuje pravděpodobnost přechodu podle větve vedoucí z vrcholu. Hodnotu d se doporučuje volt cca 0.8. Na počátečních hodnotách vrcholů nezáleží, volí se všechny stejné, se součtem 1. Výpočet konverguje během několka málo terací. Př použtí teračních vyhodnocování pro extraktvní sumarzac reprezentují vrcholy grafu jednotlvé věty dokumentu. Větve grafu vyjadřují vazby mez větam. Nejsou orentované, což není překážkou, algortmus pracuje s neorentovaným grafy. V tomto případě In(V )= Out(V ) tj. větve jsou považovány za vstupní výstupní zároveň. Zatímco v případě socálních sítí bývají větve grafu neohodnocené, př výběru vět v extraktvní sumarzac je možné ohodnocením větví vyjádřt míru svázanost věty V a V j jako váhu w j. Orgnální vzorec pro PageRank nezahrnuje vážení větví. Proto [22] v systému TextRank formul zmodfkoval na tvar (4): PR( Vj) PR ( V) = (1 d) / N + d * j w (4) wjk Vj In( V) Vk Out ( Vj) Důležtou fází sumarzačního procesu v TexRanku je konstrukce grafu vazeb vět dokumentu. Pro určení a ohodnocení větví je zavedena relace podobnost vět, která má význam překrytí kontextu. Lze j chápat jako určté doporučení čtenář, který čte větu V x, aby s přečetl větu V y, která pojednává o stejném konceptu. Doporučuje se určt váhu na základě počtu společných symbolů v obou větách, společných slov určté syntaktcké kategore, normalzovat váhy vzhledem k délce vět a tím předejít preferenc vět dlouhých. Formálně TextRank popsuje podobnost vět V a V j, z nchž každá je reprezentovaná množnou N slov (resp N j slov) W 1, W 2,. W N (resp. W j 1, W j 2,. W j Nj) vzorcem (5). Podobnost( V, Vj) { Wk; Wk V & Wk Vj} = (5) log( V ) + log( Vj ) Podobnost lze určt jným způsoby. Po zkonstruování grafu podobnost je použta formule (4). Výpočet je ukončen, když změny hodnot vrcholů jsou menší než zvolená mez. Věty s nejvyšším ohodnocením jsou pak vybrány do souhrnu. Obdobný systém pro výpočet důležtost vět je LexRank [7]. Podobnost vět jsou zachyceny matcí, v níž hodnota prvků je dána kosnovou podobností (vz 7.1) příslušných vět. Podobnost je závslá na počtu překryvů slov. Dvě dentcké věty msjí podobnost 1, zatímco dvě věty se zcela odlšným slovy mají podobnost 0. Demo verze je na adrese:

Zvaná přednáška http://tangra.s.umch.edu/clar/lexrank. Pro názornost uveďme konkrétní příklad orgnálního textu, jemu odpovídající graf podobnost vět, ohodnocení vět a výsledný sumarzovaný text př nastavení cosnového fltru podobnost na 25% a významnost vybraných vět na 15%. Původní text: Každý už ví, že dovolenou je nutno kupovat jen u CK pojštěné prot úpadku. Ale kterou CK vybrat. Kam jít koupt svou vysněnou dovolenou. Možností je hodně. I já jsem zpočátku obíhala cestovní kanceláře ve městě. Nyní ale využívám mnohem rychlejší a pohodlnější způsob. Vybírám s dovolenou na nternetových stránkách. Jsou zde zájezdy všech velkých cestovních kanceláří a více než sta dalších ck. Do celého světa a za stejnou cenu jako u cestovní kanceláře. Navíc dostávám dárek - pojštění stornopoplatků v hodnotě 600Kč zdarma. To vše rychle a z pohodlí domova - nternetem. Věta3 Věta5 Věta4 Věta9 0,3 0,35 0,45 0,28 Věta7 Věta10 Věta0 0,29 0,42 Věta1 Věta8 Věta2 Věta6 Obr. 1: Graf podobnost vět př prahové hodnotě cosnu 0,25. Pořadová čísla vět, výsledná ohodnocení a texty vět jsou uvedeny v Tab 1.

Sumarzace textů Číslo věty Ohodnocení věty 9 0.08699246309 7 0.08024629241 Text věty Navíc dostávám dárek - pojštění stornopoplatků v hodnotě 600Kč zdarma. Jsou zde zájezdy všech velkých cestovních kanceláří a více než sta dalších ck. 5 0.02173913043 Nyní ale využívám mnohem rychlejší a pohodlnější způsob. 2 0.02173913043 Kam jít koupt svou vysněnou dovolenou. 10 0.20649587529 To vše rychle a z pohodlí domova - nternetem. 8 0.20419247759 Do celého světa a za stejnou cenu jako u cestovní kanceláře. 6 0.02173913043 Vybírám s dovolenou na nternetových stránkách. 3 0.02173913043 Možností je hodně. 0 0.15353727589 Každý už ví, že dovolenou je nutno kupovat jen u CK pojštěné prot úpadku. 4 0.13810083309 I já jsem zpočátku obíhala cestovní kanceláře ve městě. 1 0.02173913043 Ale kterou CK vybrat. Tab.1: Ohodnocení významnost vět sumarzátorem LexRank Výsledný souhrn : Každý už ví, že dovolenou je nutno kupovat jen u CK pojštěné prot úpadku. Do celého světa a za stejnou cenu jako u cestovní kanceláře. To vše rychle a z pohodlí domova - nternetem. 5 Latentní sémantcká analýza a sumarzace 5.1 Prncp latentní sémantcké analýzy Latentní sémantcká analýza (LSA) je algebracká technka, dovolující automatcky analyzovat vztahy mez termy a dokumenty, č termy a větam. Používá metodu rozkladu matc sngulární dekompozcí (SVD). SVD je numercký proces, který se používá př redukc dat. Byly navrženy algortmy, které sngulární dekompozcí řeší klasfkac nebo vyhledávání dokumentů (latentní sémantcké ndexování). SVD byla poprvé použta pro sumarzac v [9] a zdokonalena v [28]. Nám navržený prncp popíšeme nejprve pro sumarzac jednoho dokumentu. Modfkace pro složtější úlohy uvedeme v další kaptole. Proces začíná vytvořením matce termů prot větám A = [A 1, A 2,, A n ], kde každý sloupcový vektor A reprezentuje vektor frekvencí termů ve větě dekomponovaného dokumentu. Pokud dokument obsahuje m termů a n vět, získá se matce A o rozměrech m n. Matce A je zpravdla řídká, protože normálně se každé slovo v každé větě nevyskytuje. Sngulární dekompozce matce A je potom defnována jako:

Zvaná přednáška A T = UΣV, (6) kde U = [u j ] je m n sloupcově ortonormální matce, jejíž sloupce se nazývají levé sngulární vektory, Σ = dag(σ 1, σ 2,,σ n ) je n n dagonální matce, jejíž dagonální prvky jsou nezáporná sngulární čísla seřazená sestupně a V = [v j ] je n n ortonormální matce, jejíž sloupce se nazývají pravé sngulární vektory (vz obr. 1). Rozměr matc je redukován na k dmenzí, kde k < n, takže U je redukována na m k, Σ na k k a V T k n. Obr 2.: Sngulární dekompozce matce A Na SVD rozklad matce A termů prot větám se můžeme dívat ze dvou pohledů. Z matematckého pohledu SVD zprostředkovává mapování mez m-dmenzonálním prostorem vektorů frekvencí termů a k-dmensonálním sngulárním vektorovým prostorem. Ze sémantckého pohledu SVD poskytuje latentní sémantckou strukturu dokumentu reprezentovaného matcí A. Tato operace vyjadřuje rozklad orgnálního dokumentu do k lneárně nezávslých bázových vektorů reprezentujících hlavní témata textu. Každý term věta dokumentu jsou ndexovány těmto bázovým vektory. Unkátní vlastností sngulárního rozkladu je schopnost zachytt a modelovat vntřní vztahy mez termy tak, že může sémantcky shlukovat termy a věty. Dále, jak je demonstrováno v [2], pokud se v dokumentu často vyskytuje určtá kombnace slov, pak bude tato kombnace zachycena a reprezentována jedním ze sngulárních vektorů. Velkost odpovídajícího sngulárního čísla ndkuje významnost kombnace v dokumentu. Každá věta obsahující tuto kombnac slov bude promítnuta podél odpovídajícího sngulárního vektoru a věta, která nejlépe reprezentuje tuto kombnac, bude mít největší hodnotu v tomto vektoru. Každá kombnace slov popsuje určté téma dokumentu. Lze tedy na základě předchozích faktů říc, že každý sngulární vektor reprezentuje určté téma dokumentu a velkost korespondujícího sngulárního čísla reprezentuje významnost tohoto tématu [9]. Shrneme-l předchozí výklad, tak matce A mapuje termy do jednotlvých vět, redukovaná matce U mapuje termy do k nejvýznamnějších témat a redukovaná matce V mapuje věty do k nejvýznamnějších témat. 5.2 Použtí LSA pro sumarzac Na základě předchozí dskuse jsme navrhl sumarzační metodu. Tato metoda využívá sngulární rozklad matce termů prot větám, konkrétně matc V T, která popsuje míru významnost vět v hlavních tématech dokumentu. Algortmus navržený v [9] jednoduše vybírá pro každé téma nejvýznamnější větu tak, že postupně pro j = 1 až do potřebného počtu P vět souhrnu vybere j-tý pravý sngulární vektor z V T. Každá věta je reprezentována

Sumarzace textů sloupcovým vektorem [v j1, v j2,, v jk ] T. Do souhrnu zařadí tu větu, která má největší ndexovou hodnotu v j-tém pravém sngulárním vektoru. Nevýhodou takového postupu je stejná důležtost všech P v souhrnu obsažených témat. Jejch významnost se však může výrazně lšt, což lze dentfkovat v matc Σ. Navrhl a ověřl jsme proto změnu krtera výběru dovolující zařadt věty, jejchž vektorová reprezentace v matc Σ 2 V T má největší délku. Násobením Σ 2 zohledníme statstckou významnost hlavních témat, která je úměrná kvadrátu příslušného sngulárního čísla, jak bylo dokázáno v [5]. Formálně vyjádřeno, počítáme v k rozměrném latentním prostoru témat délku vektoru s r pro r-tou větu dle vzorce: k s r = v 2 2 r *σ (7) = 1 V expermentech jsme dmenz latentního prostoru omezl zvoleným procentem z celkového počtu dmenzí. Je možné použít poklesu sngulárních čísel na zlomek největšího. Do souhrnu je zařazován žádaný počet vět, jejchž hodnoty s jsou největší. Důležté téma tak může být v souhrnu zastoupeno více větam. LSA byla pro sumarzac použta v dalších modfkacích. Např. po SVD rozkladu byla zpětně rekonstruována redukovaná matce A R a na její věty pak aplkován výše uvedený grafový postup [23]. Jný přístup zařazuje počet vět vztahujících se k tématu na základě procentuálního podílu příslušného sngulárního čísla k součtu všech sngulárních čísel [34]. SVD není jednou algebrackou metodou, která se uplatňuje v úlohách zpracování textu. Jnou metodou s obdobným schopnostm je NMF (non-negatve matrx factorzaton), která rozkládá matc A na dvě matce W a H. Jejch prvky rovněž reprezentují termy a věty v prostoru témat. Protože jsme chtěl využívat nformac o důležtost témat z matce Σ, NMF jsme zatím nevěnoval výraznou pozornost. 6 Vícedokumentová sumarzace a nové sumarzační úlohy Před zhruba sedm lety se pozornost týmů zabývajících se sumarzací začala soustřeďovat na vícedokumentovou sumarzac a s ní souvsející úlohy jako je sumarzace aktualzační (update) [12], cílená (focuced), kontrastová (contrastve) [33], č mínění (sentment). Vícedokumentová sumarzace oprot jednodokumentové zavádí nový problém je třeba zabránt zařazení do souhrnu vět z různých dokumentů, ale se stejným obsahem. V prvé fáz zpracování postupujeme stejně jako př sumarzac jednoho dokumentu, pracujeme však se všem větam množny dokumentů. Některou z dříve uvedených metod ohodnotíme věty skórem vhodnost jejch zařazení do souhrnu. Ve druhé fáz vybíráme sestupně podle skóre jednotlvé věty. Před jejch zařazením do souhrnu ale navíc ověřujeme, zda v souhrnu jž není podobná věta. Podobnost je možné měřt např. kosnem úhlu mez větam ve vektorovém prostoru termů množny dokumentů. Pro verdkt o zařazení/nezařazení je třeba zvolt prahovou hodnotu kosnu. Volba prahu závsí na rozložení hodnot skóre vět, takže určením prahu musíme nastavt rozumný poměr mez podobností a skórem vět souhrnu. Skóre vět v sobě odráží počet zvažovaných témat množny dokumentů. Proto volba prahu se může lšt podle zpracovávané oblast a je vhodné j expermentálně ověřt. Jnou možností je použít terační formul (10) z odst. 6.1. Problém, který se projevl př našch expermentech, bylo upřednostňování delších vět. Přrozeně, dlouhé věty obsahují více významných termů. Skóre vět bylo proto děleno koefcentem, jehož velkost závsela na délce věty. Vyhovující výsledky byly dosaženy jž př poměrně malém počtu témat, cca do 10. Byla ovšem zohledněna jejch významnost násobením V T mocnnou Σ [30].

Zvaná přednáška 6.1 Aktualzační sumarzace V případě aktualzační sumarzace předpokládáme, že užvatel má z dané oblast předchozí znalost, které získal přečtením množny dokumentů C old. Dále máme množnu dokumentů C new, které dosud nečetl a chce se seznámt s jejch souhrnem. Do souhrnu však nechceme zařazovat ty nformace z C new, které jž byly obsaženy v C old. Předpokládáme tedy čtenáře s dokonalou pamětí. Popšme řešení pomocí LSA modelu [29]. Aplkujeme SVD odděleně na matce A new a A old vytvořené z C new a C old. Získáme redukované matce U new a U old, jejchž sloupce obsahují témata množn dokumentů, vyjádřená v lneárních kombnacích původních termů. Pro každé nové téma, dané sloupcem matce U new, (označme ndex tohoto sloupce t), vyhledáme nejpodobnější staré téma dané sloupcem matce U old. Kosnová podobnost těchto dvou vektorů udává míru redundance nového tématu red(t). k ( t) = max = 1 m j= 1 U m j= 1 old U old 2 [ j, ] [ j, ]* U * new m j= 1 [ j, t] red, (8) U new 2 [ j, t] kde k je počet sloupců matce U old, tj. počet hlavních témat v redukovaném latentním prostoru. Novost tématu t počítáme vztahem 1 red(t), a protože důležtost tématu je obsažena v odpovídajícím sngulárním čísle σ(t), počítáme aktualzační skóre us(t) tématu t dle vzorce: us(t) = σ(t)*(1- red(t)) (9) Z vypočtených skóre sestavíme dagonální matc US a vynásobením US V T dostaneme tak matc F, která v sobě agreguje novost důležtost nových témat. Následuje zařazování vět do aktualzačního souhrnu. První je věta, která má nejdelší vektor v matc F. Označme jej f best. Informac, kterou jsme touto větou začlenl do souhrnu, je třeba odečíst od ostatních vektorů (vět) f. Přepočítáme proto sloupce matce F. Proces zařazování do souhrnu probíhá teračně, až do získání potřebné délky souhrnu. 6.2 Další aktuální sumarzační úlohy F T best best + 1 = F 2 fbest f Stručně a bez nároku na úplnost výčtu se v tomto odstavc zmíníme o sumarzačních úlohách, které stejně jako aktualzační byly motvovány sumarzací více dokumentů. Kontrastová sumarzace provádí analýzu dokumentů s cílem nalézt rozdíly v jednotlvých dokumentech. Výsledkem je nejen souhrn společný všem dokumentům, ale nformace o důležtých tématech specfckých pro jednotlvé dokumenty. Zkoumání rozdílnost dokumentů přes její praktckou využtelnost bylo věnováno velm málo pozornost v porovnání se zkoumáním jejch podobnost. Dosud jsme nenalezl prác, která by tuto úlohu řešla metodou LSA. Nabízí se přtom možnost po provedení vícedokumentové sumarzace provést sumarzac jednotlvých dokumentů a např. kosnovou mírou porovnat rozdílnost jejch témat s tématy celkového souhrnu. Překročí-l rozdíl zvolenou mez, pak zařadt příslušné věty do rozdílových souhrnů obdobným postupem jako byl popsán výše.. f F (10)

Sumarzace textů Sumarzace mínění zpracovává množnu dokumentů D, které obsahují hodnocení nějaké entty (zboží, služeb apod). Výsledkem je souhrn S, který reprezentuje průměrný názor o této enttě. Pracuje s polarzační funkcí, která zobrazuje část textů (fráze, věty) do číselných hodnot, odlšujících kladný a záporný názor. Tato funkce je realzována specálním lexkony. Polarzované část textů jsou načítány, zprůměrovány a výsledné skóre určuje jemu odpovídající část textu, které jsou zařazeny do souhrnu. Cílená sumarzace zahrnuje do vstupních dat užvatelem specfkovanou nformac. Ta může být zadána formou dotazu, nebo tématem o které se zajímá. Množnou sumarzovaných dokumentů bývají v tomto případě často webové stránky. Základem je opět vícedokumentová sumarzace, do výsledku jsou však přednostně zařazovány věty, jejchž téma odpovídá nformac od užvatele. K tomu je nutné zavést metrku témat porovnávající téma dotazu nebo klíčových slov s tématy vět. Řešení úlohy tohoto typu jsme s použtím LSA popsal v [32]. Summarzer of Web Topcs (SWEeT) je volně přístupný na http://tmrg.kv.zcu.cz:8080/sweet. Odpovídá na anglcké a české dotazy, ze kterých extrahuje významné termy. Ty pak použje vyhledávací modul k prohledání předdefnovaných domén vyhledávač Google a Seznam. Prvých 10 dokumentů je předáno analyzátoru, který vybere z HTML struktury vlastní texty a předá je v XML podobě extrakčnímu modulu. Dále se provádí LSA extrakce vět. Prot dříve popsanému s tím rozdílem, že termům z dotazu je přřazena větší váha v matc A. Následuje komprese vět, jejch uspořádání, korekce entt a posléze zobrazení výsledku užvatel. Výsledek na dotaz: kdo vyhraje komunální volby v Praze Téměř všechny poltcké strany v Praze už kanddátky schválly, změny mohou ncméně dělat až do 10. srpna. Komunální volby se rozhodnutím prezdenta konají 15. a 16. října. Na podobné předpověd je však brzo. Jsté je, že TOP 09 zatím dělá vše pro to, aby komunální volby v Praze vyhrála. A ODS vše pro to, aby je prohrála. Použté zdroje: Jak fungují nábory v ČSSD? Kdo přvede víc černých duší, vyhraje KOMENTÁŘ: TOP Tůma. Ldé chtějí osobnost, tady jedna je Podpořím Nečase jako šéfa ODS preméra, odpověděl čtenářům Bendl Analytk řekl onlne, kdo by mohl vyhrát volby ODS nachystala v Praze past, do níž může sama spadnout Obr.3. Příklad výstupu systému SWEeT 7 Vyhodnocování kvalty sumarzace Způsoby vyhodnocování kvalty souhrnu jsou podrobněj popsány v [31]. Kromě ručního, subjektvního ohodnocení souhrnu anotátorem, exstují automatcké vyhodnocovací metody. Míry a metody, které jsou používané k vyhodnocení, mohou být rozděleny do dvou, dále se podrobněj větvících skupn: Přímé (ntrnsc), posuzují kvaltu na základě: o Porovnání lngvstcké kvalty textu, která může zohledňovat: Gramatckou správnost, Neredundantnost, Srozumtelnost,

Zvaná přednáška o Strukturu a souvslost. Porovnání obsahu textu, s deálním souhrnem, k čemuž může být použto: Ko-selekčních přístupů pracujících s pojmy (Přesnost, Úplnost, F-score, č Relatvní užtečnost), Podobnostních měr (kosnová podobnost, nejdelší společný podřetězec, společné n-gramy (Rouge), překrytí obsahu, ohodnocování vět (Pyramds), Nepřímé (extrnsc), posuzují kvaltu způsobem, jak se souhrn uplatňuje v určté úloze. K ohodnocení je možné použít: o Metody pro kategorzac dokumentů, o Metody pro vyhledávání nformací, o Metody pro zodpovídání dotazů. Některé z pojmů jsou dostatečně vysvětlující, o těch se v následujícím komentář zmíníme jen stručně, nebo je pomneme. 7.1 Přímé způsoby hodnocení kvalty K lngvstcké kvaltě není přílš co doplňovat. Snad jen upozornt na nebezpečí zhoršení srozumtelnost v případě vypuštění vět s podstatným jmény a jejch zastoupení zájmenným vazbam v souhrnu. Problém anaforckých vztahů, které vznkají v souhrnu, není ještě uspokojvě vyřešen. Pokus o možné řešení je popsán v [33]. Lngvstcká krtera nejsou vesměs dosud automatcky vyhodnottelná. Anotátoř musí souhrny oznámkovat ručně. Ko-selekční technky používají míry známé z oblast vyhledávání nformací (IR nformaton retreval) a klasfkace. Nejznámějším měram jsou přesnost P, úplnost R (recall) a F-skóre. K vyhodnocení strojově vytvořeného souhrnu používají deální (anotátorem vytvořený) souhrn. Přesnost je dána počtem vět, které se vyskytují současně v hodnoceném v deálním souhrnu, děleném počtem vět hodnoceného souhrnu. Úplnost je dána počtem vět, které se vyskytují současně v hodnoceném v deálním souhrnu, děleném počtem vět deálního souhrnu. F-skóre je kombnovanou mírou, obvykle je vyhodnocováno formulí pro harmoncký průměr P a R: F-skóre = (2 * P *R) / (P + R). Relatvní užtečnost RU elmnuje nedostatek výše uvedených ko-selekčních měr. Nedostatek spočívá ve strktním započítávání př výpočtu P, R, F pouze vět z deálního souhrnu. Hodnocení pomocí RU je proto založeno na přřazení prorty (určující pořadí začlenění do souhrnu) všem větám sumarzovaného textu. Ohodnocení vět prortou je prováděno anotátory. Metrka, která udává kvaltu souhrnu je pak dána formulí sčítající bodový zsk vět obsažených v souhrnu. Podobnostní míry mají rovněž svůj původ v oblast IR. Oprot ko-selekčním technkám mohou rozpoznat věty s podobným obsahem a zohlednt tuto skutečnost př hodnocení. Tyto metody totž počítají podobnost extraktů na nžší úrovn než jenom na úrovn celých vět. Jsou použtelné jak pro výpočet podobnost vyhodnocovaného souhrnu s deálním referenčním souhrnem, tak pro výpočet průměru z podobností vyhodnocovaného souhrnu s více manuálně přpraveným souhrny, ale pro vyhodnocení podobnost s orgnálním dokumentem, tedy bez použtí deálního souhrnu. V dalším výkladu předpokládejme porovnávání podobnost s orgnálem. Nejpopulárnější podobnostní mírou je kosnová podobnost. Označíme-l X hodnocený souhrn a Y orgnální text, pak kosnová podobnost souhrnu s orgnálem je dána vzorcem:

Sumarzace textů x * y cos( X, Y ) = (11) 2 ( x ) ( ) 2 * y Dokumenty X a Y jsou reprezentovány vektory v prostoru slov, obvykle s použtím tf-df vah. Použtí kosnu úhlu mez vektory obou dokumentů současně elmnuje vlv jejch rozdílné délky. Kosnová míra může být použta v latentním prostoru témat namísto v prostoru slov. Ověření vhodnost takového postupu jsme zveřejnl v [31]. Použtí sngulární dekompozce nám nabízí několk možných způsobů jak měřt podobnost dokumentů. Nejprostším způsobem je měření podobnost hlavních témat orgnálu a souhrnu. Hlavní téma je skryto v prvním levém sngulárním vektoru. Proto provedeme rozklad původního dokumentu a porovnávaného souhrnu, zjstíme jejch první levé sngulární vektory a vypočteme podobnost jako kosnus úhlu podle vzorce: m = us cos(ϕ ) uo * (12) ve kterém uo představuje prvý levý sngulární vektor rozkladu orgnálu, us prvý levý sngulární vektor rozkladu souhrnu a m je počet různých slov orgnálního textu. Jstě není překvapením, že kromě měřítka podobnost daného pouze hlavním tématem, lze hodnott podobnost z pohledu n hlavních témat porovnávaných dokumentů. Opět nejprve vytvoříme sngulární rozklady obou dokumentů. Pak pro oba dokumenty vynásobíme matce U a matce kvadrátů sngulárních čísel Σ 2. Získáme tím matce B o (pro orgnální dokument) a B s (pro souhrn): B o U o 2 o = Σ, (13) B s U s 2 s = Σ. (14) Násobením zohledníme statstckou významnost hlavních témat, která je úměrná kvadrátu příslušného sngulárního čísla [5]. Pro každý vektor termu (řádek matce B) pak spočítáme jeho délku. Výpočet provedeme jak pro souhrn, tak pro referenční dokument podle vzorce: n 2 d k = b, k (15) = 1 kde d k je délka vektoru k-tého termu (jeho důležtost v latentním prostoru), n je počet nejvýznamějších témat. Z délek vektorů termů sestavíme výsledný vektor délek termů v latentním prostoru vznklém sngulární dekompozcí. Získáme tím dva vektory. Jeden pro souhrn (ds) a druhý pro orgnální dokument (do). Tyto vektory potom znormalzujeme. Pro změření jejch podobnost použjeme opět kosnovou míru: m cosϕ = do ds. (16) í = 1 Tato metoda má výhodu oprot předchozí. Pokud bude orgnální dokument obsahovat dvě č více přblžně stejně důležtých témat (odpovídající sngulární čísla budou mít přblžně stejnou hodnotu), pak se může stát, že v extraktu tato stejně důležtá témata budou neprávem potlačena. Tuto nevýhodu odstraníme, pokud hodnotíme podle více témat.

Zvaná přednáška Jné podobnostní míry vychází z počtu slov resp. lemmat společných oběma dokumentům, č z počtu slov jejch nejdelšího společného podřetězce a z počtu edtačních úprav potřebných k jeho získání. Populárním způsobem měření kvalty na báz podobnost textu je ROUGE (Recall- Orented Understudy for Gstng Evaluaton) [18]. Jedná se o automatckou metodu, v současnost používanou k vyhodnocování soutěží pořádaných konferencí TAC, dříve DUC. ROUGE pracuje s kolekcí měr, které jsou založeny na podobnost n-gramů (tj. n po sobě následujících slov textu). Rouge-n skóre kanddátního souhrnu je vyhodnoceno podle vzorce: n = C RSS C RSS gramn C gramn C Pocet ( gramn ) ( gram ) ROUGE, (17) spolu Pocet kde RSS je množna referenčních souhrnů vytvořených anotátory, ( gram n ) počet n-gramů v referenčním souhrnu a ( ) n spolu gram n Pocet je Pocet je maxmální počet n-gramů společně se vyskytujících jak v hodnoceném, tak v referenčním souhrnu. Další používaná ROUGE skóre jsou ROUGE-SU4, pracující s bgramy, ale dovolující vypustt až 4 ungramy z bgramových komponent, nebo ROUGE-L, které pracuje s nejdelší společnou subsekvencí. Poslední ze způsobů přímého hodnocení, který zmíníme, se nazývá Pyramds [24]. Spočívá v určování tzv. summarzaton content unts (SCU), kterým jsou věty nebo jejch část. SCU jsou určeny a ohodnoceny podle počtu jejch výskytu v n ručně vytvořených souhrnech. Vyskytují-l se ve více souhrnech, získají vyšší hodnocení. Vznká tak pyramda, na jejímž vrcholu jsou nejlepší SCU. Pyramda je pak použta k obodování hodnocených souhrnů. 7.2 Nepřímé způsoby hodnocení kvalty Pro tuto skupnu je charakterstcké, že k určení kvalty používá míry, jakou se hodnocený souhrn uplatní v jné úloze z oblast textmnngu. Zjšťují kvaltu použtím automatckých souhrnů pro daný praktcký úkol. Testovat je možné například zvýšení rychlost č přesnost vyhledávání dokumentů, pokud je vyhledávání založené na extraktech místo na plných dokumentech např. metodou Relevance correlaton (RC). Dalším možným měřením je úspěšnost kategorzace dokumentů do tématckých skupn, pokud se ndexují extrakty místo původních dokumentů. Korelace relevance (korelace důležtost) je technka, která umožňuje měřt relatvní pokles výkonu získávání nformací, pokud se ndexují souhrny místo plných dokumentů [25]. Předpokládejme, že máme dotaz Q a kolekc D dokumentů D. Vyhledávací systém seřadí dokumenty D podle jejch relevance k dotazu Q. Potom provedeme substtuc plných dokumentů za souhrny S a stejný vyhledávací systém seřadí dokumenty S podle jejch relevance k dotazu Q. Pokud jsou souhrny dobrou náhradou původních dokumentů, předpokládá se, že pořadí v obou případech budou podobná. Exstuje několk metod pro měření podobnost pořadí (Kendall s tau, Spearman s rand correlaton). Protože však máme navíc k dspozc z vyhledávacího systému relevanc jednotlvých dokumentů k dotazu, můžeme spočítat RC následujícím způsobem:

Sumarzace textů RC = 2 ( x x) ( x x)( y y) 2 ( y y), (18) kde x je relevance dokumentu D k dotazu Q, y je relevance souhrnného dokumentu S k dotazu Q. x (resp. y ) je průměrná relevance dokumentů z D (resp. z S) k dotazu Q. Jná metoda zjšťuje vhodnost použtí souhrnů místo plných textů pro kategorzac [11]. Pro měření je potřebná zatříděná kolekce dokumentů. Př tomto způsobu testování se ke klasfkac používá automatcký klasfkátor. Z důvodu oddělení chyby klasfkátoru a chyby sumarzátoru je pak nutné použtí některých základních hodnot pro porovnání. Výsledné hodnoty klasfkace extraktů jsou proto porovnávány např. s výsledky hodnocení původních dokumentů nebo hodnocení náhodně vybraných vět. Posledním problémem zůstává míra určující kvaltu extraktu. Obecně se používají koefcenty přesnost kategorzace P a úplnost kategorzace R, vyhodnocované dle (19): p P =, p R =, (19) q r kde p je počet tříd, do kterých je dokument správně zatříděn klasfkátorem, q je celkový počet tříd, do kterých je dokument klasfkátorem zařazen a r je počet relevantních tříd, do kterých byl dokument klasfkovaný př předchozím ručním zatřďování. Potom P a R pro celou kolekc je průměrem P a R přes všechny dokumenty. Z defnce je možné vdět, že oba ukazatele spolu souvsí a zvyšováním jednoho se druhý bude snžovat. Př zařazení dokumentu do co nejvyššího počtu tříd bude vysoká úplnost, př snžování počtu tříd se bude zvedat přesnost. Z toho důvodu se pak používá pro hodnocení klasfkace např. průměr z obou hodnot nebo jž dříve zmíněné F-skóre. 8 Závěr Článek popsuje vývoj a současný stav automatcké sumarzace textu. Vzhledem k pokroku, který sumarzace zaznamenala v posledním desetletí, jsme se věnoval zejména extraktvním způsobům, které dle našeho úsudku budou ještě dlouho domnantní formou strojového vytváření souhrnů. Abstraktvním způsobům bylo ve sledovaném období věnováno mnohem méně prací. Vyžadují buď ruční vytváření šablon, které jsou strojově doplňovány extraktvní technkou, nebo hlubší analýzu textu a systém pro generování přrozeného jazyka. Oba přístupy jsou doménově závslé a náročné na ruční zpracování. Kromě přehledu sumarzačních metod jsme se věnoval způsobům vyhodnocování a měření kvalty sumarzace. Určení kvalty souhrnu považujeme za stejně důležtou úlohu jako je sumarzace sama. Zvýšenou pozornost jsme věnoval použtí metody sngulární dekompozce, která nás zaujala svou jazykovou nezávslostí a elegancí matematckého aparátu. Na jejím použtí v pokročlých sumarzačních úlohách a zdokonalení ntegrováním s dalším metodam chceme dále pracovat. Lteratura 1. Barzlay, R., Elhadad, M.: Usng Lexcal Chans for Text Summarzaton. In: Proceedngs of the ACL/EACL 97 Workshop on Intellgent Scalable Text Summarzaton, Madrd, Span, (1997), 10 17.

Zvaná přednáška 2. Berry M.W., Dumas S.T., O Bren G.W. Usng Lnear Algebra for Intellgent Informaton Retreval. SIAM Revew. 1995.Boguraev, B., Kennedy, C.: Salence-based content characterzaton of text documents. In: I. Man and M.T. Maybury. (Eds.), Advances n Automatc Text Summarzaton, The MIT Press (1999), 111-120. 3. Boguraev, B., Kennedy, C.: Salence-based content characterzaton of text documents. In: Advances n Automatc Text Summarzaton, MIT Press (1999),99-110. 4. Brn, S., Page, L.: The anatomy of a large-scale hypertextual Web search engne. In: Computer Networks and ISDN Systems, 30, (1998), 1 7. 5. Dng, Ch.: A Probablstc Model for Latent Semantc Indexng. In: Journal of the Amercan Socety for Informaton Scence and Technology, 56(6), (2005), 597-608. 6. Edmundson, H.P.: New Methods n Automatc Extractng. In: Journal of the Assocaton for Computng Machnery 16(2). (1969) 264 285. 7. Erkan, G., Radev, D., G.: LexRank: Graph-based Lexcal Centralty as Salence n Text Summarzaton. In: Journal of Artfcal Intellgence Research 22.(2004),457-479 8. Fala D., Rousselot F., Jezek K.: PageRank for Bblographc Network. In: Scentometrcs, 76(1), Sprnger (2008), 135-158. 9. Gong, X., Lu X.: Generc Text Summarzaton Usng Relevance Measure and Latent Semantc Analyss. In: Proceedngs ACM SIGIR. New Orleans, USA (2001), 19-25. 10. Hovy, E., Ln, C-Y.: Automated Text Summarzaton n SUMMARIST. In: I. Man and M.T. Maybury (Eds.), Advances n Automatc Text Summarzaton, The MIT Press, (1999), 81 94. 11. Hynek, J., Ježek, K.: Practcal Approach to Automatc Text Summarzaton. In: Proceedngs 7. Conf. ELPUB 03. Gumaraes, Portugal (2003), 378-388. 12. Jezek, K., Stenberger, J.: Automatc Text Summarzaton (The state of the art and new challenges). In: Proceedngs of Znalost 2008, Bratslava, Slovaka, (2008), 1 12. 13. Jng, H.: Sentence Reducton for Automatc Text Summarzaton. In: Proceedngs of the 6th Appled Natural Language Processng Conference, Seattle, USA, (2000), 310 315. 14. Jng, H., McKeown, K.: Cut and Paste Based Text Summarzaton. In: Proceedngs of the 1st Meetng of the North Amercan Chapter of the Assocaton for Computatonal Lngustcs, Seattle, USA, (2000), 178 185. 15. Klenberg, J.M.: Authortatve sources n a hyper-lnked envronment. In: Journal of the ACM, 46(5), (1999), 604-632. 16. Knght, K., Marcu, D.: Statstcs-Based Summarzaton Step One: Sentence Compresson. In: Proceedng of The 17th Natonal Conference of the Amercan Assocaton for Artfcal Intellgence, (2000), 703 710. 17. Kupec, J., Pedersen, J.O., Chen, F.: A Tranable Document Summarzer. In: Research and Development n Informaton Retreval. (1995) 68 73. 18. Ln, Ch.,: ROUGE: A Package for Automatc Evaluaton of Summares. In: Proceedngsot the Workshop on Ewxt Summarzaton Branches Out, Barcelona, Span, (2004). 19. Luhn, H.P.: The Automatc Creaton of Lterature Abstracts. In: IBM Journal of Research Development 2(2). (1958) 159 165. 20. Marcu, D.: From Dscourse Structures to Text Summares. In: Proceedngs of the ACL97/EACL97 Workshop on Intellgent Scalable Text Summarzaton, Madrd, Span, (1997), 82 88.