Sumarizace textů. Univerzitní 8, Plzeň Karel Jezek 2 European Commission Joint Research Centre, IPSC Ispra
|
|
- Monika Dušková
- před 6 lety
- Počet zobrazení:
Transkript
1 Sumarzace textů Karel JEŽEK 1, Josef STEINBERGER 2 1 Katedra nformatky a výpočetní technky, FAV ZČU v Plzn Unverztní 8, Plzeň Karel Jezek <jezek_ka@kv.zcu.cz> 2 European Commsson Jont Research Centre, IPSC Ispra T.P. 267, Ispra (VA), Italy Josef Stenberger <josef.stenberger@jrc.ec.europa.eu> Abstrakt. Jsme zahlcován stále větším množstvím nformací. Proto je v současné době velká pozornost věnována výzkumu a vývoj redukčních metod, které zachovávají co nejvyšší nformační hodnotu redukovaných dat. Úlohy tohoto typu známe pod názvem vytváření abstraktů, extraktů č sumarzace a lze je aplkovat na data všech možných forem. V tomto výkladu se zaměříme na data textového tvaru, který lze stále ještě považovat za základní formu pro sdílení nformací. Budou popsány prncpy a možnost jak klasckých sumarzačních metod, tak metod založených na moderních algebrackých postupech. Věnujeme také pozornost způsobu řešení těch úloh, které navazují na základní sumarzac jednoho dokumentu. Jedná se zajména o úlohy sumarzace vícedokumentové a aktualzační, kde je nutné řešt navíc problém nežádoucí redundantní nformace ve výsledku. Součástí výkladu bude pops způsobů hodnocení kvalty sumarzace a prezentování výsledků našeho vlastního výzkumu v této oblast. Klíčová slova: sumarzace, sumarzace textu, vícedokumentová sumarzace, aktualzační sumarzace, redukce dat, sngulární dekompozce, latentní sémantcká analýza. 1 Úvod Snadné a levné zpřístupnění nformací prostřednctvím zejména WWW, způsoblo jejch dříve nepředstavtelný nárůst a podnítlo zvýšený zájem o prostředky usnadňující jejch zvládnutí. Většna na webu přístupných stránek je tvořena textem. Proto je zvýšené úslí věnováno metodám, které zhušťují textem poskytované nformace, zkracují čas potřebný pro seznámení se s hlavním myšlenkam prezentovaným textem nebo alespoň rychle zprostředkují povědomí o tématech, kterým se text věnuje. Výsledné shrnutí musí pomocí výběru nebo s použtím zobecnění nformovat o obsahu a závěrech orgnálního textu. Přesto, že s pojmem sumarzace všchn běžně pracujeme, považujeme za vhodné uvést v úvodu jeho defnc. Vytváření souhrnu (sumarzac) můžeme defnovat např. jako: - Vytvoření stručné a přesné reprezentace obsahu dokumentu, - Vyjmutí nejdůležtější nformace ze zdrojového textu, která jej zestručňuje pro účely a úlohy užvatele. Sumarzace je úlohou, která je řešena od nepamět. Až do vznku počítačů samozřejmě manuálním způsobem, ale an použtí počítačů k jejímu řešení není horkou novnkou. Prvé pokusy se datují do polovny mnulého století. Za prvou publkac pojednávající o Petr Šaloun (ed.), DATAKON 2010, Mkulov, , pp
2 Sumarzace textů počítačové sumarzac textu lze považovat Luhnovu prác [19], nsprovanou jž tehdy nformačním přetížením. Jím navržená metoda používá pro výběr vět do souhrnu frekvenc termů (slov nebo frází). Jným významným přínosem byla o něco pozděj uvedená Edmunsonova práce [7], která vycházela z poznatku, že věty s nejvyšší nformační hodnotou se obvykle vyskytují na začátku dokumentu. V devadesátých letech se v řešení sumarzačního problému začaly uplatňovat metody umělé ntelgence. Uveďme např. [17], popsující učící se systém založený na Nave Bayes klasfkátoru, který je trénován na korpusu dvojc dokument souhrn. Současné výkonné počítače, nástup WWW a nové poznatky využtelné př řešení sumarzační úlohy, spolu s potřebou řešt dnešní nformační přetížení jsou podnětem, na který reagovala řada výzkumných pracovšť pravdelně porovnávajících výsledky své práce na specalzovaných konferencích jako je Document Understandng Conference (DUC), nově Text Analyss Conference (TAC). Začaly se řešt úlohy sumarzace více dokumentů, multmedálních dokumentů a sumarzace aktualzační, která poskytuje nformace zohledňující předchozí znalost užvatele a podává mu jen nové nformace, vypouštěním nformací obsažených v dokumentech, se kterým jž byl dříve seznámen. Důležtou souvsející úlohou je vyhodnocování kvalty sumarzace a jejích kvanttatvních vlastností. Tyto vlastnost můžeme měřt podle následujících, vzájemně ortogonálních hledsek: - Sémantcké nformatvnost, - Souvslost textu, - Kompresního poměru. Sémantckou nformatvností rozumíme míru možnost zrekonstruovat ze souhrnu původní text. Souvslostí rozumíme míru s jakou na sebe navazují jednotlvé část souhrnu a vytváří tak ntegrovaný výsledný text. Kompresní poměr je podílem délky souhrnu a délky orgnálu. Způsob hodnocení může vycházet z porovnávání výsledného souhrnu s původním textem, s ručně vytvořeným souhrnem nebo se souhrnem vytvořeným jným sumarzačním systémem. Hodnotící metody mohou být rozděleny na: - Přímé metody, které jsou založené přímo na analýze souhrnu a jeho porovnání s orgnálem co do míry tematcké obsažnost, souvslost, čtelnost, gramatky apod. Porovnávat výsledek je možné s ručně vytvořeným abstraktem (od autora orgnálu nebo od profesonálního abstraktora), - Nepřímé metody, které jsou založené na míře použtelnost souhrnu pro zadaný účel. Tím může být např. klasfkační úloha, fltrování, vyhledávání nebo odpovídání na dotazy. Kvalta souhrnu pak může být určena kvanttatvním ukazatel jako jsou třeba přesnost a úplnost výběru podle souhrnu v porovnání s výběrem podle orgnálu nebo deálního, ručně konstruovaného souhrnu. Poznamenejme, že pojem deálního souhrnu je pouhou fkcí a pracovat s ním je třeba obezřetně. Další část příspěvku jsou uspořádány takto: Následující část zavádí termnolog a obecně pojednává o jednotlvých způsobech automatcké sumarzace. V další část se seznámíme s tradčním metodam, které jsou založeny na heurstckých č statstckých postupech a vznkly v mnulém mlénu, dále se věnujeme novějším sumarzačním postupům. V páté kaptole se budeme věnovat algebrackým způsobům sumarzace, které jsou pozoruhodné používáním metod matcové faktorzace. Šestá kaptola je věnována úlohám, které navazují na jednodokumentovou sumarzac a jsou předmětem zájmu současného výzkumu. Uvedeme rovněž výsledky některých vlastních prací. Sedmá část seznamuje se způsoby hodnocení kvalty sumarzace. Následuje závěr, s výhledem na další možný výzkum.
3 Zvaná přednáška 2 Typy sumarzátorů Exstuje několk navzájem nezávslých hledsek, která mohou být použta k zavedení taxonome sumarzátorů. Uveďme ta nejčastěj používaná hledska a z nch vycházející členění. - Forma souhrnu: o Extrakt je souhrn zcela tvořený sekvencem slov, které jsou okopírovány z původního dokumentu. Jako kopírované úseky mohou být použty fráze, věty nebo celé odstavce orgnálu. Jak lze předpokládat, extrakty trpí chabou souvslostí zařazených úseků, způsobenou zejména častým opomíjením anaforckých vztahů. Výběr vět může být proveden bez ohledu na kontext, výsledek bývá nevyvážený a nesourodý. o Abstrakt je souhrn, který nemusí obsahovat a většnou neobsahuje sekvence slov z orgnálního textu. V současné době se stále ještě jedná o úlohu, která je pro počítačové zpracování obtížně řeštelná. Vyžaduje analýzu vstupního textu včetně sémantcké analýzy a následnou syntézu, generující věty v přrozeném jazyce. - Úroveň zpracování souhrnu: o Povrchní přístupy, ve kterých jsou nformace reprezentovány prostřednctvím povrchních vlastností a jejch kombnacem. Povrchním vlastnostm jsou např. pozčně významné termy (vžlo se používat slovo term místo češtějšího termín), frekvenčně významné termy, termy specfcké pro zpracovávanou doménu nebo termy obsažené v užvatelově dotazu. Jejch výsledkem je extrakt. o Hlubší přístupy mohou produkovat extrakt nebo abstrakt. K určení významných částí textu využívají jeho sémantcké zpracování, zjšťují textové jednotky a jejch vzájemné vztahy jako jsou tezaurové relace, syntaktcké relace apod. Mohou využívat nformací o stavbě textu a rétorcké struktuře, případně hypertextových značek. - Účel, pro který je souhrn vytvářen: o Hodnotící souhrny, do kterých lze začlent krtky, recenze, posudky. Jejch charakterstckým rysem je, že vyjadřují mínění autora souhrnu o daném dokumentu. Tato okolnost zatím praktcky vylučuje hodnotící souhrny ze skupny automatcky generovatelných. o Indkatvní souhrny dávají zkrácenou formou nformac o hlavních tématech dokumentu, zachovávají jeho nejpodstatnější část. Měly by umožnt užvatel rozhodnout, zda čtení celého textu bude pro něj dostatečně přínosné. Jsou proto často využívány ve výstupech vyhledávacích systémů, kde nahrazují orgnální texty dokumentů. Jejch obvyklá délka bývá do 10% úplného textu. o Informatvní souhrny nahrazují orgnální dokument poskytnutím jeho stručného obsahu. Př zkrácení původního textu o 70-80%, může s souhrn zachovat důležté detaly orgnálu. Míra nformování čtatele by měla postačovat pro zběžné seznámení s tématem a vyhnout se tak čtení celého dokumentu. - Podle užvatelů můžeme souhrny rozdělt např. na: o Obecné souhrny, které jsou určeny pro šrokou třídu čtenářů, s různým zájmovým oblastm. Pro obecný souhrn jsou důležtá všechna v dokumentu obsažená témata.
4 Sumarzace textů o Souhrny založené na dotazu, jejch obsah je vytvořen tak, aby vybral z dokumentu nformace relevantní k dotazu užvatele. o Tematcky zaměřené souhrny vybírají nformace vztahující se k určtému tématu. o Aktualzační souhrny, zohledňující aprorní znalost užvatele. o Užvatelsky zaměřené souhrny obsahují pouze nformace týkající se oblastí zájmu jednotlvého užvatele nebo skupny užvatelů. - Na základě rozsahu: o Jednodokumentové souhrny. o Vícedokumentové souhrny. - Podle jazyka: o Multjazykové. o Monojazykové. - Dle použtého prncpu: o Heurstcké metody. o Statstcké metody (např. Nave Bayes, která je metodou s učtelem ). o Grafové metody (např. PageRank, která je metodou bez učtele ). o Algebracké metody (např. LSA, která je metodou bez učtele ). Jednotlvé prncpy se mohou vzájemně prolínat a doplňovat. V dalších částech s proto představíme alespoň některé zástupce jednotlvých skupn. 3 Klascké sumarzační metody 3.1 Heurstcké metody První pokusy s automatckou sumarzací jsou známé jž z polovny mnulého století. Pracovaly extraktvním způsobem s využtím povrchových ndkátorů pro výběr částí textu do výsledného extraktu. Za nejstarší je považován jž zmíněný algortmus publkovaný v [19]. Byl založen na předpokladu, že důležté termy se v textu často opakují, takže jejch frekvenc lze použít jako krterum pro výběr vět do extraktu. Algortmus nejprve zjstl počet výskytů jednotlvých slov (termů). Poté ohodnotl věty podle počtu a zjštěné významnost v nch obsažených slov a do souhrnu pak zařadl věty s nejvyšším ohodnocením. Běžná slova (tzv. stop slova) nebyla do ohodnocování zahrnuta. Jné heurstcké krterum bylo použto v [6]. Využívalo skutečnost, že důležtá slova se vyskytují v nadpsu, na začátku č na konc textu nebo bývají zdůrazněna přívlastky jako významný, výsledný, důsledek apod. Kombnace pozčního krtera spolu se zvýrazňujícím kontextem pak byla použta k ohodnocení a k výběru významných slov a jejch přítomnost ve větách ndkovala vhodnost vět k zařazení do souhrnu. 3.2 Statstcké metody Důležtost termů z dokumentu se odráží ve frekvenc jejch výskytu. Této skutečnost využíval jž Luhnuv sumarzátor a je dobře známa z ndexovacích mechansmů vyhledávacích systémů. Pokud se některé slovo ale bude vyskytovat v textech přílš často, jeho důležtost klesá. Proto je významnost termu t v dokumentu vyjadřována jako součn jeho frekvence výskytu tf a recproční hodnoty počtu jednotek s jeho přítomností (nverted document frequency) df. Do souhrnu jsou pak zařazovány věty, které jsou významné proto, že obsahují důležté termy. Postup sumarzace dokumentu může být popsán v následujících bodech:
5 Zvaná přednáška 1. Zkonstruuj pro každou větu zpracovávaného dokumentu vektor frekvence termů tf. 2. Zkonstruuj vektor D nverzní frekvence termů v celém dokumentu. 3. Vypočt významnost každé z vět dokumentu pomocí skalárního součnu tf D. 4. Do výsledku zařaď věty s nejvyšším skóre. Takto konstruovaný souhrn by pravděpodobně měl nedostatek. Přílš by akcentoval jedno hlavní téma dokumentu, které by bylo ve výsledku zastoupeno redundantně, proto bod 4 změníme, zařadíme do výsledku jen jednu větu v (s nejvyšším skóre) a dále provedeme: 5. Je-l délka výsledného souhrnu postačující, tak ukonč výpočet, jnak pokračuj dalším krokem. 6. Všechny termy, obsažené ve větě v, odstraň z vět dokumentu. Tím je z dokumentu současně odstraněna věta v. 7. Opakuj výpočet od bodu 1. V [10] byl použt obdobný postup se zdokonaleným vážením významnost termů. Pomocí tezauru WordNet bylo prosté načítání frekvence nahrazeno relevancí. Čítač výskytu termu byl nkrementován v případech nalezení výskytu synonym, hyponym (jedle pro strom), meronym (větev pro strom), č holonym (strom pro větev). Důmyslnější statstckou metodu, která je založena na Bayesově klasfkačním vzorc poprvé použl v [17]. Věty z dokumentu je možné klasfkovat do dvou tříd: 1. zařazené do souhrnu a 2. nezařazené do souhrnu. K natrénování metody je potřebný korpus dvojc (orgnální texty a jm příslušné souhrny). Dále je třeba určt příznaky, na jejchž základě je prováděna klasfkace vět. Použté příznaky zahrnují přítomnost důležtých slov zjštěných na základě jejch frekvence, slova začínající velkým písmenem, délka věty, fráze se zdůrazňujícím slovem, pozc. Sumarzátor může určt pro každou větu dokumentu její pravděpodobnost zařazení nebo nezařazení do souhrnu na základě hodnot jejích příznaků a znalost prorních pravděpodobností. Zjstí maxmální aposterorní pravděpodobnost, tj. nejpravděpodobnější hypotézu h {zařadt, nezařadt} př daných hodnotách příznaků f 1,f 2,... f k.. P(h f 1,f 2,... f k ) = P(f 1,f 2,... f k h) * P(h) / P(f 1,f 2,... f k ) (1) Obecnou Bayesovu formul (1) lze za předpokladu nezávslost příznaků (což sce není pravda, ale běžně se to toleruje) zjednodušt, použít místo složené pravděpodobnost součn pravděpodobností a počítat pravděpodobnost zařazení dle vzorce pro nave Bayes klasfkátor. P(h f 1,f 2,... f k ) = Π P(f j h) * P(h) / Π P(f j ) (2) P(f j h) představuje pravděpodobnost s jakou budou pro h = zařazení v souhrnu zařazeny věty s příznakem s hodnotou f j, analogcky pro h = nezařazení se jedná o pravděpodobnost s jakou budou pro h = nezařazení do souhrnu nezařazeny věty s příznakem majícím hodnotu f j. P(f j h) se zjstí z trénovacího korpusu dvojc (text a souhrn). P(f j ) představuje pravděpodobnost výskytu hodnoty příznaku fj ve větách textového korpusu. P(h) je poměr počtu vět v souhrnu k celkovému počtu vět v trénovacím korpusu pro případ kdy h=zařazení a obdobně pro h = nezařazení. Do výsledného souhrnu se vloží potřebný počet vět, řazených podle spočtené pravděpodobnost zařazení. Pro zamezení podtečení je vhodné vzorec převést do logartmckého tvaru a počítat zařazení vět na základě vyhodnocení: Vyber takové h {zařadt, nezařadt}, pro které je větší hodnota (log P(h) + log P(f j h))
6 Sumarzace textů Systém popsaný v [17] se poněkud lší od výše popsaného klasfkačního postupu. Neklasfkuje každou větu textu. Místo toho počítá pro každou větu skóre dané pravděpodobností jejího zařazení do souhrnu. Nejvýše hodnocených n vět pak tvoří souhrn. Výpočet se tím zrychlí cca dvojnásobně. Výsledky budou zhruba stejné, pokud použjeme převážně příznaky poztvní pro zařazování do souhrnu. 4 Pokročlé sumarzační metody 4.1 Metody využívající souvslost v textu Do této skupny můžeme zařadt jak metody využívající rétorcké struktury textu, tak metody pracující s anaforckým vztahy mez větam. Společná je pro ně potřeba zvládnutí hlubších lngvstckých znalostí než tomu je v případě jž zmíněných statstckých metod, které sumarzac v podstatě převádí na klasfkac a nebo algebrackých metod, o kterých pojednáme pozděj. Teore rétorckých struktur (RST) zkoumá způsoby uspořádání projevu. Prostřednctvím rétorckých relací zachycuje vzájemné vazby mez jednotlvým částm projevu (textu). Rozlšuje část zvanou nukleus, která obsahuje nejpodstatnější, tj. ústřední část textu s hlavním údaj a s ní svázané méně důležté, tzv. sateltní část. Nukleové a sateltní část jsou společně označovány jako textové jednotky a představují část vět nebo celé věty. Rétorcká struktura má podobu stromového grafu, jehož uzly jsou ohodnocovány podle jejch rétorcké role. Uzel, který v jedné úrovn má vlastnost sateltu, může v nžší úrovn RS-stromu být nukleus a vázat se s dalším sateltním uzlem. V [20] popsovaný sumarzační program pracuje s RS-stromem, který je vygenerován rétorckým analyzátorem. Do souhrnu vybírá textové jednotky podle výše jejch umístění v RS-stromu. Pro krátké souhrny jsou vybírány pouze významné jednotky sdružené s vntřním uzly stromu, které se nachází blízko jeho kořene. Čím delší souhrn je generován, tím od kořene vzdálenější významné jednotky textu jsou do něj zahrnuty. Prncp metody je tedy založen na předpokladu, že RS-strom reprezentuje parcální uspořádání částí textu podle jejch důležtost. Extraktvní způsob sumarzace dává málo uspokojvé výsledky, pokud orgnál obsahuje časté anaforcké výrazy. Anaforckým výrazem je slovo nebo fráze, odkazující zpět na nějaké dříve uvedené slovo nebo fráz (typckým příkladem jsou zájmena ten, on, ). Pro porozumění anaforckému výrazu je třeba znát jeho předchůdce. Je-l do extraktu vybrána věta obsahující anaforckou vazbu bez jejího kontextu, souhrn bude těžko srozumtelný. Soudržné vlastnost textu jsou tvořeny relacem mez výrazy a byly také využty pro sumarzac. V [1] je uvedena metoda nazývaná Lexkální řetězce. Ve zpracovávaném textu nejprve vyhledá řetězce příbuzných slov. Příbuzným termy jsou takové, které jsou synonyma, hyperonyma, hyponyma, antonyma apod. K posouzení příbuznost je využíván tezaurus Wordnet. Po zkonstruování těchto lexkálních řetězců, sumarzátor vypočte jejch skóre. To je určeno typem relací a jejch počtem v řetězc. Na základě hodnocení řetězců a jejch ncdence s větam jsou pak hodnoceny samotné věty. Do souhrnu jsou vybírány ty věty, ve kterých se koncentrují řetězce s nejvyšším skóre. V [3] je uveden podobný prncp. Namísto lexkálních řetězců používá k ohodnocení vět tzv. objekty a jejch vazby. Objektem může být jak slovo, tak fráze nebo její varantní, č redukovaná forma. Vazby jsou dány odkazy mez objekty. Věty jsou ohodnoceny na
7 Zvaná přednáška základě počtu a míry referencí objektů v nch obsažených. Do souhrnu jsou vybrány věty, které obsahují často zmňované objekty. 4.2 Metody modfkující původní text Automatcký extraktor není schopen (co se kvalty výsledku týká) konkurovat ručně vytvořenému abstraktu. Počítač je sce schopný poměrně dobře rozpoznat klíčová témata v dokumentu, vytržení vět nebo odstavců orgnálu a jejch složení do souhrnu však téměř vždy naruší kontnutu výsledného textu. Pokusy o vytvoření automatckého sumarzátoru, který by pracoval neextraktvním způsobem a lépe zachoval souvslost textu se začaly objevovat před cca 10 t lety. Lze je rozdělt do dvou skupn: Prvá skupna místo překopírování celých vytpovaných vět nebo odstavců, konstruuje souhrn za pomoc jejch komprese. Sumarzátory pracující tímto způsobem jsou popsány např. v [13], [16], [27]. Vychází z předpokladu, že věty navržené do souhrnu bývají většnou dlouhé. Dlouhé věty totž s větší pravděpodobností obsahují důležté termy. Často však také obsahují méně důležté část. Úsek textu vybraný ke komprmac je zpracován syntaktckým analyzátorem, který dentfkuje v souvětích vedlejší věty, tj. kanddáty na vypuštění. Vyhodnocení vhodnost č nevhodnost kanddáta používá obvykle více hledsek. Např. počet zbylých důležtých termů ve zkrácené větě, hloubka vedlejší věty v syntaktckém stromu, počet odstraněných lstů stromu, počet odstraněných vlastních jmen, porušení anaforckých vazeb. Do druhé skupny lze zařadt [14], [21]. Generují věty nově, s pomocí cut and paste operací. Operace mohou mít podobu: - redukce věty - odstraňují relevantní fráze, slova, vedlejší věty. Odstraněno může být ve výsledku více komponent, pokud jsou shledány nezávažné. - Větné kombnace - slučují texty z více vět. Obvykle jsou použty společně s redukcí slučovaných vět. - Syntaktcké transformace přemístění větných částí na základě syntaktckého rozboru. Doplňují větné redukce a kombnace. - Parafrázování nahrazuje fráze jejch parafrázem (volné vyjádření obsahu jným slovy). - Generalzace / specfkace nahrazuje fráze nebo vedlejší věty jejch obecnějším/specfčtějším popsem. - Přeuspořádání mění pořadí extrahovaných vět. Zmňovaný cut and paste sumarzátor k realzac výše uvedených operací využívá spolupráce se syntaktckým analyzátorem, s co-referenčním systémem, tezaurem a s rozsáhlým slovníkem. 4.3 Grafové metody Iterační metody, o kterých v této část pojednáme, vznkly jako prostředek pro ohodnocování významnost uzlů hypertextové struktury Webu. Všeobecnou známost s získaly algortmy HITS[15] a PageRank [4]. S úspěchem byly použty pro vyhodnocování autortatvnost uzlů v socálních sítích, zejména v jedné z jejch konkrétních podob, v ctačních sítích [26], [8]. Sympatckou vlastností těchto metod pro vyhodnocování grafových struktur je jejch jazyková nezávslost a nepotřebnost hlubších lngvstckých znalostí př jejch nasazení k sumarzac. Původně byly tyto úlohy aplkovány na orentované grafy. Nechť G = (V, E) je orentovaný graf, s množnou vrcholů V a s množnou hran E, kde E je podmnožnou VxV. Pro daný vrchol V nechť In(V ) je množnou vrcholů, ze kterých vede větev do V a Out(V ) nechť je množna vrcholů do nchž vede větev z V.
8 Sumarzace textů Snad nejpopulárnějším algortmem pro vyhodnocování významnost vrcholů v grafu (rankng algorthm) je PageRank, používaný v Google k analýze Webu. Na rozdíl od jných hodnotících metod (např. HITS) PageRank ntegruje do jedné formule vlv vstupních výstupních charakterstk vrcholů. Pro každý vrchol tedy určuje pouze jedné PR (PageRank) skóre, dané vzorcem (3), ( V) = (1 d) / N + d * PR( Vj) PR, (3) Vj In( V) Out( Vj) ve kterém N je počet vrcholů a d je parametr (faktor tlumení) s hodnotou z ntervalu 0 až 1. Je patrné, že PageRank vrcholu závsí na PageRanku ostatních vrcholů. Vzhledem k cyklčnost grafu je výpočet teračním procesem, př kterém se propojené vrcholy navzájem ovlvňují. Faktor (1-d) představuje pravděpodobnost, se kterou bude př procházení grafem proveden přechod na lbovolný vrchol grafu. Naprot tomu d představuje pravděpodobnost přechodu podle větve vedoucí z vrcholu. Hodnotu d se doporučuje volt cca 0.8. Na počátečních hodnotách vrcholů nezáleží, volí se všechny stejné, se součtem 1. Výpočet konverguje během několka málo terací. Př použtí teračních vyhodnocování pro extraktvní sumarzac reprezentují vrcholy grafu jednotlvé věty dokumentu. Větve grafu vyjadřují vazby mez větam. Nejsou orentované, což není překážkou, algortmus pracuje s neorentovaným grafy. V tomto případě In(V )= Out(V ) tj. větve jsou považovány za vstupní výstupní zároveň. Zatímco v případě socálních sítí bývají větve grafu neohodnocené, př výběru vět v extraktvní sumarzac je možné ohodnocením větví vyjádřt míru svázanost věty V a V j jako váhu w j. Orgnální vzorec pro PageRank nezahrnuje vážení větví. Proto [22] v systému TextRank formul zmodfkoval na tvar (4): PR( Vj) PR ( V) = (1 d) / N + d * j w (4) wjk Vj In( V) Vk Out ( Vj) Důležtou fází sumarzačního procesu v TexRanku je konstrukce grafu vazeb vět dokumentu. Pro určení a ohodnocení větví je zavedena relace podobnost vět, která má význam překrytí kontextu. Lze j chápat jako určté doporučení čtenář, který čte větu V x, aby s přečetl větu V y, která pojednává o stejném konceptu. Doporučuje se určt váhu na základě počtu společných symbolů v obou větách, společných slov určté syntaktcké kategore, normalzovat váhy vzhledem k délce vět a tím předejít preferenc vět dlouhých. Formálně TextRank popsuje podobnost vět V a V j, z nchž každá je reprezentovaná množnou N slov (resp N j slov) W 1, W 2,. W N (resp. W j 1, W j 2,. W j Nj) vzorcem (5). Podobnost( V, Vj) { Wk; Wk V & Wk Vj} = (5) log( V ) + log( Vj ) Podobnost lze určt jným způsoby. Po zkonstruování grafu podobnost je použta formule (4). Výpočet je ukončen, když změny hodnot vrcholů jsou menší než zvolená mez. Věty s nejvyšším ohodnocením jsou pak vybrány do souhrnu. Obdobný systém pro výpočet důležtost vět je LexRank [7]. Podobnost vět jsou zachyceny matcí, v níž hodnota prvků je dána kosnovou podobností (vz 7.1) příslušných vět. Podobnost je závslá na počtu překryvů slov. Dvě dentcké věty msjí podobnost 1, zatímco dvě věty se zcela odlšným slovy mají podobnost 0. Demo verze je na adrese:
9 Zvaná přednáška Pro názornost uveďme konkrétní příklad orgnálního textu, jemu odpovídající graf podobnost vět, ohodnocení vět a výsledný sumarzovaný text př nastavení cosnového fltru podobnost na 25% a významnost vybraných vět na 15%. Původní text: Každý už ví, že dovolenou je nutno kupovat jen u CK pojštěné prot úpadku. Ale kterou CK vybrat. Kam jít koupt svou vysněnou dovolenou. Možností je hodně. I já jsem zpočátku obíhala cestovní kanceláře ve městě. Nyní ale využívám mnohem rychlejší a pohodlnější způsob. Vybírám s dovolenou na nternetových stránkách. Jsou zde zájezdy všech velkých cestovních kanceláří a více než sta dalších ck. Do celého světa a za stejnou cenu jako u cestovní kanceláře. Navíc dostávám dárek - pojštění stornopoplatků v hodnotě 600Kč zdarma. To vše rychle a z pohodlí domova - nternetem. Věta3 Věta5 Věta4 Věta9 0,3 0,35 0,45 0,28 Věta7 Věta10 Věta0 0,29 0,42 Věta1 Věta8 Věta2 Věta6 Obr. 1: Graf podobnost vět př prahové hodnotě cosnu 0,25. Pořadová čísla vět, výsledná ohodnocení a texty vět jsou uvedeny v Tab 1.
10 Sumarzace textů Číslo věty Ohodnocení věty Text věty Navíc dostávám dárek - pojštění stornopoplatků v hodnotě 600Kč zdarma. Jsou zde zájezdy všech velkých cestovních kanceláří a více než sta dalších ck Nyní ale využívám mnohem rychlejší a pohodlnější způsob Kam jít koupt svou vysněnou dovolenou To vše rychle a z pohodlí domova - nternetem Do celého světa a za stejnou cenu jako u cestovní kanceláře Vybírám s dovolenou na nternetových stránkách Možností je hodně Každý už ví, že dovolenou je nutno kupovat jen u CK pojštěné prot úpadku I já jsem zpočátku obíhala cestovní kanceláře ve městě Ale kterou CK vybrat. Tab.1: Ohodnocení významnost vět sumarzátorem LexRank Výsledný souhrn : Každý už ví, že dovolenou je nutno kupovat jen u CK pojštěné prot úpadku. Do celého světa a za stejnou cenu jako u cestovní kanceláře. To vše rychle a z pohodlí domova - nternetem. 5 Latentní sémantcká analýza a sumarzace 5.1 Prncp latentní sémantcké analýzy Latentní sémantcká analýza (LSA) je algebracká technka, dovolující automatcky analyzovat vztahy mez termy a dokumenty, č termy a větam. Používá metodu rozkladu matc sngulární dekompozcí (SVD). SVD je numercký proces, který se používá př redukc dat. Byly navrženy algortmy, které sngulární dekompozcí řeší klasfkac nebo vyhledávání dokumentů (latentní sémantcké ndexování). SVD byla poprvé použta pro sumarzac v [9] a zdokonalena v [28]. Nám navržený prncp popíšeme nejprve pro sumarzac jednoho dokumentu. Modfkace pro složtější úlohy uvedeme v další kaptole. Proces začíná vytvořením matce termů prot větám A = [A 1, A 2,, A n ], kde každý sloupcový vektor A reprezentuje vektor frekvencí termů ve větě dekomponovaného dokumentu. Pokud dokument obsahuje m termů a n vět, získá se matce A o rozměrech m n. Matce A je zpravdla řídká, protože normálně se každé slovo v každé větě nevyskytuje. Sngulární dekompozce matce A je potom defnována jako:
11 Zvaná přednáška A T = UΣV, (6) kde U = [u j ] je m n sloupcově ortonormální matce, jejíž sloupce se nazývají levé sngulární vektory, Σ = dag(σ 1, σ 2,,σ n ) je n n dagonální matce, jejíž dagonální prvky jsou nezáporná sngulární čísla seřazená sestupně a V = [v j ] je n n ortonormální matce, jejíž sloupce se nazývají pravé sngulární vektory (vz obr. 1). Rozměr matc je redukován na k dmenzí, kde k < n, takže U je redukována na m k, Σ na k k a V T k n. Obr 2.: Sngulární dekompozce matce A Na SVD rozklad matce A termů prot větám se můžeme dívat ze dvou pohledů. Z matematckého pohledu SVD zprostředkovává mapování mez m-dmenzonálním prostorem vektorů frekvencí termů a k-dmensonálním sngulárním vektorovým prostorem. Ze sémantckého pohledu SVD poskytuje latentní sémantckou strukturu dokumentu reprezentovaného matcí A. Tato operace vyjadřuje rozklad orgnálního dokumentu do k lneárně nezávslých bázových vektorů reprezentujících hlavní témata textu. Každý term věta dokumentu jsou ndexovány těmto bázovým vektory. Unkátní vlastností sngulárního rozkladu je schopnost zachytt a modelovat vntřní vztahy mez termy tak, že může sémantcky shlukovat termy a věty. Dále, jak je demonstrováno v [2], pokud se v dokumentu často vyskytuje určtá kombnace slov, pak bude tato kombnace zachycena a reprezentována jedním ze sngulárních vektorů. Velkost odpovídajícího sngulárního čísla ndkuje významnost kombnace v dokumentu. Každá věta obsahující tuto kombnac slov bude promítnuta podél odpovídajícího sngulárního vektoru a věta, která nejlépe reprezentuje tuto kombnac, bude mít největší hodnotu v tomto vektoru. Každá kombnace slov popsuje určté téma dokumentu. Lze tedy na základě předchozích faktů říc, že každý sngulární vektor reprezentuje určté téma dokumentu a velkost korespondujícího sngulárního čísla reprezentuje významnost tohoto tématu [9]. Shrneme-l předchozí výklad, tak matce A mapuje termy do jednotlvých vět, redukovaná matce U mapuje termy do k nejvýznamnějších témat a redukovaná matce V mapuje věty do k nejvýznamnějších témat. 5.2 Použtí LSA pro sumarzac Na základě předchozí dskuse jsme navrhl sumarzační metodu. Tato metoda využívá sngulární rozklad matce termů prot větám, konkrétně matc V T, která popsuje míru významnost vět v hlavních tématech dokumentu. Algortmus navržený v [9] jednoduše vybírá pro každé téma nejvýznamnější větu tak, že postupně pro j = 1 až do potřebného počtu P vět souhrnu vybere j-tý pravý sngulární vektor z V T. Každá věta je reprezentována
12 Sumarzace textů sloupcovým vektorem [v j1, v j2,, v jk ] T. Do souhrnu zařadí tu větu, která má největší ndexovou hodnotu v j-tém pravém sngulárním vektoru. Nevýhodou takového postupu je stejná důležtost všech P v souhrnu obsažených témat. Jejch významnost se však může výrazně lšt, což lze dentfkovat v matc Σ. Navrhl a ověřl jsme proto změnu krtera výběru dovolující zařadt věty, jejchž vektorová reprezentace v matc Σ 2 V T má největší délku. Násobením Σ 2 zohledníme statstckou významnost hlavních témat, která je úměrná kvadrátu příslušného sngulárního čísla, jak bylo dokázáno v [5]. Formálně vyjádřeno, počítáme v k rozměrném latentním prostoru témat délku vektoru s r pro r-tou větu dle vzorce: k s r = v 2 2 r *σ (7) = 1 V expermentech jsme dmenz latentního prostoru omezl zvoleným procentem z celkového počtu dmenzí. Je možné použít poklesu sngulárních čísel na zlomek největšího. Do souhrnu je zařazován žádaný počet vět, jejchž hodnoty s jsou největší. Důležté téma tak může být v souhrnu zastoupeno více větam. LSA byla pro sumarzac použta v dalších modfkacích. Např. po SVD rozkladu byla zpětně rekonstruována redukovaná matce A R a na její věty pak aplkován výše uvedený grafový postup [23]. Jný přístup zařazuje počet vět vztahujících se k tématu na základě procentuálního podílu příslušného sngulárního čísla k součtu všech sngulárních čísel [34]. SVD není jednou algebrackou metodou, která se uplatňuje v úlohách zpracování textu. Jnou metodou s obdobným schopnostm je NMF (non-negatve matrx factorzaton), která rozkládá matc A na dvě matce W a H. Jejch prvky rovněž reprezentují termy a věty v prostoru témat. Protože jsme chtěl využívat nformac o důležtost témat z matce Σ, NMF jsme zatím nevěnoval výraznou pozornost. 6 Vícedokumentová sumarzace a nové sumarzační úlohy Před zhruba sedm lety se pozornost týmů zabývajících se sumarzací začala soustřeďovat na vícedokumentovou sumarzac a s ní souvsející úlohy jako je sumarzace aktualzační (update) [12], cílená (focuced), kontrastová (contrastve) [33], č mínění (sentment). Vícedokumentová sumarzace oprot jednodokumentové zavádí nový problém je třeba zabránt zařazení do souhrnu vět z různých dokumentů, ale se stejným obsahem. V prvé fáz zpracování postupujeme stejně jako př sumarzac jednoho dokumentu, pracujeme však se všem větam množny dokumentů. Některou z dříve uvedených metod ohodnotíme věty skórem vhodnost jejch zařazení do souhrnu. Ve druhé fáz vybíráme sestupně podle skóre jednotlvé věty. Před jejch zařazením do souhrnu ale navíc ověřujeme, zda v souhrnu jž není podobná věta. Podobnost je možné měřt např. kosnem úhlu mez větam ve vektorovém prostoru termů množny dokumentů. Pro verdkt o zařazení/nezařazení je třeba zvolt prahovou hodnotu kosnu. Volba prahu závsí na rozložení hodnot skóre vět, takže určením prahu musíme nastavt rozumný poměr mez podobností a skórem vět souhrnu. Skóre vět v sobě odráží počet zvažovaných témat množny dokumentů. Proto volba prahu se může lšt podle zpracovávané oblast a je vhodné j expermentálně ověřt. Jnou možností je použít terační formul (10) z odst Problém, který se projevl př našch expermentech, bylo upřednostňování delších vět. Přrozeně, dlouhé věty obsahují více významných termů. Skóre vět bylo proto děleno koefcentem, jehož velkost závsela na délce věty. Vyhovující výsledky byly dosaženy jž př poměrně malém počtu témat, cca do 10. Byla ovšem zohledněna jejch významnost násobením V T mocnnou Σ [30].
13 Zvaná přednáška 6.1 Aktualzační sumarzace V případě aktualzační sumarzace předpokládáme, že užvatel má z dané oblast předchozí znalost, které získal přečtením množny dokumentů C old. Dále máme množnu dokumentů C new, které dosud nečetl a chce se seznámt s jejch souhrnem. Do souhrnu však nechceme zařazovat ty nformace z C new, které jž byly obsaženy v C old. Předpokládáme tedy čtenáře s dokonalou pamětí. Popšme řešení pomocí LSA modelu [29]. Aplkujeme SVD odděleně na matce A new a A old vytvořené z C new a C old. Získáme redukované matce U new a U old, jejchž sloupce obsahují témata množn dokumentů, vyjádřená v lneárních kombnacích původních termů. Pro každé nové téma, dané sloupcem matce U new, (označme ndex tohoto sloupce t), vyhledáme nejpodobnější staré téma dané sloupcem matce U old. Kosnová podobnost těchto dvou vektorů udává míru redundance nového tématu red(t). k ( t) = max = 1 m j= 1 U m j= 1 old U old 2 [ j, ] [ j, ]* U * new m j= 1 [ j, t] red, (8) U new 2 [ j, t] kde k je počet sloupců matce U old, tj. počet hlavních témat v redukovaném latentním prostoru. Novost tématu t počítáme vztahem 1 red(t), a protože důležtost tématu je obsažena v odpovídajícím sngulárním čísle σ(t), počítáme aktualzační skóre us(t) tématu t dle vzorce: us(t) = σ(t)*(1- red(t)) (9) Z vypočtených skóre sestavíme dagonální matc US a vynásobením US V T dostaneme tak matc F, která v sobě agreguje novost důležtost nových témat. Následuje zařazování vět do aktualzačního souhrnu. První je věta, která má nejdelší vektor v matc F. Označme jej f best. Informac, kterou jsme touto větou začlenl do souhrnu, je třeba odečíst od ostatních vektorů (vět) f. Přepočítáme proto sloupce matce F. Proces zařazování do souhrnu probíhá teračně, až do získání potřebné délky souhrnu. 6.2 Další aktuální sumarzační úlohy F T best best + 1 = F 2 fbest f Stručně a bez nároku na úplnost výčtu se v tomto odstavc zmíníme o sumarzačních úlohách, které stejně jako aktualzační byly motvovány sumarzací více dokumentů. Kontrastová sumarzace provádí analýzu dokumentů s cílem nalézt rozdíly v jednotlvých dokumentech. Výsledkem je nejen souhrn společný všem dokumentům, ale nformace o důležtých tématech specfckých pro jednotlvé dokumenty. Zkoumání rozdílnost dokumentů přes její praktckou využtelnost bylo věnováno velm málo pozornost v porovnání se zkoumáním jejch podobnost. Dosud jsme nenalezl prác, která by tuto úlohu řešla metodou LSA. Nabízí se přtom možnost po provedení vícedokumentové sumarzace provést sumarzac jednotlvých dokumentů a např. kosnovou mírou porovnat rozdílnost jejch témat s tématy celkového souhrnu. Překročí-l rozdíl zvolenou mez, pak zařadt příslušné věty do rozdílových souhrnů obdobným postupem jako byl popsán výše.. f F (10)
14 Sumarzace textů Sumarzace mínění zpracovává množnu dokumentů D, které obsahují hodnocení nějaké entty (zboží, služeb apod). Výsledkem je souhrn S, který reprezentuje průměrný názor o této enttě. Pracuje s polarzační funkcí, která zobrazuje část textů (fráze, věty) do číselných hodnot, odlšujících kladný a záporný názor. Tato funkce je realzována specálním lexkony. Polarzované část textů jsou načítány, zprůměrovány a výsledné skóre určuje jemu odpovídající část textu, které jsou zařazeny do souhrnu. Cílená sumarzace zahrnuje do vstupních dat užvatelem specfkovanou nformac. Ta může být zadána formou dotazu, nebo tématem o které se zajímá. Množnou sumarzovaných dokumentů bývají v tomto případě často webové stránky. Základem je opět vícedokumentová sumarzace, do výsledku jsou však přednostně zařazovány věty, jejchž téma odpovídá nformac od užvatele. K tomu je nutné zavést metrku témat porovnávající téma dotazu nebo klíčových slov s tématy vět. Řešení úlohy tohoto typu jsme s použtím LSA popsal v [32]. Summarzer of Web Topcs (SWEeT) je volně přístupný na Odpovídá na anglcké a české dotazy, ze kterých extrahuje významné termy. Ty pak použje vyhledávací modul k prohledání předdefnovaných domén vyhledávač Google a Seznam. Prvých 10 dokumentů je předáno analyzátoru, který vybere z HTML struktury vlastní texty a předá je v XML podobě extrakčnímu modulu. Dále se provádí LSA extrakce vět. Prot dříve popsanému s tím rozdílem, že termům z dotazu je přřazena větší váha v matc A. Následuje komprese vět, jejch uspořádání, korekce entt a posléze zobrazení výsledku užvatel. Výsledek na dotaz: kdo vyhraje komunální volby v Praze Téměř všechny poltcké strany v Praze už kanddátky schválly, změny mohou ncméně dělat až do 10. srpna. Komunální volby se rozhodnutím prezdenta konají 15. a 16. října. Na podobné předpověd je však brzo. Jsté je, že TOP 09 zatím dělá vše pro to, aby komunální volby v Praze vyhrála. A ODS vše pro to, aby je prohrála. Použté zdroje: Jak fungují nábory v ČSSD? Kdo přvede víc černých duší, vyhraje KOMENTÁŘ: TOP Tůma. Ldé chtějí osobnost, tady jedna je Podpořím Nečase jako šéfa ODS preméra, odpověděl čtenářům Bendl Analytk řekl onlne, kdo by mohl vyhrát volby ODS nachystala v Praze past, do níž může sama spadnout Obr.3. Příklad výstupu systému SWEeT 7 Vyhodnocování kvalty sumarzace Způsoby vyhodnocování kvalty souhrnu jsou podrobněj popsány v [31]. Kromě ručního, subjektvního ohodnocení souhrnu anotátorem, exstují automatcké vyhodnocovací metody. Míry a metody, které jsou používané k vyhodnocení, mohou být rozděleny do dvou, dále se podrobněj větvících skupn: Přímé (ntrnsc), posuzují kvaltu na základě: o Porovnání lngvstcké kvalty textu, která může zohledňovat: Gramatckou správnost, Neredundantnost, Srozumtelnost,
15 Zvaná přednáška o Strukturu a souvslost. Porovnání obsahu textu, s deálním souhrnem, k čemuž může být použto: Ko-selekčních přístupů pracujících s pojmy (Přesnost, Úplnost, F-score, č Relatvní užtečnost), Podobnostních měr (kosnová podobnost, nejdelší společný podřetězec, společné n-gramy (Rouge), překrytí obsahu, ohodnocování vět (Pyramds), Nepřímé (extrnsc), posuzují kvaltu způsobem, jak se souhrn uplatňuje v určté úloze. K ohodnocení je možné použít: o Metody pro kategorzac dokumentů, o Metody pro vyhledávání nformací, o Metody pro zodpovídání dotazů. Některé z pojmů jsou dostatečně vysvětlující, o těch se v následujícím komentář zmíníme jen stručně, nebo je pomneme. 7.1 Přímé způsoby hodnocení kvalty K lngvstcké kvaltě není přílš co doplňovat. Snad jen upozornt na nebezpečí zhoršení srozumtelnost v případě vypuštění vět s podstatným jmény a jejch zastoupení zájmenným vazbam v souhrnu. Problém anaforckých vztahů, které vznkají v souhrnu, není ještě uspokojvě vyřešen. Pokus o možné řešení je popsán v [33]. Lngvstcká krtera nejsou vesměs dosud automatcky vyhodnottelná. Anotátoř musí souhrny oznámkovat ručně. Ko-selekční technky používají míry známé z oblast vyhledávání nformací (IR nformaton retreval) a klasfkace. Nejznámějším měram jsou přesnost P, úplnost R (recall) a F-skóre. K vyhodnocení strojově vytvořeného souhrnu používají deální (anotátorem vytvořený) souhrn. Přesnost je dána počtem vět, které se vyskytují současně v hodnoceném v deálním souhrnu, děleném počtem vět hodnoceného souhrnu. Úplnost je dána počtem vět, které se vyskytují současně v hodnoceném v deálním souhrnu, děleném počtem vět deálního souhrnu. F-skóre je kombnovanou mírou, obvykle je vyhodnocováno formulí pro harmoncký průměr P a R: F-skóre = (2 * P *R) / (P + R). Relatvní užtečnost RU elmnuje nedostatek výše uvedených ko-selekčních měr. Nedostatek spočívá ve strktním započítávání př výpočtu P, R, F pouze vět z deálního souhrnu. Hodnocení pomocí RU je proto založeno na přřazení prorty (určující pořadí začlenění do souhrnu) všem větám sumarzovaného textu. Ohodnocení vět prortou je prováděno anotátory. Metrka, která udává kvaltu souhrnu je pak dána formulí sčítající bodový zsk vět obsažených v souhrnu. Podobnostní míry mají rovněž svůj původ v oblast IR. Oprot ko-selekčním technkám mohou rozpoznat věty s podobným obsahem a zohlednt tuto skutečnost př hodnocení. Tyto metody totž počítají podobnost extraktů na nžší úrovn než jenom na úrovn celých vět. Jsou použtelné jak pro výpočet podobnost vyhodnocovaného souhrnu s deálním referenčním souhrnem, tak pro výpočet průměru z podobností vyhodnocovaného souhrnu s více manuálně přpraveným souhrny, ale pro vyhodnocení podobnost s orgnálním dokumentem, tedy bez použtí deálního souhrnu. V dalším výkladu předpokládejme porovnávání podobnost s orgnálem. Nejpopulárnější podobnostní mírou je kosnová podobnost. Označíme-l X hodnocený souhrn a Y orgnální text, pak kosnová podobnost souhrnu s orgnálem je dána vzorcem:
16 Sumarzace textů x * y cos( X, Y ) = (11) 2 ( x ) ( ) 2 * y Dokumenty X a Y jsou reprezentovány vektory v prostoru slov, obvykle s použtím tf-df vah. Použtí kosnu úhlu mez vektory obou dokumentů současně elmnuje vlv jejch rozdílné délky. Kosnová míra může být použta v latentním prostoru témat namísto v prostoru slov. Ověření vhodnost takového postupu jsme zveřejnl v [31]. Použtí sngulární dekompozce nám nabízí několk možných způsobů jak měřt podobnost dokumentů. Nejprostším způsobem je měření podobnost hlavních témat orgnálu a souhrnu. Hlavní téma je skryto v prvním levém sngulárním vektoru. Proto provedeme rozklad původního dokumentu a porovnávaného souhrnu, zjstíme jejch první levé sngulární vektory a vypočteme podobnost jako kosnus úhlu podle vzorce: m = us cos(ϕ ) uo * (12) ve kterém uo představuje prvý levý sngulární vektor rozkladu orgnálu, us prvý levý sngulární vektor rozkladu souhrnu a m je počet různých slov orgnálního textu. Jstě není překvapením, že kromě měřítka podobnost daného pouze hlavním tématem, lze hodnott podobnost z pohledu n hlavních témat porovnávaných dokumentů. Opět nejprve vytvoříme sngulární rozklady obou dokumentů. Pak pro oba dokumenty vynásobíme matce U a matce kvadrátů sngulárních čísel Σ 2. Získáme tím matce B o (pro orgnální dokument) a B s (pro souhrn): B o U o 2 o = Σ, (13) B s U s 2 s = Σ. (14) Násobením zohledníme statstckou významnost hlavních témat, která je úměrná kvadrátu příslušného sngulárního čísla [5]. Pro každý vektor termu (řádek matce B) pak spočítáme jeho délku. Výpočet provedeme jak pro souhrn, tak pro referenční dokument podle vzorce: n 2 d k = b, k (15) = 1 kde d k je délka vektoru k-tého termu (jeho důležtost v latentním prostoru), n je počet nejvýznamějších témat. Z délek vektorů termů sestavíme výsledný vektor délek termů v latentním prostoru vznklém sngulární dekompozcí. Získáme tím dva vektory. Jeden pro souhrn (ds) a druhý pro orgnální dokument (do). Tyto vektory potom znormalzujeme. Pro změření jejch podobnost použjeme opět kosnovou míru: m cosϕ = do ds. (16) í = 1 Tato metoda má výhodu oprot předchozí. Pokud bude orgnální dokument obsahovat dvě č více přblžně stejně důležtých témat (odpovídající sngulární čísla budou mít přblžně stejnou hodnotu), pak se může stát, že v extraktu tato stejně důležtá témata budou neprávem potlačena. Tuto nevýhodu odstraníme, pokud hodnotíme podle více témat.
17 Zvaná přednáška Jné podobnostní míry vychází z počtu slov resp. lemmat společných oběma dokumentům, č z počtu slov jejch nejdelšího společného podřetězce a z počtu edtačních úprav potřebných k jeho získání. Populárním způsobem měření kvalty na báz podobnost textu je ROUGE (Recall- Orented Understudy for Gstng Evaluaton) [18]. Jedná se o automatckou metodu, v současnost používanou k vyhodnocování soutěží pořádaných konferencí TAC, dříve DUC. ROUGE pracuje s kolekcí měr, které jsou založeny na podobnost n-gramů (tj. n po sobě následujících slov textu). Rouge-n skóre kanddátního souhrnu je vyhodnoceno podle vzorce: n = C RSS C RSS gramn C gramn C Pocet ( gramn ) ( gram ) ROUGE, (17) spolu Pocet kde RSS je množna referenčních souhrnů vytvořených anotátory, ( gram n ) počet n-gramů v referenčním souhrnu a ( ) n spolu gram n Pocet je Pocet je maxmální počet n-gramů společně se vyskytujících jak v hodnoceném, tak v referenčním souhrnu. Další používaná ROUGE skóre jsou ROUGE-SU4, pracující s bgramy, ale dovolující vypustt až 4 ungramy z bgramových komponent, nebo ROUGE-L, které pracuje s nejdelší společnou subsekvencí. Poslední ze způsobů přímého hodnocení, který zmíníme, se nazývá Pyramds [24]. Spočívá v určování tzv. summarzaton content unts (SCU), kterým jsou věty nebo jejch část. SCU jsou určeny a ohodnoceny podle počtu jejch výskytu v n ručně vytvořených souhrnech. Vyskytují-l se ve více souhrnech, získají vyšší hodnocení. Vznká tak pyramda, na jejímž vrcholu jsou nejlepší SCU. Pyramda je pak použta k obodování hodnocených souhrnů. 7.2 Nepřímé způsoby hodnocení kvalty Pro tuto skupnu je charakterstcké, že k určení kvalty používá míry, jakou se hodnocený souhrn uplatní v jné úloze z oblast textmnngu. Zjšťují kvaltu použtím automatckých souhrnů pro daný praktcký úkol. Testovat je možné například zvýšení rychlost č přesnost vyhledávání dokumentů, pokud je vyhledávání založené na extraktech místo na plných dokumentech např. metodou Relevance correlaton (RC). Dalším možným měřením je úspěšnost kategorzace dokumentů do tématckých skupn, pokud se ndexují extrakty místo původních dokumentů. Korelace relevance (korelace důležtost) je technka, která umožňuje měřt relatvní pokles výkonu získávání nformací, pokud se ndexují souhrny místo plných dokumentů [25]. Předpokládejme, že máme dotaz Q a kolekc D dokumentů D. Vyhledávací systém seřadí dokumenty D podle jejch relevance k dotazu Q. Potom provedeme substtuc plných dokumentů za souhrny S a stejný vyhledávací systém seřadí dokumenty S podle jejch relevance k dotazu Q. Pokud jsou souhrny dobrou náhradou původních dokumentů, předpokládá se, že pořadí v obou případech budou podobná. Exstuje několk metod pro měření podobnost pořadí (Kendall s tau, Spearman s rand correlaton). Protože však máme navíc k dspozc z vyhledávacího systému relevanc jednotlvých dokumentů k dotazu, můžeme spočítat RC následujícím způsobem:
18 Sumarzace textů RC = 2 ( x x) ( x x)( y y) 2 ( y y), (18) kde x je relevance dokumentu D k dotazu Q, y je relevance souhrnného dokumentu S k dotazu Q. x (resp. y ) je průměrná relevance dokumentů z D (resp. z S) k dotazu Q. Jná metoda zjšťuje vhodnost použtí souhrnů místo plných textů pro kategorzac [11]. Pro měření je potřebná zatříděná kolekce dokumentů. Př tomto způsobu testování se ke klasfkac používá automatcký klasfkátor. Z důvodu oddělení chyby klasfkátoru a chyby sumarzátoru je pak nutné použtí některých základních hodnot pro porovnání. Výsledné hodnoty klasfkace extraktů jsou proto porovnávány např. s výsledky hodnocení původních dokumentů nebo hodnocení náhodně vybraných vět. Posledním problémem zůstává míra určující kvaltu extraktu. Obecně se používají koefcenty přesnost kategorzace P a úplnost kategorzace R, vyhodnocované dle (19): p P =, p R =, (19) q r kde p je počet tříd, do kterých je dokument správně zatříděn klasfkátorem, q je celkový počet tříd, do kterých je dokument klasfkátorem zařazen a r je počet relevantních tříd, do kterých byl dokument klasfkovaný př předchozím ručním zatřďování. Potom P a R pro celou kolekc je průměrem P a R přes všechny dokumenty. Z defnce je možné vdět, že oba ukazatele spolu souvsí a zvyšováním jednoho se druhý bude snžovat. Př zařazení dokumentu do co nejvyššího počtu tříd bude vysoká úplnost, př snžování počtu tříd se bude zvedat přesnost. Z toho důvodu se pak používá pro hodnocení klasfkace např. průměr z obou hodnot nebo jž dříve zmíněné F-skóre. 8 Závěr Článek popsuje vývoj a současný stav automatcké sumarzace textu. Vzhledem k pokroku, který sumarzace zaznamenala v posledním desetletí, jsme se věnoval zejména extraktvním způsobům, které dle našeho úsudku budou ještě dlouho domnantní formou strojového vytváření souhrnů. Abstraktvním způsobům bylo ve sledovaném období věnováno mnohem méně prací. Vyžadují buď ruční vytváření šablon, které jsou strojově doplňovány extraktvní technkou, nebo hlubší analýzu textu a systém pro generování přrozeného jazyka. Oba přístupy jsou doménově závslé a náročné na ruční zpracování. Kromě přehledu sumarzačních metod jsme se věnoval způsobům vyhodnocování a měření kvalty sumarzace. Určení kvalty souhrnu považujeme za stejně důležtou úlohu jako je sumarzace sama. Zvýšenou pozornost jsme věnoval použtí metody sngulární dekompozce, která nás zaujala svou jazykovou nezávslostí a elegancí matematckého aparátu. Na jejím použtí v pokročlých sumarzačních úlohách a zdokonalení ntegrováním s dalším metodam chceme dále pracovat. Lteratura 1. Barzlay, R., Elhadad, M.: Usng Lexcal Chans for Text Summarzaton. In: Proceedngs of the ACL/EACL 97 Workshop on Intellgent Scalable Text Summarzaton, Madrd, Span, (1997),
19 Zvaná přednáška 2. Berry M.W., Dumas S.T., O Bren G.W. Usng Lnear Algebra for Intellgent Informaton Retreval. SIAM Revew Boguraev, B., Kennedy, C.: Salence-based content characterzaton of text documents. In: I. Man and M.T. Maybury. (Eds.), Advances n Automatc Text Summarzaton, The MIT Press (1999), Boguraev, B., Kennedy, C.: Salence-based content characterzaton of text documents. In: Advances n Automatc Text Summarzaton, MIT Press (1999), Brn, S., Page, L.: The anatomy of a large-scale hypertextual Web search engne. In: Computer Networks and ISDN Systems, 30, (1998), Dng, Ch.: A Probablstc Model for Latent Semantc Indexng. In: Journal of the Amercan Socety for Informaton Scence and Technology, 56(6), (2005), Edmundson, H.P.: New Methods n Automatc Extractng. In: Journal of the Assocaton for Computng Machnery 16(2). (1969) Erkan, G., Radev, D., G.: LexRank: Graph-based Lexcal Centralty as Salence n Text Summarzaton. In: Journal of Artfcal Intellgence Research 22.(2004), Fala D., Rousselot F., Jezek K.: PageRank for Bblographc Network. In: Scentometrcs, 76(1), Sprnger (2008), Gong, X., Lu X.: Generc Text Summarzaton Usng Relevance Measure and Latent Semantc Analyss. In: Proceedngs ACM SIGIR. New Orleans, USA (2001), Hovy, E., Ln, C-Y.: Automated Text Summarzaton n SUMMARIST. In: I. Man and M.T. Maybury (Eds.), Advances n Automatc Text Summarzaton, The MIT Press, (1999), Hynek, J., Ježek, K.: Practcal Approach to Automatc Text Summarzaton. In: Proceedngs 7. Conf. ELPUB 03. Gumaraes, Portugal (2003), Jezek, K., Stenberger, J.: Automatc Text Summarzaton (The state of the art and new challenges). In: Proceedngs of Znalost 2008, Bratslava, Slovaka, (2008), Jng, H.: Sentence Reducton for Automatc Text Summarzaton. In: Proceedngs of the 6th Appled Natural Language Processng Conference, Seattle, USA, (2000), Jng, H., McKeown, K.: Cut and Paste Based Text Summarzaton. In: Proceedngs of the 1st Meetng of the North Amercan Chapter of the Assocaton for Computatonal Lngustcs, Seattle, USA, (2000), Klenberg, J.M.: Authortatve sources n a hyper-lnked envronment. In: Journal of the ACM, 46(5), (1999), Knght, K., Marcu, D.: Statstcs-Based Summarzaton Step One: Sentence Compresson. In: Proceedng of The 17th Natonal Conference of the Amercan Assocaton for Artfcal Intellgence, (2000), Kupec, J., Pedersen, J.O., Chen, F.: A Tranable Document Summarzer. In: Research and Development n Informaton Retreval. (1995) Ln, Ch.,: ROUGE: A Package for Automatc Evaluaton of Summares. In: Proceedngsot the Workshop on Ewxt Summarzaton Branches Out, Barcelona, Span, (2004). 19. Luhn, H.P.: The Automatc Creaton of Lterature Abstracts. In: IBM Journal of Research Development 2(2). (1958) Marcu, D.: From Dscourse Structures to Text Summares. In: Proceedngs of the ACL97/EACL97 Workshop on Intellgent Scalable Text Summarzaton, Madrd, Span, (1997),
Hodnocení kvality sumarizátorů textů
Hodnocení kvalty sumarzátorů textů Josef Stenberger 1, Karel Ježek 1 1 Katedra nformatky a výpočetní technky, FAV, ZČU Západočeská Unverzta v Plzn, Unverztní, 306 14 Plzeň {jsten, jezek_ka}@kv.zcu.cz Abstrakt.
Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2
Dokumentace k projektu pro předměty IZP a IUS Iterační výpočty projekt č.. lstopadu 1 Autor: Mlan Setler, setl1@stud.ft.vutbr.cz Fakulta Informačních Technologí Vysoké Učení Techncké v Brně Obsah 1 Úvod...
Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek
25. KONFERENCE O GEOMETRII A POČÍTAČOVÉ GRAFICE Ivana Lnkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE Abstrakt Příspěvek prezentuje B-splne křvku a Coonsovu, Bézerovu a Fergusonovu kubku jako specální případy
POROVNÁNÍ MEZI SKUPINAMI
POROVNÁNÍ MEZI SKUPINAMI Potřeba porovnání počtů mez určtým skupnam jednců např. porovnání počtů onemocnění mez kraj nebo okresy v prax se obvykle pracuje s porovnáním na 100.000 osob. Stuace ale nebývá
2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC
25 MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC V této kaptole se dozvíte: jak lze obecnou soustavu lneárních rovnc zapsat pomocí matcového počtu; přesnou formulac podmínek řeštelnost soustavy lneárních rovnc
ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST
Abstrakt ANALÝZA ZKA A CTLOST JAKO SOUČÁST STUDE POVEDTELNOST 1. ČÁST Jří Marek Úspěšnost nvestce závsí na tom, jaké nejstoty ovlvní její předpokládaný žvotní cyklus. Pomocí managementu rzka a analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacn_a_regresn_analyza jsme řešl rozdíl mez korelační a regresní analýzou. Budeme se teď věnovat pouze lneárnímu vztahu dvou velčn, protože je nejjednodušší
6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu
6. Demonstrační smulační projekt generátory vstupních proudů smulačního modelu Studjní cíl Na příkladu smulačního projektu představeného v mnulém bloku je dále lustrována metodka pro stanovování typů a
VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ
VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ Abstrakt Martn Cupal 1 Prncp tvorby tržní ceny nemovtost je sce založen na tržní nabídce a poptávce, avšak tento trh je značně nedokonalý. Nejvíce ovlvňuje
Lokace odbavovacího centra nákladní pokladny pro víkendový provoz
Markéta Brázdová 1 Lokace odbavovacího centra nákladní pokladny pro víkendový provoz Klíčová slova: odbavování záslek, centrum grafu, vážená excentrcta vrcholů sítě, časová náročnost odbavení záslky, vážená
Vícekriteriální rozhodování. Typy kritérií
Vícekrterální rozhodování Zabývá se hodnocením varant podle několka krtérí, přčemž varanta hodnocená podle ednoho krtéra zpravdla nebývá nelépe hodnocená podle krtéra ného. Metody vícekrterálního rozhodování
Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d
Korelační energe Referenční stavy Energ molekul a atomů lze vyjádřt vzhledem k různým referenčním stavům. V kvantové mechance za referenční stav s nulovou energí bereme stav odpovídající nenteragujícím
ALGORITMUS SILOVÉ METODY
ALGORITMUS SILOVÉ METODY CONSISTENT DEFORMATION METHOD ALGORITHM Petr Frantík 1, Mchal Štafa, Tomáš Pal 3 Abstrakt Příspěvek se věnuje popsu algortmzace slové metody sloužící pro výpočet statcky neurčtých
Statistická šetření a zpracování dat.
Statstcká šetření a zpracování dat. Vyjadřovací prostředky ve statstce STATISTICKÉ TABULKY Typckým vyjadřovacím prostředkem statstky je číslo formalzovaným nástrojem číselného vyjádření je statstcká tabulka.
MODELOVÁNÍ A SIMULACE
MODELOVÁNÍ A SIMULACE základní pojmy a postupy vytváření matematckých modelů na základě blancí prncp numerckého řešení dferencálních rovnc základy práce se smulačním jazykem PSI Základní pojmy matematcký
Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky
Obsah přednášky. Úvod. Termnologe 3. Základní dělení 4. Prncp tvorby, prořezávání a použtí RS 5. Algortmus ID3 6. C4.5 7. CART 8. Shrnutí A L G O RI T M Y T E O R I E Stromové struktury a RS Obsah knhy
9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně
9. Měření knetky dohasínání fluorescence ve frekvenční doméně Gavolův experment (194) zdroj vzorek synchronní otáčení fázový posun detektor Měření dob žvota lumnscence Frekvenční doména - exctace harmoncky
Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.
Příprava na cvčení č.1 Čísla a artmetka Číselné soustavy Obraz čísla A v soustavě o základu z: m A ( Z ) a z (1) n kde: a je symbol (číslce) z je základ m je počet řádových míst, na kterých má základ kladný
LOGICKÉ OBVODY J I Ř Í K A L O U S E K
LOGICKÉ OBVODY J I Ř Í K A L O U S E K Ostrava 2006 Obsah předmětu 1. ČÍSELNÉ SOUSTAVY... 2 1.1. Číselné soustavy - úvod... 2 1.2. Rozdělení číselných soustav... 2 1.3. Polyadcké číselné soustavy... 2
Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První
Numercká matematka 1 Parabolcké rovnce Budeme se zabývat rovncí t = D u x (1) tato rovnce určuje chování funkce u(t, x), která závsí na dvou proměnných. První proměnná t mívá význam času, druhá x bývá
Umělé neuronové sítě a Support Vector Machines. Petr Schwraz
Umělé neuronové sítě a Support Vector Machnes Petr Schraz scharzp@ft.vutbr.cz Perceptron ( neuron) x x x N f() y y N f ( x + b) x vstupy neuronu váhy jednotlvých vstupů b aktvační práh f() nelneární funkce
7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM
7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM Průvodce studem Předchozí kaptoly byly věnovány pravděpodobnost a tomu, co s tímto pojmem souvsí. Nyní znalost z počtu pravděpodobnost aplkujeme ve statstce. Předpokládané
ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU
AALÝZA RIZIKA A JEHO CITLIVOSTI V IVESTIČÍM PROCESU Jří Marek ) ABSTRAKT Príspevek nformuje o uplatnene manažmentu rzka v nvestčnom procese. Uvádza príklad kalkulace rzka a analýzu jeho ctlvost. Kľúčové
2. Definice pravděpodobnosti
2. Defnce pravděpodobnost 2.1. Úvod: V přírodě se setkáváme a v přírodních vědách studujeme pomocí matematckých struktur a algortmů procesy dvojího druhu. Jednodušší jsou determnstcké procesy, které se
8a.Objektové metody viditelnosti. Robertsův algoritmus
8a. OBJEKOVÉ MEODY VIDIELNOSI Cíl Po prostudování této kaptoly budete znát metody vdtelnost 3D objektů na základě prostorových vlastností těchto objektů tvořt algortmy pro určování vdtelnost hran a stěn
Neparametrické metody
Neparametrcké metody Přestože parametrcké metody zaujímají klíčovou úlohu ve statstcké analýze dat, je možné některé problémy řešt př neparametrckém přístupu. V této přednášce uvedeme neparametrcké odhady
6 LINEÁRNÍ REGRESNÍ MODELY
1 6 LINEÁRNÍ REGRESNÍ MODELY Př budování regresních modelů se běžně užívá metody nejmenších čtverců. Metoda nejmenších čtverců poskytuje postačující odhady parametrů jenom př současném splnění všech předpokladů
Hodnocení účinnosti údržby
Hodnocení účnnost ekonomka, pojmy, základní nástroje a hodnocení Náklady na údržbu jsou nutné k obnovení funkce výrobního zařízení Je potřeba se zabývat ekonomckou efektvností a hodnocením Je třeba řešt
permutace, popisující nějaké symetrie, je i π permutace, popisující nějakou symetrii.
DSM Cv Pólyova věta Budeme se zabývat objekty (na množně X - to jsou vrcholy těchto objektů) s různým prvky symetre (například to mohou být různé brože, tsky, ale také strukturní vzorce různých chemckých
POUŽITÍ METODY PERT PŘI ŘÍZENÍ PROJEKTŮ
5. Odborná konference doktorského studa s meznárodní účastí Brno 003 POUŽITÍ METODY PERT PŘI ŘÍZEÍ PROJEKTŮ A USAGE OF PERT METHOD I PROJECT MAAGEMET Vladslav Grycz 1 Abstract PERT Method and Graph theory
9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese
cvčící 9. cvčení 4ST01 Obsah: Jednoduchá lneární regrese Vícenásobná lneární regrese Korelační analýza Vysoká škola ekonomcká 1 Jednoduchá lneární regrese Regresní analýza je statstcká metoda pro modelování
Matematika I A ukázkový test 1 pro 2018/2019
Matematka I A ukázkový test 1 pro 2018/2019 1. Je dána soustava rovnc s parametrem a R x y + z = 1 x + y + 3z = 1 (2a 1)x + (a + 1)y + z = 1 a a) Napšte Frobenovu větu (předpoklady + tvrzení). b) Vyšetřete
CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.
CHYBY MĚŘENÍ Úvod Představte s, že máte změřt délku válečku. Použjete posuvné měřítko a získáte určtou hodnotu. Pamětlv přísloví provedete ještě jedno měření. Ale ouha! Výsledek je jný. Co dělat? Měřt
u (x i ) U i 1 2U i +U i+1 h 2. Na hranicích oblasti jsou uzlové hodnoty dány okrajovými podmínkami bud přímo
Metoda sítí základní schémata h... krok sítě ve směru x, tj. h = x x q... krok sítě ve směru y, tj. q = y j y j τ... krok ve směru t, tj. τ = j... hodnota přblžného řešení v uzlu (x,y j ) (Possonova rovnce)
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jří Holčík, CSc. INVESTICE Insttut DO bostatstky ROZVOJE VZDĚLÁVÁNÍ a analýz IV - pokračování KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI METRIKY PRO URČENÍ VZDÁLENOSTI
Přemysl Žiška, Pravoslav Martinek. Katedra teorie obvodů, ČVUT Praha, Česká republika. Abstrakt
ALGORITMUS DIFERENCIÁLNÍ EVOLUCE A JEHO UŽITÍ PRO IDENTIFIKACI NUL A PÓLŮ PŘE- NOSOVÉ FUNKCE FILTRU Přemysl Žška, Pravoslav Martnek Katedra teore obvodů, ČVUT Praha, Česká republka Abstrakt V příspěvku
Optimalizační přístup při plánování rekonstrukcí vodovodních řadů
Optmalzační přístup př plánování rekonstrukcí vodovodních řadů Ladslav Tuhovčák*, Pavel Dvořák**, Jaroslav Raclavský*, Pavel Vščor*, Pavel Valkovč* * Ústav vodního hospodářství obcí, Fakulta stavební VUT
Staré mapy TEMAP - elearning
Staré mapy TEMAP - elearnng Modul 4 Kartometrcké analýzy Ing. Markéta Potůčková, Ph.D., 2013 Přírodovědecká fakulta UK v Praze Katedra aplkované geonformatky a kartografe Kartometre a kartometrcké vlastnost
Spojité regulátory - 1 -
Spojté regulátory - 1 - SPOJIÉ EGULÁOY Nespojté regulátory mají většnou jednoduchou konstrukc a jsou levné, ale jsou nevhodné tím, že neudržují regulovanou velčnu přesně na žádané hodnotě, neboť regulovaná
KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla
KOMPLEXNÍ ČÍSLA Příklad Řešte na množně reálných čísel rovnc: x + = 0. x = Rovnce nemá v R řešení. Taková jednoduchá rovnce a nemá na množně reálných čísel žádné řešení! Co s tím? Zavedeme tzv. magnární
Monte Carlo metody Josef Pelikán CGG MFF UK Praha.
Monte Carlo metody 996-7 Josef Pelkán CGG MFF UK Praha pepca@cgg.mff.cun.cz http://cgg.mff.cun.cz/~pepca/ Monte Carlo 7 Josef Pelkán, http://cgg.ms.mff.cun.cz/~pepca / 44 Monte Carlo ntegrace Odhadovaný
Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky
Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů
Automatická klasifikace dokumentů do tříd za použití metody Itemsets
Automatcká klasfkace dokumentů do tříd za použtí metody Itemsets Jří HYNEK 1, Karel JEŽEK 2 1 nsite, s.r.o., Knowledge Management Integrator Rubešova 29, 326 00 Plzeň r.hynek@nste.cz 2 Katedra nformatky
Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má
Tepelná kapacta C x = C V = ( ) dq ( ) du Dulong-Pettovo pravdlo: U = 3kT N C V = 3kN x V = T ( ) ds x Tepelná kapacta mřížky Osclátor s kvantovanou energí E n = ( n + 2) hν má střední hodnotu energe (po
Vkládání pomocí Viterbiho algoritmu
Vkládání pomocí Vterbho algortmu Andrew Kozlk KA MFF UK C Vkládání pomocí Vterbho algortmu Cíl: Využít teor konvolučních kódů. Motvace: Vterbho dekodér je soft-decson dekodér. Každému prvku nosče přřadíme
VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH
VOLBA HODNOTÍCÍCH KRITÉRIÍ VE VEŘEJNÝCH ZAKÁZKÁCH THE CHOICE OF EVALUATION CRITERIA IN PUBLIC PROCUREMENT Martn Schmdt Masarykova unverzta, Ekonomcko-správní fakulta m.schmdt@emal.cz Abstrakt: Článek zkoumá
Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky LOGICKÉ OBVODY pro kombinované a distanční studium
Vysoká škola báňská - Techncká unverzta Ostrava Fakulta elektrotechnky a nformatky LOGICKÉ OBVODY pro kombnované a dstanční studum Zdeněk Dvš Zdeňka Chmelíková Iva Petříková Ostrava ZDENĚK DIVIŠ, ZDEŇKA
Metody zvýšení rozlišovací obrazů
XXVI. ASR '21 Semnar, Instruments and Control, Ostrava, Aprl 26-27, 21 Paper 7 Metody zvýšení rozlšovací obrazů BRADÁČ, Frantšek Ing., Ústav výrobních strojů, systémů a robotky, Vysoké učení techncké v
REGRESNÍ ANALÝZA. 13. cvičení
REGRESNÍ ANALÝZA 13. cvčení Závslost náhodných velčn Závslost mez kvanttatvním proměnným X a Y: Funkční závslost hodnotam nezávsle proměnných je jednoznačně dána hodnota závslé proměnné. Y=f(X) Stochastcká
Řešení radiační soustavy rovnic
Řešení radační soustavy rovnc 1996-2016 Josef Pelkán CGG MFF UK Praha pepca@cgg.mff.cun.cz http://cgg.mff.cun.cz/~pepca/ RadSoluton 2016 Josef Pelkán, http://cgg.ms.mff.cun.cz/~pepca 1 / 23 Soustava lneárních
SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10
SIMULACE numercké řešení dferencálních rovnc smulační program dentfkace modelu Numercké řešení obyčejných dferencálních rovnc krokové metody pro řešení lneárních dferencálních rovnc 1.řádu s počátečním
Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.
Unverzta Pardubce Fakulta ekonomcko-správní Modelování predkce časových řad návštěvnost web domény pomocí SVM Bc. Vlastml Flegl Dplomová práce 2011 Prohlašuj: Tuto prác jsem vypracoval samostatně. Veškeré
9.12.2009. Metody analýzy rizika. Předběžné hodnocení rizika. Kontrolní seznam procesních rizik. Bezpečnostní posudek
9.2.29 Bezpečnost chemckých výrob N Petr Zámostný místnost: A-72a tel.: 4222 e-mal: petr.zamostny@vscht.cz Analýza rzka Vymezení pojmu rzko Metody analýzy rzka Prncp analýzy rzka Struktura rzka spojeného
Rozšíření bag-of-words modelu dokumentu: srovnání bigramů a 2-itemsetů
Rozšíření bag-of-words modelu dokumentu: srovnání bgramů a 2-temsetů Roman Tesař 1, Massmo Poeso 2, Václav Strnad 1, Karel Ježek 1 1 Katedra Informatky a výpočetní technky, Západočeská Unverzta v Plzn,
Univerzita Tomáše Bati ve Zlíně
nverzta Tomáše Bat ve líně LABOATOÍ CČEÍ ELETOTECHY A PŮMYSLOÉ ELETOY ázev úlohy: ávrh dělče napětí pracoval: Petr Luzar, Josef Moravčík Skupna: T / Datum měření:.února 8 Obor: nformační technologe Hodnocení:
Příspěvky do Fondu pojištění vkladů Garančního systému finančního trhu
Česká národní banka odbor regulace fnančního trhu V Praze dne 7. května 2018 Příspěvky do Fondu pojštění vkladů Garančního systému fnančního trhu Pojštění pohledávek z vkladů v Evropské un a stanovení
Teoretické modely diskrétních náhodných veličin
Teoretcké modely dskrétních náhodných velčn Velčny, kterým se zabýváme, bývají nejrůznější povahy. Přesto však estují skupny náhodných velčn, které mají podobně rozloženou pravděpodobnostní funkc a lze
Kinetika spalovacích reakcí
Knetka spalovacích reakcí Základy knetky spalování - nauka o průběhu spalovacích reakcí a závslost rychlost reakcí na různých faktorech Hlavní faktory: - koncentrace reagujících látek - teplota - tlak
Energie elektrického pole
Energe elektrckého pole Jž v úvodní kaptole jsme poznal, že nehybný (centrální elektrcký náboj vytváří v celém nekonečném prostoru slové elektrcké pole, které je konzervatvní, to znamená, že jakýkolv jný
Posuzování výkonnosti projektů a projektového řízení
Posuzování výkonnost projektů a projektového řízení Ing. Jarmla Ircngová Západočeská unverzta v Plzn, Fakulta ekonomcká, Katedra managementu, novací a projektů jrcngo@kp.zcu.cz Abstrakt V současnost je
Digitální přenosové systémy a účastnické přípojky ADSL
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechncká LABORATORNÍ ÚLOHA Č. 2 Dgtální přenosové systémy a účastncké přípojky ADSL Vypracoval: Jan HLÍDEK & Lukáš TULACH V rámc předmětu: Telekomunkační
Stanislav Olivík POROVNÁNÍ DVOU METOD HLEDÁNÍ ODRAZNÉHO BODU NA POVRCHU ELIPSOIDU
5. KONFERENCE O GEOMETRII A POČÍTAČOVÉ GRAFICE Stanslav Olvík POROVNÁNÍ DVOU METOD HLEDÁNÍ ODRAZNÉHO BODU NA POVRCHU ELIPSOIDU Abstrakt Úlohou GPS altmetre je nalezení odrazného bodu sgnálu vyslaného z
Dynamika psaní na klávesnici v kombinaci s klasickými hesly
Dynamka psaní na klávesnc v kombnac s klasckým hesly Mloslav Hub Ústav systémového nženýrství a nformatky, FES, Unverzta Pardubce Abstract Authentfcaton as a data securty nstrument n our nformatonal socety
Aplikace simulačních metod ve spolehlivosti
XXVI. ASR '2001 Semnar, Instruments and Control, Ostrava, Aprl 26-27, 2001 Paper 40 Aplkace smulačních metod ve spolehlvost MARTINEK, Vlastml Ing., Ústav automatzace a nformatky, FSI VUT v Brně, Techncká
Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce
. meznárodní konference Řízení a modelování fnančních rzk Ostrava VŠB-TU Ostrava, Ekonomcká fakulta, katedra Fnancí 8. - 9. září 200 Metody vícekrterálního hodnocení varant a ech využtí př výběru produktu
2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran
Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy TESTOVÁNÍ HYPOTÉZ RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevl jsem pravdu! ale raděj: Objevl jsem jednu z pravd! Chall Gbran Testování hypotéz
Konverze kmitočtu Štěpán Matějka
1.Úvod teoretcký pops Konverze kmtočtu Štěpán Matějka Směšovač měnč kmtočtu je obvod, který přeměňuje vstupní sgnál s kmtočtem na výstupní sgnál o kmtočtu IF. Někdy bývá tento proces označován také jako
1. Spektrální rozklad samoadjungovaných operátorů 1.1. Motivace Vlastní čísla a vlastní vektory symetrické matice 1 1 A = 1 2.
. Spektrální rozklad samoadjungovaných operátorů.. Motvace Vlastní čísla a vlastní vektory symetrcké matce A = A λe = λ λ = λ 3λ + = λ 3+ λ 3 Vlastní čísla jsou λ = 3+, λ = 3. Pro tato vlastní čísla nalezneme
Numerické metody optimalizace
Numercké metody optmalzace Numercal optmzaton methods Bc. Mloš Jurek Dplomová práce 2007 Abstrakt Abstrakt česky Optmalzační metody představují vyhledávání etrémů reálných funkcí jedné nebo více reálných
MODELOVÁNÍ SEISMICKÉHO ZDROJE JAKO REÁLNÁ TESTOVACÍ ÚLOHA PRO NELINEÁRNÍ INVERSNÍ ALGORITMUS
MODELOVÁNÍ SEISMICKÉHO ZDROJE JAKO REÁLNÁ TESTOVACÍ ÚLOHA PRO NELINEÁRNÍ INVERSNÍ ALGORITMUS P. Kolář, B. Růžek, P. Adamová Geofyzkální ústav AV ČR, Praha Abstrakt Pro vyvíjený nelneární nversní algortmus
Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky
Západočeská unverzta v Plzn Fakulta aplkovaných věd Katedra matematky Bakalářská práce Zpracování výsledků vstupních testů z matematky Plzeň, 13 Tereza Pazderníková Prohlášení Prohlašuj, že jsem bakalářskou
Obsah přednášky 1. Bayesův teorém 6. Naivní Bayesovský klasifikátor (NBK)
Obsah přednášky 1. Bayesův teorém 2. Brutální Bayesovský klasfkátor (BBK) 3. Mamální aposterorní pravděpodobnost (MA) 4. Optmální Bayesovský klasfkátor (OBK) 5. Gbbsův alortmus (GA) 6. Navní Bayesovský
Maticová exponenciála a jiné maticové funkce
Matcová exponencála a jné matcové funkce Motvace: Jž víte, že řešením rovnce y = ay, jsou funkce y(t = c e at, tj exponencály Pro tuto funkc platí, že y(0 = c, tj konstanta c je počáteční podmínka v bodě
3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina
3 VBRANÉ MODEL NÁHODNÝCH VELIČIN 3. Náhodná velčna Tato kaptola uvádí stručný pops vybraných pravděpodobnostních modelů spojtých náhodných velčn s důrazem na jejch uplatnění př rozboru spolehlvost stavebních
Řešení radiační soustavy rovnic
Řešení radační soustavy rovnc 1996-2008 Josef Pelkán KSVI MFF UK Praha e-mal: Josef.Pelkan@mff.cun.cz WWW: http://cgg.ms.mff.cun.cz/~pepca/ NPGR010, radsoluton.pdf 2008 Josef Pelkán, http://cgg.ms.mff.cun.cz/~pepca
7. Analýza rozptylu jednoduchého třídění
7. nalýza rozptylu jednoduchého třídění - V této kaptole se budeme zabývat vztahem mez znaky kvanttatvním (kolk) a kvaltatvním (kategorálním, jaké jsou) Doposud jsme schopn u nch hodnott: - podmíněné charakterstky
EKONOMICKO-MATEMATICKÉ METODY
. přednáška EKONOMICKO-MATEMATICKÉ METODY Ekonomcko matematcké metody (též se užívá název operační analýza) sou metody s matematckým základem, využívané především v ekonomcké oblast, v oblast řízení a
Teoretické modely diskrétních náhodných veličin
Teoretcké modely dskrétních náhodných velčn Velčny, kterým se zabýváme, bývají nejrůznější povahy. Přesto však estují skupny náhodných velčn, které mají podobně rozloženou pravděpodobnostní funkc a lze
podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y
4 Lneární regrese 4 LINEÁRNÍ REGRESE RYCHLÝ NÁHLED DO KAPITOLY Častokrát potřebujete zjstt nejen, jestl jsou dvě nebo více proměnných na sobě závslé, ale také jakým vztahem se tato závslost dá popsat.
ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha
ANOVA Analýza rozptylu př jednoduchém třídění Jana Vránová, 3.léařsá faulta UK, Praha Teore Máme nezávslých výběrů, > Mají rozsahy n, teré obecně nemusí být stejné V aždém z nch známe průměr a rozptyl
Numerická matematika A
Numercká matematka A 5615 A1 Máme dánu soustava lneárních rovnc tvaru AX = B, kde 4 1 A = 1 4 1, B = 1 a Zapíšeme soustavu rovnc AX = B ve tvaru upravíme a následně (L + D + P X = B, DX = (L + P X + B,
SCIENTIFIC PAPERS OF THE UNIVERSITY OF PARDUBICE APLIKACE NEURONOVÝCH SÍTÍ PRO DETEKCI PORUCH SIGNÁLŮ
SCIENTIFIC PAPERS OF THE UNIVERSITY OF PARDUBICE Seres B The Jan Perner Transport Faculty 5 (1999) APLIKACE NEURONOVÝCH SÍTÍ PRO DETEKCI PORUCH SIGNÁLŮ Mchal MUSIL Katedra provozní spolehlvost, dagnostky
Mechatronické systémy s elektronicky komutovanými motory
Mechatroncké systémy s elektroncky komutovaným motory 1. EC motor Uvedený motor je zvláštním typem synchronního motoru nazývaný též bezkartáčovým stejnosměrným motorem (anglcky Brushless Drect Current
ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE
ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE Jana Valečková 1 1 Vysoká škola báňská-techncká unverzta Ostrava, Ekonomcká fakulta, Sokolská
Využití logistické regrese pro hodnocení omaku
Využtí logstcké regrese pro hodnocení omaku Vladmír Bazík Úvod Jedním z prmárních proevů textlí e omak. Jedná se o poct který vyvolá textle př kontaktu s pokožkou. Je to ntegrální psychofyzkální vlastnost
Vysoké školy ekonomické v Praze
Strana 1 / 7 Grantový řád Anotace: Tato směrnce s celoškolskou působností stanoví zásady systému pro poskytování účelové podpory na specfcký vysokoškolský výzkum na Vysoké škole ekonomcké v Praze. Jméno:
A u. jsou po řadě počáteční a koncové body úsečky; t je parametr:
1 Úvod Trangulace oblast má dnes využtí například v počítačové grafce nebo numercké matematce, kde základní algortmy pro výpočet parcálních dferencálních rovnc vyžadují rozdělení zadané souvslé oblast
27 Systémy s více vstupy a výstupy
7 Systémy s více vstupy a výstupy Mchael Šebek Automatcké řízení 017 4-5-17 Stavový model MIMO systému Automatcké řízení - Kybernetka a robotka Má obecně m vstupů p výstupů x () t = Ax() t + Bu() t y()
KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla
KOMPLEXNÍ ČÍSLA Příklad 1 Řešte na množně reálných čísel rovnc: x + = 0. x = Rovnce nemá v R řešení. Taková jednoduchá rovnce a nemá na množně reálných čísel žádné řešení! Co s tím? Zavedeme tzv. magnární
4.4 Exploratorní analýza struktury objektů (EDA)
4.4 Exploratorní analýza struktury objektů (EDA) Průzkumová analýza vícerozměrných dat je stejně jako u jednorozměrných dat založena na vyšetření grafckých dagnostk. K tomuto účelu se využívá různých technk
Společné zátěžové testy ČNB a vybraných pojišťoven
Společné zátěžové testy ČNB a vybraných pojšťoven Zátěžových testů se účastní tuzemské pojšťovny které dohromady představují přblžně 90 % pojstného trhu. Výpočty provádějí samotné pojšťovny dle metodky
Simulační metody hromadné obsluhy
Smulační metody hromadné osluhy Systém m a model vstupy S výstupy Systém Část prostředí, kterou lze od jeho okolí oddělt fyzckou neo myšlenkovou hrancí Model Zjednodušený, astraktní nástroj používaný pro
ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB. Vladimír Hanta 1, Ivan Gros 2
ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB Vladmír Hanta 1 Ivan Gros 2 Vysoká škola chemcko-technologcká Praha 1 Ústav počítačové a řídcí technky 2 Ústav
Hodnocení využití parku vozidel
Hodnocení využtí parku vozdel Všechna kolejová vozdla přdělená jednotlvým DKV (provozním jednotkám) tvoří bez ohledu na jejch okamžté použtí jejch nventární stav. Evdenční stav se skládá z vozdel vlastního
Transformace dat a počítačově intenzivní metody
Transformace dat a počítačově ntenzvní metody Jří Mltký Katedra textlních materálů, Textlní fakulta, Techncká unversta v Lberc, Lberec, e- mal jr.mltky@vslb.cz Mlan Meloun, Katedra analytcké cheme, Unversta
APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY
APLIKACE METOD VÍCEKRITERIÁLNÍHO ROZHODOVÁNÍ PŘI HODNOCENÍ KVALITY VEŘEJNÉ DOPRAVY APPLICATION OF METHODS MULTI-CRITERIA DECISION FOR EVALUATION THE QUALITY OF PUBLIC TRANSPORT Ivana Olvková 1 Anotace:
XXX. ASR '2005 Seminar, Instruments and Control, Ostrava, April 29,
XXX. ASR '2005 Semnar, Instruments and Control, Ostrava, Aprl 29, 2005 449 Usng flockng Algorthm and Vorono Dagram for Moton Plannng of a Swarm of Robots Plánování pohybu skupny robotů pomocí flockng algortmu
Dopravní plánování a modelování (11 DOPM )
Department of Appled Mathematcs Faculty of ransportaton Scences Czech echncal Unversty n Prague Dopravní plánování a modelování (11 DOPM ) Lekce 5: FSM: rp dstrbuton Prof. Ing. Ondře Přbyl, Ph.D. Ing.
ČVUT FEL. X16FIM Finanční Management. Semestrální projekt. Téma: Optimalizace zásobování teplem. Vypracoval: Marek Handl
ČVUT FEL X16FIM Fnanční Management Semestrální projekt Téma: Optmalzace zásobování teplem Vypracoval: Marek Handl Datum: květen 2008 Formulace úlohy Pro novou výstavbu 100 bytových jednotek je třeba zvolt
1 Projekce a projektory
Cvičení 3 - zadání a řešení úloh Základy numerické matematiky - NMNM20 Verze z 5. října 208 Projekce a projektory Opakování ortogonální projekce Definice (Ortogonální projekce). Uvažujme V vektorový prostor