Diplomová práce Sumarizace rozdílů v recenzních textech

Rozměr: px
Začít zobrazení ze stránky:

Download "Diplomová práce Sumarizace rozdílů v recenzních textech"

Transkript

1 Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Diplomová práce Sumarizace rozdílů v recenzních textech Plzeň 2018 Michal Veverka

2 Místo této strany bude zadání práce.

3 Prohlášení Prohlašuji, že jsem diplomovou práci vypracoval samostatně a výhradně s použitím citovaných pramenů. V Plzni dne 14. května 2018 Michal Veverka

4 Abstract Summarization of differences in review texts The evolution of e-commerce brought with it a new type of automatic summarization. Contrastive opinion summarization is mainly used on product review texts. Its aim is the creation of two summaries, positive and negative, which capture the differences in the sentiment of reviewers for the purpose of better informativeness about the quality of the product in question. I designed an extractive approach for contrastive opinion summarization based on known methods of sentence selection via the Latent Semantic Analysis (LSA). I also created a new method of sentence selection using LSA which is specialized for this type of summarization. I evaluated these methods on manualy created summaries of czech review texts using the ROUGE metric. Abstrakt S rozvojem obchodování po internetu se v posledních letech dostal do popředí nový typ automatické sumarizace. Kontrastní názorová sumarizace se zaměřuje především na recenzní texty a jejím cílem je z těchto textů vytvořit dva souhrny, pozitivní a negativní, které by zachycovaly rozdíly v cítění recenzentů za účelem lepší informovanosti zákazníků o kvalitě produktu. V této práci jsem navrhl extraktivní způsob kontrastní názorové sumarizace založený na známých způsobech výběru vět metodou Latentní sémantické analýzy (LSA) a také jsem navrhl nový způsob výběru vět specializovaný na tento konkrétní problém sumarizace. Všechny navrhnuté metody jsem ověřil na ručně vytvořených souhrnech českých recenzních textů metrikou ROUGE.

5 Obsah 1 Úvod 8 2 Data 9 3 Předzpracování Tokenizace Normalizace Odstranění diakritiky a kapitálek Stemming a lemmatizace Odstranění nevýznamových slov Významnost textu TF-IDF Polarita textu Slovníková metoda Metody založené na slovních vektorech Word2Vec skóre Word2Vec skóre Klasifikační metody Příznaky Maximum Entropy Classifier Podobnost HAL Algoritmus LSA Inspirace Singular value decomposition Slovní vektory Sumarizace Typy sumarizace Dělení dle účelu Dělení dle způsobu Sumarizace pomocí LSA Stavba matice

6 7.2.2 Jednotlivé přístupy použití LSA Sumarizace rozdílů v recenzních textech Segmentace dokumentu Hodnocení vět Stavba souhrnu Hodnocení sumarizace ROUGE ROUGE-N ROUGE-S ROUGE-SU Nastavení Použité metody Návrh sumarizace recenzí pomocí LSA Přístup split Přístup score Předzpracování Stavba matice souvýskytu Hodnocení polarity lex maxent Hodnocení významnosti Existující metody InvertLength Hodnocení podobnosti Varianta č Varianta č Implementace Architektura knihovny data preprocessing svd polarity similarity importance contrastive summarization Konfigurace

7 10.3 ROUGE metrika Spuštění sumarizace a jejího ověření Testování a výsledky Podobnost Významnost topic length subtractlength invertlength Porovnání nejlepších výsledků Závěr 63 Literatura 69 7

8 1 Úvod Rozvoj internetu a mobilních zařízení v posledních dvou dekádách vedl k obrovskému nárůstu informací v podobě textů dostupných přes internet. Tento obrovský objem informací je neocenitelným zdrojem znalostí. Díky jeho každodennímu růstu jsou však lidé zaplaveni informacemi. Je tak potřeba objem těchto informací zmenšit vytvořením krátkých, věcných souhrnů, které by zachytily ty nejdůležitější informace. Z tohoto důvodu je automatická sumarizace jednou z nejintenzivnějších výzkumných oblastí zpracování přirozeného jazyka. První pokusy o automatickou sumarizaci pocházejí z 60. let 20. století a od té doby bylo navrhnuto mnoho různých přístupů k automatické sumarizaci. Ideální sumarizátor přesto stále neexistuje a oblast výzkumu je pořád aktivní. V posledních letech se dostala do popředí zejména kontrastní názorová sumarizace. Jejím cílem je vytvoření dvou souhrnů, pozitivního a negativního, které zachycují rozdíly v cítění autora. Potřeba pro tento typ sumarizace plyne z rozvoje obchodování po internetu. Nárůst internetových recenzí produktů způsobil zahlcení zákazníků. Cílem kontrastní názorové sumarizace je poskytnout zákazníkovi krátké shrnutí těchto recenzí, za účelem lepší informovanosti zákazníka o kvalitě poskytovaných produktů a služeb. Kontrastní názorová sumarizace je obvykle prováděna extraktivní metodou, kdy jsou souhrny skládány z vět, vyskytujících se v původním textu. Jeden z možných přístupů je založen na zkoumání aspektů, tedy diskutovaných vlastností produktu. Aspekty jsou však často příliš detailní pro správnou tvorbu souhrnu. Typy aspektů navíc silně závisí na druhu produtku, resp. služby, a sumarizátor tak musí být speciálně trénován pro určitý typ produktu. Druhým přístupem je sumarizace na základě globálních metrik důležitosti, sentimentu a podobnosti. Latentní sémantická analýza (LSA) dovoluje zkoumat významnost i podobnost jednotlivých vět a je velice vhodná pro použití při sumarizaci. Tato práce si klade za cíl navrhnout způsob kontrastní názorové sumarizace pomocí metody LSA a ověřit kvalitu takového řešení na recenzích restaurací v českém jazyce metrikou ROUGE. 8

9 2 Data Data obsahující recenze restaurací k sumarizaci pocházejí z práce K. Ježka a M. Campra [4]. Tato data byla zvolena za účelem porovnání zde vytvořeného sumarizátoru s výsledky dosaženými v této práci. Pro účely jejich práce vznikl dataset recenzí restaurací z české stránky Z této stránky nejprve stáhli celkem 6008 recenzí na 1242 restaurací. Z tohoto souboru recenzí následně vybrali 50 restaurací a ke každé z nich několik recenzí tak, aby dohromady recenze každé z 50 restaurací obsahovaly minimálně 1000 slov [4]. Následně 3 nezávislí anotátoři vytvořili pro každou restauraci dvě abstraktní souhrnná hodnocení, pozitivní a negativní, každé s přibližně 100 slovy. V případech, kdy nebyly recenze dostatečně obsáhlé, byly vytvořeny kratší souhrny. Nastala-li však situace, kdy vybrané recenze restaurace neobsahovaly dostatek pozitivních nebo negativních hodnocení, byly do vytvořených souhrnů vybrány i věty se slabším sentimentem. Průměrné ROUGE skóre shody mezi jednotlivými anotátory bylo následující: ROUGE-1: ROUGE-2: ROUGE-SU4: Tyto recenze jsou použity k zhodnocení funkčnosti sumarizátoru a jeho porovnání s jinými metodami. 9

10 3 Předzpracování Předzpracování dat je jádrem zpracování přirozeného jazyka a předchází téměř všem úkolům. Jedná se o úpravu textu, která napomohá větší efektivitě algoritmů zpracování přirozeného jazyka. Samotné předzpracování se skládá z dvou hlavních částí a to: tokenizace, normalizace. Pro označení částí textu v průběhu předzpracování používáme následující výrazy: slovo - samostatná posloupnost znaků, tak jak se vyskytuje v textu term - normalizované (předzpracované) slovo token - výskyt slova nebo termu v textu Konkrétně použité metody popisuje sekce Tokenizace Tokenizace je členění textu na menší celky (odstavce, věty, slova) a je to první část předzpracování. V této práci půjde o dělení textu na věty a následné dělení vět na slova. Jako základní oddělitele vět se používají znaky, které ukončují věty. Tedy tečky, otazníky a vykřičníky. To může v některých případech činit problémy. Uvažme např. následující větu: Pracoval společně s P. E. Richardsonem na nové metodě. Tečka uprostřed věty zde není použita jako ukončující symbol. Pro správné dělení je tak zapotřebí složitějších metod. Dělení textu na slova se provádí obdobně. Základní dělící jednotkou jsou mezery, čárky a pomlčky. Problémové jsou zde však zejména víceslovné názvy, datumy a čísla. Pro tokenizaci se nejčastěji používají regulární výrazy. 10

11 3.2 Normalizace Máme-li text rozdělený na slova, přichází na řadu normalizace. Normalizace je proces, při kterém jednotlivá slova převedeme na termy. Normalizace se skládá z několika částí, jejich pořadí však závisí na daném problému, v některých případech mohou být některé části vynechány. Jednotlivé části normalizace jsou popsány následovně v pořadí, v jakém jsou obvykle použity Odstranění diakritiky a kapitálek Jako úplně první část normalizace se provádí odstranění diakritiky. V českém jazyce se jedná o háčky a čárky. Následně se provede odstranění kapitálek. I zde však může dojít k nejednoznačným situacím, např. zkratka MIT (Massachusetts Institute of Technology) může být po redukci na malá písmena zamněněna za německé zájmeno mit (s, čím). V praxi se však toto neřeší a všechna slova projdou převodem na malá písmena. Tyto dvě transformace se provádí z toho důvodu, že v neformálních textech není obecně dbáno na pravopis a zejména na internetu lidé zpravidla nepoužívají diakritiku ani velká písmena Stemming a lemmatizace Lemmatizace je proces převodu slova do základního tvaru, tzv. lemma. V češtině se například jedná o převod podstatných slov do 1. pádu (slovo barvě na tvar barva) nebo převod sloves do neurčitého tvaru (uděláme na tvar udělat). Problémová jsou však slova mnohovýznamová, např. slovo tancích je možné převést na slova tanec i tank. Z tohoto důvodu, a také protože tvorba dobrého lemmatizátoru je velice náročná, se namísto lemmatizace používá stematizace. Stematizace (angl. stemming) je hrubý proces, při kterém jsou konce slov odřezány, za účelem dosažení podobného výsledku jako při lemmatizaci. V češtině se tak ořezávají známé koncovky, případně předpony, např. ne-. Stematizace sice nedosahuje tak dobrých výsledků jako lemmatizace, avšak vytvoření dostatečně dobrého stemmeru je mnohem jednodušší, než vytvoření dobrého lematizátoru. 3.3 Odstranění nevýznamových slov Nevýznamová slova, neboli stop slova, jsou velmi častá slova, která samostatně nenesou význam a nevypovídají tak o obsahu textu. Odstraňují se za účelem zrychlení algoritmů zpracování přirozeného jazyka a dosažení lepších 11

12 výsledků. Jedná se o spojky, zájmena a další nevýznamová slova. V češtině jsou to například slova ale, anebo, ačkoli, se. Taková slova jsou z textu odstraněna a nepokračují tak do další části zpracování. 12

13 4 Významnost textu Při sumarizaci bychom chtěli do výsledných souhrnů zahrnout především nejvýznamnější části textu. Jak však v textu najít tyto části? Pokud na text nahlížíme jako na bag-of-words, pak je významnost textu dána vyznamností jednotlivých termů, které daný text tvoří. Jednou z nejpoužívanějších metrik pro hodnocení významnosti termů je tf-idf skóre. 4.1 TF-IDF Tf-idf (term frequency - inverse document frequency) je jeden z nejpoužívanějších způsobů pro vážení termů a využívá se v celé řadě metod zpracování přirozeného jazyka. Základní myšlenkou je předpoklad, že termy vyskytující se v textu méně častěji mají větší výpovědní hodnotu, než termy vyskytující se velmi často. Vážením se tak snažíme přidat těmto termům větší význam. Při vážení se využívají následující hodnoty: term frequency tf t,d je počet výskytů termu t v dokumentu d pro lepší vážení se používá tf t,d = 1 + log 10 tf t,d. document frequency df t je počet dokumentů, ve kterých se term vyskytuje inverse document frequency je měřítko informativnosti termu t a získá se jako idf t = log 10 (N/df t ), kde N je počet dokumentů celková váha w t,d = tf t,d idf t Díky tomuto vážení můžeme jakýkoliv text reprezentovat jako vektor tf-idf vah a takto s ním pracovat. 13

14 5 Polarita textu Jelikož provádíme kontrastní sumarizaci a chceme vytvářet souhrny pozitivní a negativní, je třeba použít některou z metod pro určení sentimentu vět. Cílem určení sentimentu textu je odhadnout, jak ho jeho autor vnímal. Obecně lze sentiment rozdělit dle řady emocí: radost, nadšení pobavení naštvání odpor Toto rozdělení je však stále příliš složité pro současné metody a většinou si postačíme s polaritou textu, tedy rozdělením na: pozitivní neutrální negativní I zde je možné dělit polaritu do několika stupňů: např. velmi pozitivní a pozitivní. 5.1 Slovníková metoda Slovníková metoda se opírá o slovník ohodnocených slov. Většinou se jedná o slovník pozitivních a negativních lemmat, někdy ale také může mít pozitivita a negativita více stupňů. Každé slovníkové lemma tak má např. přiřazenu hodnotu od 2 do 2. Slovník pozitivních slov by obsahoval slova jako skvělé, výborné, chutnat, líbit. Slovník negativních slov by zase obsahoval slova záporného cítění. Následující skóre pochází z práce [4]. Zde navrhli dva způsoby skórování pomocí slovníků. První skóre S s s názvem Lex odpovídá sumě polaritních vah jednotlivých slov věty s: n S s = w[i] s (5.1) i=1 14

15 Druhý způsob skórování věty se jmenuje LexWeight a každé slovo je zde váženo svou pozicí ve větě následovně: S s = n i=1 w[i] s, (5.2) i kde n je počet slov ve větě S a w[i] je polaritní váha i-tého slova. Tímto způsobem dostane největší váhu první slovo věty. 5.2 Metody založené na slovních vektorech Použití slovních vektorů k určování polarity bylo předvedeno v [4]. Autoři využili slovní vektory natrénované sítí Word2Vec a navrhli zde dva způsoby skórování. Při návrhu této metody vycházeli z předpokladu, že vektorový prostor Word2Vec dokáže zachytit nejen význam a podobnost slov, ale i jejich polaritu Word2Vec skóre 1 První skóre se zakládá na měření vzdálenosti jednotlivých slov věty od slov dobrý a špatný. Vzdálenost měřili ve vektorovém prostoru Word2Vec pomocí kosínové podobnosti. Tímto způsobem lze získat dvě polaritní skóre slova w: pozitivní skóre w p a negativní skóre w n. Polaritní skóre celé věty s, tedy S s je: m S s = w[i] r p w[i] r n, (5.3) i=1 kde m je počet slov ve větě a r je volitelný parametr pro vážení skóre Word2Vec skóre 2 Druhé skóre je velice podobné prvnímu, ale využili zde slovníku pozitivních a negativních slov (sek. 5.1). Namísto měření vzdálenosti od slov dobrý a špatný měřili průměrnou vzdálenost od všech slov ve slovníku pozitivních a negativních slov. 5.3 Klasifikační metody Další možností pro určení polarity je použití klasifikačních metod. Existuje celá řada těchto metod. Cílem klasifikátoru je přiřadit objektu, který reprezentujeme pomocí příznaků x, jednu ze tříd y. Hledáme tedy funkci f 15

16 takovou, že f : x y. (5.4) Při klasifikaci dokumentů máme dokument reprezentován vektorem příznaků a snažíme se tento dokument přiřadit do jedné z k tříd. Volba tříd zavisí na účelu klasifikace. Novinovým článkům můžeme přiřazovat témata, ové zprávy dělit na spam a ne-spam. V případě polarity dělíme dokumenty nejčastěji na pozitivní a negativní Příznaky Nejpoužívanějšími příznaky v textové klasifikaci jsou přímo termy vyskytující se v dokumentu. V některých případech však můžeme některé typy termů seskupovat do skupin a reprezenzovat je jako jeden. Například všechna čísla v dokumentu můžeme nahradit příznakem číslo, podobně můžeme přistupovat k chemickým vzorcům. Často používané jsou také tzv. n-gramové příznaky. N-gram je posloupnost n slov vyskytující se přímo v textu. Nejčastěji používané n-gramy jsou unigramy, bigramy a trigramy Maximum Entropy Classifier Jedním z významných zástupců klasifikačních metod je Maximum Entropy Classifier. Jedná se o metodu strojového učení, která je založena na principu maximální entropie. Tento princip říká, že Pravděpodobnostní rozdělení, které nejlépe odpovídá současnému stavu vědění, je to s největší entropií. Maximum Entropy Classifier se tak snaží ze všech modelů, které reprezentují naše data, vybrat ten s maximální entropií. Maximalizací entropie dosáhneme toho, že do klasifikačního systému nezavedeme nechtěný informační bias. Pravděpodobnostní distribuce s maximální entropií má exponenciální formu: P (c d) = 1 Z(d) exp( λ i f i (d, c)), (5.5) i kde d je dokument ke klasifikaci, c je hledaná třída, P (c d) je podmíněná pravděpodobnost třídy c máme-li dokument d, f i (d, c) je příznaková funkce, λ i je parametr, který je třeba odhadnout a Z(d) je normalizační faktor ve tvaru: Z(d) = exp( λ i f i (d, c)). (5.6) c i 16

17 Nalezení parametrů λ se provádí pomocí metod gradientního sestupu, např. Improved Iterative Scaling. [9] 17

18 6 Podobnost Při zkoumání podobnosti textů zkoumáme jejich sémantickou podobnost. Sémantická podobnost vypovídá o podobnosti významů obou textů. Zkoumání sémentické podobnosti je u sumarizace velice důležité, jelikož požadujeme, aby vytvořené souhrny neobsahovaly sémanticky podobné informace. Metody zkoumání sémantické podobnosti jsou založené na dvou předpokladech: bag-of-words hypotéza a co-occurrence hypotéza. Bag-of-words hypotéza zní následovně: Význam textu je dán pouze slovy, které se v něm vyskytují. Nezávisí na jejich pořadí. Hypotéza souvýskytu (co-occurrence) vypovídá o následujícím: Slova vyskytující se v okolí stejných slov mají podobný význam. Jako příklad můžeme uvést slova hora, údolí, řeka, která se budou v textu pravděpodobně vyskytovat v okolí stejných slov. To samé platí o slovech kočka, myš a pes. 6.1 HAL Hyperspace Analoge to Language (HAL) je metoda postavená na statistickém modelu sémantické paměti a byla vyvinuta Kevinem Lundem a Curtem Burgessem na Kalifornské univerzitě. Základní myšlenkou této metody je právě hypotéza souvýskytu (co-occurence). HAL používá čtvercovou matici n n pro n jedinečných slov, která se vyskytují v textu. Označíme-li tuto matici H, pak prvek H ij vyjadřuje vztah mezi termem i a j. Jak je vidět, matice je symetrická. Každé slovo je tak vyjádřeno řádkem a sloupcem, které reprezentují jeho vztahy s ostatními slovy. Při analýze čteme text slovo po slovu a pro každé slovo vyhledáme jeho řádek v matici H. Poté se v textu podíváme na x slov nalevo a napravo od tohoto slova a pro každé takové sousední slovo upravíme příslušný prvek ve vyhledaném řádku. Tomuto způsobu procházení textu se říká posuvné okénko. Posuvné okénko tvoří oněch x slov nalevo a napravo. Při samotné úpravě daného prvku matice můžeme vzít v potaz blízkost slov. Bližším slovům dáme větší váhu a vzdálenějším nižší. Např. slovo, které se od středu 18

19 vyskytuje ve vzdálenosti 5 bude mít váhu 2, zatímco slovo ve vzdálenosti 1 bude mít váhu 6. Po zpracování celého textu budou mít souvyskytující se slova podobné řádky v matici H. Tyto řádky jsou poté reprezentovány jako vektory a mohou být porovnány pomocí kosínové podobnosti. Výsledná vzdálenost mezi řádky pak odpovídá podobnosti mezi slovy, které řádky reprezentují. [13] Algoritmus Začínáme s matici H o rozměrech n n, kde n je počet unikátních slov v textu. Pokud tedy např. text obsahuje slov, z toho jedinečných, pak bude mít matice H rozměry Každý prvek matice je sumou všech hodnot získaných z průchodu posuvného okénka textem. Velikost posuvného okénka x je volitelná, obvyklé hodnoty jsou 5 nebo 8. Následně pro každé slovo v textu na pozici t přidáme do matice hodnoty získané z párů slova t se slovy t x až t + x. Pro každý takový pár pak do matice přidáme hodnotu určenou následujícím vzorcem: x t j + 1, (6.1) kde t je pozice středového slova, j je pozice druhého slova (např. t-3 ) a x je velikost posuvného okénka. Takto dostanou slova bližší středu větší váhu, než slova vzdálenější středu. Celý algoritmus vypadá takto: 1. Inicializace všech prvků matice H na Pro každé slovo textu w i na indexu i: (a) Pro každé slovo w j na indexu j v rozsahu i x až i + x: i. H ij + = x i j + 1 Po skončení tohoto algoritmu matice H obsahuje výsledné vektory určující podobnost jednotlivých slov. Tyto podobnosti poté mohou být použity k určení podobnosti větších částí textu, jako jsou věty, odstavce nebo celé dokumenty. [12] 6.2 LSA Latentní sémantická analýza (LSA) je metoda zpracování přirozeného jazyka patentovaná v roce Slouží k získání a reprezentaci kontextového významu slov aplikováním statistických výpočtů na soubor textů. Po zpracování velkého objemu strojově čitelných dat reprezentuje LSA slova, věty a 19

20 odstavce jako body ve vysoce dimenzionálním ( ) sémantickém prostoru. [6] Inspirace LSA je stejně jako metoda HAL založena na hypotéze bag-of-words a hypotéze souvýskytu. Díky těmto dvěma principům je LSA schopna odhalit skryté sémantické vztahy a koncepty. Způsobem, jakým toho LSA dosahuje, je redukce dimenzionality. Redukce dimenzionality je matematický nástroj, jakým při aplikaci na text získáváme znalosti o vztazích mezi slovy, které nejsou na první pohled zřejmé z jejich distribuce v textu. Představme si matici slov a úryvků textu, ve kterých se tato slova vyskytují. V neredukovaném stavu mohou být data reprezentována v libovolném hyperdimenzionálním prostoru, který má nejvýše tolik dimenzí, kolik máme různých slov a pasáží textu. Pokud reprezentujeme data v jejich maximální možné dimenzionalitě, získáme distribuci slov tak, jak se v textu vyskytují. V redukovaném dimenzionálním prostoru budou data reprezentována nejlépe jak je to možné, ale ne perfektně. Některá data se tak budou vyskytovat blíže nebo dále než v původní distribuci. Sémanticky podobná data se budou vyskytovat blíže. Matematickým aparátem pro redukci dimenzionality je metoda singulárního rozkladu (singular value decomposition). [14] Úspěch metody LSA je někdy vysvětlen přirovnáním LSA k psychickým procesům lidí při získávání sémantických znalostí pouze z přímého kontaktu s jazykovými daty. LSA nepředpokládá žádné předem získané znalosti, které by napomáhaly při rozpoznávání významu slov a vět. LSA pouze předkládá obecný postup získávání sémantické struktury textů, který je obdobný tomu, čím lidé mohou procházet při stejném procesu Singular value decomposition Singular value decompostion (SVD - singulární rozklad) je matematický aparát pro faktorizaci matic. Jedná se o teorém lineární algebry, říkající, že každá n m matice M, jejíž prvky jsou reálná čísla, může být rozložena do matic U, Σ, V T tak, že M = UΣV T. (6.2) U je matice o rozměrech m m a V T je matice o rozměrech n n. Obě matice mají ortonormální sloupce. Matice Σ je diagonální matice o rozměrech m n a vypadá takto: 20

21 s 1 0 Σ = 0 s 2., (6.3).... Hodnoty na diagonále matice Σ se nazývají singulární čísla (hodnoty) matice M a jsou seřazena od nejvyššího po nejmenší. Singulární čísla jsou odmocniny vlastních čísel matice M T M. Singulární hodnoty reprezentují dimenze významu pro slova a části textu. Matice M může být znovu sestrojena roznásobením matic U, Σ a V T. [14] Dimenzionalita sémantického prostoru může být snížena nahrazením některých singulárních čísel nulou. Typicky se postupuje od nejnižších singulárních čísel po nejvyšší. Nechť ponecháme pouze k-nejvyšších singulárních čísel, redukujeme tak matici Σ na matici Σ k a podobně redukujeme matice U, V T na matice U k, Vk T tak, že ponecháme pouze prvních k sloupců, resp. řádků. Matice M je tak aproximována svojí k-dimenzionální rekonstrukcí M k = U k Σ k V T k. (6.4) Jelikož mají matice U k, Σ k, Vk T rozměry m k, k k, k n, výsledek jejich násobení bude mít rozměry m n, stejně jako originální matice M. Nyní se podíváme na význam jednotlivých matic pro LSA. Matice U má rozměry n m a každý její sloupec může být považován ze reprezantaci tématu (někdy také konceptu), tedy kombinaci slov ze vstupních dat danou vahami, které jsou vyjádřeny jednotlivými hodnotami sloupců. Matice Σ je diagonální a jednotlivé hodnoty vyjadřují váhy patřičných témat. Matice V T je vyjádřením jednotlivých vět (odstavců, pasáží,...) v prostoru témat. Každý sloupec odpovídá jedné větě. [1] V těchto maticích tak máme reprezentována slova a věty v prostoru konceptů a zároveň koncepty v prostory slov a vět. Zkoumáním těchto matic můžeme tvořit úvahy o podobnosti slov a vět. Věty a slova lze reprezentovat jejich vektory v příslušných maticích, jejichž prvky vypovídají o vztahu slov, resp. vět k jednotlivým konceptům. Tyto vektory lze dále porovnávat pomocí kosínové podobnosti nebo korelační metody. 6.3 Slovní vektory Pro hodnocení sémantické podobnosti lze také využít slovní vektory. Slovní vektory jsou vektorové reprezantace slov natrénované neuronovými sítěmi 21

22 zkoumáním souvýskytu slov ve velkých souborech textu. Takové vektory poté tvoří vektorový prostor, ve kterém lze porovnávat sémantickou podobnost slov a textů. Každé slovo je v tomto vektorovém prostoru reprezentováno svým vysokodimenzionálním vektorem (50-300). Vektory sémanticky podobných slov jsou v tomto prostoru blízko sebe. Nejznámějším modelem pro trénování takových slovních vektorů je model Word2Vec. K vytvoření vektorové reprezentace celé věty je nutné slovní vektory jednotlivých slov věty zkombinovat. Nejčastějším způsobem takové kombinace je průměrování. Poté můžeme určit podobnost dvou dokumentů d 1 a d 2 reprezantovaných jejich příznakovými vektory v 1 a v 2 pomocí kosínové podobnosti: sim(v 1, v 2 ) = ni=1 v 1 [i] v 2 [i] ni=1 v 1 [i] 2 ni=1 v 2 [i] 2 (6.5) 22

23 7 Sumarizace Automatická sumarizace je podúlohou zpracování přirozeného jazyka. Jejím úkolem je redukce velkého objemu textu za účelem snadnější zpracovatelnosti uživatelem. Hlavním aspektem sumarizace je vybrání těch nejdůležitějších informací, které nejlépe reprezentují původní text. Vytvoření krátkého souhrnu umožní uživatelům získání představy o podstatě dokumentu, aniž by museli číst dokument v celé jeho podobě. Výstupem sumarizace by měl být plynulý, čitelný a pochopitelný text. V jednodušší podobě je souhrn tvořen z jednoho dokumentu, ve složitějším případě je souhrn tvořen z více dokumentů. V takovém případě je nutné použití metrik sémantické podobnosti, abychom zabránili redundanci informací v souhrnu. Problém sumarizace není triviální. Na začátku sumarizace je nutné si položit následující dvě otázky. Co jsou původní dokumenty? A co je důležitá informace? Odpověďi na tyto dvě otázky závisí na doméně daného problému sumarizace a není vždy jednoduché je nalézt. Doména určuje vlastnosti tvořených souhrnů, způsob výběru vět, a hraje důležitou roli v návrhu a nastavení sumarizátoru. Některé domény automatické sumarizace zahrnují: 1. Zpravodajské články 2. Výsledky webových vyhledávačů 3. Recenze 4. Vědecké články 7.1 Typy sumarizace Typ sumarizace lze rozlišovat dle řady kritérií. Kam konkrétní problém sumarizace spadá, záleží především na doméně sumarizovaných dokumentů, požadavcích na výsledné souhrny a cílovém uživateli Dělení dle účelu Pro správnou tvorbu automatického sumarizátoru je nutné určit účel samotné sumarizace. Od účelu sumarizace se odvíjí podoba tvořených souhrnů, jejich délka a kompozice. 23

24 Indikativní sumarizace Účelem indikativní sumarizace je naznačit uživateli typ informací, které může v dokumentu očekávat. Uživatel se podle této informace rozhoduje, zda bude dokument dále číst. Tento typ sumarizace je častý zejména v oblasti vyhledávání informací. Informativní sumarizace Informativní sumarizace má za úkol do souhrnu zahrnout ty nejpodstatnější informace, které dokument obsahuje. Takový souhrn poté nahrazuje původní dokument. Názorová sumarizace Smyslem názorové sumarizace je zachycení autorova názoru na předmět dokumentu. Názorová sumarizace je důležitá pro prodejce a zákazníky. Často je sumarizace rozdělena na tvorbu pozitivních souhrnů a negativních souhrnů. Komparativní sumarizace Cílem komparativní sumarizace je analýza více dokumentů a následné vytvoření souhrnu, který bude obsahovat nejvýznamnější rozdíly mezi těmito dokumenty. Kontrastní sumarizace Kontrastní sumarizace je velice podobná komparativní sumarizaci. I zde chceme do souhrnu zahrnout rozdíly mezi sumarizovanými dokumenty. Kontrastní sumarizace však bere v potaz i sentiment autorů dokumentů a snaží se tvořit dva souhrny: pozitivní a negativní. Tento způsob sumarizace se často používá právě při sumarizaci produktových recenzí Dělení dle způsobu Kromě účelu sumarizace lze také souhrny dělit dle způsobu jejich vytváření. Jedná se o základní rozdělení sumarizátorů do dvou skupin: abstraktivní a extraktivní. Abstraktivní sumarizace Abstraktivní sumarizace vytváří souhrny, které neobsahují věty vyskytující se v původním dokumentu. Namísto toho je souhrn tvořen novými větami. V 24

25 některých případech lze převzít výrazy a spojení z původního dokumentu, ale celkový souhrn je stále považován za nový text. Abstraktivní sumarizátory využívají jazykových modelů pro tvorbu smysluplných vět. I přesto však často dochází ke ztrátě smysluplnosti, jelikož jazykové modely mají stále svá omezení. Z tohoto důvodu je abstraktivní sumarizace výrazně složitější a méně často používaná než sumarizace extraktivní. Extraktivní sumarizace Při extraktivní sumarizaci jsou z původních dokumentů vybírány celé věty a pomocí nich jsou poté tvořeny souhrny. Častým krokem je skórování důležitosti jednotlivých vět za účelem výběru těch nejpodstatnějších částí. Extraktivní sumarizace se skládá ze tří částí [1]: 1. Získání reprezentace dokumentu nebo dokumentů - i ty nejjednodušší metody sumarizace potřebují ke své práci reprezentaci sumarizovaného textu, pomocí které mohou určit významné informace. Reprezentace pomocí témat (angl. topic) se snaží reprezentovat dokument jako kolekci témat, která se v textu vyskytují. Tento způsob využívají ty nejpopulárnější sumarizátory a jednotlivé přístupy se mohou velice lišit ve složitosti a síle reprezentace. Indikátorové přístupy narozdíl od toho reprezentují jednotlivé věty množinou indikátorů jejich významnosti: délka věty, pozice v dokumentu, výskyt důležitých frází atp. 2. Hodnocení vět - jakmile máme vytvořenou reprezentaci dokumentu, můžeme jednotlivým větám přiřadit skóre. Při reprezentaci pomocí témat je skóre odvozeno od schopnosti věty vyjádřit téma nebo kombinaci témat, často svou váhou v jednotlivých tématech. Indikátorové metody tvoří skóre věty váženou kombinací jednotlivých indikátorů. 3. Výběr vět - nakonec je do souhrnu vybrána kombinace nejdůležitějších vět. V přístupu nejlepších n je vybráno n vět s nejvyšším skóre, tak aby měl souhrn požadovanou délku. Tento přístup je možné obohatit o uvažování redundance vět v souhrnu. V takovém případě je výběr vět iterativní, v každém kroku dojde k přepočítání skóre, které je lineární kombinací ohodnocení významnosti věty a její podobnosti se zbytkem souhrnu. Cílem výběru je maximalizace důležitosti, minimalizace redundance a maximalizace konzistence. Tyto požadavky jsou mnohdy protichůdné. 25

26 7.2 Sumarizace pomocí LSA Jak již bylo řečeno v kapitole 6.2, aplikací singulárního rozkladu na matici výskytu slov M získáme tři matice M = UΣV T. (7.1) Tyto matice lze použít nejenom pro určení podobnosti dvou vět, ale také pro určení významnosti tématu a korelaci vět s tématem. Významnost tématu je dána patřičnou hodnotu na diagonále matice Σ. Dále je možné zjistit, jakou váhou přispívá věta k libovolnému tématu prozkoumáním matice V T. Tyto tři matice tak poskytují bohatý základ informací o podstatě dokumentu a jeho částech, který lze využít při sumarizaci. Postup sumarizace metodou LSA odpovídá krokům extraktivní sumarizace, Význam jednotlivých kroků je následující: 1. Reprezentace dokumentu - stavba matice souvýskytu M a její rozklad singulární dekompozicí dle M = UΣV T. 2. Hodnocení významnosti vět - liší se dle daného přístupu, viz Výběr vět - liší se dle daného přístupu, viz Stavba matice Vstupem singulárního rozkladu je u LSA matice výskytu slov M. Řádky odpovídají jednotlivým slovům a sloupce větám. Způsob tvorby matice M je velice důležitý a přímo určuje podobu matic vypočítaných singulárním rozkladem. Jelikož je singulární rozklad výpočetně náročný, je vhodné před tvorbou matice redukovat počet použitých slov, např. procesy předzpracování popsanými v kap. 3. Existuje několik způsobů jak určit jednotlivé prvky matice M [11]. Frekvence slova: hodnota prvku matice je určena počtem výskytu slova v dané větě (slova se však ve větách často neopakují). Binární výskyt: prvek matice obsahuje 1, pokud věta obsahuje slovo, jinak 0. Tf-Idf váha: prvky matice jsou určeny tf-idf vážením jak bylo popsáno v sekci 4.1. Log-entropie: matice je vyplněna hodnotou log-entropie slova, což podává informaci o důležitosti slova ve větě. 26

27 Modifikovaná tf-idf: navrhnuto v [10] za účelem redukce hluku ve vstupní matici. Prvky matice jsou nejprve doplněny klasicky svými tf-idf vahami. Následně je pro každý řádek matice spočítán průměr a ponechány jsou jen ty hodnoty prvků řádku, které jsou větší než jeho průměr Jednotlivé přístupy použití LSA Věty je možné do výsledných souhrnů vybírat řadou způsobů za použití výsledků singulárního rozkladu. Následuje popis těch nejznámějších přístupů. Gong a Liu (2001) Algoritmus navrhnutý v [3] je prvním navrženým způsobem výběru vět do souhrnů pomocí LSA. Je založen na reprezentaci vět pomocí témat. Po provedení singulárního rozkladu je použita matice témata věty. V této matici jsou témata seřazena od nejdůležitějšího po nejméně důležité. Jedna věta je vybrána z nejdůležitějšího téma, další věta z druhého nejdůležitějšího téma a tak dále, dokud nemá souhrn požadovanou délku. Algoritmus tvorby souhrnu je následující: 1. Sestav matici výskytu M a proveď rozklad M = UΣV T. 2. Nastav i=1. 3. Dokud nemá souhrn požadovanou délku: (a) Vyber větu s největší hodnotou prvku v i-tém řádku matice V T. (b) i + + Redukce dimenze v tomto případě nemá své opodstatnění, jelikož počet dimenzí musí být alespoň tak velký, jako počet vět generovaných souhrnů. Větší počet dimenzí se při výběru neprojeví, jelikož bereme v potaz jen prvních n témat, resp. dimenzí, kde n je počet vět souhrnu. Dále má tento přístup dvě nevýhody. První nevýhodou je to, že pokud je délka tvořeného souhrnu příliš veliká, jsou do souhrny vybrány i věty z málo významných témat. Druhým problémem je výběr pouze jedné věty z každého tématu. Některá témata, obzvláště ta nejdůležitější, je vhodné reprezentovat v souhrnu více větami. 27

28 Steinberger a Ježek (2004) Přístup Steinbergera a Ježka [15] se podstatně liší od přístupu Gong a Liu. Gong a Liu hodnotí věty dle patřičnosti k jedinému tématu. Steinberger a Ježek hodnotí větu dle její patřičnosti k více vybraným tématům (jejich počet závisí na zvolené dimenzi redukovaného prostoru). Za tímto účelem používají k hodnocení vět délku jejich vektorů v matici ΣV T. Prostor je možné redukovat, abychom omezili vliv méně významných témat. Pokud například chceme hodnotit věty na základě jejich patřičnosti k pěti nejvýznamnějším tématům, redukujeme počet dimenzí na pět. Postup tvorby souhrnu vypadá takto: 1. Sestav matici výskytu M a proveď rozklad M = UΣV T. 2. Proveď redukci na požadovaný počet dimenzí n. 3. Vyber požadovaný počet vět s největší délkou získanou jako s k = n vk,i 2 σ2 i, (7.2) i=1 kde s k je délka vektoru k-té věty, v k,i je prvek matice V T a σi 2 je prvek na diagonále matice Σ. Výhodou této metody je nezávislost počtu ponechaných dimenzí na počtu vybíraných vět. Nevýhodou je zanedbání vlivu negativních hodnot v matici V T. Tyto hodnoty se vlivem druhé mocniny projeví stejně, jako hodnoty pozitivní, což může být nežádoucí účinek. Murray a spol. (2005) Murray a spol. [8] se rozhodli vylepšit původní metodu výběru Gong a Liu a odstranit problém výběru pouze jedné věty na téma. Tímto způsobem lze vybrat více než jednu větu z nejvýznamnějších témat. Počet vět vybraných z daného téma je určen poměrem jeho singulární hodnoty v matici Σ vůči sumě singulárních hodnot všech témat. Vzorec pro určení této distribuce je: d i = s i nj=1 s j k, (7.3) kde s i je i-tá singulární hodnota na diagonále matice Σ, n je ponechaný počet dimenzí a k je požadovaná délka souhrnu. Celý algoritmus výběru je: 1. Sestav matici výskytu M a proveď rozklad M = UΣV T. 2. Nastav i=1. 28

29 3. Spočítej distribuci d vět v tématech. 4. Dokud nemá souhrn požadovanou délku: (a) Vyber d i (počet vět pro výběr v i-tém tématu) vět s největší hodnotou prvku v i-tém řádku matice V T. (b) i + + Ozsoy a spol. (2010) Metoda navržená v [10] nazvaná cross method je modifikací metody Steinbergera a Ježka [15]. Úprava spočívá v odstranění vlivu vět, které sice souvisí s tématem, ale nemají v něm hlavní význam. Pro každý řádek matice V T je spočítán průměr jeho hodnot. V řádcích jsou poté ponechány jen ty hodnoty, které jsou větší než průměr daného řádku. Tento krok odstraní z tématu věty, které s ním souvisí méně. Algoritmus vypadá takto: 1. Sestav matici výskytu M a proveď rozklad M = UΣV T. 2. Proveď redukci na požadovaný počet dimenzí n. 3. Spočítej průměry řádků matice V T. V matici V T nastav na nulu všechny prvky, jejichž hodnota je nižší než průměr daného řádku. 4. Vyber požadovaný počet vět s největší délkou získanou jako s k = n vk,i 2 σ2 i, (7.4) i=1 7.3 Sumarizace rozdílů v recenzních textech Problém sumarizace rozdílů v recenzních textech spadá do kategorie kontrastní názorové sumarizace (v angličtině contrastive opinion summarization). Cílem sumarizace je analyzovat dokument po stránce sémantické a polaritní a vytvořit dva souhrny: pozitivní a negativní. První by měl zachycovat ty nejdůležitější pozitivní názory, zatímco ten druhý ty nejdůležitější negativní názory. Zároveň by však vytvářené souhrny neměly obsahovat sémanticky podobné části. Kontrastní názorová sumarizace se obvykle provádí extraktivním přístupem. Pojmem sumarizace se tedy v následujích částech myslí extraktivní sumarizace. Ta se dělí do následujících kroků. 29

30 7.3.1 Segmentace dokumentu Stejně jako v klasické extraktivní sumarizaci je dokument rozdělen na menší části. Tyto stavební jednotky jsou odvozeny od gramatických pravidel (věty, odstavce). Drtivá většina extraktivních přístupů využívá jako základní stavební jednotku celé věty Hodnocení vět Jestliže máme dokument rozdělen na jednotlivé věty, potřebujeme větám přiřadit skóre, podle kterého se budeme dále rozhodovat při výběru vět. Požadujeme, aby tvořené souhrny obsahovaly ty nejdůležitější věty, ale zárověň neobsahovaly redundantní informace. Klasické skóre věty se tak skládá ze dvou částí: funkce pro určení významnosti věty a funkce pro určení její podobnosti s ostatními větami souhrnu. V případě tvorby pozitivních a negativních souhrnů lze věty rozdělit na pozitivní a negativní a při výběru brát v potaz věty pouze z dané třídy. Druhým způsobem je hodnotit polaritu pomocí funkce a přidat ji jako třetí část skóre. Možnou formulí pro výpočet skóre S s věty s je: S s = imp(s) pol(s), (7.5) sim(s) kde imp(s) je funkce důležitosti věty s, pol(s) je funkce polarity věty s. sim(s) je funkce podobnosti věty s se zbytkem souhrnu, která se určí jako: sim(s) = max s 2 sum (sim(s, s 2)), (7.6) kde sum je množina vět, které se momentálně nachází v souhrnu a sim(s, s 2 ) je podobnost věty s a s 2 (např. kosínová vzdálenost). Funkce skóre by měla splňovat následující vlastnosti: 1. její absolutní hodnota roste s důležitostí věty 2. její absolutní hodnota klesá s mírou podobnosti s větami jíž zařazenými v souhrnu 3. její znaménko udává polarita věty Stavba souhrnu Máme-li vytvořené skóre pro jednotlivé věty, můžeme přistoupit k samotnému výběru vět. Algoritmus výběru je následující: 30

31 1. Výběr první věty: vybrána nejdůležitější věta s požadovanou polaritou. 2. Dokud nemá souhrn požadovaný počet vět nebo jsme nevyčerpali všechny věty v dokumentu: (a) Vyber větu s nejvyšší hodnotou dle skóre výše S s = imp(s) pol(s) sim(s) Délka souhrnů se liší dle účelu sumarizace a může být i proměnlivá. V takovém případě vybíráme věty, dokud nalezneme takovou, která má hodnotu skóre větší než zvolená hraniční hodnota. U kontrastní názorové sumarizace se obvykle vytvářejí souhrny o délce 10 vět nebo 100 slov. Konktrétně použité metody jsou popsány v kapitole 9 a jejich implementace v kapitole

32 8 Hodnocení sumarizace Hodnocení sumarizace je stálou částí výzkumné činnosti. Hlavním přístupem pro hodnocení kvality sumarizace je zhodnocení obsahu proti ideálnímu souhrnu, který je vytvořený lidskými anotátory. Pro extraktivní sumarizaci je často porovnán počet vět, které se vyskytují v souhrnu vytvořeném automatickým sumarizátorem a v souhrnu vytvořeném anotátorem. Je tak určen počet ideálních vět, které automatický souhrn obsahuje. Pokud jsou však lidské souhrny tvořeny abstraktivním přístupem, je nutné porovnávat souhrny na základě jednotlivých slov. Jednou z nejpoužívanějších metod pro takové hodnocení je metrika ROUGE. 8.1 ROUGE Recall-Oriented Understudy for Gisting Evaluation [7], neboli ROUGE, je měřítkem pro automatické hodnocení kvality souhrnu jeho porovnáním s ideálním (lidským) souhrnem. ROUGE měří počet společných slov, sekvencí slov, párů slov a n-gramů mezi počítačově vygenerovaným souhrnem a ideálním souhrnem vytvořeným člověkem. Metoda obsahuje řadu metrik pro měření podobnosti, nejpoužívanější jsou ROUGE-N, ROUGE-S a ROUGE- SU. [7] Původní balíček ROUGE byl vytvořen v jazyce perl. Od té doby se dočkal svého zpracování i v ostatních programovacích jazycích, např. Java a Python. Je však nutné zmínit, že vysledky poskytnuté různými implementacemi ROUGE se mohou lišit ROUGE-N Metrika ROUGE-N měří recall n-gramů mezi hodnoceným souhrnem a množinou referenčních souhrnů, tedy počet kolik procent n-gramů v referenčních souhrnech se vyskytuje v měřeném souhrnu. Skóre vypadá následovně: ROUGE N = S ReferenceSummaries gram n S count match (gram n ), (8.1) S ReferenceSummaries gram n S count(gram n ) kde n je délka n-gramu gram n a count m atch(gram n ) je počet společných n- gramů v měřeném souhrnu a kolekci referenčních souhrnů. [7] Jelikož recall je závislý na délce měřených souhrnů a s rostoucí délkou měřeného souhrnu se zvyšuje, byla do novějších verzí balíčku ROUGE přidána také precision, 32

33 určující kolik procent n-gramů v měřeném souhrnu se vyskytuje také v referenčních souhrnech. Dále byla také přidána f-míra: F β = (1 + β2 ) (precision recall), (8.2) β 2 precision + recall kde β je faktor balancující precision a recall. Pro β > 1 má větší váhu precision, pro β < 1 má větší váhu recall. Nejpoužívanějšími verzemi jsou ROUGE-1, která měří počet společných unigramů a ROUGE-2 měřící počet společných bigramů ROUGE-S ROUGE-S měří počet společných skip-bigramů. Skip-bigram je dvojice slov v pořadí, v jakém se vyskytují ve větě při vynechání libovolného počtu slov mezi nimi. Metrika je velice podobná ROUGE-2, jelikož měří počet společných bigramů, které tvoříme přeskočením daného počtu prostředních slov ROUGE-SU Problémem ROUGE-S je fakt, že pokud se v hodnoceném souhrnu nevyskytuje žádný společný skip-bigram, bude výsledné hodnocení nulové. To se však stane i u vět, které obsahují stejná slova, ale v opačném pořadí. Tyto věty bychom chtěli odlišit od vět, která stejná slova nemají. Za tímto účelem byla vytvořena metrika ROUGE-SU, která rozšiřuje ROUGE-S o počítání společných unigramů Nastavení Kromě výběru použitých typů ROUGE je také důležitým aspektem jeho samotné nastavení. ROUGE využívá řadu metod pro úpravu hodnocených souhrnů. Používaná je lemmatizace, stemming, odstranění nevýznamových slov, ale také např. rozpoznávání jmenných entit a synonym. Při použití ROUGE je tak vhodné uvést také přesný způsob, jakým bylo použito, jelikož v opačném případě se výsledky dvou různých ROUGE měření mohou velice lišit. 33

34 9 Použité metody V této kapitole jsou popsány použité metody. Jejich implementace je v kapitole Návrh sumarizace recenzí pomocí LSA Ke kontrastní názorové sumarizaci lze přistoupit dvěma způsoby, které se liší použitím polarity Přístup split Přístup split využívá pro hodnocení polarity binární klasifikátor, který věty rozdělí na pozitivní a negativní. Tyto věty poté putují odděleně do metody SVD, po jejímž provedení jsou z nich vybrány jedním z přístupů popsaných v sekci Diagram postupu sumarizace je vidět na obr Obrázek 9.1: Diagram sumarizace přístupem split. Tento přístup trpí jednou závažnou chybou a tou je binární klasifikace polarity. Klasifikace na pouze pozitivní a negativní věty nedovoluje věty rozlišit na např. více pozitivní a méně pozitivní a do souhrnu poté zahrnout věty více pozitivní. Druhým problémem může být nedostatek pozitivních, resp. negativních vět. Recenze skvělého produktu budou obsahovat malé množství negativních vět, do souhrnu bychom tedy chtěli zahrnout i věty slabšího sentimentu, abychom dodrželi délku souhrnu. 34

35 9.1.2 Přístup score Přístup score využívá pro hodnocení polarity funkci, která nabývá hodnot obecně v rozmezí ( m, +n). Věty nejsou před provedením SVD rozděleny na pozitivní a negativní, nýbrž putují do SVD všechny. Po provedení singulárního rozkladu jsou následně vybrány věty dle kompozitního skóre pro pozitivní věty a S s = pol(s) (1 + imp(s)) (1 sim(s)) p (9.1) S s = 1 pol(s) (1 + imp(s)) (1 sim(s)) p (9.2) pro negativní věty, kde pol(s) je funkce polarity, imp(s) je funkce důležitosti, p je vážící faktor podobnosti a sim(s) je funkce podobnosti věty se zbytkem souhrnu. Diagram postupu sumarizace je vidět na obr Výsledky funkce polarity jsou normalizovány na rozsah < 1, +1 > a výsledky funkce důležitosti jsou normalizovány na rozsah < 0, +1 >. Obrázek 9.2: Diagram sumarizace přístupem score. 9.2 Předzpracování Předzpracování se skládá z kroků, které jsou popsány v kapitole 3. Jedná se o kroky v následujícím pořadí: 1. Rozdělení textu na věty pomocí regulárního výrazu. 2. Rozdělení vět na slova pomocí regulárního výrazu. 35

36 3. Odstranění diakritiky a převod na malá písmena. 4. Lemmatizace pomocí slovníku lemmat. 5. Odstranění stop slov. 9.3 Stavba matice souvýskytu Implementoval jsem dvě metody pro stavbu matice souvýskytu M: binary - stavba matice dle způsobu binárního výskytu, viz tfidf - stavba matice s tf-idf vážením, viz Dokumenty jsou u tfidf vážení jednotlivé věty. Hodnota document frequency je tedy počet vět, které obsahují dané slovo. Důležité je toto vážení natrénovat na recenzích všech restaurací. Pokud bychom tfidf vážení trénovali pro každou restauraci zvlášť, došlo by k potlačení efektu významnosti některých slov. Např. u pizzérie bude slovo pizza časté a bude proto mít nízkou hodnotu idf, avšak při sumarizaci je toto slovo velice důležité. Proto je vhodnější vážení trénovat na recenzích všech restaurací, tímto způsobem bude mít slovo pizza větší význam, jelikož se bude vyskytovat především u pizzérií. 9.4 Hodnocení polarity V této sekci jsou popsány metody hodnocení polarity vět lex Hodnocení polarity je provedeno slovníkovou metodou a skórem lex (viz. sekce 5.1). Slovník polaritních termů tvoří dva seznamy pozitivních a negativních slov. Pokud se hledané slovo vyskytuje v seznamu pozitivních termů, je mu přidána hodnota 1, pokud se vyskytuje v seznamu negativních termů, je mu dána hodnota 1. Polaritní hodnocení věty je součtem polaritních vah jednotlivých slov maxent Během analýzy se ukázalo, že metoda lex velkou mírou preferuje dlouhé věty. V delších větách se dle očekávání vyskytuje více pozitivních, resp. negativních slov. Proto jsem se rozhodl použít pro ohodnocení polarity jiný způsob, který by nezávisel na délce věty. Vytvořil jsem binární klasifikátor, který věty 36

37 klasifikuje na pozitivní a negativní. Ke klasifikaci jsem použil klasifikátor s maximální entropií (sekce 5.3.2), který jsem natrénoval na seznamech pozitivních a negativních recenzních vět restaurací. Jako příznaky jsem použil unigramy. Tuto metodu jsem nazval maxent. 9.5 Hodnocení významnosti Existující metody Významnost vět je hodnocena výhradně využitím výsledků singulárního rozkladu, konkrétně pomocí součinu matic ΣV T. Použité metody jsou popsány v sekci Implementovány jsou tyto existující metody topic - metoda vychází z přístupu Gong a Liu (2001), pokud je po redukci dimenze ponechán menší počet témat, než je počet vybíraných vět, pokračuje výběr znovu od prvního tématu length - založeno na přístupu Steinberger a Ježek (2004). Metoda je však rozšířena o možnost vynulování negativních hodnot z matice ΣV T. subtractlength - velice podobné jako metoda length, ale po výběru věty je její sloupec odečten od všech sloupců matice ΣV T. To zabraňuje redundanci, jelikož podobné věty budou mít podobné sloupce, které budou po odečtení téměř vynulované a budou tak mít velice malou délku. Také umožňuje vynulování negativních hodnot InvertLength Při analýze výsledků výše zmíněných metod získaných metrikou ROUGE (kapitola 11) a také analýzou vytvořených souhrnů jsem zjistil, že všechny tyto metody preferují delší věty. Pisatelé recenzí však často napíšou celou svou recenzi do jedné věty. Takové věty poté tvoří velkou část souhrnu, který je svou délkou omezen na 100 slov. Z tohoto důvodu jsem se rozhodl vytvořit nový způsob skórování vět, který by věty penalizoval na základě jejich délky. Algoritmus této metody je následující: 1. Sestav matici výskytu M a proveď rozklad M = UΣV T. 2. Proveď redukci na požadovaný počet dimenzí n. 3. Spočítej délku d i vektoru věty i v matici ΣV T. 37

38 4. Pokud je d i < 1 vrať d i, v opačném případě vrať 1 d i Tento přístup se může na první pohled zdát kontraproduktivní, jelikož věty penalizujeme hodnotou, kterou jsme u předchozích metod považovali za ohodnocení důležitosti. Při testování však tento způsob hodnocení poskytl zdaleka nejlepší výsledky. 9.6 Hodnocení podobnosti Hodnocení podobnosti je založeno na počítání kosínové vzdálenosti sloupců matice M k. Jedná se o matici souvýskytu v redukovaném prostoru po provedení singulárního rozkladu. Jednotlivé sloupce této matice reprezentují věty v prostoru termů. Podobnost věty se zbytkem souhrnu je hodnocena dvěma způsoby Varianta č. 1 Tato varianta, nazvaná sim sent počítá podobnost zkoumané věty se souhrnem určením maximální podobnosti s větami, které se aktuálně nacházejí v souhrnu. Vzorec, již dříve uvedený pod označením 7.6, vypadá následovně: sim sent (s) = max s 2 sum (sim(s, s 2)), (9.3) kde sum je množina vět, které se momentálně nachází v souhrnu a sim(s, s 2 ) je kosínová vzdálenost mezi sloupci vět s a s 2 v matici M k Varianta č. 2 Druhá varianta s názvem sim sum zkoumá podobnost také pomocí kosínové vzdálenosti, ale namísto hledání maximální podobnosti s jednotlivými větami počítá celkovou podobnost s celým souhrnem. Souhrn je reprezentován průměrem vět, které se v něm vyskytují. Následně je kosínovou vzdáleností spočítána podobnost se zkoumanou větou. Tento způsob by měl dosahovat lepších výsledků, než způsob sim sent, jelikož podobnost věty a souhrnu není výsledkem porovnání s jednou jedinou větou (tou nejpodobnější), ale vypovídá o podobnosti s celým souhrnem. 38

39 10 Implementace Sumarizátor jsem od počátku zamýšlel a vytvářel jako znovupoužitelnou knihovnu, která bude sloužit pro testování automatické sumarizace. Z tohoto důvodu jsem se rozhodl ji vytvořit v jazyce Java. K výběru tohoto jazyka také vedl fakt, že celá řada state-of-art metod zpracování přirozeného jazyka je implementována právě v Javě. Jádrem knihovny je kontrastní sumarizace a metoda LSA, avšak pouhým rozšířením by mohla knihovna sloužit k testování dalších metod a typů sumarizace Architektura knihovny Nejdůležitější částí knihovny je kontrastní sumarizace metodou LSA, resp. přístupem score (sekce 9.1.2). UML diagram tříd, které jsou součástí tohoto jádra je na obr Jednotlivé třídy, které lze vidět v tomto diagramu, jsou popsány dále. Hlavním balíčkem knihovny je summarization. Veškeré ostatní balíčky jsou jeho podbalíčkem a jsou popsány v dalších sekcích data Balíček data obsahuje třídy a metody pro čtení a zápis textových dat a třídy pro interní reprezentaci načtených dat. io.inoutsettings Tato třída je přepravkou pro uchování cesty ke složce se vstupními soubory a uchování cesty ke složce, kam budou po dokončení sumarizace zapsány její výsledky. io.dataprovider Rozhraní pro čtení dat. Obsahuje hlavičky metod pro čtení souboru po řádcích, případně pro přečtení celého souboru a pro uzavření souboru. io.basicdataprovider Implementuje rozhraní DataProvider. Pro čtení souboru využívá třídu BufferedReader. Umožňuje čtení souboru po řádkách a načtení celého souboru 39

40 Obrázek 10.1: UML diagram jádra sumarizace score. 40

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace

Více

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

SVD rozklad a pseudoinverse

SVD rozklad a pseudoinverse SVD rozklad a pseudoinverse Odpřednesenou látku naleznete v kapitole 12 skript Abstraktní a konkrétní lineární algebra. Jiří Velebil: Lineární algebra 19.12.2016: SVD rozklad a pseudoinverse 1/21 Cíle

Více

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly. Kapitola Reprezentace grafu V kapitole?? jsme se dozvěděli, co to jsou grafy a k čemu jsou dobré. rzo budeme chtít napsat nějaký program, který s grafy pracuje. le jak si takový graf uložit do počítače?

Více

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: 3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...

Více

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Determinanty. Obsah. Aplikovaná matematika I. Pierre Simon de Laplace. Definice determinantu. Laplaceův rozvoj Vlastnosti determinantu.

Determinanty. Obsah. Aplikovaná matematika I. Pierre Simon de Laplace. Definice determinantu. Laplaceův rozvoj Vlastnosti determinantu. Determinanty Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Determinanty Definice determinantu Sarrusovo a křížové pravidlo Laplaceův rozvoj Vlastnosti determinantu Výpočet determinantů 2 Inverzní

Více

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

11 Analýza hlavních komponet

11 Analýza hlavních komponet 11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu

Více

Soustava m lineárních rovnic o n neznámých je systém

Soustava m lineárních rovnic o n neznámých je systém 1 1.2. Soustavy lineárních rovnic Soustava lineárních rovnic Soustava m lineárních rovnic o n neznámých je systém a 11 x 1 + a 12 x 2 +... + a 1n x n = b 1 a 21 x 1 + a 22 x 2 +... + a 2n x n = b 2...

Více

0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí: Řešené příklady z lineární algebry - část 1 Typové příklady s řešením Příklady jsou určeny především k zopakování látky před zkouškou, jsou proto řešeny se znalostmi učiva celého semestru. Tento fakt se

Více

IB112 Základy matematiky

IB112 Základy matematiky IB112 Základy matematiky Řešení soustavy lineárních rovnic, matice, vektory Jan Strejček IB112 Základy matematiky: Řešení soustavy lineárních rovnic, matice, vektory 2/53 Obsah Soustava lineárních rovnic

Více

2. úkol MI-PAA. Jan Jůna (junajan) 3.11.2013

2. úkol MI-PAA. Jan Jůna (junajan) 3.11.2013 2. úkol MI-PAA Jan Jůna (junajan) 3.11.2013 Specifikaci úlohy Problém batohu je jedním z nejjednodušších NP-těžkých problémů. V literatuře najdeme množství jeho variant, které mají obecně různé nároky

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

1 Projekce a projektory

1 Projekce a projektory Cvičení 3 - zadání a řešení úloh Základy numerické matematiky - NMNM20 Verze z 5. října 208 Projekce a projektory Opakování ortogonální projekce Definice (Ortogonální projekce). Uvažujme V vektorový prostor

Více

1. Přednáška. Ing. Miroslav Šulai, MBA

1. Přednáška. Ing. Miroslav Šulai, MBA N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy

Více

Numerické metody a programování. Lekce 4

Numerické metody a programování. Lekce 4 Numerické metody a programování Lekce 4 Linarní algebra soustava lineárních algebraických rovnic a 11 a 12 x 2 a 1, N x N = b 1 a 21 a 22 x 2 a 2, N x N = b 2 a M,1 a M,2 x 2 a M,N x N = b M zkráceně A

Více

1 0 0 u 22 u 23 l 31. l u11

1 0 0 u 22 u 23 l 31. l u11 LU dekompozice Jedná se o rozklad matice A na dvě trojúhelníkové matice L a U, A=LU. Matice L je dolní trojúhelníková s jedničkami na diagonále a matice U je horní trojúhelníková. a a2 a3 a 2 a 22 a 23

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Numerické metody a programování

Numerické metody a programování Projekt: Inovace výuky optiky se zaměřením na získání experimentálních dovedností Registrační číslo: CZ.1.7/2.2./28.157 Numerické metody a programování Lekce 4 Tento projekt je spolufinancován Evropským

Více

7. přednáška Systémová analýza a modelování. Přiřazovací problém

7. přednáška Systémová analýza a modelování. Přiřazovací problém Přiřazovací problém Přiřazovací problémy jsou podtřídou logistických úloh, kde lze obecně říci, že m dodavatelů zásobuje m spotřebitelů. Dalším specifikem je, že kapacity dodavatelů (ai) i požadavky spotřebitelů

Více

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x). Řešené příklady z lineární algebry - část 6 Typové příklady s řešením Příklad 6.: Kvadratickou formu κ(x) = x x 6x 6x x + 8x x 8x x vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých

Více

0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Vektory Definice 011 Vektorem aritmetického prostorur n budeme rozumět uspořádanou n-tici reálných čísel x 1, x 2,, x n Definice 012 Definice sčítání

Více

Operace s maticemi. 19. února 2018

Operace s maticemi. 19. února 2018 Operace s maticemi Přednáška druhá 19. února 2018 Obsah 1 Operace s maticemi 2 Hodnost matice (opakování) 3 Regulární matice 4 Inverzní matice 5 Determinant matice Matice Definice (Matice). Reálná matice

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Lineární algebra - I. část (vektory, matice a jejich využití)

Lineární algebra - I. část (vektory, matice a jejich využití) Lineární algebra - I. část (vektory, matice a jejich využití) Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 2. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 40 Obsah 1 Vektory

Více

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule. Matice Definice. Maticí typu m n nazýváme obdélníkové pole, tvořené z m n reálných čísel (tzv. prvků matice), zapsaných v m řádcích a n sloupcích. Značíme např. A = (a ij ), kde i = 1,..., m, j = 1,...,

Více

NP-úplnost problému SAT

NP-úplnost problému SAT Problém SAT je definován následovně: SAT(splnitelnost booleovských formulí) Vstup: Booleovská formule ϕ. Otázka: Je ϕ splnitelná? Příklad: Formule ϕ 1 =x 1 ( x 2 x 3 )jesplnitelná: např.přiohodnocení ν,kde[x

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

Základy maticového počtu Matice, determinant, definitnost

Základy maticového počtu Matice, determinant, definitnost Základy maticového počtu Matice, determinant, definitnost Petr Liška Masarykova univerzita 18.9.2014 Matice a vektory Matice Matice typu m n je pravoúhlé (nebo obdélníkové) schéma, které má m řádků a n

Více

Úlohy nejmenších čtverců

Úlohy nejmenších čtverců Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.

Více

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2 Výpočet transformačních koeficinetů vybraných 2D transformací Jan Ježek červen 2008 Obsah Odvození transformačního klíče vybraných 2D transformací 2 Meto vyrovnání 2 2 Obecné vyjádření lineárních 2D transformací

Více

Klasifikace a rozpoznávání. Extrakce příznaků

Klasifikace a rozpoznávání. Extrakce příznaků Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám

Více

Vzdálenost jednoznačnosti a absolutně

Vzdálenost jednoznačnosti a absolutně Vzdálenost jednoznačnosti a absolutně bezpečné šifry Andrew Kozlík KA MFF UK Značení Pracujeme s šifrou (P, C, K, E, D), kde P je množina otevřených textů, C je množina šifrových textů, K je množina klíčů,

Více

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29 Matematika 1 11. přednáška MA1 1 Opakování 2 Determinant 3 Adjungovaná matice 4 Cramerovo pravidlo 5 Vlastní čísla a vlastní vektory matic 6 Zkouška; konzultace; výběrová matematika;... 11. přednáška (15.12.2010

Více

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s Kapitola 13 Kvadratické formy Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru f(x 1,..., x n ) = a ij x i x j, kde koeficienty a ij T. j=i Kvadratická forma v n proměnných

Více

Základy algoritmizace. Pattern matching

Základy algoritmizace. Pattern matching Základy algoritmizace Pattern matching 1 Pattern matching Úloha nalézt v nějakém textu výskyty zadaných textových vzorků patří v počítačové praxi k nejfrekventovanějším. Algoritmy, které ji řeší se používají

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

cv3.tex. Vzorec pro úplnou pravděpodobnost

cv3.tex. Vzorec pro úplnou pravděpodobnost 3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro

2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro Cvičení 1 Základy numerické matematiky - NMNM201 1 Základní pojmy opakování Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro libovolný skalár α C následující podmínky:

Více

Arnoldiho a Lanczosova metoda

Arnoldiho a Lanczosova metoda Arnoldiho a Lanczosova metoda 1 Částečný problém vlastních čísel Ne vždy je potřeba (a někdy to není ani technicky možné) nalézt celé spektrum dané matice (velké řídké matice). Úloze, ve které chceme aproximovat

Více

(Cramerovo pravidlo, determinanty, inverzní matice)

(Cramerovo pravidlo, determinanty, inverzní matice) KMA/MAT1 Přednáška a cvičení, Lineární algebra 2 Řešení soustav lineárních rovnic se čtvercovou maticí soustavy (Cramerovo pravidlo, determinanty, inverzní matice) 16 a 21 října 2014 V dnešní přednášce

Více

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy Lukáš Havrlant Univerzita Palackého 10. ledna 2014 Primární zdroj Jiří Adámek: Foundations of Coding. Strany 137 160. Na webu ke stažení, heslo:

Více

NLP & strojové učení

NLP & strojové učení NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování

Více

Operace s maticemi

Operace s maticemi Operace s maticemi Seminář druhý 17.10. 2018 Obsah 1 Operace s maticemi 2 Hodnost matice 3 Regulární matice 4 Inverzní matice Matice Definice (Matice). Reálná matice typu m n je obdélníkové schema A =

Více

Kapitola 11: Vektory a matice:

Kapitola 11: Vektory a matice: Kapitola 11: Vektory a matice: Prostor R n R n = {(x 1,, x n ) x i R, i = 1,, n}, n N x = (x 1,, x n ) R n se nazývá vektor x i je i-tá souřadnice vektoru x rovnost vektorů: x = y i = 1,, n : x i = y i

Více

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY Jan Krejčí 31. srpna 2006 jkrejci@physics.ujep.cz http://physics.ujep.cz/~jkrejci Obsah 1 Přímé metody řešení soustav lineárních rovnic 3 1.1 Gaussova eliminace...............................

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

Da D to t v o é v ty t py IB111: Datové typy

Da D to t v o é v ty t py IB111: Datové typy Datové typy IB111: Datové typy Data a algoritmizace jaká data potřebuji pro vyřešení problému? jak budu data reprezentovat? jaké operaci s nimi potřebuji provádět? Navržení práce s daty je velice důležité

Více

Tvar dat a nástroj přeskupování

Tvar dat a nástroj přeskupování StatSoft Tvar dat a nástroj přeskupování Chtěli jste někdy použít data v jistém tvaru a STATISTICA Vám to nedovolila? Jistě se najde někdo, kdo se v této situaci již ocitl. Není ale potřeba propadat panice,

Více

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,

Více

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n [1] Základní pojmy [2] Matice mezi sebou sčítáme a násobíme konstantou (lineární prostor) měníme je na jiné matice eliminační metodou násobíme je mezi sebou... Matice je tabulka čísel s konečným počtem

Více

BCH kódy. Alena Gollová, TIK BCH kódy 1/27

BCH kódy. Alena Gollová, TIK BCH kódy 1/27 7. přednáška z algebraického kódování Alena Gollová, TIK 1/27 Obsah 1 Binární Alena Gollová, TIK 2/27 Binární jsou cyklické kódy zadané svými generujícími kořeny. Díky šikovné volbě kořenů opravuje kód

Více

SOUSTAVY LINEÁRNÍCH ALGEBRAICKÝCH ROVNIC

SOUSTAVY LINEÁRNÍCH ALGEBRAICKÝCH ROVNIC SOUSTAVY LINEÁRNÍCH ALGEBRAICKÝCH ROVNIC Pojm: Algebraická rovnice... rovnice obsahující pouze celé nezáporné mocnin neznámé, tj. a n n + a n 1 n 1 +... + a 2 2 + a 1 + a 0 = 0, kde n je přirozené číslo.

Více

Složitost Filip Hlásek

Složitost Filip Hlásek Složitost Filip Hlásek Abstrakt. Příspěvek popisuje dva základní koncepty teoretické informatiky, Turingovy stroje a složitost. Kromě definic důležitých pojmů uvádí také několik souvisejících tvrzení,

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

x 0; x = x (s kladným číslem nic nedělá)

x 0; x = x (s kladným číslem nic nedělá) .. Funkce absolutní hodnota Předpoklady: 08, 07 x - zničí znaménko čísla, všechna čísla změní na nezáporná Jak vyjádřit matematicky? Pomocí číselné osy: x je vzdálenost obrazu čísla na číselné ose od počátku.

Více

Soustavy lineárních rovnic a determinanty

Soustavy lineárních rovnic a determinanty Soustavy lineárních rovnic a determinanty Petr Hasil Přednáška z matematiky Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipĺıny

Více

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz Automatická segmentace slov s pomocí nástroje Affisix Michal Hrušecký, Jaroslava Hlaváčová Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz Motivace Při zpracování přirozeného jazyka nikdy nemůžeme mít

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Trénování sítě pomocí učení s učitelem

Trénování sítě pomocí učení s učitelem Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup

Více

2. Určete jádro KerL zobrazení L, tj. nalezněte alespoň jednu jeho bázi a určete jeho dimenzi.

2. Určete jádro KerL zobrazení L, tj. nalezněte alespoň jednu jeho bázi a určete jeho dimenzi. Řešené příklady z lineární algebry - část 3 Typové příklady s řešením Příklad 3.1: Zobrazení L: P 3 R 23 je zobrazení z prostoru P 3 všech polynomů do stupně 3 (včetně nulového polynomu) do prostoru R

Více

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Algoritmus pro hledání nejkratší cesty orientovaným grafem 1.1 Úvod Algoritmus pro hledání nejkratší cesty orientovaným grafem Naprogramoval jsem v Matlabu funkci, která dokáže určit nejkratší cestu v orientovaném grafu mezi libovolnými dvěma vrcholy. Nastudoval

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

Booleovská algebra. Booleovské binární a unární funkce. Základní zákony.

Booleovská algebra. Booleovské binární a unární funkce. Základní zákony. Booleovská algebra. Booleovské binární a unární funkce. Základní zákony. Tomáš Bayer bayertom@natur.cuni.cz Katedra aplikované geoinformatiky a kartografie, Přírodovědecká fakulta UK. Tomáš Bayer bayertom@natur.cuni.cz

Více

6 Ordinální informace o kritériích

6 Ordinální informace o kritériích 6 Ordinální informace o kritériích Ordinální informací o kritériích se rozumí jejich uspořádání podle důležitosti. Předpokládejme dále standardní značení jako v předchozích cvičeních. Existují tři základní

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi

Více

Tabulkový procesor. Základní rysy

Tabulkový procesor. Základní rysy Tabulkový procesor Tabulkový procesor je počítačový program zpracovávající data uložená v buňkách tabulky. Program umožňuje použití vzorců pro práci s daty a zobrazuje výsledné hodnoty podle vstupních

Více

4. Trojúhelníkový rozklad p. 1/20

4. Trojúhelníkový rozklad p. 1/20 4. Trojúhelníkový rozklad 4. Trojúhelníkový rozklad p. 1/20 4. Trojúhelníkový rozklad p. 2/20 Trojúhelníkový rozklad 1. Permutační matice 2. Trojúhelníkové matice 3. Trojúhelníkový (LU) rozklad 4. Výpočet

Více

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik Ondřej Pavlačka Praha, 18. ledna 2011 Cíle projektu Vytvořit matematický model pro oceňování přijímaného

Více

Matematické modelování dopravního proudu

Matematické modelování dopravního proudu Matematické modelování dopravního proudu Ondřej Lanč, Alena Girglová, Kateřina Papežová, Lucie Obšilová Gymnázium Otokara Březiny a SOŠ Telč lancondrej@centrum.cz Abstrakt: Cílem projektu bylo seznámení

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti Kapitola 5 Vektorové prostory V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti operací sčítání a násobení

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Rosenblattův perceptron

Rosenblattův perceptron Perceptron Přenosové funkce Rosenblattův perceptron Rosenblatt r. 1958. Inspirace lidským okem Podle fyziologického vzoru je třívrstvá: Vstupní vrstva rozvětvovací jejím úkolem je mapování dvourozměrného

Více

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u. Několik řešených příkladů do Matematiky Vektory V tomto textu je spočteno několik ukázkových příkladů které vám snad pomohou při řešení příkladů do cvičení. V textu se objeví i pár detailů které jsem nestihl

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

Autor: Jan Hošek

Autor: Jan Hošek Úvod STC Závěr Autor: Jan Hošek Školitel: RNDr. Radim Řehůřek Fakulta jaderná a fyzikálně inženýrzká České vysoké učení technické v Praze 25. 5. 2009 Osnova Úvod STC Závěr 1 Úvod Motivace Ukázka technologie

Více

Apriorní rozdělení. Jan Kracík.

Apriorní rozdělení. Jan Kracík. Apriorní rozdělení Jan Kracík jan.kracik@vsb.cz Apriorní rozdělení Apriorní rozdělení (spolu s modelem) reprezentuje informaci o neznámém parametru θ, která je dostupná předem, tj. bez informace z dat.

Více

Použití derivací L HOSPITALOVO PRAVIDLO POČÍTÁNÍ LIMIT. Monotónie. Konvexita. V této části budou uvedena některá použití derivací.

Použití derivací L HOSPITALOVO PRAVIDLO POČÍTÁNÍ LIMIT. Monotónie. Konvexita. V této části budou uvedena některá použití derivací. V této části budou uvedena některá použití derivací. Použití derivací L HOSPITALOVO PRAVIDLO POČÍTÁNÍ LIMIT Tvrzení je uvedeno pro jednostrannou itu zprava. Samozřejmě obdobné tvrzení platí pro itu zleva

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Vícerozměrná rozdělení

Vícerozměrná rozdělení Vícerozměrná rozdělení 7. září 0 Učivo: Práce s vícerozměrnými rozděleními. Sdružené, marginální, podmíněné rozdělení pravděpodobnosti. Vektorová střední hodnota. Kovariance, korelace, kovarianční matice.

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se MNOŽIN, ZÁKLDNÍ POJMY Pojem množiny patří v matematice ke stěžejním. Nelze jej zavést ve formě definice pomocí primitivních pojmů; považuje se totiž rovněž za pojem primitivní. Představa o pojmu množina

Více

4. Aplikace matematiky v ekonomii

4. Aplikace matematiky v ekonomii 4. Aplikace matematiky v ekonomii 1 Lineární algebra Soustavy 1) Na základě statistických údajů se zjistilo, že závislost množství statku z poptávaného v průběhu jednoho týdne lze popsat vztahem q d =

Více