Rozšíření bag-of-words modelu dokumentu: srovnání bgramů a 2-temsetů Roman Tesař 1, Massmo Poeso 2, Václav Strnad 1, Karel Ježek 1 1 Katedra Informatky a výpočetní technky, Západočeská Unverzta v Plzn, Unveztní 8, 306 14, Plzeň, Česká republka {romant, vaclavs, jezek_ka}@kv.zcu.cz 2 Katedra Výpočetní technky, Unverzta v Essexu, Wvenhoe Park, Colchester CO4 3SQ, Velká Brtáne poeso@essex.ac.uk Abstrakt. Jedním ze základních přístupů př kategorzac textu je reprezentovat dokumenty jednotlvým slovy. Tento přístup je označován jako bag-of-words nebo také sngle words-based. Ncméně dalším obohacením této reprezentace je možné dosáhnout zlepšení výsledků klasfkace. V této prác jsme zaměřl svou pozornost na porovnání přínosu bgramů a 2-temsetů, o které je rozšířen klascký bag-of-words model dokumentu. K expermentům využíváme standardní anglcké textové korpusy Reuters-21578 a 20 Newsgroups. Ke klasfkac je použt multnomal Nave Bayes, protože pro tuto klasfkační metodu a výše zmíněné korpusy byla publkována řada odborných publkací, se kterým naše dosažené výsledky srovnáváme. K výběru charakterstckých položek (feature selecton) využíváme 5 různých přístupů. Naše expermenty ndkují, že použtím bgramů a 2-temsetů je možné statstcky významně zvýšt úspěšnost klasfkace. Dále je v případě 2-temsetů velm důležté zvolt vhodný způsob výběru charakterstckých položek. Na druhou stranu, v případě bgramů je možné dosáhnout zlepšení úspěšnost klasfkace použítím velm jednoduchého přístupu. Z našch expermentů usuzujeme, že není přílš efektvní rozšřovat reprezentac textového dokumentu o 2-temsety, protože pomocí bgramů je možné dosáhnout lepších výsledků a jejch generování je oprot 2-temsetům méně náročné. Klíčová slova: zpracování textu, výběr položek, klasfkace, model dokumentu, bgram, 2-temset, n-gram, temset, srovnání. 1 Úvod Automatcká klasfkace textu je jednou z významných úloh př zpracování přrozeného jazyka a představuje zařazování nově příchozích dokumentů do předem defnovaných tříd. V této oblast bylo zvěřejněno mnoho publkací a mnoho algortmů bylo navrženo a zkoumáno. V současné době je tento problém stále více aktuální, protože objem dat nejen na nternetu neustále roste a najít požadované nformace mnohdy není snadné. Nejen vhodný klasfkátor textu, ale odpovídající reprezentace dokumentu ovlvňuje výslednou úspěšnost klasfkace. Ta je často velm dobrá, když je dokument reprezentován jen samostatným slovy (tento přístup je označován jako sngle wordsbased nebo bag-of-words, dále jen BOW). Ncméně rozšířením BOW reprezentace
lze celkovou úspěšnost klasfkace dále zlepšt. Jednou z možností je použít k tomuto účelu n-gramy [15, 20, 5] nebo temsety [12, 13, 23]. N-gram (v případě slov označovaný také jako fráze) je obecně sekvence n prvků z dané posloupnost, které následují po sobě a zachovávají tedy své původní pořadí. Př zpracování textu mohou být prvky reprezentovány například písmeny. Tento přístup byl úspěšně použt v [1] př kategorzac dokumentů ve vícejazyčném korpusu. V této prác [1] byly použty a srovnány multnomální Nave Bayes klasfkátor, k- Nearest Neghbours (knn) klasfkační algortmus a Roccho algortmus. Z výsledků je patrné, že multnomální Nave Bayes klasfkátor dosáhl nejkratšího času zpracování a nejvyšší úspěšnost klasfkace. Dalším, častěj používaným, přístupem př kategorzac textu je použít sekvence slov místo písmen. V [15] byly dokumenty reprezentovány nejen jednotlvým slovy, ale slovním n-gramy do délky 5. Bylo pozorováno, že n-gramy do délky 3 v kombnac s Nave Bayes klasfkátorem mohou zlepšt úspěšnost klasfkace, přčemž nejvyšší přínos byl pozorován př obohacení BOW modelu dokumentu o 2- gramy (označované také jako bgramy). N-gramy pro n>3 jž neměly vlv na výsledek klasfkace. V [10] bylo pozorováno, že delší slovní sekvence mohou výslednou úspěšnost klasfkace dokonce ovlvnt negatvně. V [15] a [20] byly n-gramy úspěšně použty k obohacení BOW modelu dokumentu, byly tedy použty současně se samostatným slovy. Další možností je použít n- gramy místo jednotlvých slov, kterým jsou n-gramy tvořeny. V takovém případě tedy BOW reprezentace neobsahuje slova, která jsou jž v některém n-gramu obsažena. Jak bylo ukázáno v [20] a zmíněno v [5], tento přístup vede ve většně případů ke zhoršení výsledků klasfkace, zatímco př použtí předchozího je možné dosáhnout znatelného zlepšení. Př generování n-gramů mohou být místo všech slov uvažována například jen slovesa, podstatná jména nebo přídavná jména, u kterých se očekává větší důležtost. Jak bylo zmíněno v [5], výzkumníc př použtí tohoto přístupu také dosáhl určtých zlepšení. Ncméně v [4] je zmíněn fakt, že dosáhnout statstcky významné zlepšení úspěšnost klasfkace rozšířením BOW modelu dokumentu o n-gramy není snadné a je většnou dosaženo jen př použtí postupů, které nejsou "state-of-the-art". Tento fakt ndkuje, že BOW model dokumentu je dostatečný a není jednoduché ho vylepšt. Pro generování n-gramů exstuje mnoho algortmů, některé z nch mohou být nalezeny např. v [15, 10, 21]. Př zpracování textu jsou ke zlepšení úspěšnost klasfkace často používány také temsety. Obvykle reprezentují množnu n slov, které se současně vyskytují v dokumentu. Také obohacením BOW reprezentace dokumentů o temsety se jž zabývalo mnoho výzkumníků. V [23] byla použta mult-varate Bernoullho verze Nave Bayes klasfkátoru a BOW reprezentace dokumentu byla obohacena o často se vyskytující temsety. Výsledky klasfkace ukázaly určté zlepšení a také větší vyváženost př použtí temsetů. K jejch generování zde byl použt známý Apror algortmus, jehož několk modfkací bylo popsáno a úspěšně použto například v [2] nebo [12]. Podobně jako v [23], také v [12] bylo pozorováno zlepšení úspěšnost klasfkace př použtí temsetů a popsáno zajímavé chování pro klasfkační třídy s velkým počtem dokumentů se přesnost klasfkace zvyšovala s počtem přdaných temsetů, zatímco pro menší třídy byl efekt opačný. Jedním z prezentovaných vysvětlení byla možnost, že obohacení BOW reprezentace dokumentů o přílš mnoho a přílš dlouhé temsety způ-
sobí nevyváženost v trénovacích datech a chybné odhady pravděpodobností pro třídy s malým počtem dokumentů. V [23] v [12] byl použt práh mnmálního výskytu pro výběr častých temsetů určených k obohacení BOW modelu dokumentu. Protože zde nebyl určen maxmální počet slov, které mohl temset obsahovat, jejch počet v rámc jednoho temsetu mohl být teoretcky velm velký. Jak bylo ovšem v [12] poznamenáno, delší temsety jsou méně časté a tudíž pravděpodobnost jejch výběru je malá. Ke generování temsetů je k dspozc mnoho algortmů. Tato oblast je poměrně ntenzvně zkoumána, protože se jedná o časově paměťově náročný problém. Pops a srovnání několka možných přístupů, včetně Apror algortmu, je prezentován v [26]. Obecně řečeno, n-gramy jsou podmnožnou temsetů. Př blžším zkoumání je patrné, že toto tvrzení neplatí zcela. V souladu s defncí temsetů a algortmy pro jejch generování se temset může skládat jen ze vzájemně různých slov. Je však zřejmé, že n-gramy stejná slova obsahovat mohou a algortmy určené k jejch generování to umožňují [10, 15, 21]. Ncméně praktcky je poměrně vzácné získat n-gram obsahující stejná slova, zvláště v případě delších n-gramů. Obvykle jsou reprezentovány specálním výrazy, například moucha tse tse nebo náboj dum dum. Tudíž n-gramy mohou být někdy nkolv úplnou, ale jen částečnou podmnožnou temsetů. V této prác zaměřujeme svou pozornost na srovnání přínosu slovních n-gramů a temsetů s ohledem na úspěšnost klasfkace textu. K tomu používáme multnomal Nave Bayes klasfkátor (vz [11, 19]) a dva často používané korpusy, na kterých testujeme, zda mohou být dosaženy lepší výsledky klasfkace rozšířením BOW modelu dokumentu o n-gramy nebo temsety a jaký počet n-gramů nebo temsetů zlepší výsledky klasfkace statstcky významně. Na základě pozorování uvedených v [15, 10] a dalších jsme se rohodl porovnat pouze vlv 2-gramů a 2-temsetů, protože ty především přspívají ke zlepšení úspěšnost klasfkace. 2 Generování n-gramů a temsetů Jak jž bylo zmíněno dříve, n-gramy jsou označovány také jako slovní sekvence nebo fráze. Př zpracování přrozeného jazyka jsou rozlšovány statstcké a syntaktcké fráze [14, 7]. Autoř publkace [14] nepozoroval velké rozdíly v úspěšnost klasfkace mez syntaktckým a statstckým frázem. Kromě toho, v [9] nebyl patrný žádný přínos př použtí syntaktckých frází na kolekc Reuters-21578. Protože v naší prác jsme chtěl využít tento korpus, rohodl jsme se zaměřt jen na statstcké fráze. Př našch expermentech jsme ke generování n-gramů použl algortmus prezentovaný v [21], který je modfkací Suffx Tree Clusterng algortmu popsaného v [24]. Pro generování temsetů jsme využl upravený Apror algortmus (vz [26]). 3 Výběr charakterstckých položek Výběr charakterstckých položek (feature selecton) je technka sloužící k výběru podmnožny takových položek dostupných z datové kolekce, které jsou pro klasfkac nejpřínosnější. Tím je možné dmenz kolekce podstatně zmenšt a odstrant položky
negatvně ovlvňující klasfkac. V této oblast bylo mnoho publkováno, nejvhodnější pro naš úlohu, a také často ctované, jsou [22] a [16]. Protože počet vygenerovaných 2-gramů a 2-temsetů může být obrovský, zvoll jsme několk různých metod k výběru jen těch nejvhodnějších. Uvažujeme-l, že f reprezentuje položku z datové kolekce (v našem případě bgram nebo 2-temset) a c klasfkační třídu, je v následujících kaptolách použta tato notace: A B C D N k je počet kolkrát se f vyskytuje v dokumentech patřících do c je počet kolkrát se f vyskytuje v dokumentech nepatřících do c je počet kolkrát se f nevyskytuje v dokumentech patřících do c je počet kolkrát se f nevyskytuje v dokumentech nepatřících do c je počet všech dokumentů v kolekc je počet všech klasfkačních tříd v kolekc Některé metody pro výběr charakterstckých položek berou v potaz podmíněné pravděpodobnost jednotlvých slov, ze kterých se 2-temset skládá [13]. V této prác jsme použl stejný přístup jako například v [23], kde jsou 2-temsety považovány za neděltelnou položku stejně jako bgramy nebo samostatná slova. 3.1 Metoda χ 2 (CHI) Metoda χ 2 určuje závslost mez položkou f a třídou c [22] a obecně je známa její nespolehlvost pro nepřílš časté položky. Je defnována jako 2 2 N ( AD CB) χ ( f, c) = (1) ( A + C) ( B + D) ( A + B) ( C + D) Pokud je f nezávslá na c, výsledek vzorce je 0. Protože tento vzorec produkuje jednu hodnotu pro každou klasfkační třídu zvlášť, použl jsme pro stanovení celkového významu položky f v kolekc vždy jen nevyšší hodnotu χ 2 max k 2 ( χ ( f, c )) ( f ) = max (2) Tento přístup se osvědčl nejen v [22], ale pozděj v [17]. Proto jsme ho aplkoval na dále popsané metody produkující hodnoty pro každou klasfkační třídu zvlášt. = 1 3.2 Mutual Informaton (MI) Tato metoda stanovuje, kolk nformace přnáší přítomnost položky f o třídě c. Převzal jsme stejný způsob výpočtu jako byl použt v [22]: P( f c) A N MI( f, c) = (3) P( f ) P( c) ( A + C) ( A + B) Pokud jsou f a c nezávslé, hodnota vzorce je 0. Metoda MI upřednostňuje nepřílš časté položky a může proto dosahovat horších výsledků [22].
3.3 Odds Rato (OR) OR je metoda podávající dobré výsledky zejména v kombnac s Nave Bayes klasfkátorem [15, 16]. Protože vyžaduje nformac o výskytu f v dokumentech nepatřících do c, uvažujeme zde vždy všechny dokumenty kolekce ze všech tříd kromě c. Pokud A P( f c) =, B P( f, c) =, A + C B + D potom je OR defnováno jako P( f, c) ( 1 P( f, c) ) OR( f, c) =. (4) 1 P( f, c) P( f, c ( ) ) Ze vzorce (4) je patrné, že pokud P(f,c)=1 nebo P(f, c )=0, tedy v případech, kdy se f vyskytuje pouze v dokumentech třídy c, potom OR(f,c)=. V takových případech uvažujeme dodatečné ohodnocení pomocí DF(f c) (vz sekce 3.5). 3.4 Informaton Gan (IG) IG určuje obecnou významnost položky f s ohledem na všechny klasfkační třídy a je stanoven jako k = 1 k IG( f ) = P( c )log P( c ) + P( f ) P( c f )log P( c f ) + P( f ) P( c f )log P( c f ), (5) = 1 kde P(c ), P(c f ) a P(c f ) jsou určeny následujícím způsobem A + C P( c ) =, N A P( c f ) =, A + B k = 1 C P( c f ) =. C + D Tuto defnc jsme převzal z [22], kde IG podával dobré výsledky ve srovnání s jným metodam. Ncméně, jak bylo uvedeno v [17], položky s nžší entropí mají nžší IG ohodnocení, ačkolv mohou být slně korelované s c. To je způsobeno faktem, že IG stoupá také s nárůstem entrope položky f. 3.5 Document Frequency (DF) Prahování pomocí DF je jedním z nejjednodušších přístupů pro výběr charakterstckých položek a je obvykle považováno za "ad hoc" přístup. DF určuje počet dokumentů třídy c, ve kterých se vyskytuje položka f a může být stanoven jako DF ( f c) = A. (6) Navzdory své jednoduchost bylo v [18] a [22] ukázáno, že DF je důležtou metrkou, protože upřednostňuje časté položky, což se zdá být významnou charakterstkou.
4 Expermenty Jak jž bylo zmíněno, pro porovnání vlvu bgramů a 2-temsetů byla zvolena multnomální verze Nave Bayes klasfkátoru. Pro obě použté datové kolekce (vz sekce 4.1) jsme vždy uvažoval výsledek klasfkace s použtím všech slov jako základ, oprot kterému jsme porovnával přínos určtého počtu bgramů a 2-temsetů, které byly vybrány přístupy popsaným v kaptole 3. Protože některé z těchto přístupů (např. MI a OR) zvýhodňují málo se vyskytující položky, které nemohou výrazněj ovlvnt klasfkac, uvažoval jsme u obou kolekcí jen bgramy a 2-temsety s určtým mnmálním počtem výskytů. K ověření statstcké významnost výsledků jsme použl neparametrcký McNemarův test (vz [8]) a 99% nterval spolehlvost. 4.1 Datové kolekce 4.1.1 Reuters-21578 Bylo prokázáno (vz [5]), že tato kolekce je příkladem "smple" kolekce. Tím se rozumí, že s použtím několka málo vhodně vybraných slov je možné se velm přblížt nejlepšímu výsledku klasfkace, který byl prozatím na této kolekc dosažen. Ncméně z [19] je patrné, že použtí všech slov ke klasfkac stále poskytuje nejlepší výsledek. Pro naše expermenty jsme zvoll ModApté verz kolekce Reuters-21578, ze které jsme využl jen 10 nejčastěj zastoupených tříd, kdy je celkový počet trénovacích dokumentů 6490, testovacích 2545 a 1.1 průměrný počet tříd na dokument. Stejný přístup byl aplkován např. v [11, 2, 19]. Z kolekce jsme v rámc předzpracování odstranl stopslova a čísla. Všechna písmena byla následně převedena na malá. Stemmng an lematzace nebyly použty. Po fáz předzpracování obsahovala trénovací sada dokumentů 22208 různých slov s průměrným počtem 73 slov na dokument a průměrným počtem 47 různých slov na dokument. Protože tato kolekce obsahuje dokumenty zařazené do více tříd současně, použl jsme Nave Bayes klasfkátor pro každou ze tříd zvlášť, což je obvyklý přístup, označovaný také jako one-vs-rest. 4.1.2 20 Newsgroups Oprot předchozí není tato kolekce "smple" kolekcí (vz [5]) - tedy každé slovo, které je použto ke klasfkac, přspívá ke zlepšení výsledku klasfkace. Pro naše účely jsme zvoll "bydate" verz 20 Newsgroups kolekce, která obsahuje 11314 trénovacích a 7532 testovacích dokumentů. I zde jsme aplkoval stejný postup předzpracování jako na předchozí kolekc, čímž jsme získal 100354 unkátních slov v trénovací množně dokumentů, průměrný počet slov na dokument 153 a průměrně 99 různých slov v dokumentu. 4.2 Výsledky testů na kolekc Reuters-21578 U této kolekce jsme pro generování bgramů a 2-temsetů uvažoval jen slova s četností 2 a více, což zredukovalo jejch počet z 22 208 na 12 127. Na vygenerované bgramy a 2-temsety jsme aplkoval stejný práh, což zredukovalo počet temsetů
z 4 778 151 na 1 870 619 a počet bgramů z 207 018 na 49 872. Z těchto hodnot je patrné, že počet řídce se vyskytujících položek v kolekc Reuters-21578 je značný. To může být jedním z důvodů, proč jen několk málo nejčastějších slov poskytuje dobré výsledky př klasfkac a zahrnutí dalších už nepřnáší přílš výrazné zlepšení. Hodnota 0 na ose X (pro Obr. 1 až 4) představuje stuac, kdy byla ke klasfkac použta pouze slova. Dosaženo zde bylo hodnoty mcro-f1= 89.20% (vz spodní část Tab. 1 a 2), kterou chápeme jako základ a se kterou dále srovnáváme. Jak je patrné, kromě MI vykazují ostatní přístupy ke generování charakterstckých položek významný pokles výsledků klasfkace, zvláště př použtí malého počtu přdaných 2- temsetů (Obr. 1). 92 92 90 90 88 88 mcro-f1 [%] 86 84 82 80 DF MI CHI OR Mcro F1 [%] 86 84 82 80 DF MI CHI OR 78 IG 78 IG 76 počet přdaných 2-temsetů 76 počet přdaných bgramů 0 10000 20000 30000 40000 50000 0 10000 20000 30000 40000 50000 Obr. 1. Závslost mcro-f1 na počtu přdaných 2-temsetů pro kolekc Reuters-21578 Tabulka 1. Nejlepší výsledky pro 2-temsety na kolekc Reuters-21578 přdané mcro macro odebrané mcro macro BEP BEP 2-temsety F1 F1 2-temsety F1 F1 DF 0 89.20 80.21 89.84 --- --- --- --- CHI 0 89.20 80.21 89.84 --- --- --- --- MI 40000 90.06 82.80 90.31 --- --- --- --- OR 50000 89.79 81.75 90.35-25000 90.44 82.33 90.79 IG 0 89.20 80.21 89.84 --- --- --- --- 0 (základ) 89.20 80.21 89.84 Obr. 2. Závslost mcro-f1 na počtu přdaných bgramů pro kolekc Reuters-21578 Tabulka 2. Nejlepší výsledky pro bgramy na kolekc Reuters-21578 přdané mcro macro odebrané mcro macro BEP bgramy F1 F1 bgramy F1 F1 BEP DF 49872 90.93 81.65 91.24-8000 91.39 82.84 91.47 CHI 49872 90.93 81.65 91.24-2000 91.35 82.11 91.5 MI 40000 91.13 82.64 91.36 --- --- --- --- OR 40000 91.21 81.92 91.48-2000 91.47 82.27 91.67 IG 49872 90.93 81.65 91.24-5000 91.41 82.17 91.5 0 (základ) 89.20 80.21 89.84 Př blžším zkoumání se potvrdlo, že MI upřednostňuje málo časté položky, které obecně nemohou významně ovlvnt výsledek klasfkace. Ncméně na základě vzorce 3 byly vybrány 2-temsety z tříd s menším počtem dokumentů, což pomohlo v jejch lepší dentfkac. Oprot tomu DF, CHI a IG upřednostňují spíše časté položky, což se nezdá být vhodný přístup u této kolekce. Příčnou může být fakt, že se jedná o "smple" kolekc (vz sekce 4.1), kde jednotlvá slova postačují k rozlšení jednotlvých tříd a rozšířením tohoto sngle words-based modelu o přílš časté 2-temsety, které mají výrazný vlv na Nave Bayes klasfkátor, může být model dokumentů v kolekc zkreslen a tím zhoršen výsledek klasfkace. Jak jž bylo zmíněno v [22], DF, CHI a IG jsou slně korelovány a jejch chování je tedy podobné. OR má zajímavé chování. Pro malý počet přdaných 2-temsetů se výsledek klasfkace zhoršuje. Ncméně, na rozdíl od CHI a IG, použtím více 2-temsetů s nžším ohodnocením znatelně zlepšuje výsledek klasfkace. Důvodem může být fakt, že 1000 nejlépe ohodnocených 2- temsetů pomocí OR je převážně jen ze třídy earn, která obsahuje nejvíce dokumentů. Dále však jž třída earn nedomnuje a přítomny jsou především 2-temsety z tříd s méně dokumenty, což je v kontrastu především vzhledem k DF a IG. Navíc, jak bylo ukázáno v [16], OR upřednostňuje položky s častějším výskytem v dané třídě před
položkam, které se v dané třídě nevyskytují, což se zdá být vhodný přístup př použtí Nave Bayes klasfkátoru. Jak je patrné z Obr. 1, pouze 2-temsety vybrané pomocí OR a MI byly schopny překročt základní mcro-f1 hodnotu 89.20%. Tato zlepšení ale nejsou statstcky významná. Levá strana Tab. 1 obsahuje nejlepší hodnoty z charakterstk na Obr. 1. V případě bgramů je stuace odlšná. Jak je patrné z Obr. 2, všechny přístupy pro výběr charakterstckých položek překonaly základní mcro-f1 hodnotu 89.20%. I zde došlo nejprve v případě DF, CHI, OR a IG k poklesu úspěšnost klasfkace, avšak méně výraznému. Navzdory faktu, že bgramy mají obecně menší počet výskytů v kolekc než 2-temsety a je jch podstatně méně, jejch přínos př klasfkac je větší. V levé část Tab. 2 jsou nejlepší výsledky z charakterstk na Obr. 2. Všechna zlepšení oprot základu 89.20% jsou statstcky významná. S ohledem na fakt, že přílš časté 2-temsety a bgramy u kolekce Reuters-21578 znatelně zhoršují výsledky klasfkace, jsme se rozhodl určtý počet těch nejlépe ohodnocených jednotlvým přístupy neuvažovat. Pro každý z přístupů jsme ponechal počet 2-temsetů a bgramů, u kterého bylo dosaženo nejlepších výsledků (vz Tab. 1 a 2 vlevo), a odebíral postupně nejlépe ohodnocené položky. Výsledky pro 2- temsety a bgramy jsou uvedeny v Tab. 1 a 2 vpravo. Z Tab. 1 je patrné, že pouze u OR došlo ke zlepšení př odebrání 25 000 nejlépe ohodnocených 2-temsetů (o ostatních metod žádné zlepšení oprot základní mcro-f1 hodnotě nenastalo), což jsme vzhledem k charakterstce na Obr. 1 očekával. Zlepšení z 89.79% na 90.44% je statstcky významné. Odebráním menšího počtu nejlépe ohodnocených bgramů došlo (vz Tab. 2), kromě MI, u všech ostatních přístupů ke zlepšení výsledků klasfkace (ncméně statstcky nevýznamnému). Ačkolv jsou rozdíly mez DF, CHI, OR a IG malé, OR zde podává nejlepší výsledky. Podobný závěr byl učněn v [16], kde Nave Bayes klasfkátor vykazoval v kombnac s OR nejlepší výsledky. Na základě nám známých publkovaných prací je doposud nejlepším výsledkem dosaženým na kolekc Reuters- 21578 hodnota break-even-pont (BEP = bod, kde jsou hodnoty přesnost a úplnost klasfkace stejné) 92% a byla dosažena pomocí SVM klasfkátoru a MI přístupu (vz [9]). Náš výsledek BEP=91.67% dosažený pomocí Nave Bayes klasfkátoru a OR přístupu rozšířením sngle words-based modelu dokumentu o vhodný počet bgramů je poměrně blízko této hodnotě. Je to bezpochyby způsobeno faktem, že Reuters- 21578 je příkladem "smple" kolekce (vz sekce 4.1.1). 4.3 Výsledky testů na kolekc 20 Newsgroups Tato kolekce obsahovala po předzpracování 100 345 unkátních slov. Př výběru charakterstckých položek jsme uvažoval jen slova s mnmálním počtem výskytů 5 a více, což zredukovalo jejch počet na 22 499. Z nch jsme získal 734 673 bgramů. Počet 2-temsetů není díky mplctním optmalzačním procesům k dspozc. Protože počet položek je poměrně velký, aplkoval jsme, podobně jako u předchozí kolekce, na vygenerované bgramy a 2-temsety mnmální práh výskytu uvažoval jsme jen položky s výskytem 4 a více. Tento krok zredukoval počet bgramů na 50 7563 a počet 2-temsetů na 5 521 698. Obr. 3 prezentuje mcro-f1 charakterstky jednotlvých přístupů pro výběr 2-temsetů. Základní mcro-f1 hodnota, ze které jsme vycházel a kterou jsme získal použtím všech unkátních slov ke klasfkac, je 79.3%.
75 81 81 80 80 79 79 Mcro F1 [%] 78 77 Mcro F1 [%] 78 77 76 DF MI CHI OR 76 DF MI CHI OR IG počet přdaných 2-temsetů 75 IG počet přdaných bgramů 0 10000 20000 30000 40000 50000 0 10000 20000 30000 40000 50000 Obr. 3. Závslost mcro-f1 na počtu přdaných 2-temsetů pro kolekc 20 Newsgroups Tabulka 3. Nejlepší výsledky pro 2-temsety na kolekc 20 Newsgroups přdaných 2-temsetů mcro F1 macro F1 DF 0 79.30 76.82 CHI 30000 80.54 79.02 MI 10000 79.57 77.20 OR 4000 79.53 77.33 IG 0 79.30 76.82 0 (baselne) 79.30 76.82 Obr. 4. Závslost mcro-f1 na počtu přdaných bgramů pro kolekc 20 Newsgroups Tabulka 4. Nejlepší výsledky pro bgramy na kolekc 20 Newsgroups přdaných bgramů mcro F1 macro F1 DF 40000 80.31 78.35 CHI 30000 80.39 78.31 MI 40000 80.63 78.53 OR 30000 80.62 78.40 IG 40000 80.23 78.23 0 (baselne) 79.30 76.82 U této kolekce se zdá být CHI nejvhodnějším přístupem pro generování 2-temsetů (vz Obr. 3). Přblžně prvních 1000 2-temsetů způsobuje pokles úspěšnost klasfkace, který je ovšem méně výrazný než u předchozí kolekce a dále následuje postupné zlepšování výsledků. MI a OR se chovají podobně a především z důvodu výběru převážně méně častých položek neovlvňují výrazně průběh klasfkace. DF a IG nepodávají dobré výsledky z důvodu výběru především 2-temsetů, které jsou velm časté v několka třídách současně. IG navíc nerozlšuje mez přítomností a absencí položky ve třídě, což patrně není vhodný přístup pro kombnac s multnomální verzí Nave Bayes klasfkátoru, který bere v potaz jen výskyt položky. Podobný závěr byl předložen také v [16]. U této kolekce je rozdíl mez nejhorší a nejlepší dosaženou hodnotou př využtí 2-temsetů znatelně menší než u kolekce předchozí. Důvodem může být fakt, že 20 Newgroups má rovnoměrnější dstrbuc dokumentů v jednotlvých třídách a není příkladem "smple" kolekce. Nejlepší dosažené hodnoty z Obr. 3 jsou k dspozc v Tab. 3 2. Pouze v případě CHI se jedná o statstcky významné zlepšení. Na Obr. 4 jsou k dspozc charakterstky pro bgramy. Jak je patrné, nedochází zde př využtí nejlépe ohodnocených bgramů k poklesu úspěšnost klasfkace. CHI se zdá být vhodné př využtí jen menšího počtu nejlépe ohodnocených bgramů, zatímco OR podává dobré výsledky především př využtí jejch většího počtu. CHI zde pravděpodobně vhodně kombnuje výběr položek nejlépe charakterzujících jednotlvé třídy s četnostm jejch výskytů, což přnáší zlepšení úspěšnost klasfkace př využtí jen malého počtu bgramů. MI a OR stále vybírají většnou méně časté bgramy, což v tomto případě přnáší také zlepšení, zejména př použtí 30 000 a 40 000 bgramů. 2 V Tab. 3 a 4 nejsou uvedeny hodnoty BEP, protože v kolekc 20 Newsgroups patří každý dokument jen do jedné třídy a tedy mcro-f1 a BEP hodnoty jsou stejné.
DF je svým jednoduchým přístupem také použtelné v této klasfkační úloze, což ndkuje, že bgramy pravděpodobně způsobují př reprezentac dokumentů menší zkreslení než 2-temsety. Těch je obvykle vygenerováno mnohem více a je tedy náročnější vybrat jen ty vhodné. Korelace mez IG a DF je u této kolekce patrná. Nejlepší dosažené výsledky pro charakterstky z Obr. 4 jsou uvedeny v Tab. 4. Všechna zde uvedená zlepšení jsou oprot základu 79.30% statstcky významná. Podobný základ, jenž jsme uvažoval u této kolekce, byl uvažován v [19] a naše nejlepší dosažená hodnota mcro-f1=80.63% (vz Tab. 4) je srovnatelná s [3]. Ncméně v [6] byl také použt Nave Bayes klasfkátor s několka odlšným modely dokumentu a bylo zde dosaženo úspěšnost klasfkace mcro-f1=82.21%. Př použtí klasfkátoru SVM s jádrem NGD byla v [25] publkována úspěšnost klasfkace 84.61% na kolekc 20 Newsgroups ("bydate" verze). 5 Závěr V naší prác jsme se zaměřl na srovnání přínosu 2-temsetů a bgramů použtých k obohacení modelu dokumentu založeném jen na slovní reprezentac (BOW) př klasfkac textu. Výsledky na dvou anglckých kolekcích ndkují, že 2-temsety jsou přílš obecné a vyvolávají často př klasfkac nežádoucí zkreslení. Velký počet vygenerovaných 2-temsetů společně s nevyváženým zastoupením klasfkačních tříd v datové kolekc vyžaduje pečlvý výběr metody pro výběr charakterstckých položek. Naprot tomu, bgramy se zdají být vhodnější pro úlohu klasfkace. Výběr charakterstckých bgramů není tolk závslý na použtém přístupu. Uvážíme-l, že Apror algortmus a jné určené ke generování temsetů jsou většnou časově paměťově mnohem náročnější než algortmy ke generování bgramů, nezdá se být přílš efektvní rozšířovat př klasfkac model dokumentu o 2-temsety. Stejného, případně lepšího, výsledku lze dosáhnout použtím bgramů. V budoucnu se chystáme stejné expermenty zopakovat na kolekcích v českém jazyce, kde očekáváme podobné závěry. Tato práce byla částečně podporována z prostředků Národního Programu Výzkumu II, projekt 2C06009 (COT-SEWng). Reference 1. J.J.G. Adeva, R.A. Calvo and D.L. de Ipña. Multlngual Approaches to Text Categorsaton. UPGRADE: The European Journal for the Informatcs Professonal, Vol. VI, No. 3, pp. 43-51, June 2005. 2. M.L. Antone and O.R. Zaane. Text document categorzaton by term assocaton. In Proc. of the IEEE 2002 Internatonal Conference on Data Mnng, pages 19 26, Maebash Cty, Japan, 2002. 3. L. Baol, L. Qn and Y. Shwen. An adaptve k-nearest neghbor text categorzaton strategy. ACM Transactons on Asan Language Informaton Processng (TALIP), volume 3, pp: 215-226, 2004.
4. R. Bekkerman, R. El-Yanv, N. Tshby and Y. Wnter. Dstrbutonal Word Clusters vs. Words for Text Categorzaton. Journal of Machne Learnng Research, 3:1183-1208, 2003. 5. R. Bekkerman and J. Allan. Usng Bgrams n Text Categorzaton. CIIR Techncal Report IR-408, 2004. 6. A. Bratko and B. Flpč. Explotng Structural Informaton n Semstructured Document Classfcaton. Proc. 13th Internatonal Electrotechncal and Computer Scence Conference, ERK 2004, 2004. 7. M. F. Caropreso, S. Matwn and F. Sebastan. Statstcal phrases n automated text categorzaton. Techncal Report IEI-B4-07-2000, Isttuto d Elaborazone dell'informazone, Psa, Italy, 2000. 8. T.G. Detterch. Approxmate Statstcal Test for Comparng Supervsed Classfcaton Learnng Algorthms. Neural Computaton, Vol. 10, pp. 1895-1923, 1998. 9. S.T. Dumas, J. Platt, D. Heckerman and M. Saham. Inductve learnng algorthms and representatons for text categorzaton. In Proceedngs of ACM- CIKM98, pp. 148-155, 1998. 10. J. Fürnkranz. A study usng n-gram features for text categorzaton. Techncal Report OEFAI-TR-9830, Austran Insttute for Artfcal Intellgence, Venna, Austra, 1998. 11. A. McCallum and K. Ngam. A Comparson of Event Models for Nave Bayes Text Classfcaton. In AAAI/ICML-98 Workshop on Learnng for Text Categorzaton, Techncal Report WS-98-05, AAAI Press, pp. 41-48, 1998. 12. D. Meretaks and B. Wüthrch. Extendng Nave Bayes classfers usng long temsets. In Proc. 5th ACM-SIGKDD Int. Conf. Knowledge Dscovery and Data Mnng (KDD'99), San Dego, USA, pp. 165-174, 1999. 13. D. Meretaks, D. Fragouds, H. Lu and S. Lkothanasss. Scalable assocatonbased text classfcaton. Proceedngs of the nnth nternatonal conference on Informaton and knowledge management, pp. 5-11, McLean, Vrgna, Unted States, November 2000. 14. M. Mtra, C. Buckley, A. Snghal and C. Carde. An analyss of statstcal and syntactc phrases. In Proceedngs of RIAO-97, 5th Internatonal Conference "Recherche d'informaton Assstee par Ordnateur", pp. 200-214, Montreal, CA, 1997. 15. D. Mladenc and M. Grobelnk. Word sequences as features n text-learnng. In Proc. 17th Electrotechncal and Computer Scence Conference (ERK98), Slovena, 1998. 16. D. Mladenc and M. Grobelnk. Feature Selecton for Unbalanced Class Dstrbuton and Nave Bayes. In Proceedngs of the 16th Internatonal Conference on Machne Learnng, Morgan Kaufmann, pp. 258-267, 1999. 17. V. Pekar, M. Krkoska and S. Staab. Feature Weghtng for Co-occurrence-based Classfcaton of Words. In Proceedngs of the 20th Conference on Computatonal Lngustcs, COLING-2004, August 2004. 18. M. Rogat and Y. Yang. Hgh-performng feature selecton for text classfcaton. Proceedngs of the eleventh nternatonal conference on Informaton and knowledge management, McLean, Vrgna, USA, November 2002.
19. K.M. Schneder. A New Feature Selecton Score for Multnomal Nave Bayes Text Classfcaton Based on KL-Dvergence. 42nd Meetng of the Assocaton for Computatonal Lngustcs (ACL 2004), pp. 186-189, 2004. 20. Ch.M. Tan, Y.F. Wang and Ch.D. Lee. The use of bgrams to enhance text categorzaton. Informaton Processng and Management: an Internatonal Journal, v.38 n.4, p.529-546, July 2002. 21. R. Tesar, D. Fala, F. Rousselot and K. Jezek. A comparson of two algorthms for dscoverng repeated word sequences. WIT Transactons on Informaton and Communcaton Technologes, Vol. 35, pp. 121-131, 2005. 22. Y. Yang and J.O. Pedersen. A Comparatve Study on Feature Selecton n Text Categorzaton. Proceedngs of the Fourteenth Internatonal Conference on Machne Learnng, pp.412-420, July, 1997. 23. Z. Yang, Z. Ljun, Y. Janfeng and L. Zhanhua. Usng assocaton features to enhance the performance of Nave Bayes text classfer. Ffth Internatonal Conference on Computatonal Intellgence and Multmeda Applcatons, ICCIMA 2003, pp. 336-341, 2003. 24. O. Zamr and O. Etzon. Web document clusterng: A feasblty demonstraton. In Proceedngs of the 21st Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval (SIGIR 98, Melbourne, Australa), W. B. Croft, A. Moffat, C. J. van Rjsbergen, R., Wlknson, and J. Zobel, Chars. ACM Press, New York, NY, pp. 46 54, 1998. 25. D. Zhang, X. Chen and W.S. Lee. Text classfcaton wth kernels on the multnomal manfold. Proceedngs of the 28th nternatonal ACM SIGIR conference on Research and development n nformaton retreval, Brazl, pp. 266-273, 2005. 26. Z. Zheng, R. Kohav and L. Mason. Real world performance of assocaton rule algorthms. In Int. Conf. on Knowledge Dscovery and Data Mnng (SIGKDD), August 2001. Annotaton: Extendng the Bag-of-Words Document Model: A Comparson of Bgrams and 2- Itemsets In ths paper, we compare the performance mprovement n terms of classfcaton accuracy when bgrams and 2-temsets are used to extend the sngle words-based document representaton on two standard text corpora: Reuters-21578 and 20 Newsgroups. The concluson s that t s not very effectve to extend document representaton wth 2-temsets. Bgrams acheve better results and dscoverng them s less resource-consumng. Ths paper s a shortened, Czech verson of the followng publcaton Tesar R., Poeso M., Strnad V., Jezek K.: "Extendng the Sngle Words-Based Document Model: A Comparson of Bgrams and 2-Itemsets. In Proceedngs of the 2006 ACM Symposum on Document Engneerng (DocEng 06), Amsterdam, Netherlands, ACM press, ISBN 1-59593- 515-0, pages 138-146, September 2006. (http://do.acm.org/10.1145/1166160.1166197)