Automatcká klasfkace dokumentů do tříd za použtí metody Itemsets Jří HYNEK 1, Karel JEŽEK 2 1 nsite, s.r.o., Knowledge Management Integrator Rubešova 29, 326 00 Plzeň r.hynek@nste.cz 2 Katedra nformatky a výpočetní technky, ZČU Plzeň Unverztní 22, Plzeň ezek_ka@kv.zcu.cz Abstrakt. Motvací pro vznk této metody e snaha o automatzac časově náročné klasfkace dokumentů v rámc dgtální knhovny. Navrhovaná původní metoda e založena na množnách položek (temsets), čímž rozšřue tradční oblast aplkace Apror algortmu, který e v našem případě využt pouze pro generování vstupních dat. Je vhodná zeména pro automatckou klasfkac krátkých dokumentů (abstraktů, anotací), ve kterých nelze předpokládat opakování slov opravňuící použtí metod založených na četnost výskytu termů v dokumentu (metody TF IF). Příspěvek prezentue základní prncpy metody a výsledky dosažené v prax. Vysoká úspěšnost algortmu dovolue reálné nasazení této metody v komerčním prostředí. Metoda Itemsets e určena k ntegrac do rozsáhlého nformačního systému podnku Západočeská energetka, a.s. Klíčová slova: temset, množna položek, klasfkace, Apror algortmus, podobnost dokumentů, elektroncká knhovna, dgtální knhovna 1 Úvod - stručně o dgtální knhovně Vytvoření dgtální knhovny e fnančně časově nákladný úkol. Zařazované publkace sou vesměs chráněny autorským právem a e nutné platt za ech použtí. Jelkož abstrakty odborných článků sou obvykle na webu volně přístupné, případně e lze vytvořt, e možné levně vytvářet knhovnu abstraktů. Podle ech obsahu pak užvatelé knhovny žádaí o zakoupení plného textu. gtální knhovna použtá př mplementac navrhovaného klasfkátoru e reálnou knhovnou nasazenou v komerčním prostředí. Specalzue se na odborné články z oblast elektroenergetky a trhu s elektrckou energí. Pro srovnání s ným metodam byla použta kolekce Reuters-21578, celosvětově honě využívaná pro testování klasfkačních algortmů. Testovaná česká kolekce Reuters-21578 vykazuí stou podobnost, zeména v průměrné velkost zařazovaných dokumentů. Tento parametr e pro nasazení metody temsets nevýznamněší. Hynek, Ježek: ATAKON 2001, Brno, 20.-23. 10. 2001, pp. XXXX.
2 J. Hynek, K. Ježek: Automatcká klasfkace dokumentů Uspořádání témat v české knhovně odpovídá organzační struktuře užvatele knhovny a nebylo zvoleno tak, aby se automatcká klasfkace dokumentů usnadnla. Některé tematcké okruhy byly do knhovny doplňovány za běhu podle potřeby a dříve začleněné dokumenty ž nebyly zpětně přeřazovány. Tato skutečnost degradue konečnou kvaltu klasfkace, neboť do fáze učení klasfkátoru se zanáší nepřesnost. Př mplementac techncké knhovny se vycházelo z třívrstvé archtektury s tenkým klentem (obvyklý webový prohlížeč), aplkačním serverem (webový server Apache, skrpty v azyce PHP) a databázovým serverem (MySQL). 2 Klasfkace metodou Itemsets 2.1 Apror algortmus Apror algortmus využíváme pouze pro generování vstupních dat pro klasfkátor. Vlastní klasfkační metoda Itemsets e původní. Apror algortmus (Agrawal a kol.) představue účnnou metodu dolování znalostí ve formě asocačních pravdel [2]. Stručný pops uvádíme v [3] a [4]. Jeho praktcké využtí spatřueme v oblast kategorzace dokumentů. Původní Apror algortmus se aplkue na transakční databáze nákupních košů na trhu. Naší obdobou této databáze e pak množna dokumentů reprezentovaných množnam významových termů. V souladu s obvyklou termnologí budeme termy značt ako položky a množny termů ako množny položek (temsets). Apror vlastnost e základem procedury pro efektvní generování kanddátních množn položek. Označme T množnu klasfkačních tříd, Ç k množnu kanddátních k- množn položek a F k množnu častých k-množn položek. Generování F k z Ç k a potažmo F k-1 popsue následuící algortmus: // Pro 1-temsety : Ç 1 := všechna významová slova; F 1 := ; for Π Ç 1 do for t T do f (podpora Π e ve třídě t větší než daný mnmální práh) then begn přde Π do F 1 break; // další třídy není nutno zkoumat // Pro k-temsety, kde k 2: for Π F k-1 do for Π F k-1, Π Π do f shoda(prvních k-2 položek v Π a Π ) poslední položky se lší then begn c := Π on Π ; // nutno zastt častost všech podmnožn: f ( podmnožna s, s c maící k-1 prvků, kde s F k-1 ) then break; // c patří do Ç k, nyní nutno prověřt častost kanddáta: else for t m T do
Automatcká klasfkace dokumentů 3 f (podpora c e ve třídě t m větší než daný mnmální práh) then begn přde c do F k ; break; 2.2 Termnologe V rámc tohoto článku budeme vycházet z následuící notace: Π Množna (častých) položek Π Množna dokumentů obsahuících Π T Téma (klasfkační třída) Π Počet dokumentů obsahuících Π okument T Množna dokumentů zařazených do tématu Množna významových termů obsažených v dokumentu T Počet dokumentů zařazených do tématu T L Počet tematckých okruhů C Soubor množn položek charakterzuících téma T N Počet častých množn položek o mohutnost C Počet množn položek charakterzuících téma T Na základě výše popsaného Apror algortmu defnueme časté množny položek různé mohutnost. Pro ednce: Π 1, Π 2,, Π N1, pro dvoce: Π N1+1, Π N1+2,, Π N1+ N2, pro troce: Π N1+N2+1, Π N1+N2+2,, Π N1+N2+N3 atd. T 2.3 Úloha klasfkace Úlohu klasfkace lze rozdělt na dvě část: fáze učení a fáze vlastní klasfkace. Fáze učení probíhá v následuících krocích: (1) Nadefnování herarche (stromu) tematckých oblastí provádí odborník na danou problematku. Nadefnue se L klasfkačních tříd (L odpovídá počtu lstových témat). (2) Ruční zařazení určtého počtu dokumentů do témat odborníkem. Jným slovy, pro každou třídu klasfkace defnueme klasfkační atrbuty (trénovací množnu dat). Odborník kategorzue všechny trénovací dokumenty, které má k dspozc. o každého tematckého okruhu by měl spadat statstcky významný počet dokumentů. (3) Automatcké vytvoření charakterstckých množn položek pro každý tematcký okruh. Během vlastní klasfkace využíváme charakterstckých množn položek k zařazování dokumentů do příslušných témat. 2.4 Fáze metody Itemsets Fáze učení: Pro každou množnu častých položek Π můžeme zstt reprezentatvní množnu dokumentů obsahuících Π. Označme tuto množnu dokumentů ako Π. Je patrné, že mohutnost Π bude vyšší než stá prahová hodnota, neboť množna Π byla vybrána ako častá. Množně Π 1 odpovídá množna Π 1, Π 2 odpovídá množna Π 2, atd. Pracuemel pouze s edncem, dvocem, trocem a čtveřcem, vytvoříme celkem N1 + N2 + N3 + N4 množn dokumentů.
4 J. Hynek, K. Ježek: Automatcká klasfkace dokumentů Analogcky, pro každé téma T exstue charakterstcká množna dokumentů zařazených do tohoto tématu. Označme tuto množnu ako T. Tématu T 1 odpovídá množna T 1, tématu T 2 pak množna T 2, atd. Celkem vytvoříme L množn dokumentů. Naším úkolem e stanovt určtý soubor charakterstckých množn položek pro každý tematcký okruh, přčemž každá množna položek e asocována s podmnožnou množny všech témat. Množna položek Π e asocována s těm tématy T, kde hodnoty váhy w Π přesahuí určenou prahovou hodnotu (tato váha vyadřue, do aké míry množna Π charakterzue třídu T ). Jako efektvní se ukázal následuící výpočet kvaltatvní váhy w Π : Π T wπ = = 1,2,..., T [ 1 + Π Π T ] Jmenovatel vzorce normalzue váhy s ohledem na počet dokumentů patřících do témat T a také s ohledem na to, zda se množna položek nevyskytue přílš často také v ných tématech. ůležtost termů, které se často vyskytuí v ných dokumentech než T, e tak potlačena (pozornost neunkne analoge s prncpem metody TF IF). Původně sme k výpočtu w Π používal vzorec ve tvaru Π T wπ = =1,2,..., L T Tento vztah udává podporu množny položek ve třídě, t. hodnotu udávaící v kolka procentech dokumentů třídy se množna položek vyskytue. Tento fakt však nak nezohledňue skutečnost, že množna položek se může často vyskytovat v ostatních třídách. Pokud by se množna položek stala charakterstckou pro všechny třídy, nepředstavue eí výskyt v dokumentu pro nás žádnou nformační hodnotu a na klasfkac se může proevt spíše nepříznvě. Vzhledem k blízkost tematckých okruhů neumožňovaly v tomto případě množny položek vyhovuící rozlšení. Například významový term energe se vzhledem k charakteru české knhovny vyskytue ve více než 1/3 všech dokumentů a e tedy asocován s poměrně velkým počtem tematckých okruhů. Potažmo časté k-tce obsahuící tento term spadaí do velkého počtu témat, a tudíž přnášeí do klasfkátoru en velm malou nformační hodnotu. Po asocac množn položek s konkrétním tématy na základě výše uvedeného vzorce získáme soubory množn položek C reprezentuící konkrétní téma T. Fáze klasfkace: Př klasfkac dokumentů musíme brát do úvahy mohutnost množn položek, abychom rozlšl např. shodu ve dvocích od shody ve trocích, neboť statstcká významnost těchto množn e různá. Za tímto účelem defnueme váhový faktor odpovídaící mohutnost množny položek. Pro ednce použeme wf 1, pro dvoce wf 2, pro troce wf 3, atd. Nyní můžeme přstoupt k zařazování dokumentu do tematckých okruhů. Předpokládeme, že soubor C obsahue položky Π 1, Π 2,, Π C. Vypočteme váhu odpovídaící přesnost asocace dokumentu s tématem T : W T = C = 1 wf w Π Π kde ( Π Π C ) ( ) pro všechna = 1, 2,..., L
Automatcká klasfkace dokumentů 5 Jným slovy, váha klasfkace e určena součtem součnů vah w Π s váhovým faktory wf Π pro všechny množny položek daného tématu, které sou zároveň obsaženy v zařazovaném dokumentu. ůsledkem použtí w Π e zdůraznění takových množn položek, které téma T charakterzuí nelépe. okument bude zařazen do tématu T, emuž odpovídá nevyšší váha W. T Můžeme přrozeně chtít asocovat dokument s větším počtem témat. V takovém případě zařadíme dokument do všech tříd, pro které váha W přesáhne θ % T maxmální dosažené W (t. θ % váhy pro třídu, do které dokument spadá nelépe). T Jako efektvní se ukázala volba θ = 75 (vz výsledky). S rostoucí hodnotou θ klesá přesnost klasfkace, úplnost naopak roste. Měníme-l dynamcky hodnotu parametru θ, přesnost a úplnost se vždy pohybuí opačným směrem. 2.5 Modfkace metody posuvné okénko Jak sme ž uvedl, metoda nezohledňue frekvenc výskytu množn položek v dokumentu. Podstatné e pouze to, zda se množna položek v dokumentu vůbec vyskytue. Jednotlvé položky které tvoří víceprvkové množny položek, se navíc nemuseí vyskytovat vedle sebe. Nemusí tvořt skutečnou fráz, č slovní spoení, ale stačí pouze fakt, že se společně vyskytuí dostatečně často v dokumentech některé třídy. Tato volnost př hledání častých množn položek má své opodstatnění, neboť naším zámem není hledat fráze, ale skutečně pouze množny společně se vyskytuících termů. I přes tento fakt e vhodné ověřt, ak se bude metoda chovat v případě, kdy omezíme vzdálenost mez ednotlvým termy tvořícím víceprvkovou množnu položek. o mplementace metody bylo přdáno restrktvní opatření zašťuící akceptac pouze těch k-množn položek (pro k 2), které se vyskytuí v rámc okénka (angl. sldng wndow). Rozměr okénka e nastavtelný, a e tedy možné nastavt v akém rozpětí se může množna položek vyskytnout, aby byla eště akceptována. Pokud nastavíme př hledání dvoc rozměr okénka roven dvěma, nebo př hledání troc roven třem, atd., budou se akceptovat pouze množny položek složené z termů, ež se vyskytuí vedle sebe. Nastavíme-l rozměry okénka na přílš vysokou hodnotu (věší nebo rovnou délce nedelšího dokumentu), bude se metoda chovat steně ako v případě, kdy se žádné okénko neuvažue. Níže uvedený algortmus popsue kontrolu výskytu množny položek v rámc okénka uvntř dokumentu. Uvažueme zde fakt, že můžeme určt pozc termu v dokumentu. Pozce udává pořadí konkrétního slova v rámc dokumentu. okument vždy začíná slovem s pozcí 1 a končí slovem s pozcí rovnou délce dokumentu. nalezn první výskyty všech termů tvořících množny položek uvntř dokumentu; whle (1) begn MIN := pozce termu s nenžší pozcí; MAX := pozce termu s nevyšší pozcí; f ((MAX MIN) < VELIKOST_OKÉNKA) return 1; // OK množna položek se vyskytue v rámc okénka else begn nalezn další výskyt termu s nenžší pozcí;
6 J. Hynek, K. Ježek: Automatcká klasfkace dokumentů f (další výskyt ž není) return 0; // množna položek se v rámc okénka nevyskytue Př vlastní realzac sme mplementoval složtěší verz algortmu, která umožňue specfkovat kolk výskytů množny položek se musí v dokumentu v rámc okénka nalézt, aby byl eí výskyt akceptován. Zpracovávané dokumenty sou však tak krátké, že není vhodné s vícenásobný výskyt množny položek v dokumentu vynucovat. 3 Složtost algortmu Hodnocení časové a paměťové náročnost klasfkace na datové kolekc Reuters- 21578 (10 202 dokumentů, 10 vhodných tříd) se odvíí od testů uvedených v závěru článku, kde porovnáváme ednotlvé metody mez sebou. Nandexování textové kolekce Reuters před natrénováním vyžadue 23,8 MB RAM a přblžně 15 sekund. Natrénování klasfkátoru s vyžádá necelých 10 MB RAM a 10 sekund, vlastní klasfkace cca 5 MB RAM a 8 sekund. Lze tedy počítat s časem v řádu sekund na natrénování edné třídy (v konfgurac PII-466, OS Wndows 98). Spolehlvé natrénování tohoto obemu dat př generování 2-množn položek nebo větších vyžadue alespoň 128 MB RAM. oba výpočtu př použtí Apror algortmu e do značné míry závslá na prahové hodnotě pro výběr častých množn položek. S narůstaící mohutností častých množn položek rostou časové nároky. Je to způsobeno kombnováním množn položek nžší mohutnost ve smyslu Apror algortmu. 4 Vyhodnocení a porovnání s ným metodam klasfkace Následuící tabulka shrnue výsledky klasfkátoru dosažené na kolekc Reuters- 21578. Parametr mnmální počet dokumentů ve třídě byl nastaven na 50. Pro každou třídu se používá pevný počet charakterstckých n-tc. PC1 (Práh asocace charakterstckého termu) Každou třídu může charakterzovat pouze několk termů s nelepší váhou. Term bude uvažován ako charakterstcký pro třídu tehdy, nabývá-l příslušná váha (míra s akou e třída slovem charakterzována) hodnoty alespoň PC1 procent nevyšší dosažené váhy. MP (mn. počet dokumentů třídy s výskytem termu) Term bude považován za častý, pokud se vyskytue alespoň v MP procentech dokumentů něaké třídy. PAT (práh asocace třídy) okument zařadíme do všech tříd, pro které vypočtená váha W přesáhne PAT % maxmální dosažené T W (t. PAT % váhy T pro třídu, do které dokument spadá nelépe). P trn, R trn, Q trn, M trn přesnost, úplnost, ech průměr a počet dokumentů, ež se musí klasfkovat ručně př klasfkac trénovacích dokumentů. P tst, R tst, Q tst, M tst přesnost, úplnost, ech průměr a počet dokumentů, ež se musí klasfkovat ručně př klasfkac testovacích dokumentů
Automatcká klasfkace dokumentů 7 PC1 MP PAT P trn R trn Q trn M trn R tst Q tst M tst [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 20 10 40 88,79 95,37 92,08 1,64 85,59 93,52 89,56 2,61 20 10 65 91,15 92,29 91,72 1,64 89,05 90,46 89,75 2,61 20 10 90 92,36 89,26 90,81 1,64 90,21 87,70 88,96 2,61 20 20 40 82,93 96,15 89,54 0,00 82,33 95,43 88,88 0,00 20 20 65 88,18 91,63 89,90 0,00 87,86 91,58 89,72 0,00 20 20 90 89,36 86,68 88,02 0,00 90,13 87,88 89,01 0,00 20 30 40 79,20 94,09 86,64 0,00 79,09 94,85 86,97 0,00 20 30 65 84,83 89,72 87,27 0,00 84,87 91,15 88,01 0,00 20 30 90 87,69 86,54 87,11 0,00 86,82 85,78 86,30 0,00 40 10 40 87,08 97,48 92,28 0,00 84,03 95,79 89,91 0,00 40 10 65 92,07 94,11 93,09 0,00 90,03 93,18 91,61 0,00 40 10 90 93,01 90,25 91,63 0,00 91,75 89,48 90,61 0,00 40 20 40 82,01 97,03 89,52 0,00 80,90 95,86 88,38 0,00 40 20 65 88,54 93,29 90,92 0,00 88,49 92,24 90,36 0,00 40 20 90 90,54 87,93 89,24 0,00 90,08 88,32 89,20 0,00 40 30 40 79,19 94,47 86,83 0,00 78,85 94,99 86,92 0,00 40 30 65 84,87 89,68 87,28 0,00 85,18 91,22 88,20 0,00 40 30 90 87,94 86,75 87,35 0,00 87,08 85,99 86,54 0,00 Rekordní hodnotou ( P a R) dosaženou př dalším ladění parametrů bylo 96,59 %. V tomto případě byly však klasfkovány výhradně dokumenty v předchozím použté pro natrénování, navíc ve 47 % případů nenalezl algortmus žádnou třídu, t. prác nechal na knhovníkov 1. Uvažueme-l radě praktcky využtelné výsledky, t. klasfkuí se nově příchozí dokumenty nepoužté k natrénování a knhovník nezasahue vůbec (pro nás prorta), dosáhl sme stále vynkaících 91,61 % (P = 90,03 %, R = 93,18 %). Jakýkol další malý nárůst P a R vede k výraznému nárůstu počtu dokumentů, ež e nutno zařadt ručně. Pro porovnání s ným metodam sme využl výsledky uvedené v lteratuře [2], kde se k testování různých klasfkátorů využívá též kolekce Reuters-21578. Porovnávané metody využívaí 12 902 dokumentů, které byly klasfkovány do 118 tříd, přčemž výsledky se uvádí en pro 10 nevětších (obsahuí téměř 75 % všech dokumentů). Proto sme steně ako ostatní autoř použl en třídy obsahuící alespoň určtý počet dokumentů - v tomto případě 180 ks, přčemž rozsah mohutnost ednotlvých tříd čnl 212 až 2 779 dokumentů. okumenty sme rozděll na trénovací a testovací v poměru 3:1, steně ako u porovnávaných metod. Klasfkační Itemsets NBayes BayesNets Lnear SVM metoda P a R 91,36 2 81,50 85,00 92,00 P tst 1 Průměr P a R zde přrozeně nezahrnue ty dokumenty, které systém nebyl schopen automatcky zařadt. Parametry vedoucí k dosažení tohoto výsledku pro stručnost neuvádíme, neboť výsledek není praktcky využtelný. 2 Testueme-l klasfkátor na dokumentech použtých k natrénování, dosahueme hodnoty (P+R)/2 = 91,90 %.
8 J. Hynek, K. Ježek: Automatcká klasfkace dokumentů 5 Závěr Malá průměrná délka dokumentů (abstraktů) by v případě metod typu TF IF čnla klasfkátoru problémy, v našem případě e naopak prospěšná. Př klasfkac se totž nevychází z opakování výskytu termů, avšak ze současného výskytu určtých dvoc, troc (obecně n-tc) termů, které se použí ako charakterstcké. S rostoucí délkou dokumentů by se pouze zavlékaly další obecné termy, které právě pro svo obecnost nelze chápat ako charakterstcké pro třídu, do které byl dokument ručně zařazen. Z dosažených výsledků e zřemé, že vysoká úspěšnost klasfkátoru dovolue eho nasazení v reálném prostředí. Časové výkonové nároky algortmu sou velm rozumné, přčemž k čerpání absolutní většny výpočetních zdroů dochází ve fáz učení, která může probíhat off-lne. Vlastní klasfkace e nesmírně rychlá. alší výzkum bude zaměřen na automatckou tvorbu anotací k odborným článkům, volbu parametrů s dopady na úspěšnost klasfkace (délka dokumentů, obem trénovacích dat, velkost tříd), modfkac navního Bayesova klasfkátoru o prvky metody Itemsets a rovněž využtí zde popsované metody Itemsets ke shlukování dokumentů. Lteratura 1. Agrawal et al.: Advances n Knowledge scovery and ata Mnng, MIT Press 1996, 307-328 2. umas S., Platt J., Heckerman., Saham M.: Inductve Learnng Algorthms and Representatons for Text Categorzaton, CIKM 98, Bethesda M, U.S.A. 3. Hynek J., Ježek K., Rohlík O.: Short ocument Categorzaton Itemsets Method sborník meznárodní konference PK 2000, Lyon France, září 2000 4. Hynek J., Ježek K.: ocument Classfcaton Usng Itemsets sborník meznárodní konference MOSIS 2000, Rožnov pod Radhoštěm, květen 2000 5. Mladenc., Grobelnk M.: Word Sequences as Features n Text Learnng, Proc. Seventh Electrotechncal and Computer Scence Conf. (ERK 98), IEEE Regon 8, Slovena Secton IEEE, 1998, pp. 145 148 Příspěvek vznkl za částečné podpory výzkumného záměru MSM 235200005. Annotaton: Automatc ocument Classfcaton Usng Itemsets The essental pont of ths paper s to develop a method for automatng tme-consumng document classfcaton n a dgtal lbrary. The orgnal method proposed n ths paper s based on temsets, extendng tradtonal applcaton of the Apror algorthm. It s sutable for automatc classfcaton of short documents (abstracts, summares) mpedng usage of repeated occurrence of terms, such as n term-frequency-based methods. The paper presents basc prncples of ths method as well as results of ts practcal use. Hgh success rate of the classfcaton algorthm allows ts usage n real-lfe envronment. The method wll become an ntegral part of the nformaton system of a regonal utlty company.