Automatizace generování stopslov



Podobné dokumenty
HODNOCENÍ DODAVATELE SUPPLIER EVALUATION

1. Úvod do základních pojmů teorie pravděpodobnosti

7. ZÁKLADNÍ TYPY DYNAMICKÝCH SYSTÉMŮ

4. Třídění statistických dat pořádek v datech

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Hodnocení přesnosti výsledků z metody FMECA

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

SPOTŘEBITELSKÝ ÚVĚR. Na začátku provedeme inicializaci proměnných jejich vynulováním příkazem "restart". To oceníme při opakovaném použití dokumentu.

Unstructured data pre-processing using Snowball language

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.

Using a Kalman Filter for Estimating a Random Constant Použití Kalmanova filtru pro výpočet odhadu konstantní hodnoty

Měření indukčností cívek

Kombinace s opakováním

ANALÝZA PRODUKCE OLEJNIN ANALYSIS OF OIL SEED PRODUCTION. Lenka Šobrová

teorie elektronických obvodů Jiří Petržela syntéza a návrh elektronických obvodů

2.4. DISKRÉTNÍ SIGNÁLY Vzorkování

VÝPOČET VELIKOSTNÍCH PARAMETRŮ KOMPOSTÁREN NA ZPEVNĚNÝCH PLOCHÁCH THE SIZE PARAMETER CALCULATION OF COMPOST PLANTS LOCALIZED ON COMPACTED AREAS

Rozšíření bag-of-words modelu dokumentu: srovnání bigramů a 2-itemsetů

Kombinace s opakováním

6 5 = 0, = 0, = 0, = 0, 0032

THE POSSIBILITY OF RELOCATION WAREHOUSES IN CZECH-POLISH BORDER MOŽNOSTI RELOKACE SKLADŮ V ČESKO-POLSKÉM PŘÍHRANIČÍ

Reprezentace přirozených čísel ve Fibonacciho soustavě František Maňák, FJFI ČVUT, 2005

MATEMATIKA II V PŘÍKLADECH

Agregace vzájemné spojování destabilizovaných částic ve větší celky, případně jejich adheze na povrchu jiných materiálů

β 180 α úhel ve stupních β úhel v radiánech β = GONIOMETRIE = = 7π 6 5π 6 3 3π 2 π 11π 6 Velikost úhlu v obloukové a stupňové míře: Stupňová míra:

Jednotlivé mezivýsledky, získané v prbhu analýzy rozptylu, jsou prbžn a systematicky zaznamenávány v tabulce ANOVA. Prmrný tverec. volnosti SS B.

Přemysl Žiška, Pravoslav Martinek. Katedra teorie obvodů, ČVUT Praha, Česká republika. Abstrakt

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

Digitální přenosové systémy a účastnické přípojky ADSL

Aplikace Li-Ma metody na scintigrafické vyšetření příštítných tělísek. P. Karhan, P. Fiala, J. Ptáček

symetrická rovnice, model Redlich- Kister dvoukonstantové rovnice: Margules, van Laar model Hildebrandt - Scatchard mřížková teorie roztoků příklady

Binomická věta

Posuzování výkonnosti projektů a projektového řízení

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST

3. cvičení 4ST201 - řešení

7.3.9 Směrnicový tvar rovnice přímky

ALGORITMUS SILOVÉ METODY

NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT

Vícekriteriální rozhodování. Typy kritérií

1 Gaussova kvadratura

Metody operačního výzkumu přednášky

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY. Disertační práce Ing. Jan Fábry

Klasifikace a predikce. Roman LUKÁŠ

χ 2 testy. Test nekorelovanosti.

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Hodnocení účinnosti údržby

Identifikace dynamických vlastností soustavy s ruční zpětnou vazbou

VÝVOJ SOFTWARU NA PLÁNOVÁNÍ PŘESNOSTI PROSTOROVÝCH SÍTÍ PRECISPLANNER 3D. Martin Štroner 1

9 Stupně vrcholů, Věta Havla-Hakimiho

55. ročník Matematické olympiády 2005/2006

7.3.9 Směrnicový tvar rovnice přímky

Andrew Kozlík KA MFF UK

- Pokud máme na množině V zvoleno pevné očíslování vrcholů, můžeme váhovou funkci jednoznačně popsat. Symbolem ( i)

(iv) D - vybíráme 2 koule a ty mají různou barvu.

Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Dotazníkové šetření. Gabriela Kreislová

Úlohy krajského kola kategorie A

Lineární regrese ( ) 2

ROZHODOVÁNÍ VE FUZZY PROSTŘEDÍ

Motivace. Náhodný pokus, náhodný n jev. pravděpodobnost. podobnostní charakteristiky diagnostických testů, Bayesův vzorec. Prof.RND. RND.

Dynamika populací s oddělenými generacemi

Metody vícekriteriálního hodnocení variant a jejich využití při výběru produktu finanční instituce

Hodnocení kvality sumarizátorů textů

Reprezentace problému rozvrhování zakázkové výroby disjunktivním grafem

Příklady: - počet členů dané domácnosti - počet zákazníků ve frontě - počet pokusů do padnutí čísla šest - životnost televizoru - věk člověka

Matematické modelování turbulence

Struktura a architektura počítačů

Analýza a zpracování signálů. 5. Z-transformace

Reciprokou funkci znáte ze základní školy pod označením nepřímá úměra.

Geometrická zobrazení

Přibližné řešení algebraických rovnic

POLYMERNÍ BETONY Jiří Minster Ústav teoretické a aplikované mechaniky AV ČR, v. v. i.

MATEMATIKA 1 4 A B C D. didaktický test. Zadání neotvírejte, počkejte na pokyn! MA1ACZMZ07DT. Pokyny pro vyplňování záznamového archu

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má

Měření solventnosti pojistitelů neživotního pojištění metodou míry solventnosti a metodou rizikově váženého kapitálu

Příprava ke státním maturitám 2011, vyšší úroveň obtížnosti materiál stažen z

POROVNÁNÍ MEZI SKUPINAMI

Godunovovy metody pro 1D-Eulerovy rovnice

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

1.5.7 Prvočísla a složená čísla

Metody volby financování investičních projektů

zpracování signálů - Fourierova transformace, FFT Frekvenční

8a.Objektové metody viditelnosti. Robertsův algoritmus

7. TRANSFORMÁTORY. 7.1 Štítkové údaje. 7.2 Měření odporů vinutí. 7.3 Měření naprázdno

Automatická klasifikace dokumentů do tříd za použití metody Itemsets

15 Mletí. I Základní vztahy a definice. Oldřich Holeček (aktualizace v roce 2014 Michal Přibyl & Marek Schöngut)

Základním pojmem v kombinatorice je pojem (k-prvková) skupina, nebo také k-tice prvků, kde k je přirozené číslo.

Příloha č. 1 Část II. Ekonomika systému IDS JMK

PŘÍSPĚVEK K PROBLEMATICE ROZDĚLOVACÍCH KOEFICIENTŮ V NIKLOVÝCH SLITINÁCH. Adam Pawliczek, Jana Dobrovská, Hana Francová, Věra Dobrovská

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

Regresní a korelační analýza

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE

REGRESNÍ ANALÝZA. 13. cvičení

Penzijní plán ČSOB Penzijního fondu Progres, a. s., člena skupiny ČSOB

Před zahájením vlastních výpočtů je potřeba analyzovat konstrukci a zvolit vhodný návrhový

VYUŽÍVANÍ GEOINFORMAČNÍCH TECHNOLOGIÍ V OBDOBÍ REORGANIZACE ÚŘADŮ V RESORTU MPSV

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

ANALÝZA A KLASIFIKACE DAT

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE. Josef Jílek. Skupinově sekvenční testy v klinických studiích

Transkript:

Automatzace generování stopslov Bc. Jří Krupní, Ústav nformaty, Provozně eonomcá faulta, Mendelova unverzta v Brně, jr.rupn@mendelu.cz Abstrat Příspěve se zabývá metodou předzpracování textových doumentů, a to automatzací generování stopslov. Je zde popsáno něol metod pro vytváření doménově nezávslých seznamů těchto slov. Následně jsou prezentovány a dsutovány výsledy mplementace metod, terých bylo dosaženo př testování na olec rozsáhlých doumentů napsaných v různých přrozených jazycích. Klíčová slova Stopslovo, feature selecton, text mnng, textové doumenty, třída doumentu Abstract Ths paper deals wth a method of pre-processng of textual documents, namely wth automaton of stopwords lst generaton. Several methods for creatng a doman specfc lst of stopwords are descrbed. Then the mplementaton of the methods s presented and dscussed. The paper also contans the results that were obtaned by applcaton of the methods to a large collecton of real-world documents wrtten n dfferent natural languages. Key Words Stopword, feature selecton, text mnng, text documents, document class Úvod Různé typy subjetů mají pro své rozhodování dspozc obrovsé objemy nestruturovaných textových dat. Tato data mohou potencálně obsahovat užtečné znalost, teré lze zísat metodam z oblast nazývané text mnng. Typcé problémy, teré lze v rámc dolování znalostí z textových dat řešt, zahrnují lasfac doumentů, predc, shluování, vyhledávání, sumarzac, extrac č analýzu mínění (Wess et al., 2010). Aby bylo možné zpracování tohoto typu dat realzovat, je třeba je převést do reprezentace vhodné pro zvolený algortmus a případně určtým způsobem předzpracovat. Jednou z nejjednodušších a nejčastěj používaných reprezentací znalostí, jež zároveň umožňuje snadno provádět algebracé operace, jsou vetory. Každý doument je pa reprezentován jedním příznaovým vetorem (feature vector), de jednotlvé příznay často odpovídají slovům v doumentu obsaženým. Jedním ze způsobů předzpracování textu je extrace stopslov. Jedná se o slova nemající nformační význam, nědy bývají označována jao běžná slova nebo negatvní slovní.

Taová slova mohou způsobt potíže př úlohách text mnng nžší rychlost zpracování, vlv na predc výsledů. Bezvýznamová slova tvoří velou část textových dat, což je vša problém v rámc úolů zpracování textu, de je rozměrnost dat zásadní (Kamel a Marech, 2008). V češtně mohou být zařazena mez stopslova např. spojy (a, aby, ale, an), předložy (na, pro, u), zájmena (její, my, on), málo významová slovesa (být, mít). V jných jazycích mez ně patří taé určté a neurčté členy. Dále to bývají slova specfcá pro onrétní ontext (Kadlec, 2006). Rozlšujeme dvě ategore stopslov: obecné a doménově orentované. První ategore obsahuje veřejně dostupná, standartní bezvýznamová slova. Druhá ategore zahrnuje doménově specfcá (orentovaná) slova, jež nemají nformační hodnotu v rámc dané domény nebo ontextu. Taováto slova se lší doména od domény, napřílad pojem učení může být stopslovo v oblast vzdělávání, ale naopa líčové slovo v nformatce. Výsledem odstranění těchto slov (termů) je vylepšení efetvnost úloh text mnng. Zásadní důvody vznu a rozšíření automatcy vytvářených seznamů stopslov jsou: zastarání statcé seznamy je nutno udržovat stále atuální; vlv webových technologí výrazy používané v eletroncé omunac se stávají součástí běžného jazya; dostupnost stále exstují přrozené jazyy bez standartního seznamu; ontextově specfcá slova úlohy text mnng vždy potřebují doménově specfcý seznam; (Kamel a Marech, 2008). Uvedené důvody lze označt za hlavní motvac e vznu této práce. Dosáhnout automatzovaného generování stopslov lze pomocí algortmů feature selecton. Myšlena je taová, že defnujeme nformační významnost aždého slova za použtí metr a uchováváme pouze nformačně hodnotnější slova, odstraňujeme bezvýznamná slova. Rozhodujeme o důležtost č nedůležtost aždého termu (Dave, 2011). Obsahem tohoto příspěvu je zaprvé pops vybraných metod pro odhalení doménově orentovaných stopslov. Za druhé, prezentace výsledů expermentů na textových olecích velého rozsahu, jež bylo dosaženo prostřednctvím mplementace těchto metod. Práce vzná v rámc výzumného projetu Analýza vlvu předzpracování textových doumentů na výsledy úloh text mnng, terý je řešen Ústavem nformaty PEF MENDELU. Výzum je zaměřen na analýzu vlvu předzpracování textových doumentů na výsledy lasface a shluování textových dat a extrace stopslov z textových souborů patří právě mez úlohy předzpracování textu.

Cíle a metoda Práce s lade za cíl přspět rozvoj oblast analýzy a dolování znalostí z textových dat vytvořených v přrozeném jazyce prostřednctvím mplementace metod automatcého generování stopslov, provedení expermentů a vyhodnocení výsledů. Extrace stopslov je založená na algortmech feature selecton, čl ohodnocení aždého termu (slova). Většna je založena na následujícím prncpu: Výpočet hodnoty OHODNOCENÍ(t, c ) pro aždý term t z ategore c vycházejí z použté metody. Seřazení termů dle hodnoty v sestupném pořadí. Aplování prahové funce nebo jné podmíny na seřazený seznam termů. Exstuje něol metod pro určení hodnoty termu, vybrané z nch jsou založeny na operacích s těmto hodnotam (L, 2009): A počet doumentů v ategor c obsahující term t. B počet doumentů, teré nejsou v ategor c a obsahují term t. C počet doumentů v ategor c neobsahující term t. D počet doumentů, teré nejsou v ategor c a neobsahují term t. N celový počet doumentů. Výpočty metod (defnování hodnot termů) vychází z prací autorů: Yang a Pedersen (1997), Uchygt a Clar (2008); mplementac jsou vybrány následující: Odds Rato (ODDR): Rozsah hodnot metody se nachází mez nulou a neonečnem. Hodnota 1 je neutrální výslede slovo se nelší od ostatních v daných ategorích. Blíže nule nebo neonečnu nduje odlšnost slova. ODDR upřednostňuje slova orelující s ategorí. V důsledu toho, slova vysytující se něolrát v dané ategor a ndy se nevysytující v jných ategorích mají vysoé ohodnocení. Proto mnoho slov, terá se vzácně objeví pouze v jedné ategor, označuje za stopslova. Uáza výpočtu: Informaton Gan (IG): ODDR slovo, ategore, _ N 3, 7582 ODDR SHOWER AD BC 3697441 1037093 IG měří počet btů nformace, terá se zísá pro predc ategore tím, že rozpoznáme přítomnost nebo nepřítomnost slova v doumentu. Jedná se o metodu posytující rozporuplné

výsledy. Důvodem by mohly být rozdílné zoumané oblast (domény) a různé lasfační algortmy, teré byly použty př expermentech. IG t, c F-measure Feature Ranng (FFR): A B A log B log ( A C)( A B) ( B D)( A B) C D C log D log ( A C)( C D) ( B D)( C D) FFR t, c 2A 2 A B C The Chí Statstc (CHI): Chí vadrát měří absenc nezávslost mez termem a ategorí. Přrozenou hodnotou je nula, nastává v případě, že slovo a třída jsou nezávslé. CHI t, c 2 ( AD BC) ( A B)( C D)( A C)( B D) Mutual Informaton (MI): Výzumy provedené s MI mají protchůdné výsledy. Něteré práce uvádějí, že použtím této metody dosahují nejlepších výsledů, jné opa. Příčna může být v tom, že slova vysytující se v textu vzácně jsou vysoce ohodnocena a tudíž jsou často označena za stopslova. MI t, c A N log ( A C)( A B) Koefcent Ng-Goh-Low (NGL): NGL oefcent byl navržen jao orelační oefcent varanta Chí vadrátu, mocnna ve jmenovatel obsahuje hodnotu Chí. Kladné ohodnocení slova značí, že slovo oreluje s ostatním v ategor. Zatímco záporné ohodnocení značí, že slovo oreluje se slovy jných ategorí. Na rozdíl od Chí se vybírají slova, terá orelují s danou ategorí (jsou poztvní) a nevybírá slova, terá orelují se s jným ategorem. NGL t, c N ( AD BC) ( A C)( B D)( A B)( C D) Koefcent Galavott-Sebastan-Sm (GSS): Koefcent GSS byl navržen jao zjednodušení Chí vadrátu (odstraněním tří fatorů ze jmenovatele a čtatele). Obdobně, ja tomu je u oefcentu NGL, ladné hodnoty odpovídají func orelace s danou ategorí, zatímco záporné hodnoty odpovídají func orelace s jným ategorem. GSS t, c AD CB

Metoda řešení Výzum, v rámc něhož tato práce vzná, se zaměřuje prmárně na doménu hotelových recenzí. Pro expermenty byly použty zdrojové soubory různých jazyů, aždý obsahující více než 10 tsíc recenzí (řádů). Účelem mplementace je dosáhnutí převodu dat do taové vntřní formy, že s nm lze provádět operace. Vstupem je soubor v ódování UTF8, jehož jednotlvé řády mají struturu: C\tTEXT\n de C je třída doumentu (něol znaů), \t je tabelátor, TEXT je posloupnost znaů, \n je zna once řádů. Z aždého textu jsou odebrány tagy, entnty a znay, teré nejsou písmena. Text je převeden na tzv. bag-of-words reprezentac, nebol posloupnost slov, de pořadí není důležté (Nová a Dařena, 2012). Přílad vstupního souboru: _N SHOWER WATER NOT HOT ONLY JUST WARM. _P GREAT LOCATION, GOOD BREAKFAST BUFFET. Prvním roem je tedy uložení očštěných vstupních souborů do vetorové reprezentace. U aždého termu se poračuje s výpočtem hodnot proměnných A, B, C, D (vz výše). Po tomto výpočtu lze aplovat vybranou metodu, protože jsou jž známy vešeré proměnné, teré se vysytují v uvedených vzorcích (ODDR, FFR, ). Výslede představuje hodnota defnující aždý term. Strutura termů je vntřně reprezentována polem, s těmto prvy: I: Reprezentace termu @array slovo ategore A B C D hodnota Uáza SHOWER _N 369 103 7093 7441 3,7582 Termy jsou dále seřazeny dle jejch ohodnocení. Posledním roem je vytvoření výstupu seznamu. Seznam se vygeneruje na záladě parametru (n), terý určuje, ol slov má obsahovat. Za stopslova označíme prvních n slov. Výsledy Vybrané metody, s jejchž pomocí jsou generovány seznamy stopslov, jsou mplementovány programovacím jazyem Perl. Výsledem je tedy program, jehož vstupem jsou ohodnocené textové doumenty v daném formátu a výstupem požadovaný seznam stopslov. Uvedené přílady vygenerovaných seznamů stopslov jsou z oblast hotelových recenzí. Tabuly II, III a IV zobrazují výsledy, terých bylo dosaženo.

II: Stopslova - anglčtna CHI MI NGL GSS FFR ODDR IG VERY OPPOSIT LOCATION STAFF AND THIN ROOM LOCATION REMVI STAFF LOCATION THE PEACEFUL LOCATION STAFF ARTWORK GOOD NOT STAFF SMELL STAFF GOOD UNSUAL NOT GOOD VERY CHARMING FRIENDLY NOT WALLABIES FRIENDLY AND A SHABBY GOOD FRIENDLY PROFFECIONAL HELPFUL FRIENDLY WAS FABULOUS NOT HELPFUL ANTEROOM EXCELLENT VERY NOT CLEAR HELPFUL EXCELLENT REUNION CLEAN CLEAN LOCATION NOBODY EXCELLENT CLEAN SPEEK NO HELPFUL IN STRANGE CLEAN NO WELOME COMFORTABLE NO TO OUTSTANDING NO III: Stopslova - španělštna CHI MI NGL GSS FFR ODDR IG NO GUIAN NO NO Y AMPLITUD NO PERSONAL SACARTELO PERSONAL Y LA CERCANIA TODO UBICACIÓN CONSCIENTES UBICACIÓN MUY NO INCÓMODO PERSONAL POCO SÉPTICA POCO PERSONAL DE CORTINAS UBICACIÓN MUY PERSONEN MUY QUE MUY INMEJORABLE POCO Y VERTIDO Y UBICACIÓN EL EXCELENTES EXCELENTE BUENA DOLÍAN BUENA POCO QUE DEBERIAN MUY EXCELENTE ESTRICTAS EXCELENTE UN EN INCOMODO Y TRATO DEBÍAS TRATO BUENA UN POBRE BUENA SE DESACONSEJA QUE SE DEL PRECIOSA TRATO IV: Stopslova - češtna CHI MI NGL GSS FFR ODDR IG PERSONÁL OBTĚŽOVÁNÍ PERSONÁL PERSONÁL A KLIDNÉ PERSONÁL POLOHA OHLÁŠENÍ POLOHA A V PŘÍJEMNÝ PŘÍJEMNÝ PŘÍJEMNÝ VNIKÁNÍ PŘÍJEMNÝ POLOHA NA VÝBORNÁ POLOHA BY NEZDVOŘILÉ BY HOTEL PERSONÁL ZÁPACH DOBRÁ DOBRÁ PRIVITAL DOBRÁ PŘÍJEMNÝ HOTEL NEFUNKČNÍ OCHOTNÝ OCHOTNÝ RANNICH OCHOTNÝ VELMI HOTELU ŠPATNÉ PROSTŘEDÍ PROSTŘEDÍ ZRUŠENÍ PROSTŘEDÍ DOBRÁ VELMI ABSENCE CENTRA CENTRA ODEČTENA CENTRA CENTRA SE ATMOSFÉRA BY HLUK PŘEDLOŽENA HLUK OCHOTNÝ SNÍDANĚ KLIDNÁ VÝBORNÁ POKOJI ÚČTENKA POKOJI PROSTŘEDÍ JE PLÍSEŇ KLIDNÉ Dsuze Výstupy posytované programem budou použty dalšímu zpracování v rámc výzumného projetu. Předně je nutno ověřt vlv extrace stopslov na výsledy onrétních úloh text

mnng poročlejší automatcé analýzy z hledsa odhalování mínění autorů vztažených pouze jednomu tématu, a to ja aplací lasfačních techn, ta metod objevování shluů podobných doumentů (clusterng). Uvedené výsledy (Tabuly II IV) lustrují, ja jsou jednotlvé metody navrženy. Seznamy pro něteré metody jsou dost podobné (např. CHI a NGL), jná obsahují dost odlšná slova (např. MI a FFR). Algortmy pro výpočet NGL a GSS vycházejí z metody CHI, proto dosahují podobných výsledů. Nutno podotnout, že seznamy nejsou dentcé a použtí těchto zdánlvě podobných metod může mít vlv na výsledy úloh (text mnng), proto je potřeba ještě provést expermenty. Metoda MI, ja bylo uvedeno, má tendenc zahrnovat mez stopslova vzácné výsyty slov. Tento fat se odráží v uvedených výsledcích. ODDR zahrnuje do seznamu slova, terá se objevují pouze v jedné ategor, zatímco v druhé se téměř nevysytují (např. výraz PLÍSEŇ má 40 výsytů ve třídě _N a pouze jeden výsyt ve třídě _P). FFR lade větší důraz př svém výpočtu na proměnou A (tzn. počet recenzí ve třídě obsahující slovo), proto jsou ve výstupu hojně zastoupeny slova s vyšší četností výsytu (spojy, předložy, aj. a slova typcá pro danou doménu HOTEL, PERSONÁL, ). IG zařazuje do seznamu slova, terá nesou nejmenší hodnotu nformace o dané třídě. Závěr Prmárním cílem práce byla mplementace vybraných metod pro automatzac generování stopslov. Podařlo se vytvořt program obsahující prncpy algortmů feature selecton, terý je obecně vhodný pro nasazení do oblast úloh text mnng. Tzn. výstupy jsou uplatntelné v ontextově rozdílných úlohách, což je zásadní rozdíl od obecných a veřejně dostupných seznamů. Použtelnost programu byla ověřena na rozsáhlých textových datech. Tento článe vznl v rámc řešení projetu IGA 4/2013 Analýza vlvu předzpracování textových doumentů na výsledy úloh text mnng. Zdroje DAVE, K., 2011: Study of feature selecton algorthms for text-categorzaton. Las Vegas: Unversty of Nevada. KADLEC, P., 2006: Stopslovo. In: Wpeda: the free encyclopeda [onlne]. San Francsco (CA): Wmeda Foundaton, 9. 3. 2013 [ct. 2013-10-06]. Cted from: http://cs.wpeda.org/w/stopslovo.

LI, S., et al., 2009: A framewor of feature selecton methods for text categorzaton. In: Proceedngs of the Jont Conference of the 47th Annual Meetng of the ACL and the 4th Internatonal Jont Conference on Natural Language Processng of the AFNLP: Volume 2- Volume 2. Assocaton for Computatonal Lngustcs. pp. 692-700. MAKREHCHI, M., KAMEL, M. S., 2008: Automatc extracton of doman-specfc stopwords from labeled documents. In: Advances n nformaton retreval. Sprnger Berln Hedelberg, pp. 222-233. NOVÁK, Z., DAŘENA, F., 2012: Aplace pro přípravu textových dat. [CD-ROM]. In: PEFnet 2012. ISBN 978-80-7375-669-7. UCHYIGIT, G., CLARK, K., 2008: Personalzaton technques and recommender systems. Sngapore: World Scentfc. ISBN 978-981-2797-025. WEISS, S. M., et al., 2010: Fundamentals of predctve text mnng. New Yor: Sprnger- Verlag, x, 226 p. Texts n computer scence. ISBN 9781849962261-. YANG, Y., PEDERSEN, J. O., 1997: A comparatve study on feature selecton n text categorzaton. In: ICML. pp. 412-420.