Klasifikace Suffix Tree frázemi - srovnání s metodou Itemsets
|
|
- Anežka Vítková
- před 6 lety
- Počet zobrazení:
Transkript
1 Klasifikace Suffix Tree frázemi - srovnání s metodou Itemsets Roman Tesař, Karel Ježek Katedra Informatiky a výpočetní techniky, Západočeská Univerzita v Plzni, Univezitní 8, 306 4, Plzeň {romant, jezek_ka}@kiv.zcu.cz Abstrakt. V článku je prezentován postup klasifikace pomocí Suffix Tree (ST) frází. Popsán je způsob jejich získání, ohodnocení a použití ke klasifikaci textů. Konzultovány jsou výhody a nevýhody tohoto postupu, které jsou průběžně srovnávány s metodou Itemsets, ze které princip klasifikace Suffix Tree frázemi vychází. Popsán je také způsob nastavení prahové hodnoty pro zařazení dokumentu do zvolených tématických tříd. Prostor je věnován i porovnání vlivu průměrné délky dokumentu na celkovou úspěšnost klasifikace a srovnáván je také vliv itemsetů a ST-frází vyšších řádů u obou metod. V závěru samozřejmě nechybí srovnání dosažených výsledků klasifikace s dalšími rozšířenými metodami klasifikace textů. Klíčová slova: klasifikace, kolekce dokumentů, Itemsets, ST-fráze, Suffix Tree, ohodnocení dokumentu, nastavení prahu Úvod V elektronické podobě se v současné době vydává stále více článků, časopisů i knih. Je v nich obsaženo obrovské množství informací, avšak ne všechny jsou pro každého uživatele zajímavé. Aby bylo možné se v této záplavě orientovat, je potřeba stanovit, jaký typ informací a z jaké oblasti se v jednotlivých článcích nachází. Existují již komerční instituce, které se zabývají vyhledáváním pouze relevantních informací pro své klienty. Jsou však pryč doby, kdy na tuto činnost byla vyhrazena skupina lidí pročítajících elektronické texty z různých zdrojů. Použití aplikací implementujících různé metody automatické klasifikace textu je vzhledem k stále většímu objemu dat nezbytností. Klasifikátory využívající princip strojového učení ovšem potřebují ke svému natrénování a k následnému zařazení klasifikovaného článku množinu textů zastupující jednak jednotlivé oblasti, které jsou pro daného uživatele relevantní a jednak oblast, která je pro uživatele nezajímavá. Pokrýt ovšem opravdu všechny existující tématické okruhy, které nejsou pro daného uživatele zajímavé, není vzhledem k jejich obsahové šířce možné. V tomto článku se věnujeme metodě využívající ke klasifikaci textu ohodnocených Suffix Tree frází, která tento nedostatek odstraňuje. Její princip a dosažené výsledky průběžně konzultujeme s metodou Itemsets, která je svým principem velmi podobná a která dovoluje několik modifikací.
2 Vlastnosti metody Itemsets Při návrhu a konstrukci klasifikátoru využívajícího Suffix Tree fráze jsme vycházeli z principu metody Itemsets popsané v [3], [4] a [5], která úspěšně klasifikuje zejména krátké textové dokumenty. Její nevýhodu bohužel představuje především fáze trénování, kdy jsou pomocí Apriori algoritmu (viz [5]) hledány časté množiny slov (itemsety). Složitost tohoto algoritmu je pro -itemsety lineární. Pro nejhorší případ je s rostoucím K při hledání K-itemsetů vyšších řádů kombinatorická, a to jak složitost časová, tak i složitost paměťová. Výhodu ale představuje rychlá fáze klasifikace této metody spočívající v přičítání ohodnocení předem natrénovaných K-itemsetů, jejichž všechny jednotlivé termy (slova) se v dokumentu vyskytují současně. Zajímavá je skutečnost, že použití K-itemsetů, kde K>, nepřineslo žádné zlepšení úspěšnosti klasifikace (viz kapitola 4). V důsledku potom použití -itemsetů, tedy jednotlivých slov, přináší této metodě nejvyšší úspěšnost. Dle našeho názoru je to dáno faktem, že jednotlivá slova K-itemsetu nalezeného Apriori algoritmem spolu netvoří souvislou frázi, ale jen množinu slov často se společně vyskytujících v trénovacích dokumentech. To je bezpochyby použitelné pro krátké dokumenty obsahujících řádově desítky slov, které jsou pokud možno tématicky dostatečně vzdálené. Pro delší dokumenty obsahující větší počet slov již úspěšnost klasifikace klesá v důsledku zvětšující se pravděpodobnosti nalezení většího počtu K-itemsetů společných několika klasifikačním třídám. Stejný problém nastává, pokud budeme chtít klasifikovat do více tříd dokumenty tématicky velmi podobné. Opět budou Apriori algoritmem nalezeny K-itemsety obsahující stejná nebo podobná slova pro více tříd, což může vést ke snížení úspěšnosti klasifikace. V případě, že bychom chtěli klasifikovat dokumenty jen do dvou tříd (například závadné/nezávadné), je navíc nezbytné mít k dispozici kolekce dokumentů pro obě třídy, abychom mohli klasifikátor založený na metodě Itemsets natrénovat. Na základě těchto poznatků jsme vytvořili klasifikátor, který uvedené nedostatky umožňuje alespoň částečně odstranit. K jeho konstrukci jsme využili fráze získané algoritmem Suffix Tree.. Suffix Tree fráze versus Itemsety Oproti K-itemsetům nejsou Suffix Tree fráze (dále jen ST-fráze) množiny slov současně se vyskytujících s určitou četností v trénovacích dokumentech (dokumentech zařazených do třídy). Jedná se o posloupnost po sobě následujících slov, které se v množině trénovacích dokumentů vyskytují se zadanou četností. Intuitivně by tedy STfráze měly lépe vystihovat tématické okruhy představující jednotlivé klasifikační třídy a to i v případě, že si budou velmi podobné. Vycházíme přitom z předpokladu, že tématicky blízké dokumenty budou obsahovat stejná nebo podobná slova. Na následujícím jednoduchém přikladu jsme si ověřili, že metoda Itemsets by většinu takovýchto dokumentů klasifikovala do stejné třídy.
3 Tab.. Několik vybraných natrénovaných, a 3-itemsetů pro závadnou třídu -Itemsety ohodnocení -itemsety ohodnocení 3-itemsety ohodnocení free 93,5 you hardcore 73,8 site hardcore free 70,3 adult 88,5 amateur free 77,5 adult girl teen 68,58 hardcore 83,06 girl teen 7,93 maiden babe your 59,5 teen 79,75 free hot 67,5 free site male 53,80 picture 70,8 xxx adult 60,53 woman school asia 47,65 xxx 67,43 gallery picture 56,34 guy great xxx 4,30 gallery 66,5 site free 48, latina lady adult 34,4 K jejímu natrénování jsme použili 00 závadných internetových stránek sexuálního charakteru a 000 nezávadných stránek obsahujících různá témata. Jednotlivé třídy (závadné/nezávadné) charakterizovalo 60 nejčastějších K-itemsetů pro K 3 vytvořených Apriori algoritmem. Testovali jsme nezávadné stránky, u kterých jsme očekávali chybnou klasifikaci na základě předpokladů vysvětlených v následujícím odstavci. K výpočtu kvalitativní váhy itemsetů jsme v průběhu veškerých testů použili stejný vztah, který se osvědčil a byl použit i v [5]. Ačkoli na adrese žádný sexuálně orientovaný materiál nenajdeme, byla klasifikována metodou Itemsets jako závadná. Důvod je ten, že se v HTML kódu této stránky vyskytují termy free, gallery, picture. Tyto termy se bohužel vyskytují mezi častými itemsety charakterizujícími závadnou třídu a protože zde již není mnoho textu, ve kterém by mohly být nalezeny další natrénované termy patřící do nezávadné třídy, je tato stránka chybně klasifikována. Této skutečnosti také napomáhá fakt, že váhu klasifikace nesou -itemsety jak již bylo zmíněno dříve. Nelze tedy účinně přenést váhu klasifikace na itemsety vyšších řádů nastavením nižších váhových koeficientů -itemsetům. Navíc i některé natrénované a 3 itemsety, jak je patrné z Tab.., mohou být závádějící. Pokud se například v textu dokumentu objeví trojice termů site hardcore free, nemusí se vůbec jednat o závadnou stránku, možná právě naopak. Příkladem jsou i následující stránky, u kterých dochází k podobným problémům: a další Vznikají zde ovšem i jiné potíže. Ohodnocení přiřazené K-itemsetům závadné třídy je většinou velmi vysoké, protože stránky sexuálního charakteru jsou velmi úzce zaměřeny a obsahují často stejná slova (-itemsety) a mnohdy i slovní spojení. To samozřejmě neplatí pro nezávadnou třídu, zejména pokud se snažíme jednotlivými dokumenty pokrýt co nejvíce tématických okruhů a oblastí lidské činnosti. V důsledku tedy, pokud se v závadné trénovací kolekci bude vyskytovat dostatečně často nezávadné Tento článek vznikl během projektu na filtraci závadných internetových stránek, proto kolekce takového typu
4 slovo, natrénuje se jako závadný itemset. Pokud se potom v klasifikovaném dokumentu takové slovo objeví, může toto slovo svým ohodnocením zapříčinit zařazení tohoto dokumentu do závadné třídy, protože i při současném výskytu několika natrénovaných nezávadných slov nemusí jejich ohodnocení stačit na zařazení dokumentu do správné třídy. Navíc ani pokud bychom měli k dispozici obrovskou kolekci nezávadných dat nemůžeme pokrýt tuto oblast zcela. Nebylo by ani možné použít Apriori algoritmus pro natrénování K-itemsetů vyšších řádů z důvodu jeho příliš velkých časových a paměťových nároků (viz [3] a [5]). Z těchto poznatků jsme usoudili, že podobné problémy mohou nastat i při klasifikaci do více tříd. Jak bude uvedeno dále, ke klasifikaci pomocí ST-frází postačuje mít k dispozici jen data závadné třídy, není nutné vytvářet kolekci nezávadných dokumentů. Tento fakt přináší samozřejmě snížení celkové složitosti, protože postačuje vytvořit ST-fráze jen pro třídu zastupující úzký tématický okruh, který chceme rozpoznávat. 3 Suffix Tree klasifikátor 3. Fáze trénování Při trénování jsou v kolekci vybraných dokumentů, které jsou tématicky zaměřeny na oblast, kterou budeme chtít v budoucnu rozpoznávat, vyhledávány opakované fráze. K jejich získání využíváme postupného vytváření Suffix Tree struktury zadané hloubky (princip a postup viz [] a []). V jednotlivých uzlech ovšem uchováváme jen informaci o počtu výskytů dané fráze v trénovací kolekci (viz Obr. 3.) a název termu (slova). Další údaje nejsou pro získání ohodnocených ST-frází nutné. bratr často 3 mýt auto sestra řídit často řídit mýt auto bratr často auto mýt auto auto. "bratr často myje auto". "sestra často řídí auto" 3. "sestra bratra často myje" často řídit hloubka stromu = 3 Obr. 3. Příklad struktury Sufix Tree vytvořené z trénovací kolekce tří dokumentů
5 Trénovací kolekci dokumentů, ze které chceme strukturu vytvořit, je vhodné nejprve lematizovat. Na kolekci, která nebyla lematizována, jsme v průběhu testování dosahovali vždy průměrně o 5% horší úspěšnosti klasifikace. Protože jsme testovali uspěšnost metody Sufix Tree a Itemsets jen na anglických textech (viz kapitola 4), použili jsme Porterův lemmatizátor (viz [7]) pro anglický jazyk, jehož programová realizace je dostupná z [9]. Slovník stopslov obsahoval 390 nejčastějších anglických slov převzatých z WAIS 3. Ty je samozřejmě vhodné před počátkem trénování odstranit. Text jednotlivých dokumentů byl vždy zpracováván jako jeden dlouhý řetězec, na konce vět nebyl brán zřetel. Z výsledné Sufix Tree struktury následně získáme jednotlivé fráze, jejichž maximální délka je rovna maximální hloubce stromu a na základě vzorce Fčet F ohod = 00 [%] () N K,max určíme jejich ohodnocení. Jednotlivé symboly mají následující význam: F ohod = výsledné ohodnocení konkrétní fráze F čet = četnost konkrétní fráze v trénovací kolekci K = délka ST-fráze N K,max = počet výskytů nejčastější fráze (délky K) v trénovací kolekci Jak je ze vzorce () patrné, pro ST-fráze různých délek se mění hodnota ve jmenovateli sloužící jako normovací konstanta. Je to z toho důvodu, aby nebylo potlačeno Tab. 3. Ohodnocené ST-fráze získané ze struktury na Obr. 3. ST-fráze F čet F ohod [%] často 3 00 bratr 67 mýt 67 auto 67 sestra 67 řídit 33 bratr často 67 často myje 67 často řídit 33 mýt auto 33 sestra bratr 33 sestra často 33 řídí auto 33 bratr často mýt 67 často řídit auto 33 často mýt auto 33 sestra bratr často 33 sestra často řídit 33 K (délka ST-fráze) N K, max
6 ohodnocení ST-frází větších délek. Použijeme-li totiž k normování jen nejčastěji se vyskytující frázi, bude se vždy jednat o frázi délky a tím by došlo k znevýhodnění delších frází. Proto musíme normovat vždy hodnotou, která je rovna počtu výskytů nejčastější fráze délky odpovídající ohodnocované frázi. Tabulka Tab. 3. obsahuje příklad již ohodnocených ST-frází délky, a 3 získaných ze Suffix Tree struktury zobrazené na Obr. 3., která byla vytvořena ze tří dokumentů uvedených na stejném obrázku. 3. Fáze klasifikace Ve fázi klasifikace nejprve vybereme určitý počet ST-frází, které mají nejvyšší ohodnocení určené na základě vzorce (). Vliv počtu a délky ST-frází na úspěšnost klasifikace diskutujeme v podkapitolách 4. a 4.. Testovaný dokument procházíme a hledáme výskyt jednotlivých ST-frází. Tento postup je obdobný jako u metody Itemsets, oproti které ovšem nehledáme současný výskyt jednotlivých termů K-itemsetu kdekoli v dokumentu. Jednotlivé termy ST-fráze délky větší než se v dokumentu musí vyskytovat těsně za sebou ve stejném pořadí jako při svém natrénování. Při výskytu některé z ST-frází charakterizujících určitou třídu přičteme pro testovaný dokument této třídě celkovou váhu odpovídající ohodnocení nalezené ST-fráze. Po otestování výskytu všech vybraných ST-frází reprezentujících jednotlivé klasifikační třídy zařadíme testovaný dokument do třídy s nejvyšší vahou V max. Dalším rozdílem je skutečnost, že metoda Itemsets uvažuje jen prostý výskyt jednotlivých itemsetů v dokumentu. Při klasifikaci Suffix Tree frázemi uvažujeme vícenásobný výskyt jednotlivých frází v testovaném dokumentu. Samozřejmě můžeme chtít asociovat dokument s více třídami. V tom případě zařadíme klasifikovaný dokument do všech tříd, jejichž váha přesahuje zvolený práh z maximální dosažené váhy V max (jedná se tedy o zvolené procento z V max ). V průběhu celého testování jsme dosahovali nejlepších výsledků s hodnotu prahu 75 % pro obě porovnávané metody. 4 Testování, dosažené výsledky Pro porovnání vlastností obou metod jsme vytvořili dvě kolekce složené z krátkých a dlouhých dokumentů. Využili jsme k tomu dokumenty anglické kolekce Reuters Corpus Volume z týdnů až 5 zařazených pouze do kořenových tříd (Economics, Markets, Government/Social, Corporate/Industrial). Následující tabulka (Tab. 4) obsahuje charakteristiky těchto kolekcí.
7 Tab. 4 Charakteristiky použitých kolekcí RC v. KRÁTKÉ dokumenty RC v. - DLOUHÉ dokumenty počet dokumentů celkem 9370 počet dokumentů celkem 0350 počet trénovacích dokumentů 343 počet trénovacích dokumentů 588 počet testovacích dokumentů 708 počet testovacích dokumentů 776 počet významových slov v dokumentech průměrně : 88 mentech počet významových slov v doku průměrně : 560 počet všech slov počet všech slov počet významových slov počet významových slov počet různých významových slov počet různých významových slov počet nevýznamových slov počet nevýznamových slov průměrný počet tříd, do kterých je průměrný počet tříd, do kterých je,5 dokument klasifikován dokument klasifikován,8 4. Vliv počtu -itemsetů (ST-frází délky ) na úspěšnost klasifikace Při testování obou metod jsme se nejprve zaměřili na srovnání vlivu počtu -itemsetů na úspěšnost klasifikace. Míra celkové úspěšnosti byla v průběhu celého testování chápána jako průměr dosažených hodnot přesnosti a úplnosti. Protože natrénované -itemsety odpovídaly (včetně svého ohodnocení) natrénovaným ST-frázím délky a protože princip fáze klasifikace je shodný, jsou výsledky z grafu 4. (kde je úspěšnost chápána jako průměr přesnosti a úplnosti) společné pro obě srovnávané metody. Jak je z grafů patrné, u obou metod nastává pro krátké dokumenty od určitého počtu termů reprezentujících jednotlivé třídy nasycení a přidávání dalších termů již nemá větší vliv na úspěšnost klasifikace. Pro malý počet termů (50) samozřejmě docházelo k jevu, kdy v mnoha dokumentech nebyl nalezen žádný -itemset reprezentující některou z tříd. Z grafů je také zřejmé, že vhodným kompromisem mezi kvalitou klasifikace a složitostí procesu trénování bylo použití cca 400 termů. Naopak pro kolekci delších dokumentů přidávání dalších termů reprezentujících jednotlivé třídy mělo smysl. S jejich vzrůstajícím počtem vzrůstala i úspěšnost klasifikace. Dochází zde však postupně k podobnému jevu jako v předchozím případě. Pro 800 termů a více se již projevuje vliv nasycení. Počet -itemsetů (ST-frází délky ) je tedy vhodné volit na základě předpokládané délky klasifikovaných dokumentů. Vliv počtu -itemsetů na úspěšnost klasifikace RC v. - krátké dok. (shodné pro ST-fráze délky ) počet -itemsetů pro každou třídu úspěšnost klasifikace [%] úspěšnost klasifikace [%] Vliv počtu -itemsetů na úspěšnost klasifikace RC v. - dlouhé dok. (shodné pro ST-fráze délky ) počet -itemsetů pro každou třídu Graf 4. Porovnání vlivu počtu -itemsetů na celkovou úspěšnost klasifikace
8 00 Vliv, a 3-itemsetů na celkovou úspěšnost klasifikace 00 Vliv ST-frází délky, a 3 na celkovou úspěšnost klasifikace úspěšnost klasifikace [%] řád itemsetu RC v. - krátké dokumenty RC v. - dlouhé dokumenty úspěšnost klasifikace [%] délka ST-fráze RC v. - krátké dokumenty RC v. - dlouhé dokumenty Graf 4. Porovnání vlivu itemsetů a ST-frází vyšších řádů na úspěšnost klasifikace Použití většího počtu by vedlo k zbytečnému zpomalení klasifikace dokumentů, použití nižšího počtu termů potom vede ke snížení celkové úspěšnosti klasifikace. 4. Vliv,, 3-itemsetů a ST-frází délky,, 3 Dalším předmětem našeho testování byla klasifikace s použitím itemsetů a ST-frází vyšších řádů. Hodnoty z grafu 4. jen potvrzují co je již intuitivně zřejmé. U krátkých dokumentů nehrají delší ST-fráze významější roli. Zajímavé je však zjištění, že celková úspěšnost klasifikace u metody Itemsets je dána především -itemsety. Nemá tedy smysl generovat poměrně náročným Apriori algoritmem K-itemsety, kde K>. Jak je z grafů patrné, úspěšnost se jejich použitím pro dlouhé dokumenty může zmenšovat. Je to pravděpodobně dáno skutečností, že s rostoucí délkou dokumentů se do procesu klasifikace zavlékají další obecné termy, které však pro svou obecnost nelze chápat jako charakteristické pro třídy, do kterých dokument skutečně patří. Větší délka dokumentů potom zvyšuje pravděpodobnost jejich případného současného výskytu a tím i možnost nesprávné klasifikace. Pro krátké dokumenty již není vysvětlení mírného poklesu úspěšnosti klasifikace při použití itemsetů vyšších řádů tak jednoduché. Důvodem by mohl být stále příliš velký počet termů v testovacích dokumentech a skutečnost, že jednotlivé třídy jsou svým tématickým zaměřením poměrně široké. Natrénované a 3-itemsety reprezentující jednotlivé třídy totiž měly výrazně menší váhu než itemsety získané v testu popsaném v podkapitole.. Tab. 4. Dosažené výsledky klasifikace pro jednotlivé metody P = přesnost Naive Bayes NBCI TFIDF Itemsets (,,3) ST-fráze (,,3) U = úplnost P U P U P U P U P U RC v. Krátké 94, 85,8 89,38 80,68 84,83 84,55 89,4 89,37 89,5 89,4 dokumenty 89,75 85,03 84,69 89,40 89,46 Naive Bayes NBCI TFIDF Itemsets (,,3) ST-fráze (,,3) P U P U P U P U P U RC v. Dlouhé 9,7 78,46 89,06 76,34 86,9 87, 85,45 87,86 86,74 88,95 dokumenty 84,8 8,70 86,70 86,66 87,85
9 Naopak použitím delších ST-frází úspěšnost klasifikace roste, což se nejvíce projeví u delších dokumentů. Je to samozřejmě dáno jejich větší schopností rozlišit i velmi blízká klasifikační témata. Současně je oproti itemsetům výhodou menší pravděpodobnost jejich výskytu v dokumentech, které nepatří do třídy, kterou reprezentují. 4.3 Celkové výsledky klasifikace V Tab. 4. jsou prezentovány konečné výsledky klasifikace na kolekci dlouhých a krátkých dokumentů. Hodnoty z této tabulky by neměly implikovat obecnou kvalitu jednotlivých klasifikačních metod, pro jiná vstupní data můžeme samozřejmě dostat jiné pořadí úspěšnosti prezentovaných metod. Nejlepší hodnoty pro krátké dokumenty bylo dosaženo metodou Naive Bayes. Ta používá ke klasifikaci všech slov trénovací kolekce, což je v tomto případě nejlepší přístup. Nedochází zde totiž k zbytečné ztrátě informace vlivem hledání určitých častých položek, jako je tomu u ostatních metod. Již u krátkých dokumentů je patrný malý náskok v úspěšnosti klasifikace, který získávají ST-fráze oproti Itemsetům. Tento náskok se podle očekávání nejvíce projevil u kolekce delších dokumentů, kde již rozdíl mezi metodou Itemsets a ST-frázemi činil,%. Delší dokumenty také podle očekávání lépe vyhovují metodě TFIDF, které umožnuje přítomnost většího počtu termů vytvořit relevantnější vektory reprezentující jednotlivé dokumenty a ve fázi klasifikace potom dochází k méně chybám. Popis méně známé metody NBCI je možné nalézt v [6]. Jak je z Tab. 4. patrné, obecně lepších výsledků jednotlivé metody dosáhly při klasifikaci kolekce krátkých dokumentů. Delší dokumenty pravděpodobně obsahují větší počet jednotlivých termů společných více třídám, což ztěžuje klasifikaci. 5 Závěr Na testovacích kolekcích jsme ověřili, že výsledky klasifikace ST-frázemi jsou velmi dobré i v porovnání s jinými známými metodami. Použití delších ST-frází vede k lepším celkovým výsledkům než u metody Itemsets, což je nejvíce patrné u delších dokumentů. Použití a 3-itemsetů nepřineslo žádné zlepšení. Naopak se celková úspěšnost klasifikace zhoršila. Fáze trénování při klasifikaci ST-frázemi je algoritmicky méně náročná než u metody Itemsets. Složitost Apriori algoritmu totiž při hledání K-itemsetů výrazně roste se zvyšující se hodnotou K (viz [4]), zatímco vytváření Suffix Tree struktury má stále lineární složitost (viz [8]). Fáze klasifikace je u obou metod algoritmicky i časově srovnatelná.
10 Předmětem našeho dalšího zkoumání bude porovnání složitosti různých algoritmů pro získání ST-frází, testování možností dalšího zvyšování efektivity tohoto způsobu klasifikace a možnost kombinace ST-frází s dalším klasifikátorem založeným především na metodě Naive Bayes. Reference. Grolmus P., Hynek J., Ježek K. User Profile Identification Based on Text Mining. Proc. of 6th Int. Conf. ISIM'03, pp. 09-8, MARQ Ostrava, ISBN Grolmus P., Hynek J., Ježek K. Vyhledávání častých frází pro generování uživatelských profilů (in czech), ITAT 003, pp.-9, ISBN Hynek J., Jezek K. Document Classification Using Itemsets, Proc.34th Int. Conf. MOSIS 000, ISM 000, pp.97-0, ISBN Hynek J., Jezek K., Rohlik O. Short Document Categorization - Itemsets Method, PKDD 4-th European Conference on Principles and Practice of Knowledge Discovery in Databases, Workshop Machine Learning and Textual Information Access. Lyon, France, Sept.000, pp Hynek J., Ježek K.: Automatická klasifikace dokumentů do tříd metodou Itemsets, její modifikace a vyhodnocení (in czech), Datakon 00, pp , ISBN Kučera M., Ježek K., Hynek J. Text Categorization Using NBCI Method (in czech), ZNALOSTI 003, Proc. pp.33-4, VŠB Technická univerzita Ostrava, ISBN Porter, M.F., 980, An algorithm for suffix stripping, Program, 4(3) : Zamir O., Etzioni O. Web document clustering: A feasibility demonstration. In Proceedings of the st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 98, Melbourne, Australia, Aug. 4 8), W. B. Croft, A. Moffat, C. J. van Rijsbergen, R., Wilkinson, and J. Zobel, Chairs. ACM Press, New York, NY, Annotation: Classification based on Suffix Tree phrases in comparison with Itemsets method In this paper we present a text classification method using Suffix Tree (ST) phrases. We describe how to obtain ST-phrases from the training corpora, how to evaluate them and use them for text classification. Advantages and disadvantages of this approach are discussed and compared to the Itemsets method, which the Suffix Tree classification is based on. We also explain the way a threshold for multiclass classification is determined. We devote some time to examine the document length influence on classification effectiveness and also compare the impact of higher order Itemsets and ST-phrases in both methods. Of course, some comparison of the results obtained with other favourite text classification methods is provided at last.
Autor: Jan Hošek
Úvod STC Závěr Autor: Jan Hošek Školitel: RNDr. Radim Řehůřek Fakulta jaderná a fyzikálně inženýrzká České vysoké učení technické v Praze 25. 5. 2009 Osnova Úvod STC Závěr 1 Úvod Motivace Ukázka technologie
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
Rozdělování dat do trénovacích a testovacích množin
Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném
Automatické vyhledávání informace a znalosti v elektronických textových datech
Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ
PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ Ing. David KUDLÁČEK, Katedra stavební mechaniky, Fakulta stavební, VŠB TUO, Ludvíka Podéště 1875, 708 33 Ostrava Poruba, tel.: 59
Unstructured data pre-processing using Snowball language
Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
SYSTÉM PRO AUTOMATICKÉ OVĚŘOVÁNÍ ZNALOSTÍ
SYSTÉM PRO AUTOMATICKÉ OVĚŘOVÁNÍ ZNALOSTÍ PŘIBYL VLADIMÍR Fakulta managementu, Vysoká škola ekonomická v Praze, Jarošovská 1117/II, 377 01 Jindřichův Hradec priby-vl@fm.vse.cz Abstrakt: Příspěvek se zabývá
2 VLIV POSUNŮ UZLŮ V ZÁVISLOSTI NA TVARU ZTUŽENÍ
Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2010, ročník X, řada stavební článek č. 6 Marie STARÁ 1 PŘÍHRADOVÉ ZTUŽENÍ PATROVÝCH BUDOV BRACING MULTI-STOREY BUILDING
Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
Trénování sítě pomocí učení s učitelem
Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup
Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS
Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS Veronika NEVTÍPILOVÁ Gisáček 2013 Katedra Geoinformatiky Univerzita Palackého v Olomouci Cíle otestovat kvalitu interpolace pomocí
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů Design and implementation of algorithms for adaptive control of stationary robots Marcel Vytečka 1, Karel Zídek 2 Abstrakt Článek
VLIV POČTU NESHODNÝCH VZORKŮ PŘI VYHODNOCOVÁNÍ PŘIJATELNOSTI SYSTÉMU MĚŘENÍ METODOU KŘÍŽOVÝCH TABULEK
VLIV POČTU NESHODNÝCH VZORKŮ PŘI VYHODNOCOVÁNÍ PŘIJATELNOSTI SYSTÉMU MĚŘENÍ METODOU KŘÍŽOVÝCH TABULEK Ing. Jana Hadvičáková Ing. Pavel Klaput, Ph.D. Katedra managementu kvality, VŠB-TU Ostrava E-mail:
Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty
Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty Petr Loukota, Vladimír Bartík Ústav informačních systémů, Fakulta informačních technologií VUT v Brně, Česká republika iloukota@fit.vutbr.cz,
Ekonomické srovnání dodavatelů dřevodomků pro stanovený etalon rodinného domu
Vysoké učení technické v Brně Fakulta stavební Studentská vědecká a odborná činnost Akademický rok 2011/2012 Ekonomické srovnání dodavatelů dřevodomků pro stanovený etalon rodinného domu Jméno a příjmení
Základy umělé inteligence
Základy umělé inteligence Automatické řešení úloh Základy umělé inteligence - prohledávání. Vlasta Radová, ZČU, katedra kybernetiky 1 Formalizace úlohy UI chápe řešení úloh jako proces hledání řešení v
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
Geometrické indexování a dotazování multimediálních dat
Geometrické indexování a dotazování multimediálních dat Tomáš Skopal, Michal Krátký, Václav Snášel Katedra informatiky, VŠB-Technická Univerzita Ostrava 17. listopadu 15, 708 33 Ostrava-Poruba {michal.kratky,
Vytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
Binární vyhledávací stromy pokročilé partie
Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald
Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
Algoritmy a struktury neuropočítačů ASN P3
Algoritmy a struktury neuropočítačů ASN P3 SOM algoritmus s učitelem i bez učitele U-matice Vektorová kvantizace Samoorganizující se mapy ( Self-Organizing Maps ) PROČ? Základní myšlenka: analogie s činností
ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu
ČVUT FEL X36PAA - Problémy a algoritmy 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu Jméno: Marek Handl Datum: 3. 2. 29 Cvičení: Pondělí 9: Zadání Prozkoumejte citlivost metod
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Datové struktury 2: Rozptylovací tabulky
Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
PROJEKT SEN-NET (SENIORS IN NETWORK)
PROJEKT SEN-NET (SENIORS IN NETWORK) BOŽENA MANNOVÁ, JOSEF BIČÍK České vysoké učení technické v Praze Abstrakt: Vzhledem k rostoucímu počtu seniorů v populaci je velmi důležité poskytnout seniorům vzdělání,
Strojové učení se zaměřením na vliv vstupních dat
Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications
Lineární klasifikátory
Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout
Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.
Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy
Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze
Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,
Struktura e-learningových výukových programù a možnosti jejího využití
Struktura e-learningových výukových programù a možnosti jejího využití Jana Šarmanová Klíčová slova: e-learning, programovaná výuka, režimy učení Abstrakt: Autorská tvorba výukových studijních opor je
Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.
Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.
Stanovení typu pomocného regulátoru v rozvětvených regulačních obvodech
Proceedings of International Scientific onference of FME Session 4: Automation ontrol and Applied Informatics Paper 7 Stanovení typu pomocného regulátoru v rozvětvených regulačních obvodech DAVIDOVÁ, Olga
Využití matematického zpracování údajů o množstvi plynnovzdušné směsi získaných z monitoringu odplyňovacích vrtů
Využití matematického zpracování údajů o množstvi plynnovzdušné směsi získaných z monitoringu odplyňovacích vrtů Iveta Cholovová 1 a Josef Mazáč 2 Utilizationof processing mathematic data on gas air mixtures
Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna
Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel
Zelený produkt automobilek a jeho vnímání různými generacemi českých spotřebitelů EVA JADERNÁ, MARTIN MLÁZOVSKÝ
Zelený produkt automobilek a jeho vnímání různými generacemi českých spotřebitelů EVA JADERNÁ, MARTIN MLÁZOVSKÝ Řešitelský tým Vedoucí projektu: Ing. Eva Jaderná, Ph.D., Katedra marketingu a managementu
Formální jazyky a gramatiky Teorie programovacích jazyků
Formální jazyky a gramatiky Teorie programovacích jazyků doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Připomenutí základních pojmů ABECEDA jazyk je libovolná podmnožina
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
Implementace Bayesova kasifikátoru
Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6
Změkčování hranic v klasifikačních stromech
Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment
Animace ve WPF. Filip Gažák. Ing. Václav Novák, CSc. Školní rok: 2008-09
Animace ve WPF Filip Gažák Ing. Václav Novák, CSc. Školní rok: 2008-09 Abstrakt Hlavním tématem práce bude nový prvek pro tvorbu uživatelského prostředí ve WPF animace. V teoretické části se nejprve seznámíme
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
Lineární diskriminační funkce. Perceptronový algoritmus.
Lineární. Perceptronový algoritmus. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics P. Pošík c 2012 Artificial Intelligence 1 / 12 Binární klasifikace
Pravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
Dálkový průzkum Země. Klasifikace obrazu
Dálkový průzkum Země Klasifikace obrazu Neřízená klasifikace v IDRISI Modul CLUSTER (Image Processing / Hard Classifiers) využívá techniku histogramových vrcholů pásma pro klasifikaci výsledný obraz volba
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,
POROVNÁNÍ VLIVU DEPOSICE TENKÝCH VRSTEV A NAVAŘOVÁNÍ NA DEGRADACI ZÁKLADNÍHO MATERIÁLU
POROVNÁNÍ VLIVU DEPOSICE TENKÝCH VRSTEV A NAVAŘOVÁNÍ NA DEGRADACI ZÁKLADNÍHO MATERIÁLU COMPARISON OF INFLUENCES OF DEPOSITION THIN FILMS AND WELDING ON DEGRADATION OF BASIC MATERIAL Monika Hadáčková a
ANALYTICKÉ PROGRAMOVÁNÍ
ZVYŠOVÁNÍODBORNÝCH KOMPETENCÍAKADEMICKÝCH PRACOVNÍKŮ OSTRAVSKÉUNIVERZITY V OSTRAVĚ A SLEZSKÉ UNIVERZITY V OPAVĚ ANALYTICKÉ PROGRAMOVÁNÍ Eva Volná Zuzana Komínková Oplatková Roman Šenkeřík OBSAH PRESENTACE
Anténní řada 2x2 pro přenos digitálního TV signálu v pásmu 4,4 až 5 GHz
Rok / Year: Svazek / Volume: Číslo / Issue: 2012 14 3 Anténní řada 2x2 pro přenos digitálního TV signálu v pásmu 4,4 až 5 GHz 2x2 antenna array for receiving of the digital Tv signal working in the band
Ctislav Fiala: Optimalizace a multikriteriální hodnocení funkční způsobilosti pozemních staveb
16 Optimální hodnoty svázaných energií stropních konstrukcí (Graf. 6) zde je rozdíl materiálových konstant, tedy svázaných energií v 1 kg materiálu vložek nejmarkantnější, u polystyrénu je téměř 40krát
Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.
Jazykové modelování Pavel Smrž 27. listopadu 2006 Osnova 1 Úvod motivace, základní pojmy 2 Modely n-tic 3 Způsob vyhodnocování 4 Vyhlazování a stahování 5 Rozšíření modelů n-tic 6 Lingvisticky motivované
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
POROVNÁNÍ NĚKTERÝCH SW PRO ZOBRAZENÍ GRAFU FUNKCE DVOU PROMĚNNÝCH
POROVNÁNÍ NĚKTERÝCH SW PRO ZOBRAZENÍ GRAFU FUNKCE DVOU PROMĚNNÝCH Martin Fajkus Univerzita Tomáše Bati ve Zlíně, Fakulta aplikované informatiky, Ústav matematiky, Nad Stráněmi 4511, 760 05 Zlín, Česká
MAPOVÉ PODKLADY A VYUŽITÍ VÝPOČETNÍ TECHNIKY A GISU PRO TVORBU TRAS LINEK MAP BASIS AND USING OF COMPUTERS AND GIS FOR TRANSPORT LINE DESIGN
MAPOVÉ PODKLADY A VYUŽITÍ VÝPOČETNÍ TECHNIKY A GISU PRO TVORBU TRAS LINEK MAP BASIS AND USING OF COMPUTERS AND GIS FOR TRANSPORT LINE DESIGN Jaroslav Kleprlík 1, David Šourek 2 Anotace: Tento článek se
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
TELEGYNEKOLOGIE TELEGYNECOLOGY
TELEGYNEKOLOGIE TELEGYNECOLOGY Račanská E. 1, Huser M. 1, Schwarz D. 2, Šnábl I. 2, Ventruba P. 1 1) Gynekologicko porodnická klinika LF MU a FN Brno 2) Institut biostatistiky a analýz LF a PřF MU Abstrakt
ACOUSTIC EMISSION SIGNAL USED FOR EVALUATION OF FAILURES FROM SCRATCH INDENTATION
AKUSTICKÁ EMISE VYUŽÍVANÁ PŘI HODNOCENÍ PORUŠENÍ Z VRYPOVÉ INDENTACE ACOUSTIC EMISSION SIGNAL USED FOR EVALUATION OF FAILURES FROM SCRATCH INDENTATION Petr Jiřík, Ivo Štěpánek Západočeská univerzita v
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku
Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku Aneta Milsimerová Fakulta strojní, Západočeská univerzita Plzeň, 306 14 Plzeň. Česká republika. E-mail: anetam@kto.zcu.cz Hlavním
Přehled modelů reputace a důvěry na webu
Přehled modelů reputace a důvěry na webu Jiří Vaňásek Ing. Ladislav Beránek Školní rok: 2008-09 Abstrakt V online systémech se musíme spoléhat na mechanismy implementované v rámci daného systému, na reputační
PODŘÍZNUTÍ PŘI BROUŠENÍ TVAROVÝCH DRÁŽEK
Transfer inovácií 5/009 009 PODŘÍZNUTÍ PŘI BROUŠENÍ TVAROVÝCH DRÁŽEK Prof. Ing. Karel Jandečka, CSc. Katedra technologie obrábění, FST, ZČU v Plzni, Univerzitní 8, 306 4, Plzeň, ČR e-mail: jandecka@kto.zcu.cz
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
Klasifikační metody pro genetická data: regularizace a robustnost
Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační
2D A 3D SNÍMACÍ SYSTÉMY PRŮMĚRU A DÉLKY KULATINY ROZDÍLY VE VLASTNOSTECH A VÝSLEDCÍCH MĚŘENÍ
TRIESKOVÉ A BEZTRIESKOVÉ OBRÁBANIE DREVA 2006 12. - 14. 10. 2006 159 2D A 3D SNÍMACÍ SYSTÉMY PRŮMĚRU A DÉLKY KULATINY ROZDÍLY VE VLASTNOSTECH A VÝSLEDCÍCH MĚŘENÍ Karel Janák Abstract Different methods
SLEDOVÁNÍ KONFLIKTNÍCH SITUACÍ Z PLOVOUCÍHO VOZIDLA
SLEDOVÁNÍ KONFLIKTNÍCH SITUACÍ Z PLOVOUCÍHO VOZIDLA Vladislav Křivda 1, Martin Blatoň 2 Anotace: Článek popisuje návrh dynamické metody sledování konfliktních situací z plovoucího vozidlo, která vychází
Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu
Metoda Monte Carlo a její aplikace v problematice oceňování technologií Manuál k programu This software was created under the state subsidy of the Czech Republic within the research and development project
3. Vícevrstvé dopředné sítě
3. Vícevrstvé dopředné sítě! Jsou tvořeny jednou nebo více vrstvami neuronů (perceptronů). Výstup jedné vrstvy je přitom připojen na vstup následující vrstvy a signál se v pracovní fázi sítě šíří pouze
Reranking založený na metadatech
České vysoké učení technické v Praze Fakulta informačních technologií Katedra softwarového inženýrství Reranking založený na metadatech MI-VMW Projekt IV - 1 Pavel Homolka Ladislav Kubeš 6. 12. 2011 1
POŽADAVKY UŽIVATELE DOPRAVNÍHO SYSTÉMU USER REQUIREMENTS TRANSPORT SYSTEM
POŽADAVKY UŽIVATELE DOPRAVNÍHO SYSTÉMU USER REQUIREMENTS TRANSPORT SYSTEM Rudolf Kampf 1 Anotace: Článek se zabývá problematikou základních parametrů, které ovlivňují volbu dopravního prostředku uživatelem.
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy
Stromy úvod Stromy Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Neorientovaný strom Orientovaný strom Kořenový orientovaný
APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL
APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL Jiří Kulička 1 Anotace: Článek se zabývá odvozením, algoritmizací a popisem konstrukce
ANALÝZA STRUKTURY A DIFERENCIACE MEZD ZAMĚSTNANCŮ EMPLOEE STRUCTURE ANALYSIS AND WAGE DIFFERENTIATION ANALYSIS
ANALÝZA STRUKTURY A DIFERENCIACE MEZD ZAMĚSTNANCŮ EMPLOEE STRUCTURE ANALYSIS AND WAGE DIFFERENTIATION ANALYSIS Pavel Tomšík, Stanislava Bartošová Abstrakt Příspěvek se zabývá analýzou struktury zaměstnanců
Neuronové sítě v DPZ
Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě
Libor Kasl 1, Alois Materna 2
SROVNÁNÍ VÝPOČETNÍCH MODELŮ DESKY VYZTUŽENÉ TRÁMEM Libor Kasl 1, Alois Materna 2 Abstrakt Příspěvek se zabývá modelováním desky vyztužené trámem. Jsou zde srovnány různé výpočetní modely model s prostorovými
Hlavní rizikové oblasti používání ukazatele rentability vložených prostředků při rozhodování #
Hlavní rizikové oblasti používání ukazatele rentability vložených prostředků při rozhodování # Marie Míková * Článek navazuje na článek Harmonizace účetního výkaznictví z pohledu finanční analýzy se zaměřením
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam
Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004
Dokumentace k projektu č. 2 do IZP Iterační výpočty 24. listopadu 2004 Autor: Kamil Dudka, xdudka00@stud.fit.vutbr.cz Fakulta Informačních Technologií Vysoké Učení Technické v Brně Obsah 1. Úvod...3 2.
Dobývání znalostí z textů text mining
Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro
The Czech education system, school
The Czech education system, school Pracovní list Číslo projektu Číslo materiálu Autor Tematický celek CZ.1.07/1.5.00/34.0266 VY_32_INOVACE_ZeE_AJ_4OA,E,L_10 Mgr. Eva Zemanová Anglický jazyk využívání on-line
Tabulka 1. Výběr z datové tabulky
1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat
STUDIJNÍ OPORY S PŘEVAŽUJÍCÍMI DISTANČNÍMI PRVKY PRO VÝUKU STATISTIKY PRVNÍ ZKUŠENOSTI. Pavel Praks, Zdeněk Boháč
STUDIJNÍ OPORY S PŘEVAŽUJÍCÍMI DISTANČNÍMI PRVKY PRO VÝUKU STATISTIKY PRVNÍ ZKUŠENOSTI Pavel Praks, Zdeněk Boháč Katedra matematiky a deskriptivní geometrie, VŠB - Technická univerzita Ostrava 17. listopadu
Vizualizace v Information Retrieval
Vizualizace v Information Retrieval Petr Kopka VŠB-TU Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Obsah Co je Information Retrieval, vizualizace, proces přístupu k informacím Způsoby
UMÍ POČÍTAČE POČÍTAT?
UMÍ POČÍTAČE POČÍTAT? O ÚSKALÍCH POČÍTAČOVÉ ARITMETIKY RNDr. Iveta Hnětynková, PhD. Katedra numerické matematiky VÝPOČTY A SIMULACE Aplikace: chemie, fyzika, lekařství, statistika, ekonomie, stojírenství,...
prekrocena mez ukazatele kvality.
Příklad efektivního využití dataminingových metod v oblasti kontroly kvality výroby Mgr. Petra Beranová Pokud hovoříme o data miningu (dolování dat), většina z nás si jako typické oblasti využití vybaví
Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2011, ročník X1, řada stavební článek č.
Sborník vědeckých prací Vysoké školy báňské - Technické univerzity Ostrava číslo 1, rok 2011, ročník X1, řada stavební článek č. 16 Karel VOJTASÍK 1, Eva HRUBEŠOVÁ 2, Marek MOHYLA 3, Jana STAŇKOVÁ 4 ZÁVISLOST
Technický experiment, příprava, provedení, hodnocení výsledků
Technický experiment, příprava, provedení, hodnocení výsledků 1 Katedra stavebních hmot a hornického stavitelství VŠB - Technická univerzita Ostrava 8. 3. 2012 Experiment Experiment se snaží získat potřebné
ÚSPORY ENERGIE PŘI CHLAZENÍ VENKOVNÍHO VZDUCHU
2. Konference Klimatizace a větrání 212 OS 1 Klimatizace a větrání STP 212 ÚSPORY ENERGIE PŘI CHLAZENÍ VENKOVNÍHO VZDUCHU Vladimír Zmrhal ČVUT v Praze, Fakulta strojní, Ústav techniky prostředí Vladimir.Zmrhal@fs.cvut.cz
Monitorování vývoje meteo situace nad ČR pomocí GPS meteorologie
Monitorování vývoje meteo situace nad ČR pomocí GPS meteorologie Bc. Michal Kačmařík Instutut geoinformatiky, Hornicko-geologická fakulta, Vysoká škola báňská Technická univerzita Ostrava, 17. listopadu
Selected article from Tento dokument byl publikován ve sborníku
Selected article from Tento dokument byl publikován ve sborníku Nové metody a postupy v oblasti přístrojové techniky, automatického řízení a informatiky 2018 New Methods and Practices in the Instrumentation,
Hodnocení korozí odolnosti systémů tenká vrstva substrát v prostředí kompresorů
Hodnocení korozí odolnosti systémů tenká vrstva substrát v prostředí kompresorů Analysis of Corrosion Resistance of Systems Thin Films Substrate in Compressors Environment Jiří Hána, Ivo Štěpánek, Radek
Digitální učební materiál
Digitální učební materiál Číslo projektu: CZ.1.07/1.5.00/34.0548 Název školy: Gymnázium, Trutnov, Jiráskovo náměstí 325 Název materiálu: VY_32_INOVACE_145_IVT Autor: Ing. Pavel Bezděk Tematický okruh:
USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING
USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING Eva Minaříková Institute for Research in School Education, Faculty of Education, Masaryk University Structure of the presentation What can we as teachers