Autor: Jan Hošek

Podobné dokumenty
Zadání druhého zápočtového projektu Základy algoritmizace, 2005

SADA VY_32_INOVACE_CJ1

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Dataprojektor, kodifikační příručky

Zadání semestrálního projektu Algoritmy II. letní semestr 2017/2018

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

Interpolace Lagrangeovy polynomy. 29. října 2012

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Marta Klimecká Týdenní dotace hodin: 8 hodin Ročník: třetí

Základy algoritmizace. Pattern matching

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jitka Vlčková Týdenní dotace hodin: 8 hodin Ročník: čtvrtý

Metodický koncept k efektivní podpoře klíčových odborných kompetencí s využitím cizího jazyka ATCZ62 - CLIL jako výuková strategie na vysoké škole

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Jazyková výchova Párové souhlásky. Opakování párových souhlásek na konci slov. Párové souhlásky uvnitř slov. Abeceda ČaJs. Slovo

Aplikace obrazové fúze pro hledání vad

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

Minimalizace KA - Úvod

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

NG C Implementace plně rekurentní

Automatizace ST optimalizace. Lukas Vozda Analytics & Automation

Hodnocení psaní. Seminář Brno

Binární vyhledávací stromy II

Zobrazování barev Josef Pelikán CGG MFF UK Praha.

InternetovéTechnologie

Český jazyk a literatura - jazyková výchova

Návrh Designu: Radek Mařík

Metodika korelační analýzy výsledků vyhledávače Seznam.cz

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

InternetovéTechnologie

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Český jazyk, 3. ročník 2014/2015

bin arn ı vyhled av an ı a bst Karel Hor ak, Petr Ryˇsav y 23. bˇrezna 2016 Katedra poˇ c ıtaˇ c u, FEL, ˇ CVUT

Ukázkový test. Otázka číslo: 1. Text k otázkám 1-15: Nevzpomínám si, kdo přišel s nápadem, abychom si opatřili do bytu nějaké přítulné zvířátko.

Vyhledávání v textu. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava

Dokumentace programu piskvorek

Lineární algebra : Násobení matic a inverzní matice

Dobývání znalostí z textů text mining

Využití strojového učení k identifikaci protein-ligand aktivních míst

Dataprojektor, jazykové příručky, pracovní listy

ZŠ ÚnO, Bratří Čapků 1332

Algoritmus pro hledání nejkratší cesty orientovaným grafem

TEMATICKÝ PLÁN VÝUKY

Datové struktury 2: Rozptylovací tabulky

5. Vyhledávání a řazení 1

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Vyhledávání informací Studijní a informační centrum, ČZU v Praze

Algoritmy a datové struktury

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Modifikace algoritmu FEKM

TEMATICKÝ-ČASOVÝ PLÁN Vyučovací předmět : Český jazyk Ročník :_3. Školní rok:_ Vyučující: Z. Piknová. Zařazená průřezová témata OSV OSV, MV

TEMATICKÝ PLÁN. Literatura: Český jazyk - Z. Krausová, R. Teršová, Fraus 2012, pracovní sešit Český jazyk pro 6. ročník - V.

Vyvažování a rotace v BVS, všude se předpokládá AVL strom

TEMATICKÝ PLÁN 6. ročník

Automatické vyhledávání informace a znalosti v elektronických textových datech

DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB

Experimentální systém pro WEB IR

Dolování z textu. Martin Vítek

Statistická teorie učení

Lineární algebra : Násobení matic a inverzní matice

UČEBNÍ PLÁN PŘEDMĚTU VZDĚLÁVACÍ OBLAST: JAZYK A JAZYKOVÁ KOMUNIKACE ZÁKLADNÍ ŠKOLA LIPTÁL

Static Load Balancing Applied to Time Dependent Mechanical Problems

Dataprojektor, jazykové příručky, pracovní listy

Téma 8: Optimalizační techniky v metodě POPV

Všestranný jazykový rozbor (VJR)

InternetovéTechnologie

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

Numerické řešení variačních úloh v Excelu

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

PARAMETRY EFEKTIVITY UČENÍ SE ŽÁKA V PROSTŘEDÍ E-LEARNINGU SE ZAMĚŘENÍM NA ADAPTIVNÍ VÝUKOVÉ MATERIÁLY

Využití metod strojového učení v bioinformatice David Hoksza

algoritmus»postup06«p e t r B y c z a n s k i Ú s t a v g e o n i k y A V

Objektově orientovaná implementace škálovatelných algoritmů pro řešení kontaktních úloh

Český jazyk ve 2. ročníku

Složitost her. Herní algoritmy. Otakar Trunda

Select sort: krok 1: krok 2: krok 3: atd. celkem porovnání. výběr nejmenšího klíče z n prvků vyžaduje 1 porovnání

Vytěžování znalostí z dat

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Spojení OntoUML a GLIKREM ve znalostním rozhodování

OPVK.CZ.1.07/1.2.33/

Seznámíte se s principem integrace metodou per partes a se základními typy integrálů, které lze touto metodou vypočítat.

IB111 Úvod do programování skrze Python

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

8 Přednáška z

a) b) c) Radek Mařík

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

ADT STROM Lukáš Foldýna

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Algoritmy pro shlukování prostorových dat

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Programovací jazyky. imperativní (procedurální) neimperativní (neprocedurální) assembler (jazyk symbolických instrukcí)

Vybrané statistické metody. You created this PDF from an application that is not licensed to print to novapdf printer (

Algoritmy komprese dat

Dijkstrův algoritmus

Adresní vyhledávání (přímý přístup, zřetězené a otevřené rozptylování, rozptylovací funkce)

Transkript:

Úvod STC Závěr Autor: Jan Hošek Školitel: RNDr. Radim Řehůřek Fakulta jaderná a fyzikálně inženýrzká České vysoké učení technické v Praze 25. 5. 2009

Osnova Úvod STC Závěr 1 Úvod Motivace Ukázka technologie pro anglické dokumenty 2 STC Suffix Tree Clustering Algoritmus Složitost 3 Závěr Shrnutí Reference

Motivace Úvod STC Závěr Motivace Ukázka technologie pro anglické dokumenty Problém Řešení Vyhledávače vrací výsledky jako dlouhý seznam seřazený podle relevance Uživatelé často kladou příliš obecné dotazy První subjektivně vyhovující dokument může být v seznamu velmi daleko Nalézt v seznamu výsledků skupiny podobných dokumentů a spojit je do shluků Uživatel nemusí procházet celý seznam, ale je navigován do skupiny dokumentů, která ho zajíma Seznam dokumentů lze přeskupit (proložit) tak, aby na začátku byli zástupci ze všech skupin.

Úvod STC Závěr Motivace Ukázka technologie pro anglické dokumenty Ukázka technologie Vivisimo Ukázka technologie Vivisimo

Úvod STC Závěr Motivace Ukázka technologie pro anglické dokumenty Ukázka technologie Vivisimo Ukázka technologie Vivisimo

Úvod STC Závěr Suffix Tree Clustering Algoritmus Složitost Suffix Tree Clustering Shlukování na základě shodných frází STC - Suffix Tree Clustering Algoritmus shlukování pomocí suffixového stromu popsal O. Zamir[1] Hlavním úkolem této práce je implementovat a otestovat tento algoritmus pro české texty Možná úskalí českého jazyka Bohaté tvarosloví Volnější slovosled Psaní bez diakritiky

Úvod STC Závěr Suffix Tree Clustering Algoritmus Složitost Postup algoritmu Předzpracování textu Odstranění zvláštních znaků, převod na malá písmena Rozdělení na věty a na slova Odstranění předpon, přípon, množného čísla atd. Nalezení základních shluků Vygenerování suffixtree Nalezení základních shluků a jejich ohodnocení s(b) = B f ( P ) B - počet dokumentů ve shluku B P - počet slov ve frázi P Z hodnocení fráze vynecháme příliš častá a příliš řídká slova

Suffixtree Úvod STC Závěr Suffix Tree Clustering Algoritmus Složitost cat ate cheese, mouse ate cheese too, cat ate mouse too

Úvod STC Závěr Suffix Tree Clustering Algoritmus Složitost Postup algoritmu Předzpracování textu Odstranění zvláštních znaků, převod na malá písmena Rozdělení na věty a na slova Odstranění předpon, přípon, množného čísla atd. Nalezení základních shluků Vygenerování suffixtree Nalezení základních shluků a jejich ohodnocení s(b) = B f ( P ) B - počet dokumentů ve shluku B P - počet slov ve frázi P Z hodnocení fráze vynecháme příliš častá a příliš řídká slova

Úvod STC Závěr Suffix Tree Clustering Algoritmus Složitost Postup algoritmu Kombinace základních shluků Dokumenty mají často více společných frází Na množině shluků definujeme ekvivalenci: B n B m ( B m B n / B m > 0, 5) ( B m B n / B n > 0, 5) Třídy této ekvivalence jsou výsledné shluky

Složitost STC Úvod STC Závěr Suffix Tree Clustering Algoritmus Složitost Předpokládáme n dokumentů na vstupu Velikost dokumentu je omezená Tedy i hloubka suffixového stromu je omezená Časová složitost výpočtu základních shluků je O(n) Kombinování shluků je teoreticky O(n 2 ), ale když se omezíme na porovnávání ostatních shluků vůči k nejvýše hodnoceným je složitost O(n) Celkem O(n)

Shrnutí Úvod STC Závěr Shrnutí Reference STC O(n) algoritmus pro hledání shluků v posloupnosti dokumentů Implementace v jazyce Python Úpravy pro české dokumenty Pro výpočet četnosti slov jsem použil převod na základní tvar (lemmatizace) V hodntící funkci fráze je vhodné penalizovat zájmena, předložky, spojky, částice a citoslovce

Úvod STC Závěr Shrnutí Reference Reference Zamir, O. and Etzioni, O., Web document clustering: a feasibility demonstration Vivisimo, http://clusty.com/ Děkuji za pozornost