SHLUKOVÁNÍ A TEXTOVÉ DOKUMENTY

Rozměr: px
Začít zobrazení ze stránky:

Download "SHLUKOVÁNÍ A TEXTOVÉ DOKUMENTY"

Transkript

1 ROBUST 2004 c JČMF 2004 SHLUKOVÁNÍ A TEXTOVÉ DOKUMENTY Dušan Húsek, Hana Řezanková, Václav Snášel Klíčová slova: Výpočetní statistika, shlukování, rozsáhlé datové soubory, dokumentografické informační systémy. Abstrakt: V práci jsou zhodnoceny některé možnosti využití shlukovacích metod pro vyhledávání v textových dokumentech. Využití těchto metod je umožněno geometrizací vyhledávacího problému na základě vektorového modelu. Přestože tato problematika patří v oblasti vyhledávání mezi klasické, není v současné době uspokojivě vyřešena. Jedním z hlavních problémů při shlukování je vysoká dimenzionalita vstupních dat. V příspěvku jsou charakterizovány speciální postupy navržené pro shlukování takových vysoce dimenzionálních dat. 1 Úvod Třída programových nástrojů určených pro zpracovávání, úschovu a výběr dat, kterými jsou textové dokumenty, je reprezentována textovými(dokumentografickými) informačními systémy(dis). V takovém systému je vhodné s texty pracovat na více úrovních abstrakce, tj. vedle textů je vhodné popsat i jejich schéma pomocí odpovídajícího modelu. Toto schéma je ve svých funkcích podobné schématu klasických databází. Model DIS je definován jako soubor pojmů či nástrojů pro reprezentaci dokumentu(tvoří formální popis informace obsažené v dokumentu), reprezentaci dotazu(umožňuje specifikovat formálně požadavek na informace), reprezentaci pravidel a procedur umožňujících určit shodu mezi požadavkem uživatele na informace a dokumenty, které vyhovují tomuto požadavku. Mezi prominentní modely DIS patří v současnosti rozšířený Booleovský model, vektorový model a model založený na pravděpodobnostním výběru. V tomto příspěvku se budeme zabývat vektorovým modelem. V něm je textový dokument reprezentován vektorem, jehož prvky charakterizují výskyt slov(resp. termů) obsažených v dokumentech. Geometrizace vyhledávacích problémů, viz[20], dává vznik mnoha zajímavým problémům spojeným se shlukováním dat ve vysoce dimenzionálních prostorech. Vektor může být buď binární(slovo se v dokumentu vyskytuje nebo ne), nebo může obsahovat četnosti výskytu, případně váhy založené na důležitosti slov v celé kolekci dokumentů.proanalýzupakmámekdispozicimatici nxm,kde njepočet dokumentůamjepočetslov.prouvedenoumaticijetypické,žejevelkých rozměrů,atozejménapokudjdeopočetsloupců,ažejevelmiřídká(uvádíse, že nenulových prvků je obvykle pouze kolem dvou procent). Další podrobnosti viz[4]. Základní úlohou při analýze takových dat je shlukování dokumentů. Pomocí hierarchické shlukové analýzy lze nalézt různé úrovně skupin dokumentů. Cílem shlukové analýzy je nalézt shluky tak, aby dokumenty uvnitř

2 126 Dušan Húsek, Hana Řezanková, Václav Snášel shlukusibylyconejvícepodobnéaabyjejichpodobnostsdokumentyzjiných shluků byla menší. Pomocí shlukování dokumentů tak můžeme zjistit témata, která se vyskytují ve sledované kolekci textových dokumentů[7]. Dále mohou být na základě zjištěných skupin navrženy modely, pomocí nichž jednak může být nový dokument zařazen do některé ze skupin, jednak může být vyhledána skupina dokumentů, které nejvíce vyhovují zadanému dotazu. Protože rozsah datové matice je obvykle značný, jsou využívány jednak metody redukce dimenzionality, jednak speciální postupy pro shlukování. Tyto postupy jsou buď přímo zaměřeny na problematiku textových dokumentů nebo jde o obecné metody určené pro analýzu rozsáhlých datových souborů(data mining). Jako příklad prvního typu je shlukování náhodně vybraných dokumentů opakované pro různé výběry, které může vést ke stanovení množiny slov vhodné pro charakterizování sledované kolekce dokumentů(viz[25]). Shlukování dokumentů a případné vytváření modelů pro přiřazování dokumentů či dotazů ke zjištěným shlukům je pak prováděno s redukovaným počtem slov. Jiné využití shlukování při analýze textových dokumentů vychází z toho, že při aplikaci metod strojového učení pro řešení klasifikačních úloh je potřeba najít vhodnou tréninkovou množinu, tj. takovou, která by neobsahovala příliš mnoho podobných dokumentů. Toho lze docílit tím, že jsou dokumenty rozděleny do shluků a do tréninkové množiny jsou vybírání zástupci těchto shluků. V[12] je navrženo použít metodu k-průměrů a z každého vytvořeného shluku vybrat dokument, který je nejbližší centroidu. 2 Měření podobnosti mezi textovými dokumenty Nejčastějším ohodnocením výskytu slov v dokumentech je výpočet vah. Ty mohou být počítány různými způsoby(rozsáhlé experimenty s vážením termů jsoupopsányv[21]),dvaznichjsoupopsányvnásledujícíčásti. 2.1 Výpočet vah pro vstupní datovou matici Políčkavstupnídatovámaticeobsahujíváhy w ij,kde ioznačujedokument (i=1,...,n)aj označujeslovo,kterésevyskytujevezkoumanékolekci dokumentů(,...,m).označmesitf ij četnostivýskytu j-téhoslova v i-témdokumentuaidf j inverzníčetnostslovvevšechdokumentech,která jepočítánajakoidf j =log(n/k j )+1,kde k j jepočetdokumentů,vnichž se vyskytuje j-té slovo. Potřebnou váhu pak získáme jako součin četnosti aodpovídajícíinverzníčetnostipříslušnéhoslova,tj. w ij =TF ij *IDF j. Ibrahimov v[11] navrhuje tzv. kombinovanou váhu počítanou jako(pozměněno značení) w ij = (K+1) CFW j TF ij K ((1 b)+b NDL i )+TF ij,

3 Shlukování a textové dokumenty 127 ( n přičemž CFW j =log andl i jedélka i-téhodokumentunormalizovaná průměrnou délkou dokumentu. Parametr b je uživatelem zadané číslo a jeho doporučovaná hodnota je 0,75(řídí vliv délky dokumentu), K je diskontní parametr, který souvisí s četností slov, Ibrahimov používá hodnotu 2. Dále můžeme přiřadit jednotlivým dokumentům váhu podle následujícího vzorce(vizibrahimov): DW i = w ik,kde D i jemnožinaslov,jejichžváha k D i je větší než stanovená prahová hodnota. Vztah dokumentu X k dokumentu Y lze vyjádřit jako k j ) 2.2 Míry podobnosti INTER(X, Y)= DW X Y k D Y DW Y. Pro měření podobnosti dvou textových dokumentů používá Ibrahimov chíkvadrát test. Nulová hypotéza vyjadřuje shodu rozdělení vah pro vybranou množinu slov. Je používána chí-kvadrát statistika počítaná jako neboli χ 2 (w Xk w Y k) = w Y k k D X D Y 2 2 χ 2 (x j y j ) =. y j j D X D Y K této statistice můžeme zjistit minimální hladinu významnosti, od které zamítáme nulovou hypotézu. Jestliže si tuto hodnotu označíme jako δ, můžeme si podobnost mezi dvěma dokumenty vyjádřit podle vzorce sim(x, Y)=δ INTER(X, Y). Tatomírapodobnostinabýváhodnotvintervaluod0do1.Častějinež tato asymetrická míra jsou v praxi používány spíše míry symetrické. Za základ je považována kosinová míra, kterou pro objekty(dokumenty) X a Y můžeme zapsat jako s(x, Y)= m x j y j, m (x j ) 2 m (y j ) 2 kde m je počet proměnných(slov). V některých případech mohou být dokumenty charakterizovány pouze jako binární vektory(slovo se v dokumenty vyskytuje nebo ne), případně

4 128 Dušan Húsek, Hana Řezanková, Václav Snášel jako vektory četností výskytu. I pro tyto případy existují speciální míry. Pro binární data je možné podobnost vyjádřit například pomocí vzorce Θ m x j y j s(x, Y)= Θ m x j y j + m. x j y j PokudΘ=1,dostávámeJaccardůvkoeficient,vpřípadě,žeΘ=2,jde o Diceovu(Czekanowského) míru podobnosti. Pro četnosti lze využít chí-kvadrát míru nepodobnosti, která je vyjádřena jako m d(x, Y)= (x j E(x j )) 2 m (y j E(y j )) + 2, E(x j ) E(y j ) kde E(x j )= ( ) m x j (x j + y j ) m x j + m a E(y j )= y j ( ) m y j (x j + y j ) m x j + m. y j 3 Vyhledávání dokumentů na základě shluků Aby mohl být při vyhledávání v textových dokumentech uspořen čas potřebný pro nalezení odpovědi na zadaný dotaz, lze v procesu předzpracování dat identifikovat shluky dokumentů, které pokrývají podobná témata. Tato problematika je označována jako vyhledávání shluků(cluster retrieval) a je rozpracována v knize[5]. V procesu vyhledávání shluků jsou uživateli prezentovány pouze dokumenty obsažené v jednom nebo několika vybraných shlucích. Jako zajímavé téma zkoumané při vývoji metod je rozpoznávání výskytu překrývajících se shluků. Jako speciální metody pro nalezení shluků dokumentů jsou v[5] uvedeny iterativní reškálování, dynamické reškálování založené na latentním sémantickém indexování(lsi) a dynamické reškálování založené na analýze kovarianční matice. První metodu navrhla Ando v roce Je určena k identifikování malých shluků v omezeném kontextu. Vstupními parametry jsou matice typu dokumenty x termy, konstantní škálovací faktor a dimenze k, do které má být vyhledávání informací mapováno. Tento algoritmus má však řadu nedostatků,proto autoři Kobayashi a Aono navrhli jednak jeho vylepšení, jednak algoritmus založený na jiném principu. Dynamické reškálování založené na latentním sémantickém indexování má být zmíněným vylepšením. Může však být použito pouze na malé datové soubory.

5 Shlukování a textové dokumenty 129 Bylonavrženovroce2001.Jevhodnépoznamenat,žeideouvšechtřízde uvedených algoritmů je uchovat hlavní témata při výběru základních vektorů pro podprostor, do kterého bude úloha vyhledávání informací mapována. To je v navržené metodě ošetřeno zavedením vah ke snížení důležitostí atributů (slov, termů), které již jsou reprezentovány podprostorem již vypočítaných základních vektorů. Přiřazování vah je řízeno dynamicky, aby se zabránilo ztrátě informace jak ve velkých tak malých shlucích. Dynamické reškálování založené na analýze kovarianční matice je určeno k identifikování malých shluků. Tento algoritmus je možné(dle jeho autorů) použít pro velké datové soubory. Vstupními parametry jsou kovarianční matice, reškálovací faktor(používaný pro přiřazování vah) a dimenze k, do níž má být úloha redukována. Při výpočtech jsou používány dvě matice reziduí, přičemž na počátku je jedna tato matice tvořena kovarianční maticí pro celou množinu dokumentů. Závěrem lze poznamenat, že metody navrhované v oblasti literatury zabývající se vyhledáváním informací zřejmě nejsou stále vhodné pro použití v případě velkých souborů dat. Analýza by neměla vycházet z matice vzdáleností,neboťtentopostupjevelmináročný,atojakvýpočetně,takzhlediska uložení matice. Kovarianční matice je sice matice podobností, ale podstata zůstává stejná. Problém spočívá v tom že při vyhledávání informací jsou obvykle řešeny současně dvě úlohy, a to redukce počtu proměnných(například pomocí jejich shlukování, čímž jsou místo jednotlivých slov používána témata) a shlukování dokumentů. 4 Přístupy k řešení problému vysoké dimenzionality Vývoj v oblasti shlukování se zaměřuje především na soubory s velkým počtem objektů. Méně pozornosti je věnováno problematice velkého počtu proměnných. Berkhin uvádí, že shlukovací algoritmy založené na vzdálenostech fungují efektivně do 16 proměnných. Je potřeba si uvědomit, že počet dimenzí, s nimiž pracujeme, se reálně pohybují ve stovkách tisíc viz[2]. Soubory obsahující více než 16 proměnných nazývá Berkhin data s vysokou dimenzionalitou. V takových případech se používá redukce dimenzionality, která se realizuje buď transformací proměnných nebo doménovou dekompozicí. K prvnímu uvedenému přístupu lze zařadit analýzu hlavních komponent, která ovšem může vést k vytvoření shluků s obtížnou interpretovatelností. V oblasti shlukování dokumentů je používána metoda SVD(singular value decomposition). V případě doménové dekompozice jsou data rozdělena do podsouborů (anglicky canopies). Dimenzinalita se tedy neredukuje, ale tento postup vede ke snížení nákladů. Pro shlukování objektů charakterizovaných velkým počtem proměnných lze použít metody založené na shlukování podprostorů(subspace clustering). Místo vytváření redukované matice založené na nových proměnných(získaných například lineární kombinací původních proměnných) je problém vel-

6 130 Dušan Húsek, Hana Řezanková, Václav Snášel kého počtu dimenzí řešen zkoumáním podprostorů původního prostoru. Tento přístup je výhodný tím, že jsou zachovány původní proměnné, které mají reálný význam, zatímco lineární kombinace původních proměnných může být někdy těžko interpretovatelná. Základem pro shlukování podprostorů je analýza hustoty objektů v prostoru. Cílem je nalezení podmnožin proměnných tak, aby projekce dat zahrnovaly regiony s vysokou hustotou. Podstatou je rozdělení všech dimenzí do stejného počtu stejně dlouhých intervalů. Jsou-li nalezeny vhodné podprostory, úloha spočívá v nalezení shluků v odpovídajících projekcích. Shluky jsou oblasti navazujících jednotek s vysokou hustotou(v rámci určitého podprostoru). Podrobný popis těchto metod je uveden například v[3]. Základní metodou uváděnou v literatuře je algoritmus CLIQUE(CLustering In QUEst), který pro numerické proměnné navrhli v roce 1998 Agrawal a kolektiv. Tento shlukovací algoritmus využívá jak principů metod založených na hustotě, tak principů metod založených na mřížce. Algoritmus ENCLUS(ENntropy-based CLUStering), navržený v r Chengem a kolektivem, je založen podobném principu jako CLIQUE, avšak používá rozdílné kritérium pro výběr podprostorů. Výpočetní náklady této metody jsou ale vysoké. Metoda MAFIA(Merging of Adaptive Finite Intervals(And more than a CLIQUE)) je modifikací algoritmu CLIQUE, která funguje rychleji a nalézá shlukylepšíkvality.prezentovalijivroce1999goilakolektivavroce2001 Nagesh a kolektiv. Metoda v každé dimenzi konstruuje tzv. adaptivní mřížky. Její paralelní verze se nazývá pmafia. Kromě výše uvedených uvádí Berkhin ještě tři algoritmy, a to OptiGrid (navrhli v roce 1999 Hinneburg a Keim), PROCLUS(PROjected CLUStering), navržený v roce 1999 Aggarwalem a kolektivem, a ORCLUS(ORiented projected CLUSter generation), který v roce 2000 navrhli Aggarwal a Yu. V poslední době se objevily práce, které využívají k redukci dimenziionality náhodné projekce viz[26]. Ukazuje se, že metoda náhodných projekcí umožňuje redukovat dimenzi podstatně efektivnějším způsobem než ostatní metody. Experimenty ukazují, že výsledky dosažené touto metodou jsou velmi slibné, viz[2]. Další možností je kombinace náhodných projekcí s metodou SVD[14]. 5 Závěr V příspěvku jsme zhodnotili některé možnosti využití shlukovacích metod pro vyhledávání v textových dokumentech. Využití shlukovacích metod je umožněno geometrizací vyhledávacího problému na základě vektorového modelu. Přestože tato problematika patří v oblasti vyhledávání mezi klasické, není v současné době uspokojivě vyřešena. Mezi základní problémy patří: návrh datové struktury pro indexování, viz[23], redukce dimenzionality a řešení prokletí dimenzionality[26],

7 Shlukování a textové dokumenty 131 vyhledávání témat a jejich automatická detekce[7], modifikace míry podobnosti[24]. V dalším výzkumu bychom se chtěli zaměřit na rozsáhlé experimenty, s jejichž pomocí bychom chtěli vybrat vhodné míry podobnosti pro tvorbu shluků tak, aby tyto shluky odpovídaly tématům obsaženým v dané kolekci. Reference [1] Anghelescu A., Muchnik I.(2002). Combinatorial clustering for textual data representation in machine learning models. Theoretical.v01.pdf. [2] Bingham E., Mannila H.(2001). Random projection in dimensionality reduction: applications to image and text data. KDD, San Francisko. [3] Berkhin P. Survey of clustering data mining techniques. Accrue Software, Inc., San Jose. barth/ee242/clustering survey.pdf [4] Berry M.W., Browne M.(1999). Understanding search engines: mathematical modeling and text retrieval. SIAM Book Series: Software, Environments, and Tools. [5] Berry M.W.(editor).(2004). Survey of text mining: clustering, classification and retrieval. Springer-Verlag, New York. [6] Dobrynin V., Patterson D., Rooney N. (2004). Contextual document clustering. ECIR 2004, LNCS 2997, Springer-Verlag, Berlin, [7] Dvorský J., Martinovič J., Pokorný J., Snášel V.(2004). Vyhledávání témat v kolekci dokumentů, Znalosti 2004, Brno, [8] Gordon A.D.(1999). Classification, 2nd Edition. Chapman& Hall/CRC, Boca Raton. [9] Hotho A., Staab S., Maedche A. Ontology-based text clustering. mccallum/textbeyond/papers/ hotho.pdf [10] Chakrabarti S.(2003). Mining the web: discovering knowledge from hypertext data. Morgan Kaufmann Publishers, San Fransisco. [11] Ibrahimov O., Pashayev R.(2003). Measuring similarities of textual documents: An overview of challenges and solutions. TAINN 2003(Turkish Symposium on Artificial Intelligence and Neural Networks). [12] Kang J., Ryu K.R., Kwon H. M.(2004). Using cluster-based sampling to select initial training set for active learning in text classification. PAKDD 2004, LNAI 3056, Springer-Verlag, Berlin, [13] Mercer D.P.(2003). Clustering large datasets. Linacre College, mercer/documents/transfer.pdf [14] Moravec P., Snášel V.(2004). Rychlý přibližný výpočet LSI předzpracováním náhodnou projekcí. Znalosti 2004, Brno,

8 132 Dušan Húsek, Hana Řezanková, Václav Snášel [15] Mylonas P., Wallace M., Kollias S.(2004). Using k-nearest neighbor and feature selection as an improvement to hierarchical clustering. SETN 2004, LNAI 3025, Springer-Verlag, Berlin, [16] Peltonen J., Sinkkonen J., Kaski S.(2002). Discriminative clustering of text documents. ICONIP IEEE 4, [17] Řezanková, H.(2004). Klasifikace pomocí shlukové analýzy. In: Kupka, K.(ed.) Analýza dat 2003/II. TriloByte Statistical Software, Pardubice, [18] Řezanková H., Húsek D., Smid J, Snášel V.(2003). Clustering of documents via similarity measures. In: D Auriol, B. J.(ed.). CIC 03. CSREA Press,LasVegas, [19] Řezanková H., Húsek D., Snášel V.(2003). Applications of clustering methods to textual documents. In: Bulletin of the International Statistical Institute Volume LX. International Statistical Institute, Berlin, [20] Rijsbergen C.J. (2004). The geometry of information retrieval. Cambridge University Press. [21] Salton G., Buckley C.(1988). Term weighting approaches in automatic text retrieval. Information Processing and Management 24, 5, [22] Sinkkonen J., Kaski S.(2000). Clustering by similarity in an auxiliary space. IDEAL 2000, Springer-Verlag, London, [23] Skopal T., Moravec P., Pokorný J., Snášel V.(2004). Metric indexing for the vector model in text retrieval. SPIRE 04, Padova, Springer Verlag, [24] Skopal T., Moravec P., Pokorný J., Krátký M., Snášel V.(2003). Efficient implementation of vector model in information retrieval. In Proceedings of the fifth National Russian Research Conference, RCDL 2003, Digital Libraries: Advanced Methods and Technologies, Digital Collections, St. Petersburg, [25] Volk D., Stepanov M.G.(2001). Resampling methods for document clustering. cache/cond-mat/pdf/0109/ pdf [26] Vempala S.S.(2004). The random projection method. DIMACS [27] Zhang Y., Zincir-Heywood N., Milios E.(2004). Term-based clustering and summarization of web page collections. Canadian AI 2004, LNAI 3060, Springer-Verlag, Berlin, Poděkování: Tento výzkum je součástí projektu COST 274(TARSKI). Adresa: D. Húsek, Ústav informatiky AV ČR, Pod Vodárenskou věží 2, Praha 8; H. Řezanková, Vysoká škola ekonomická v Praze, nám.w.churchilla4,13067praha3;v.snášel,všb-tuostrava, 17.listopadu 15, Ostrava-Poruba dusan@cs.cas.cz, rezanka@vse.cz, vaclav.snasel@vsb.cz

Metrické indexování vektorových modelů v oblasti information retrieval

Metrické indexování vektorových modelů v oblasti information retrieval Metrické indexování vektorových modelů v oblasti information retrieval Tomáš Skopal Katedra informatiky, FEI, VŠB - Technická Univerzita Ostrava, 17. listopadu 15, 708 33, Ostrava-Poruba Tomas.Skopal@vsb.cz

Více

Prohledávání dokumentů ve vektorovém modelu

Prohledávání dokumentů ve vektorovém modelu Prohledávání dokumentů ve vektorovém modelu Pavel Moravec 1 Katedra informatiky, FEI, VŠB - Technická Univerzita Ostrava, 17. listopadu 15, 708 33, Ostrava-Poruba pavel.moravec@vsb.cz Abstrakt. Information

Více

Geometrické indexování a dotazování multimediálních dat

Geometrické indexování a dotazování multimediálních dat Geometrické indexování a dotazování multimediálních dat Tomáš Skopal, Michal Krátký, Václav Snášel Katedra informatiky, VŠB-Technická Univerzita Ostrava 17. listopadu 15, 708 33 Ostrava-Poruba {michal.kratky,

Více

KLASIFIKAČNÍ A REGRESNÍ LESY

KLASIFIKAČNÍ A REGRESNÍ LESY ROBUST 2004 c JČMF 2004 KLASIFIKAČNÍ A REGRESNÍ LESY Jan Klaschka, Emil Kotrč Klíčová slova: Klasifikační stromy, klasifikační lesy, bagging, boosting, arcing, Random Forests. Abstrakt: Klasifikační les

Více

Automatická oprava textu v různých jazycích

Automatická oprava textu v různých jazycích Automatická oprava textu v různých jazycích Bc. Petr Semrád, doc. Ing. František Dařena Ph.D., Ústav informatiky, Provozně ekonomická fakulta, Mendelova univerzita v Brně, xsemrad@mendelu.cz, frantisek.darena@mendelu.cz

Více

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty Petr Loukota, Vladimír Bartík Ústav informačních systémů, Fakulta informačních technologií VUT v Brně, Česká republika iloukota@fit.vutbr.cz,

Více

Aplikace algoritmů umělé inteligence pro data mining v prostředí realitního trhu

Aplikace algoritmů umělé inteligence pro data mining v prostředí realitního trhu Jihočeská univerzita v Českých Budějovicích Přírodovědecká fakulta Aplikace algoritmů umělé inteligence pro data mining v prostředí realitního trhu Diplomová práce Bc. Miloslav Thon Školitel: Ing. Jan

Více

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.

Více

Klasifikační metody pro genetická data: regularizace a robustnost

Klasifikační metody pro genetická data: regularizace a robustnost Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační

Více

Marta Vomlelová marta@ktiml.mff.cuni.cz

Marta Vomlelová marta@ktiml.mff.cuni.cz Strojové učení Úvod, lineární regrese Marta Vomlelová marta@ktiml.mff.cuni.cz References [1] P. Berka. Dobývání znalostí z databází. Academia, 2003. [2] T. Hastie, R. Tishirani, and J. Friedman. The Elements

Více

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel

Více

Identifikace poruchy osobnosti z psaného textu

Identifikace poruchy osobnosti z psaného textu Identifikace poruchy osobnosti z psaného textu Adam Ondrejka, Petr Šaloun, and Radka Cepláková VŠB-Technická univerzita Ostrava, 17. listopadu 15, 708 33 Ostrava, Česká republika adam.ondrejka@gmail.com

Více

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů Design and implementation of algorithms for adaptive control of stationary robots Marcel Vytečka 1, Karel Zídek 2 Abstrakt Článek

Více

Bayesovská klasifikace digitálních obrazů

Bayesovská klasifikace digitálních obrazů Výzkumný ústav geodetický, topografický a kartografický Bayesovská klasifikace digitálních obrazů Výzkumná zpráva č. 1168/2010 Lubomír Soukup prosinec 2010 1 Úvod V průběhu nedlouhého historického vývoje

Více

Modelová složitost neuronových sítí - zdánlivý paradox

Modelová složitost neuronových sítí - zdánlivý paradox Modelová složitost neuronových sítí - zdánlivý paradox Věra Kůrková Ústav informatiky, Akademie věd České republiky Pod Vodárenskou věží 2, 18207 Praha Email: vera@cs.cas.cz Abstrakt V článku jsou studovány

Více

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace

Více

Minkowského operace a jejich aplikace

Minkowského operace a jejich aplikace KMA FAV ZČU Plzeň 1. února 2012 Obsah Aplikace Minkowského suma Minkowského rozdíl Minkowského součin v E 2 Minkowského součin kvaternionů Akce 22. 6. 1864-12. 1. 1909 Úvod Použití Rozmist ování (packing,

Více

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I. Míry a metriky - pokračování Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:

Více

Unstructured data pre-processing using Snowball language

Unstructured data pre-processing using Snowball language Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická

Více

Umělá inteligence a rozpoznávání

Umělá inteligence a rozpoznávání Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 11. 2. Úvod, historie a vývoj UI, základní problémové oblasti a typy úloh, aplikace UI, příklady inteligentních

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech.

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech. Kapitola 9 Skalární součin Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech. Definice 9.1 Je-li x = (x 1,..., x n ) T R n 1 reálný

Více

Informační systémy pro podporu rozhodování

Informační systémy pro podporu rozhodování Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

k-dimenzionálním prostoru. problém: Zkonstruovat strom, který rozděluje prostor polorovinami

k-dimenzionálním prostoru. problém: Zkonstruovat strom, který rozděluje prostor polorovinami kd-stromy (kd-trees) k čemu to je: ukládání vícerozměrných dat (k-dimenzionální data) vstup: Množina bodů (nebo složitějších geometrických objektů) v k-dimenzionálním prostoru. problém: Zkonstruovat strom,

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více

IT4Innovations Centre of Excellence

IT4Innovations Centre of Excellence IT4Innovations Centre of Excellence Supercomputing for Applied Sciences Ivo Vondrak ivo.vondrak@vsb.cz: VSB Technical University of Ostrava http://www.it4innovations.eu Motto The best way to predict your

Více

SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR

SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR EVOLUČNÍ NÁVRH A OPTIMALIZACE APLIKAČNĚ SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR Miloš Minařík DVI4, 2. ročník, prezenční studium Školitel: Lukáš Sekanina Fakulta informačních technologií, Vysoké učení

Více

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

2 Rekonstrukce ze dvou kalibrovaných pohledů

2 Rekonstrukce ze dvou kalibrovaných pohledů 24. KONFERENCE O GEOMETRII A POČÍTAČOVÉ GRAFICE ŠÁRKA VORÁČOVÁ APLIKACE EPIPOLÁRNÍ GEOMETRIE Abstrakt Epipolární geometrie je geometrií dvou středových promítání. Je teoretickým základem pro určení vztahu

Více

Využití LSI a M-stromu při indexování a vyhledávání obrázků

Využití LSI a M-stromu při indexování a vyhledávání obrázků Využití LSI a M-stromu při indexování a vyhledávání obrázků Tomáš Skopal 1, Michal Kolovrat 2 a Václav Snášel 2 1 Katedra softwarového inženýrství, MFF UK Praha, Malostranské nám. 25, 118 00, Praha 2 Katedra

Více

MODELOVÁNÍ BONITY OBCÍ POMOCÍ KOHONENOVÝCH SAMOORGANIZUJÍCÍCH SE MAP A LVQ NEURONOVÝCH SÍTÍ

MODELOVÁNÍ BONITY OBCÍ POMOCÍ KOHONENOVÝCH SAMOORGANIZUJÍCÍCH SE MAP A LVQ NEURONOVÝCH SÍTÍ MODELOVÁNÍ BONITY OBCÍ POMOCÍ KOHONENOVÝCH SAMOORGANIZUJÍCÍCH SE MAP A LVQ NEURONOVÝCH SÍTÍ Vladimír Olej, Petr Hájek Univerzita Pardubice, Fakulta ekonomicko-správní, informatiky Ústav systémového inženýrství

Více

Neuronové sítě a Information Retrieval

Neuronové sítě a Information Retrieval Neuronové sítě a Information Retrieval Tomáš Skopal Abstrakt Tento přehledový článek popisuje několik oblastí Information Retrieval (resp. dokumentografických informačních systémů), do kterých pronikly

Více

RNDr. Tomáš Pavlík, PhD. RNDr. Jiří Jarkovský, PhD. Doc. RNDr. Ladislav Dušek, PhD. Ústav zdravotnických informací a statistiky České republiky

RNDr. Tomáš Pavlík, PhD. RNDr. Jiří Jarkovský, PhD. Doc. RNDr. Ladislav Dušek, PhD. Ústav zdravotnických informací a statistiky České republiky Metodika vı cerozme rne analy zy Na rodnı ho registru hospitalizovany ch za u c elem vy be ru reprezentativnı sı te poskytovatelu zdravotnı ch sluz eb CČR RNDr. Tomáš Pavlík, PhD. RNDr. Jiří Jarkovský,

Více

27.11.2012 Bezpečnostní seminář BIG DATA, Policejní akademie ČR v Praze

27.11.2012 Bezpečnostní seminář BIG DATA, Policejní akademie ČR v Praze RNDr. Jakub Lokoč, Ph.D. Siret Research Group (www.siret.cz) Department of SW Engineering Faculty of Mathematics and Physics Charles University in Prague 1 2.1 billion Internet users worldwide http://royal.pingdom.com

Více

Web 2.0 vs. sémantický web

Web 2.0 vs. sémantický web Web 2.0 vs. sémantický web Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2007, 24. 5. 2007 Vilém Sklenák

Více

Moderní metody vyhledávání dokumentů v rozsáhlých plnotextových databázích : příklad vektorového modelu

Moderní metody vyhledávání dokumentů v rozsáhlých plnotextových databázích : příklad vektorového modelu Moderní metody vyhledávání dokumentů v rozsáhlých plnotextových databázích : příklad vektorového modelu Petr Houdek 1, Josef Schwarz 2, Václav Snášel 3 1 Parlamentní knihovna, Sněmovní 4, Praha houdek@psp.cz

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU Dálkový průzkum Země Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU Klasifikace obrazu Klasifikaci můžeme obecně definovat jako seskupování vzájemně si podobných prvků (entit) do

Více

Algoritmy a struktury neuropočítačů ASN - P2. Topologie neuronových sítí, principy učení Samoorganizující se neuronové sítě Kohonenovy mapy

Algoritmy a struktury neuropočítačů ASN - P2. Topologie neuronových sítí, principy učení Samoorganizující se neuronové sítě Kohonenovy mapy Algoritmy a struktury neuropočítačů ASN - P2 Topologie neuronových sítí, principy učení Samoorganizující se neuronové sítě Kohonenovy mapy Topologie neuronových sítí (struktura, geometrie, architektura)

Více

Sociální sítě a náklady řešení problémů

Sociální sítě a náklady řešení problémů Sociální sítě a náklady řešení problémů Libor Měsíček, Zdeněk Molnár Katedra informačních technologií Vysoká škola ekonomická Praha nám. W.Churchilla 4, 130 67 Praha 3 xmesl01@vse.cz, zdenek.molnar@vse.cz

Více

Údaje k předkládaným výsledkům pro kontrolu do RIV

Údaje k předkládaným výsledkům pro kontrolu do RIV Údaje k předkládaným výsledkům pro kontrolu do RIV Nové moderní metody neinvazního průzkumu památkových objektů č. DF13P01OVV02 programu aplikovaného výzkumu a vývoje národní a kulturní identity (NAKI)

Více

Zpracování a vyhodnocování analytických dat

Zpracování a vyhodnocování analytických dat Zpracování a vyhodnocování analytických dat naměřená data Zpracování a statistická analýza dat analytické výsledky Naměř ěřená data jedna hodnota 5,00 mg (bod 1D) navážka, odměřený objem řada dat 15,8;

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci) ..! POSSIBILISTIC Laboratoř pro analýzu INFORMATION: a modelování dat Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci) George J. Klir State University of New York (SUNY)

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

NAIL072 ROZPOZNÁVÁNÍ VZORŮ NAIL072 ROZPOZNÁVÁNÍ VZORŮ RNDr. Jana Štanclová, Ph.D. jana.stanclova@ruk.cuni.cz www.cuni.cz/~stancloj LS Zk 2/0 OSNOVA 1. Úvod do rozpoznávání vzorů 2. Bayesovská teorie rozpoznávání 3. Diskriminační

Více

VYUŽITÍ SOFTWARU MATHEMATICA VE VÝUCE PŘEDMĚTU MATEMATIKA V EKONOMII 1

VYUŽITÍ SOFTWARU MATHEMATICA VE VÝUCE PŘEDMĚTU MATEMATIKA V EKONOMII 1 VYUŽITÍ SOFTWARU MATHEMATICA VE VÝUCE PŘEDMĚTU MATEMATIKA V EKONOMII 1 Orlando Arencibia, Petr Seďa VŠB-TU Ostrava Abstrakt: Příspěvek je věnován diskusi o inovaci předmětu Matematika v ekonomii, který

Více

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno

Více

NEREALISTICKÉ ZOBRAZENÍ

NEREALISTICKÉ ZOBRAZENÍ NEREALISTICKÉ ZOBRAZENÍ PGD: Počítačová Grafika Jozef Mlích 1 Úvod Nejčastějším cílem počítačové grafiky je co nejpřesnější zobrazení reálného světa. Metody pro nerealistické zobrazení

Více

20.2.2014 REKAPITULACE. Princip dálkoměrných měření GNSS

20.2.2014 REKAPITULACE. Princip dálkoměrných měření GNSS Princip dálkoměrných měření GNSS P r e z e n t a c e 2 GLOBÁLNÍ NAVIGAČNÍ A POLOHOVÉ SYSTÉMY David Vojtek Institut geoinformatiky Vysoká škola báňská Technická univerzita Ostrava Rekapitulace Kapitán a

Více

Singulární rozklad aplikace v image deblurring

Singulární rozklad aplikace v image deblurring Singulární rozklad aplikace v image deblurring M. Plešinger, Z. Strakoš TUL, Fakulta mechatroniky, Liberec AV ČR, Ústav informatiky, Praha 1 Úvod Uvažujme obecnou reálnou matici Pak existuje rozklad A

Více

Datové struktury. Zuzana Majdišová

Datové struktury. Zuzana Majdišová Datové struktury Zuzana Majdišová 19.5.2015 Datové struktury Numerické datové struktury Efektivní reprezentace velkých řídkých matic Lze využít při výpočtu na GPU Dělení prostoru a binární masky Voxelová

Více

Lineární diskriminační funkce. Perceptronový algoritmus.

Lineární diskriminační funkce. Perceptronový algoritmus. Lineární. Perceptronový algoritmus. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics P. Pošík c 2012 Artificial Intelligence 1 / 12 Binární klasifikace

Více

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice. [] Definice determinantu BI-LIN, determinant, 9, P Olšák [2] Determinant je číslo jistým způsobem charakterizující čtvercovou matici det A 0 pro singulární matici, det A 0 pro regulární matici používá

Více

Support Vector Machines (jemný úvod)

Support Vector Machines (jemný úvod) Support Vector Machines (jemný úvod) Osnova Support Vector Classifier (SVC) Support Vector Machine (SVM) jádrový trik (kernel trick) klasifikace s měkkou hranicí (soft-margin classification) hledání optimálních

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Optimalizační algoritmy inspirované chováním mravenců

Optimalizační algoritmy inspirované chováním mravenců Optimalizační algoritmy inspirované chováním mravenců Biologická analogie ACO metaheuristic Ant system a jeho modifikace Specifikace problémů Aplikace Motivace NP-hard problémy časová náročnost nalezení

Více

VLIV NEURČITOSTI, NEJASNOSTI, NEJISTOTY A SLOŽITOSTI NA ROZHODOVÁNÍ ORGANIZACÍ

VLIV NEURČITOSTI, NEJASNOSTI, NEJISTOTY A SLOŽITOSTI NA ROZHODOVÁNÍ ORGANIZACÍ VLIV NEURČITOSTI, NEJASNOSTI, NEJISTOTY A SLOŽITOSTI NA ROZHODOVÁNÍ ORGANIZACÍ Tomáš Kořínek Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The

Více

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Transformace obrazu Josef Pelikán KSVI MFF UK Praha Transformace obrazu 99725 Josef Pelikán KSVI MFF UK Praha email: Josef.Pelikan@mff.cuni.cz WWW: http://cgg.ms.mff.cuni.cz/~pepca/ Transformace 2D obrazu dekorelace dat potlačení závislosti jednotlivých

Více

SIFT: Scale Invariant Feature Transform Automatické nalezení korespondencí mezi dvojicí obrázků

SIFT: Scale Invariant Feature Transform Automatické nalezení korespondencí mezi dvojicí obrázků SIFT: Scale Invariant Feature Transform Automatické nalezení korespondencí mezi dvojicí obrázků lukas.mach@gmail.com Přílohy (videa, zdrojáky, ) ke stažení na: http://mach.matfyz.cz/sift Korespondence

Více

Extrakce a selekce příznaků

Extrakce a selekce příznaků Extrakce a selekce příznaků Based on slides Martina Bachlera martin.bachler@igi.tugraz.at, Makoto Miwa And paper Isabelle Guyon, André Elisseeff: An Introduction to variable and feature selection. JMLR,

Více

Návrh na zahájení habilitačního řízení Mgr. Miloš Kudělka, Ph.D. v oboru Informatika na FEI VŠB-TU Ostrava

Návrh na zahájení habilitačního řízení Mgr. Miloš Kudělka, Ph.D. v oboru Informatika na FEI VŠB-TU Ostrava Návrh na zahájení habilitačního řízení Mgr. Miloš Kudělka, Ph.D. v oboru Informatika na FEI VŠB-TU Ostrava Osobní údaje Uchazeč: Miloš Kudělka Datum a místo narození: 6. 8. 1960, Olomouc Adresa trvalého

Více

8 Coxův model proporcionálních rizik I

8 Coxův model proporcionálních rizik I 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná

Více

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Václav Matoušek KIV. Umělá inteligence a rozpoznávání.   Václav Matoušek / KIV Umělá inteligence a rozpoznávání Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 16. 2. (3h) 2. 3. (4h) 17. 3. (5h) 14. 4. (3h) Úvod, historie a vývoj UI, základní

Více

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích

Více

INTERAKTIVNÍ TABULE A MATEMATICKÝ SOFTWARE GEOGEBRA PŘI VÝUCE MATEMATIKY V ANGLICKÉM JAZYCE

INTERAKTIVNÍ TABULE A MATEMATICKÝ SOFTWARE GEOGEBRA PŘI VÝUCE MATEMATIKY V ANGLICKÉM JAZYCE INTERAKTIVNÍ TABULE A MATEMATICKÝ SOFTWARE GEOGEBRA PŘI VÝUCE MATEMATIKY V ANGLICKÉM JAZYCE Olga Komínková Základní škola Velká Bíteš kominkova.olga@zsbites.cz Abstrakt: Příspěvek se zabývá možnostmi využití

Více

Sémantický web 10 let poté

Sémantický web 10 let poté Sémantický web 10 let poté Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2011, 26. 5. 2011 Vilém Sklenák

Více

WEBOVÉ ŘÍZENÍ MECHANICKÉHO SYSTÉMU SVĚTĚLNÝM PAPRSKEM Web Control of Mechanical System by Light Ray

WEBOVÉ ŘÍZENÍ MECHANICKÉHO SYSTÉMU SVĚTĚLNÝM PAPRSKEM Web Control of Mechanical System by Light Ray WEBOVÉ ŘÍZENÍ MECHANICKÉHO SYSTÉMU SVĚTĚLNÝM PAPRSKEM Web Control of Mechanical System by Light Ray Ing. Kamil Mrázek Abstrakt: Tento příspěvek popisuje novou metodu a podmínky pro webové řízení mechanického

Více

Klasifikace a rozpoznávání

Klasifikace a rozpoznávání Klasifikace a rozpoznávání Prezentace přednášek M. Španěl, 2009 Ústav počítačové grafiky a multimédií Téma přednášky Unsupervised techniky Obsah: Literatura Úvod do shlukování Metriky, základní přístupy,

Více

Efektivní vyhledávání v kolekcích obrázků tváří

Efektivní vyhledávání v kolekcích obrázků tváří Efektivní vyhledávání v kolekcích obrázků tváří Michal KRÁTKÝ, Tomáš SKOPAL, Václav SNÁŠEL Katedra informatiky, VŠB-Technická univerzita Ostrava 17. listopadu 15, 708 33 Ostrava {michal.kratky,tomas.skopal,vaclav.snasel}@vsb.cz

Více

VÝUKA OBECNÝCH METOD ANALÝZY LINEÁRNÍCH OBVODŮ

VÝUKA OBECNÝCH METOD ANALÝZY LINEÁRNÍCH OBVODŮ VÝKA OBECNÝCH METOD ANALÝZ LNEÁRNÍCH OBVODŮ Dalibor Biolek, Katedra elektrotechniky a elektroniky, VA Brno ÚVOD Obecné metody analýzy elektronických obvodů prodělaly dlouhé období svého vývoje. Katalyzátorem

Více

Aerodynamické zdroje hluku -kruhové klapky. Ing. Miroslav Kučera, Ph.D.

Aerodynamické zdroje hluku -kruhové klapky. Ing. Miroslav Kučera, Ph.D. Aerodynamické zdroje hluku kruhové klapky Ing. Miroslav Kučera, Ph.D. Vytčení cílů Stanovit hladiny akustického výkonu vybraných vzduchotechnických klapek kruhového průřezu, resp. jejich soustav. Získané

Více

Strojové učení se zaměřením na vliv vstupních dat

Strojové učení se zaměřením na vliv vstupních dat Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications

Více

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích Analysis of MSAF algorithm for speech enhancement in combat vehicles Ing. Jaroslav Hovorka MESIT přístroje spol. s r.o., Uherské

Více

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz Modelování neřečových událostí v robustním rozpoznávání řeči s malým slovníkem Josef Rajnoha České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz Abstrakt: V tomto článku

Více

Využití RPS pro potlačování šumu v řečových signálech

Využití RPS pro potlačování šumu v řečových signálech Využití RPS pro potlačování šumu v řečových signálech Ing. Radek Zezula, Ph.D., Ing. Ivan Koula, Prof. Ing. Zdeněk Smékal, CSc. Ústav telekomunikací Vysoké učení technické v Brně Fakulta elektrotechniky

Více

Využití SVD pro indexování latentní sémantiky

Využití SVD pro indexování latentní sémantiky Využití SVD pro indexování latentní sémantiky Michal Krátký 1 Department of Computer Science, VŠB-Technical University of Ostrava, Czech Republic michal.kratky@vsb.cz Abstrakt Zpracováváním velkého množství

Více

Robust 2014, 19. - 24. ledna 2014, Jetřichovice

Robust 2014, 19. - 24. ledna 2014, Jetřichovice K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University

Více

Pokročilé metody učení neuronových sítí. Tomáš Řehořek tomas.rehorek@fit.cvut.cz

Pokročilé metody učení neuronových sítí. Tomáš Řehořek tomas.rehorek@fit.cvut.cz Pokročilé metody učení neuronových sítí Tomáš Řehořek tomas.rehorek@fit.cvut.cz Problém učení neuronové sítě (1) Nechť N = (V, I, O, S, w, f, h) je dopředná neuronová síť, kde: V je množina neuronů I V

Více

Dolování znalostí z rozsáhlých statistických souborů lékařských dat

Dolování znalostí z rozsáhlých statistických souborů lékařských dat Mendelova univerzita v Brně Provozně ekonomická fakulta Dolování znalostí z rozsáhlých statistických souborů lékařských dat Diplomová práce Vedoucí práce: doc. Ing. Jan Žižka, CSc. Brno 2015 Vypracoval:

Více

Počítačové kognitivní technologie ve výuce geometrie

Počítačové kognitivní technologie ve výuce geometrie Počítačové kognitivní technologie ve výuce geometrie Jiří Vaníček Univerzita Karlova v Praze - Pedagogická fakulta 2009 Počítačové kognitivní technologie ve výuce geometrie Abstrakt Kniha se zabývá využíváním

Více

Jazyk matematiky. 2.1. Matematická logika. 2.2. Množinové operace. 2.3. Zobrazení. 2.4. Rozšířená číslená osa

Jazyk matematiky. 2.1. Matematická logika. 2.2. Množinové operace. 2.3. Zobrazení. 2.4. Rozšířená číslená osa 2. Jazyk matematiky 2.1. Matematická logika 2.2. Množinové operace 2.3. Zobrazení 2.4. Rozšířená číslená osa 1 2.1 Matematická logika 2.1.1 Výrokový počet logická operace zapisujeme čteme česky negace

Více

Veřejná zakázka: Pořizování licencí k produktům Microsoft

Veřejná zakázka: Pořizování licencí k produktům Microsoft Odůvodnění účelnosti veřejné zakázky v souladu s vyhláškou č. 232/2012 Sb., o podrobnostech rozsahu odůvodnění účelnosti veřejné zakázky a odůvodnění veřejné zakázky (dále jen vyhláška ) Veřejná zakázka:

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

6. T e s t o v á n í h y p o t é z

6. T e s t o v á n í h y p o t é z 6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně

Více

EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním materiálem o normě.

EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním materiálem o normě. EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním materiálem o normě. Inteligentní dopravní systémy (ITS) Označení poloh pro geografické databáze Část 3:

Více

Karta předmětu prezenční studium

Karta předmětu prezenční studium Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 548-0057 Garantující institut: Garant předmětu: Základy geoinformatiky (ZGI) Institut geoinformatiky doc. Ing. Petr Rapant, CSc. Kredity:

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

Textmining a Redukce dimenzionality

Textmining a Redukce dimenzionality Vytěžování dat, cvičení 7: Textmining a Redukce dimenzionality Miroslav Čepek, Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 22 Textmining

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

CREATION OF THE STABLE ELASTIC LOOP

CREATION OF THE STABLE ELASTIC LOOP National Conference with International Participation ENGINEERING MECHANICS 2006 Svratka, Czech Republic, May 15 18, 2006 paper no. 122 CREATION OF THE STABLE ELASTIC LOOP P. Frantík 1 Summary: Paper deals

Více

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

IB013 Logické programování I Hana Rudová. jaro 2011

IB013 Logické programování I Hana Rudová. jaro 2011 IB013 Logické programování I Hana Rudová jaro 2011 Hodnocení předmětu Zápočtový projekt: celkem až 40 bodů Průběžná písemná práce: až 30 bodů (základy programování v Prologu) pro každého jediný termín:

Více

Analýza výpůjček knih v univerzitní knihovně Univerzity Pardubice studenty Fakulty ekonomicko-správní

Analýza výpůjček knih v univerzitní knihovně Univerzity Pardubice studenty Fakulty ekonomicko-správní Analýza výpůjček knih v univerzitní knihovně Univerzity Pardubice studenty Fakulty ekonomicko-správní Hana Jonášová, Jan Panuš AULA, 2013, Vol.21, No. 2: 70-101 Analysis of books borrowing in University

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

Datový sklad. Datový sklad

Datový sklad. Datový sklad Datový sklad Postavení v rámci IS/ICT Specifika návrhu Modelování Datový sklad POSTAVENÍ NÁVRH Postavení datového skladu (DW) v IS/ICT z hlediska aplikací jako součást Business Intelligence z hlediska

Více