Dolování z textu. Martin Vítek

Rozměr: px
Začít zobrazení ze stránky:

Download "Dolování z textu. Martin Vítek"

Transkript

1 Dolování z textu Martin Vítek

2 Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse

3 Proč dolovat z textu Není problém získat velké množstvíčlánků a informací, ale vybrat z nich ty zajímavé, vztahující se k nějakému problému

4 Rozdíl proti klasickému dolování znalostí z databází Nevyhledává se ve strukturovaných tabulkách a nějak uspořádaných záznamech ale v prostém textu ve tvaru čitelném pro člověka.

5 Dolování v textu Skládá se ze 3 částí předzpracování dolování dat upřesnění

6 Přístupy k dolování v textu Tradiční přístup uživatel dopředu ví, co zhruba hledá, a umí systému předložit množinu dokumentů, které ho zajímají, jako vzorek. Nový přístup systém sám přebírá aktivitu předkládá návrhy uživateli uživatel systém pouze navádí systém sám provádí filtrování, uspořádávání, zobecňování, shlukování dokumentů

7 Čím je dolování v textu jiné Významným rysem sbírky dokumentů je velké množství vlastností popisujících každý dokument. Typicky tisíce klíčových slov To je mnohem více než počty atributů analyzovaných při dolování z relačních databází

8 Čím je dolování v textu jiné Tyto vlastnosti jsou zároveň velmi řídké pouze malé % klíčových slov se objevuje v jednotlivých dokumentech Reprezentujeme-li článek vektorem, většina hodnot je 0

9 Vektorová reprezentace článku Binární pokud se určité slovo v dokumentu vyskytuje více aspoň 1x, bude na jeho pozici ve vektoru 1, jinak tam bude 0. Frekvenční na každé pozici vektoru je počet slova v dokumentu

10 Vektorová reprezentace článku Reprezentace TF-IDF (term frequency inverse document frequency) zohledňuje výskyty slova v textu a současně snižuje jeho důležitost podle množství výskytu v ostatních dokumentech Hadamardova reprezentace Na i-tém místě ve vektoru bude normovaná frekvence slova v dokumentu násobená frekvencí slova v tréninkové množině

11 Metoda I. Reprezentovat dokument jako vektor slov Hledat asociační pravidla Nevede k cíli. Nachází těžce interpretovatelná pravidla nebo příliš obecná pravidla...

12 Metoda II. Automatická konstrukce textových klasifikátorů Založeno na trénovacíchčláncích Použití statistických metod Učení Přiřazuje hodnocení novým neohodnoceným dokumentům na základě množiny už ohodnocených

13 Další metody Ohodnocováníčlánků podle trénovací množiny ohodnocené expertem Využití strojového učení neuronových sítí metody nejbližšího souseda naivního Bayesova klasifikátoru rozhodovacích stromů

14 Častý problém Člověk si ukládá pouze informace pro něj zajímavé Nezajímavé ihned zahazuje Je potřeba mít vzorky zajímavých informací i nezajímavých

15 Metoda III. Použití normalizovaných termů Term je sekvence jednoho nebo více slov spolu s určením slovního druhu Příklad: banka/podstatné jméno roční/přídavné jméno

16 Extrakce termů

17 Jazykové odlišnosti Je třeba se zabývat zvláštnostmi jazyka článku předpony a přípony různé pořadí slov ve větě pády množnáčísla...

18 Generování termů Z jednotlivých termů se hledají složené termy, kterými se pak jednotlivé termy nahrazují. Různé kombinace podstatné jméno & podstatné jméno přídavné jméno & podstatné jméno... Příklad: diskontní sazba

19 Generování termů Složené termy se mohou dále slučovat Mnoho možností, které všechny dvojice zahrnout Stále otevřený problém pro výzkum

20 Filtrování termů Fáze generování termů generuje termy bez ohledu na to, jestli jsou nějak charakteristické pro daný dokument. Cílem filtrace je redukce množství termů a výběr jen několika nejfrekventovanějších Je potřeba zahodit termy vyskytující se ve všech dokumentech s konstantním rozložením

21 Třídění termů Vytvoření taxonomie termů Hledání asociačních pravidel Taxonomie slouží uživateli k zadávání úkolů pro dolování

22 Podpora produktu SAS Enterprise Miner pro dolování z textu Nástroj SAS Text Miner ning/textminer/ Transformuje textová data do jiného formátu umožňujícího třídit dokumenty do kategorií, klasifikaci dokumentů, vyhledávání vztahů mezi dokumenty Umí pracovat s textovými daty a současně se strukturovanými daty a integrovat je dohromady

23 Podpora produktu SAS Enterprise Miner pro dolování z textu Určen pro každého, kdo musí zpracovat velká množství textů Podporuje všechny důležité formáty dokumentů (HTML, MS Office, Lotus, ASCII, PDF) Disponuje moduly a slovníky pro spoustu významných jazyků (čeština ne)

24 Podpora produktu SAS Enterprise Miner pro dolování z textu Automatická extrakce termů z velkého množství dokumentů Rozlišení termů podle slovních druhů Disponuje slovníky termů z mnoha oblastí lidskéčinnosti Shlukování dokumentů o stejných tématech

25 Literatura Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001, 550 p. Handbook of Data Mining and Knowledge Discovery. Oxford University Press 2002 Hroza, J.: Automatizovaná podpora filtrace elektronických textových dokumentů metodami strojového učení, teze disertační práce

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z

Více

Textmining a Redukce dimenzionality

Textmining a Redukce dimenzionality Vytěžování dat, cvičení 7: Textmining a Redukce dimenzionality Miroslav Čepek, Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 22 Textmining

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem

Více

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

PRODUKTY Tovek Server 6

PRODUKTY Tovek Server 6 Tovek Server je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených strukturovaných i nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně

Více

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

Uživatelská podpora v prostředí WWW

Uživatelská podpora v prostředí WWW Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,

Více

Automatická oprava textu v různých jazycích

Automatická oprava textu v různých jazycích Automatická oprava textu v různých jazycích Bc. Petr Semrád, doc. Ing. František Dařena Ph.D., Ústav informatiky, Provozně ekonomická fakulta, Mendelova univerzita v Brně, xsemrad@mendelu.cz, frantisek.darena@mendelu.cz

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT Dolování dat z multimediálních databází Ing. Igor Szöke Speech group ÚPGM, FIT, VUT Obsah prezentace Co jsou multimediální databáze Možnosti dolování dat v multimediálních databázích Vyhledávání fotografií

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Ontologie. Otakar Trunda

Ontologie. Otakar Trunda Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba

Více

Chybějící atributy a postupy pro jejich náhradu

Chybějící atributy a postupy pro jejich náhradu Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage

Více

Vizualizace v Information Retrieval

Vizualizace v Information Retrieval Vizualizace v Information Retrieval Petr Kopka VŠB-TU Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Obsah Co je Information Retrieval, vizualizace, proces přístupu k informacím Způsoby

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

Aplikace metod předzpracování při dolování znalostí z textových dat

Aplikace metod předzpracování při dolování znalostí z textových dat Mendelova univerzita v Brně Provozně ekonomická fakulta Aplikace metod předzpracování při dolování znalostí z textových dat Diplomová práce Vedoucí práce: doc. Ing. František Dařena, Ph.D. Bc. Michaela

Více

Sémantický web a extrakce

Sémantický web a extrakce Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací

Více

Kde hledat odborné články?

Kde hledat odborné články? Kde hledat odborné články? Martina Machátová E-mail: machat@mzk.cz Tel.: 541 646 170 Poslední aktualizace: 8. června 2015 The Free Library http://www.thefreelibrary.com/ Obsahuje skoro 25 milionů článků

Více

Jak vypadá opravdová discovery služba

Jak vypadá opravdová discovery služba Jak vypadá opravdová discovery služba K čemu Summon? Chybí jasné a přitažlivé místo pro vyhledávání Potíže s určením vhodných zdrojů Současné nástroje neodpovídají očekáváním uživatelů Nejlepší místo,

Více

InternetovéTechnologie

InternetovéTechnologie 7 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS ZÍSKÁVÁNÍ ZNALOSTÍ

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

InternetovéTechnologie

InternetovéTechnologie 7 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ

Více

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování Aplikace IS/ICT BI SCM e-business ERP ERP CRM II e-business Aplikace pro podporu základních řídících a administrativních operací 1 Informační

Více

Marketingový informační systém

Marketingový informační systém Marketingový informační systém Vazba mezi MIS a marketingovým výzkumem. Algoritmus MV. Ing. Lucie Vokáčov ová, vokacova@pef.czu.cz Marketingový informační systém MIS zahrnuje pracovníky, zařízení a informační

Více

Předzpracování dat pro data mining: metody a nástroje

Předzpracování dat pro data mining: metody a nástroje Předzpracování dat pro data mining: metody a nástroje Olga Štěpánková, Zdeněk Kouba, P. Mikšovský, P. Aubrecht Gerstnerova laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v

Více

Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha

Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha Projekt SoSIReČR SoSIReČR = Sociální síť informatiků v regionech České republiky Projekt je hrazen z rozpočtu Evropského sociálního fondu

Více

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov v relačních databázích Dotazovací jazyky I ZS 2010/11 Karel Poledna Vyhledávání podle klíčových slov Uživatel zadá jedno nebo více slov a jsou mu zobrazeny výsledky. Uživatel

Více

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1 Metodický list č. 1 Cíl: Cílem předmětu je získat přehled o možnostech a principech databázového zpracování, získat v tomto směru znalosti potřebné pro informačního manažera. Databázové systémy, databázové

Více

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně vyhledávat informace,

Více

III. Informační systém & databáze

III. Informační systém & databáze III. Informační systém & databáze IS základní terminologie IS konceptuální model informačního systému Vztah IS & databáze Systém řízení báze dat Databázové modely Záznam, pole, datové typy, atribut, instance,

Více

Analýzou dat k efektivnějšímu rozhodování

Analýzou dat k efektivnějšímu rozhodování Analýzou dat k efektivnějšímu rozhodování Chytrá řešení pro veřejnou správu Václav Bahník, ECM Solution Consultant Marek Šoule, ECM Software Sales Representative 8.4.2013 Řízení efektivního poskytování

Více

Katedra kybernetiky, FEL, ČVUT v Praze.

Katedra kybernetiky, FEL, ČVUT v Praze. Strojové učení a dolování dat přehled Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz posnova přednášek Přednáška Učitel Obsah 1. J. Kléma Úvod do předmětu, učení s a bez učitele.

Více

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19 Předmluva 13 O autorovi 15 Poděkování 16 O odborných korektorech 17 Úvod 19 Co kniha popisuje 19 Co budete potřebovat 20 Komu je kniha určena 20 Styly 21 Zpětná vazba od čtenářů 22 Errata 22 KAPITOLA 1

Více

Univerzita Pardubice Fakulta ekonomicko správní. Srovnávací studie text miningových nástrojů. Lukáš Hrdlička

Univerzita Pardubice Fakulta ekonomicko správní. Srovnávací studie text miningových nástrojů. Lukáš Hrdlička Univerzita Pardubice Fakulta ekonomicko správní Srovnávací studie text miningových nástrojů Lukáš Hrdlička Diplomová práce 2009 Prohlašuji: Tuto práci jsem vypracoval samostatně. Veškeré literární prameny

Více

Učící se klasifikátory obrazu v průmyslu

Učící se klasifikátory obrazu v průmyslu Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

InternetovéTechnologie

InternetovéTechnologie 4 InternetovéTechnologie vyhledávání na internetu Ing. Michal Radecký, Ph.D. www.cs.vsb.cz/radecky Vyhledávání a vyhledávače - Jediný možný způsob, jak získat obecný přístup k informacím na Internetu -

Více

Analýza obrazu II. Jan Macháček Ústav skla a keramiky VŠCHT Praha

Analýza obrazu II. Jan Macháček Ústav skla a keramiky VŠCHT Praha Analýza obrazu II Jan Macháček Ústav skla a keramiky VŠCHT Praha +4- - 44-45 Reference další doporučená literatura Microscopical Examination and Interpretation of Portland Cement and Clinker, Donald H.

Více

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna ZÁKLADNÍ MYŠLENKA Umožnit přístup ke službám, fondům a informacím o českých knihovnách z jednoho místa KOMUKOLIV

Více

Změkčování hranic v klasifikačních stromech

Změkčování hranic v klasifikačních stromech Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1 Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie

Více

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen 11. Klasifikace V této kapitole se seznámíme s účelem, principy a jednotlivými metodami klasifikace dat, jež tvoří samostatnou rozsáhlou oblast analýzy dat. Klasifikace umožňuje určit, do které skupiny

Více

Autor: Jan Hošek

Autor: Jan Hošek Úvod STC Závěr Autor: Jan Hošek Školitel: RNDr. Radim Řehůřek Fakulta jaderná a fyzikálně inženýrzká České vysoké učení technické v Praze 25. 5. 2009 Osnova Úvod STC Závěr 1 Úvod Motivace Ukázka technologie

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Microsoft Access tvorba databáze jednoduše

Microsoft Access tvorba databáze jednoduše Microsoft Access tvorba databáze jednoduše Časový rozsah: 2 dny (9:00-16:00) Cena: 3300 Kč + DPH Úvod do relačních databází. Funkce databázových objektů Microsoft Access. Návrh tabulek, definice základních

Více

Jan Březina. 7. března 2017

Jan Březina. 7. března 2017 TGH03 - stromy, ukládání grafů Jan Březina Technical University of Liberec 7. března 2017 Kružnice - C n V = {1, 2,..., n} E = {{1, 2}, {2, 3},..., {i, i + 1},..., {n 1, n}, {n, 1}} Cesta - P n V = {1,

Více

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce Stále větší mžství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce Biologická, astromická data atd Ukládáme stále více dat Úvod do problematiky Databázové techlogie jsou

Více

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Modely a sémantika Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Úvod Existující problémy Prudký nárůst množství informací na webu Kognitivní přetížení Ztráta v informačním prostoru

Více

Využití strojového učení k identifikaci protein-ligand aktivních míst

Využití strojového učení k identifikaci protein-ligand aktivních míst Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE FAKULTA EKONOMICKO-SPRÁVNÍ BAKALÁŘSKÁ PRÁCE 2008 Karel ŠŤOVÍČEK UNIVERZITA PARDUBICE FAKULTA EKONOMICKO - SPRÁVNÍ ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY Komparace nástrojů pro

Více

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty Petr Loukota, Vladimír Bartík Ústav informačních systémů, Fakulta informačních technologií VUT v Brně, Česká republika iloukota@fit.vutbr.cz,

Více

Úvod do dobývání. znalostí z databází

Úvod do dobývání. znalostí z databází POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová 5. Statistica StatSoft, Inc., http://www.statsoft.com, http://www.statsoft.cz. Verze pro Mac i PC, dostupná

Více

Informační a komunikační technologie

Informační a komunikační technologie Dodatek č. Školního vzdělávacího programu Obchodní akademie Lysá nad Labem, obor 63-4-M/02 Obchodní akademie, platného od. 9. 202 - platnost dodatku je od. 9. 206 Informační a komunikační technologie je

Více

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich

Více

Výuka IVT na 1. stupni

Výuka IVT na 1. stupni Výuka IVT na 1. stupni Autor: Mgr. Lenka Justrová Datum (období) tvorby: 2. 2. 13. 2. 2013 Ročník: pátý Vzdělávací oblast: VYHLEDÁVÁNÍ OBRÁZKŮ Anotace: Žáci se seznámí se serverem, který je vhodný k vyhledávání

Více

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 OBSAH 1 ÚVOD... 3 1.1 HOME STRÁNKA... 3 1.2 INFORMACE O GENEROVANÉ STRÁNCE... 4 2 VYHLEDÁVÁNÍ V ÚZEMÍ...

Více

Abychom obdrželi všechna data za téměř konstantních podmínek, schopných opakování:

Abychom obdrželi všechna data za téměř konstantních podmínek, schopných opakování: 1.0 Vědecké přístupy a získávání dat Měření probíhalo v reálném čase ve snaze získat nejrelevantnější a pravdivá data impulzivní dynamické síly. Bylo rozhodnuto, že tato data budou zachycována přímo z

Více

Tabulkový procesor. Základní rysy

Tabulkový procesor. Základní rysy Tabulkový procesor Tabulkový procesor je počítačový program zpracovávající data uložená v buňkách tabulky. Program umožňuje použití vzorců pro práci s daty a zobrazuje výsledné hodnoty podle vstupních

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování 1 Systémy pro podporu rozhodování 2. Úvod do problematiky systémů pro podporu rozhodování 2 Připomenutí obsahu minulé přednášky Rozhodování a jeho počítačová podpora Manažeři a rozhodování K čemu počítačová

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS INTELIGENTNÍ

Více

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9 Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................

Více

Dolování dat z dotazníků. Ondřej Takács

Dolování dat z dotazníků. Ondřej Takács Dolování dat z dotazníků Ondřej Takács Úvod Součást projektu, který se zabývá individualizovaným e-learningem virtuální učitel, který svůj výklad přizpůsobuje statickým či dynamicky se měnícím vlastnostem

Více

NEJVYŠŠÍ SPRÁVNÍ SOUD

NEJVYŠŠÍ SPRÁVNÍ SOUD NEJVYŠŠÍ SPRÁVNÍ SOUD NÁPOVĚDA PRO VYHLEDÁVÁNÍ V DATABÁZI JUDIKATURY SPRÁVNÍCH SOUDŮ OBSAH 1. Popis hledání... 2 1.1 Základní formulář... 2 Náhled na základní formulář... 2 Vyhledávací pole... 2 Oblast

Více

Profilová část maturitní zkoušky 2017/2018

Profilová část maturitní zkoušky 2017/2018 Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2017/2018 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 78-42-M/01 Technické lyceum Předmět: TECHNIKA

Více

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ Marie Richterová 1, David Juráček 2 1 Univerzita obrany, Katedra KIS, 2 PČR MŘ Brno Abstrakt Článek se zabývá rozpoznáváním analogových a diskrétních

Více

Výuka IVT na 1. stupni

Výuka IVT na 1. stupni Výuka IVT na 1. stupni Autor: Mgr. Lenka Justrová Datum (období) tvorby: 2. 2. 13. 2. 2013 Ročník: pátý Vzdělávací oblast: FULTEXTOVÉ VYHLEDÁVÁNÍ Anotace: Žáci se seznámí s pojmem fultextové vyhledávání,

Více

Klasifikace hudebních stylů

Klasifikace hudebních stylů Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Jan Pecha Josef Dovalil Jiří Suchý

Jan Pecha Josef Dovalil Jiří Suchý Jan Pecha Josef Dovalil Jiří Suchý Význam soutěžní úspěšnosti ve výkonnostním vývoji tenistů KAROLINUM Obálka Význam soutěžní úspěšnosti ve výkonnostním vývoji tenistů Jan Pecha Josef Dovalil Jiří Suchý

Více

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

SíťIT: Portál na podporu sociální sítě informatiků v ČR http://www.sitit.cz/

SíťIT: Portál na podporu sociální sítě informatiků v ČR http://www.sitit.cz/ SíťIT: Portál na podporu sociální sítě informatiků v ČR http://www.sitit.cz/ Projekt SoSIReČR SoSIReČR = Sociální síť informatiků v regionech České republiky Projekt je hrazen z rozpočtu Evropského sociálního

Více

Customer Provider Relationship Monitoring by Association Analyse Means

Customer Provider Relationship Monitoring by Association Analyse Means Sledování vztahu zákazníka a poskytovatele prostředky asociační analýzy Customer Provider Relationship Monitoring by Association Analyse Means Naděžda Chalupová, Arnošt Motyčka Mendelova zemědělská a lesnická

Více

Informační a komunikační technologie. Informační a komunikační technologie

Informační a komunikační technologie. Informační a komunikační technologie Oblast Předmět Období Časová dotace Místo realizace Charakteristika předmětu Průřezová témata Informační a komunikační technologie Informační a komunikační technologie 5. 6. ročník 1 hodina týdně počítačová

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Materiál byl vytvořen v rámci projektu Nové výzvy, nové příležitosti, nová škola

Materiál byl vytvořen v rámci projektu Nové výzvy, nové příležitosti, nová škola Materiál byl vytvořen v rámci projektu Nové výzvy, nové příležitosti, nová škola Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky Co je to databáze? Jaké

Více

Formáty a dlouhodobé uložení: Identifikace, extrakce a validace

Formáty a dlouhodobé uložení: Identifikace, extrakce a validace Formáty a dlouhodobé uložení: Identifikace, extrakce a validace Zbyšek Stodůlka Brno, 2. 5. 2017 Informační balíčky Funkční celky digitálního archivu Příjem služby a funkce k balíčkům SIP (od tvůrců, tj.

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více