Automatické vyhledávání informace a znalosti v elektronických textových datech

Rozměr: px
Začít zobrazení ze stránky:

Download "Automatické vyhledávání informace a znalosti v elektronických textových datech"

Transkript

1 Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining)

2 Data, informace, znalost Elektronická textová data Induktivní strojové učení Příprava dat, jejich representace Metody vyhledávání, podobnost Aplikační oblasti

3 Data, informace, znalost - data jsou zde všechny údaje, které se nějak získaly (údaje relevantní, nerelevantní, se šumem i bez šumu, přesné i nepřesné, apod.) - informace je část dat, která je zajímavá z hlediska řešení zvoleného problému - znalost je zobecněná informace - metaznalost je znalost o znalosti (např. vědět, která znalost je aplikovatelná na konkrétní problém)

4 Elektronická textová data Text v elektronické formě (ASCII/ANSI, Unicode, apod.). Typická textová data jsou např. součástí Internetu. Elektronický text je využíván v mnoha odvětvích. Elektronická textová data jsou velmi často tvořena běžným přirozeným libovolným jazykem (natural language). Strojové zpracování takových typicky lidských dat je mimořádně složité a většinou závisí na konkrétním jazyku.

5 Induktivní strojové učení - učení pomocí konečné množiny konkrétních příkladů - příklady obecně pokrývají jen určitou část reality - chybějí dostatečné údaje o vlastnostech dat (např. rozložení) - nelze vytvořit matematický model pro spolehlivou predikci - znalost se získá zobecněním trénovacích příkladů

6 Induktivní strojové učení Jakou barvu má vrána? Černou? A proč? Viděl někdy někdo jinou než černou vránu? Viděl někdo úplně všechny vrány, které kdy existovaly a existují kdekoliv na Zemi? Do jaké míry je generalizace správná a přijatelná?

7 Induktivní strojové učení Kolik konkrétních vran je nutno vidět pro generalizaci vrána je černá?

8 Induktivní strojové učení Vrána šedivka:

9 Induktivní strojové učení Zobecnění konkrétních disponibilních příkladů je jedna z možných metod učení. Stroje (počítače) vyžadují (na rozdíl od lidí) obvykle podstatně větší množství příkladů ke zobecnění a tím k získání znalosti. Velkou roli hraje využívání nějaké metody na určování stupně podobnosti např. zařazení neznámého příkladu k určité skupině příkladů známých.

10 Induktivní strojové učení Algoritmy strojového učení stanovují své příslušné parametry automatizovaně ve fázi trénování. Vlastnosti natrénovaného algoritmu se ověří ve fázi testování. Pokud výsledky testování jsou přijatelné, lze naučený algoritmus použít pro danou aplikaci. Trénovací fáze vyžaduje vhodné učící příklady, neboť vlastnosti algoritmu (parametry) jsou nakonec stanoveny použitými daty. Testovací fáze používá příklady, které nebyly algoritmu předloženy během učení.

11 Příprava dat, jejich representace Typická cesta získávání znalostí z elektronických nestrukturovaných textů spočívá v těchto krocích: - zdroj patřičný objem (obecně zašuměných) dat - odstranění šumu čistá data - výběr aplikačně zajímavé části dat informace - zobecnění informace znalost

12 Příprava dat, jejich representace Representace textových dokumentů: bag of words (BOW). Metody strojového učení převážně vidí textové dokumenty jako soubory obsahující symbolické hodnoty ( termíny, slova ), aniž by se zabývaly jejich významem (nanejvýš velmi mělce, např. při předzpracování dat) nebo jejich vzájemnou závislostí. Proto se pořadí slov v dokumentu považuje v principu za bezvýznamné, což sice eliminuje určitý informační obsah, ale výrazně zjednodušuje zpracování přirozeného jazyka z hlediska např. klasifikace.

13 Příprava dat, jejich representace Předzpracování ovlivňuje výrazně kvalitu výsledku, např.: - vyřazení obecných slov, která nemají specifický význam z hlediska aplikace (např. předložky, zkratky); - vyřazení slov s velmi nízkou nebo vysokou frekvencí ve všech dokumentech; - vyřazení interpunkce, mezer, apod.; - převod všech písmen na malá (slovo na začátku věty a uvnitř věty je totéž při representaci typu bag-of-words); - eliminace nevýznamných znaků a slov výrazně snižuje dimensionalitu problému (např. řádově z 104 na 103, protože každé unikátní slovo představuje jednu dimensi).

14 Příprava dat, jejich representace Příklad representace textu, kde se ignoruje interpunkce, členění textu do řádků, velká a malá písmena, dvojjazyčnost (anglické termíny v české větě), pořadí slov, které může mít velký význam (např. machine learning strojové učení a learning machine učící stroj má zcela odlišný význam), a vynechají se obecná slova. Vznikne tedy slovník (seznam symbolů) používaný pro trénink nějakého zvoleného algoritmu:

15 Příprava dat, jejich representace Příklad representace textu, kde se ignoruje interpunkce, členění textu do řádků, velká a malá písmena, dvojjazyčnost (anglické termíny v české větě), pořadí slov, které může mít velký význam (např. machine learning strojové učení a learning machine učící stroj má zcela odlišný význam), a vynechají se obecná slova. Vznikne tedy slovník (seznam symbolů) používaný pro trénink nějakého zvoleného algoritmu: anglické bag bow české členění dvojjazyčnost ignoruje interpunkce learning machine má malá metody mít může obecná odlišný písmena pomocí pořadí příklad representace řádků slov stroj strojové termíny textu učení učící velká velký větě vynechání význam words zcela

16 Příprava dat, jejich representace Další redukci dimensionality lze docílit např. převodem slov na základní tvar (kmen, lemma). V předchozím příkladu by bylo možné redukovat vzniklý slovník (infinitiv, 1. pád, jednotné číslo, jediný rod, apod.), takže dimensionalita klesne o 4: mít má stroj strojové učení učící velká velký mít stroj učit velký Tzv. lemmatizace je ovšem jazykově závislá. Pro angličtinu existuje zjednodušený systém Porter stemming, kde se prostě odřezávají koncovky, což není dokonalé, ale z praktického hlediska velmi účinné.

17 Příprava dat, jejich representace Výskyt slov existuje více možností, jak ho vyjádřit, např.: - binární: '1' slovo se v dokumentu vyskytuje, '0' slovo se nevyskytuje (váha slova = 1 nebo 0) - frekvenční: váha slova je dána četností jeho výskytu - tf-idf: term frequency-inverted document frequency: četnost slova v dokumentu (representace dokumentu daným slovem) vůči počtu dokumentů, v nichž se dané slovo vyskytuje (v čím více dokumentech se dané slovo vyskytuje, tím nižší je jeho diskriminační hodnota)

18 Metody vyhledávání, podobnost Obecná úloha spočívá v nalezení podobnosti dokumentu vůči nějakému jinému nebo nějaké skupině (např. zajímavé a nezajímavé, spadající do určitého tématu, apod.). Podobné dokumenty tvoří shluky nebo třídy. Shlukování: učení bez učitele. Rozdělení směsi dokumentů na skupiny obsahující dokumenty s nějakou vzájemnou podobností. Podobnost je nutno nějak definovat. Shlukování se aplikuje tehdy, když nejsou k dispozici známé příklady z jednotlivých skupin. Klasifikace: učení s učitelem. Příklady členů jednotlivých tříd jsou k dispozici. Stroj se učí zatřiďovat pomocí příkladů.

19 Metody vyhledávání, podobnost Učení s částečným dohledem učitele: k dispozici je málo příkladů, ale mohou být typické. Pomocí omezeného množství příkladů jsou neznámé případy postupně začleňovány do příslušných tříd (či shluků), a tak může být posilována rozhodovací schopnost vznikajících tříd pro zařazování dalších neznámých dokumentů. Postupuje se tak např. tehdy, když je k dispozici jen několik známých příkladů (např. článků) a je nutno roztřídit velmi velké množství neznámých případů typický případ pro současná textová data.

20 Metody vyhledávání, podobnost Metody klasifikace textových dokumentů (např.): - k-nn (k-nearest neighbors), nejbližší soused(é) (Eukleidova vzdálenost udává podobnost dokumentů); - generování rozhodovacích stromů mimalizací entropie (uzly testují jen ta relevantní slova, která přispívají k zařazení dokumentu do správné kategorie); - disjunktní normální forma (vytvořená pravidla); - support vector machines (SVM, nalezení pouze těch textů, které tvoří oddělovací hranici mezi dvěma třídami); - Bayesův naivní klasifikátor (stanovení pravděpodobnosti náležení do jedné ze tříd pomocí kombinace podmíněných pravděpodobností vypočítaných z tréninkových dat); aj.

21 Metody vyhledávání, podobnost Jako demonstraci klasifikační metody lze použít např. jeden z nejčastěji aplikovaných algoritmů, tzv. metodu naivního bayesovského klasifikátoru (BNK). BNK je založen na Bayesově teorému pro pravděpodobnostní inferenci předpokladem je, že míra náležení kombinovaných jevů (zde výskytů slov v dokumentu) do patřičných kategorií je řízena rozloženími pravděpodobností a že optimální rozhodnutí lze najít pomocí těchto pravděpodobností a údajů z disponibilních dat z reálného světa:

22 Metody vyhledávání, podobnost p D h p h p h D = p D Počítá se pravděpodobnost hypotézy h (např. příslušnost do určité třídy), přičemž jsou dána nějaká trénovací data D. Bayesův teorém z předchozího vztahu využívá hodnoty pravděpodobností p(d h), což jsou pravděpodobnosti výskytu dat D za předpokladu platnosti uvažované hypotézy h.

23 Metody vyhledávání, podobnost p(d) je pravděpodobnost výskytu dat D bez jakéhokoli vztahu k jakékoli hypotéze (apriorní pravděpodobnost). p(h) je pravděpodobnost platnosti hypotézy h (apriorní pravděpodobnost), aniž jsou dosud známa nějaká data D, která svým výskytem mohou zvýšit či snížit p(h). p(h D) je tedy hledaná aposteriorní pravděpodobnost, že pro daná data D bude platit hypotéza h.

24 Metody vyhledávání, podobnost Výpočetní složitost lze výrazně snížit zavedením úmyslné nekorektnosti, aby bylo možno Bayesovu metodu v praxi použít: Hodnoty atributů (slova na jednotlivých pozicích) jsou navzájem podmíněně nezávislé, tj. dokument je vlastně jen pozorovanou konjunkcí hodnot atributů. Celková pravděpodobnost náležení textu do každé z možných tříd cj se počítá zjednodušeně jako součin pravděpodobností výskytů individuálních slov wi v dokumentu:

25 Metody vyhledávání, podobnost p w 1, w 2,, w m c j [ n p w i c j i ] c NB = argmax p c j p w i c j cj i=1 n počet slovních pozic v dokumentu třídy cj j index jedné z uvažovaných klasifikačních tříd p(cj ) apriorní pravděpodobnost výskytu dokumentu v cj p(wi cj ) aposteriorní pravděpodobnost výskytu slova wi v cj

26 zdroj textových dokumentů positivní trénovací příklady předzpracování + extrakce unikátních slov a abeceda albatros... žížala celkový slovník - četnosti slov v positivních p( wi c+ ) dokumentech četnosti slov v negativních p( wi c ) dokumentech negativní trénovací příklady Obecný přístup k vytváření pravděpodobností pro klasifikaci

27 w1 Trénovací texty: w2 je je není není velmi chladno w3 pěkné počasí chladno velmi chladno pěkné chladno... + texty : celkem 6 slov - texty : celkem 7 slov cj počet unikátních slov : 6 Klasifikovaný dokument to není pěkné chladno : + nebo -?

28 Po vytvoření celkového slovníku z unikátních slov (je jich zde 6), výpočtu apriorních pravděpodobností (2 texty + a 4 texty v celkem 6 textech), výpočtu aposteriorních pravděpodobností výskytu slov v + a, a následné normalizaci lze určit výsledek: setříděný slovník : četnost slova wi v + četnost slova wi v p (wi +) p (wi -) w1 w2 chladno je 1 3 1/6 3/7 1 1 w3 w4 w5 w6 není pěkné počasí velmi 1 1 1/6 1/6 1/7 1/ /6 1/7 1/6 0/7 1/6 1/7 p = p ( 'není', 'pěkné', 'chladno' +/ ) = = pnbk ('není' +/ ) p('pěkné' +/ ) p('chladno' +/ )

29 w3 w4 w1 = není pěkné chladno P+ = p(+) p(w3 = 'není' +) p(w4 = 'pěkné' +) p(w1 = 'chladno' +) = = P- = p( ) p(w3 = 'není' ) p(w4 = 'pěkné' ) p(w1 = 'chladno' ) = = P = n Pn = Pn- > Pn+ negativní

30 Aplikační oblasti Existuje velké množství aplikací v různých oborech, a to všude tam, kde existuje elektronický text. Typickým příkladem je např. vyhledávání na Internetu nebo filtrace spamu z elektronické pošty. Mezi nejmodernější aplikační oblasti nyní patří např.: - seskupování příspěvků v blogosféře ; - stanovení subjektivity v textu; - názory/pocity/nálada/postoje/mínění v textu; - odhalovaní textových plagiátů; - analýza názorů; - business intelligence (legální komerční špionáž ); atd.

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Informační systémy pro podporu rozhodování

Informační systémy pro podporu rozhodování Informační systémy pro podporu rozhodování 3 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Nejbližší sousedi k NN Algoritmus k-nejbližších sousedů (k-nearest neighbors)

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Chybějící atributy a postupy pro jejich náhradu

Chybějící atributy a postupy pro jejich náhradu Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké

Více

Učící se klasifikátory obrazu v průmyslu

Učící se klasifikátory obrazu v průmyslu Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:

Více

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Bayesovská klasifikace

Bayesovská klasifikace Bayesovská klasifikace založeno na Bayesově větě P(H E) = P(E H) P(H) P(E) použití pro klasifikaci: hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J E) = max i P(E H i) P(H

Více

Lineární diskriminační funkce. Perceptronový algoritmus.

Lineární diskriminační funkce. Perceptronový algoritmus. Lineární. Perceptronový algoritmus. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics P. Pošík c 2012 Artificial Intelligence 1 / 12 Binární klasifikace

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Algoritmy a struktury neuropočítačů ASN P3

Algoritmy a struktury neuropočítačů ASN P3 Algoritmy a struktury neuropočítačů ASN P3 SOM algoritmus s učitelem i bez učitele U-matice Vektorová kvantizace Samoorganizující se mapy ( Self-Organizing Maps ) PROČ? Základní myšlenka: analogie s činností

Více

Lineární klasifikátory

Lineární klasifikátory Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Asociační i jiná. Pravidla. (Ch )

Asociační i jiná. Pravidla. (Ch ) Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu. Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.

Více

Strojové učení se zaměřením na vliv vstupních dat

Strojové učení se zaměřením na vliv vstupních dat Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti. Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je

Více

Rozdělování dat do trénovacích a testovacích množin

Rozdělování dat do trénovacích a testovacích množin Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném

Více

Informační systémy pro podporu rozhodování

Informační systémy pro podporu rozhodování Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací

Více

Trénování sítě pomocí učení s učitelem

Trénování sítě pomocí učení s učitelem Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup

Více

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam

Více

Instance based learning

Instance based learning Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění

Více

Automatická oprava textu v různých jazycích

Automatická oprava textu v různých jazycích Automatická oprava textu v různých jazycích Bc. Petr Semrád, doc. Ing. František Dařena Ph.D., Ústav informatiky, Provozně ekonomická fakulta, Mendelova univerzita v Brně, xsemrad@mendelu.cz, frantisek.darena@mendelu.cz

Více

NLP & strojové učení

NLP & strojové učení NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování

Více

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/ Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy

Více

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz 5. LETNÍ ŠKOLA MATEMATICKÉ BIOLOGIE ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM

Více

Umělá inteligence II

Umělá inteligence II Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními

Více

Využití strojového učení k identifikaci protein-ligand aktivních míst

Využití strojového učení k identifikaci protein-ligand aktivních míst Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice, Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání

Více

Neuronové sítě (11. přednáška)

Neuronové sítě (11. přednáška) Neuronové sítě (11. přednáška) Machine Learning Naučit stroje se učit O co jde? Máme model výpočtu (t.j. výpočetní postup jednoznačně daný vstupy a nějakými parametry), chceme najít vhodné nastavení parametrů,

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

Klasifikace předmětů a jevů

Klasifikace předmětů a jevů Klasifikace předmětů a jevů 1. Úvod Rozpoznávání neboli klasifikace je základní znak lidské činnosti. Rozpoznávání (klasifikace) předmětů a jevů spočívá v jejich zařazování do jednotlivých tříd. Třídou

Více

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl

Více

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 4. října 2018 Podmíněná pravděpodobnost Při počítání pravděpodobnosti můžeme k náhodnému pokusu přidat i nějakou dodatečnou podmínku. Podmíněná pravděpodobnost

Více

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti. 3.1 Základy teorie pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti. Co se dozvíte Náhodný pokus a náhodný jev. Pravděpodobnost, počítání s pravděpodobnostmi.

Více

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen 11. Klasifikace V této kapitole se seznámíme s účelem, principy a jednotlivými metodami klasifikace dat, jež tvoří samostatnou rozsáhlou oblast analýzy dat. Klasifikace umožňuje určit, do které skupiny

Více

5. Umělé neuronové sítě. Neuronové sítě

5. Umělé neuronové sítě. Neuronové sítě Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně

Více

Katedra kybernetiky, FEL, ČVUT v Praze.

Katedra kybernetiky, FEL, ČVUT v Praze. Strojové učení a dolování dat přehled Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz posnova přednášek Přednáška Učitel Obsah 1. J. Kléma Úvod do předmětu, učení s a bez učitele.

Více

Booleova algebra. ZákonyBooleovy algebry Vyjádření logických funkcí

Booleova algebra. ZákonyBooleovy algebry Vyjádření logických funkcí Booleova algebra ZákonyBooleovy algebry Vyjádření logických funkcí pravdivostní tabulka logický výraz seznam indexů vstupních písmen mapa vícerozměrná krychle 30-1-13 O. Novák 1 Booleova algebra Booleova

Více

Autor: Jan Hošek

Autor: Jan Hošek Úvod STC Závěr Autor: Jan Hošek Školitel: RNDr. Radim Řehůřek Fakulta jaderná a fyzikálně inženýrzká České vysoké učení technické v Praze 25. 5. 2009 Osnova Úvod STC Závěr 1 Úvod Motivace Ukázka technologie

Více

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Jak lze v korpusech hledat doklady pro výzkum morfologie? Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy

Více

Support Vector Machines (jemný úvod)

Support Vector Machines (jemný úvod) Support Vector Machines (jemný úvod) Osnova Support Vector Classifier (SVC) Support Vector Machine (SVM) jádrový trik (kernel trick) klasifikace s měkkou hranicí (soft-margin classification) hledání optimálních

Více

Výpočetní teorie učení. PAC učení. VC dimenze.

Výpočetní teorie učení. PAC učení. VC dimenze. Výpočetní teorie učení. PAC učení. VC dimenze. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics COLT 2 Koncept...........................................................................................................

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz II. STRUKTURÁLNÍ KLASIFIKACE STRUKTURÁLNÍ POPIS relační struktura je vytvořena z určitých

Více

Textmining a Redukce dimenzionality

Textmining a Redukce dimenzionality Vytěžování dat, cvičení 7: Textmining a Redukce dimenzionality Miroslav Čepek, Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 22 Textmining

Více

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

Datové struktury 2: Rozptylovací tabulky

Datové struktury 2: Rozptylovací tabulky Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy

Více

Binární vyhledávací stromy pokročilé partie

Binární vyhledávací stromy pokročilé partie Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald

Více

Umělé neuronové sítě

Umělé neuronové sítě Umělé neuronové sítě 17. 3. 2018 5-1 Model umělého neuronu y výstup neuronu u vnitřní potenciál neuronu w i váhy neuronu x i vstupy neuronu Θ práh neuronu f neuronová aktivační funkce 5-2 Neuronové aktivační

Více

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost. Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační

Více

Unstructured data pre-processing using Snowball language

Unstructured data pre-processing using Snowball language Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická

Více

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze KYBERNETIKA A UMĚLÁ INTELIGENCE 8-9. Pravděpodobnostní rozhodování a predikce laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze Rozhodování za neurčitosti

Více

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Zadání druhého zápočtového projektu Základy algoritmizace, 2005 Zadání druhého zápočtového projektu Základy algoritmizace, 2005 Jiří Dvorský 2 května 2006 Obecné pokyny Celkem je k dispozici 8 zadání příkladů Každý student obdrží jedno zadání Vzhledem k tomu, že odpadly

Více

Soustavy se spínanými kapacitory - SC. 1. Základní princip:

Soustavy se spínanými kapacitory - SC. 1. Základní princip: Obvody S - popis 1 Soustavy se spínanými kapacitory - S 1. Základní princip: Simulace rezistoru přepínaným kapacitorem viz známý obrázek! (a rovnice) Modifikace základního spínaného obvodu: Obr. 2.1: Zapojení

Více

Expertní systémy. Typy úloh: Klasifikační Diagnostické Plánovací Hybridní Prázdné. Feingenbaum a kol., 1988

Expertní systémy. Typy úloh: Klasifikační Diagnostické Plánovací Hybridní Prázdné. Feingenbaum a kol., 1988 Expertní systémy Počítačové programy, simulující rozhodovací činnost experta při řešení složitých úloh a využívající vhodně kvality rozhodování na úrovni experta. Typy úloh: Klasifikační Diagnostické Plánovací

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky. Automatická klasifikace textových dokumentů

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky. Automatická klasifikace textových dokumentů Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Bakalářská práce Automatická klasifikace textových dokumentů Plzeň 2012 Veronika Černá Prohlášení Prohlašuji,

Více

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1 Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení PAC učení 1 Cíl induktivního strojového učení Na základě omezeného vzorku příkladů E + a E -, charakterizovat (popsat) zamýšlenou

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Více

Dolování dat z dotazníků. Ondřej Takács

Dolování dat z dotazníků. Ondřej Takács Dolování dat z dotazníků Ondřej Takács Úvod Součást projektu, který se zabývá individualizovaným e-learningem virtuální učitel, který svůj výklad přizpůsobuje statickým či dynamicky se měnícím vlastnostem

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Klasifikace a rozpoznávání. Lineární klasifikátory

Klasifikace a rozpoznávání. Lineární klasifikátory Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber

Více

Ochutnávka strojového učení

Ochutnávka strojového učení Ochutnávka strojového učení Úvod do problematiky Barbora Hladká http://ufal.mff.cuni.cz/bvh Univerzita Karlova Matematiko-fyzikální fakulta Ústav formální a aplikované lingvistiky TechMeetUp Ostrava 21/3/18

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

StatSoft Úvod do neuronových sítí

StatSoft Úvod do neuronových sítí StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem

Více

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších

Více