Metody analýzy dat II
|
|
- Ladislav Konečný
- před 5 lety
- Počet zobrazení:
Transkript
1 Metody analýzy dat II Vzorkování (Sampling) MAD2 2018/19 1
2 Literatura 52/csci L9.pdf urses/networksampling-kdd13-final.pdf MAD2 2018/19 2
3 Sampling Marketing - propagace, nabízení a distribuce vzorků nějakého produktu. Zpracování signálů - proces diskretizace signálu v časové oblasti. Analýza dat - proces, při kterém se analyzuje jen část dat (vzorek, sample) s cílem získat relevantní informace o větším souboru dat. MAD2 2018/19 3
4 Proč sampling? (1) Nemáme přístup k celé datové kolekci, zpracování dat je časově i prostorově náročné. Máme celou síť, ale data se nevejdou do paměti. Jak analyzovat síť v rozumném čase? Máme celou síť, data se vejdou do paměti, ale chceme spustit např. časově náročný algoritmus Je náročné nebo nemožné získat celou síť (Facebook, WWW, Twitter atd.), např. díky crawlingu máme přístup jen k podsítím a přesto chceme získat představu o vlastnostech sítě celé. 4
5 Proč sampling? (2) MAD2 2018/19 5
6 Proč sampling? (3) Vizualizace originální síť je příliš velká k vizualizaci a zobrazení všech hran (vrcholů) vede k nepřehlednosti. Tím se ztrácí informace, která by mohla být vizualizací sítě poskytnuta. Pokud je vzorek kvalitní, lze například vykreslit komunity sítě, které odpovídají i původnímu grafu. Nedostatečný přístup k datům například v sociální síti Facebook nelze za účelem získání sítě procházet kvůli limitům API všechny osoby. Proto se náhodně vybere osoba a od této osoby se přechází po hranách k dalším osobám. Dochází tak k vzorkování vrcholů pomocí metody založené na náhodné procházce. Je důležité dobře odhadnout, kolik vrcholů se musí navštívit tak, aby se ze vzorku získala relevantní informace. Průzkum skryté populace používá se v sociologických průzkumech, kdy je nutné získat informace o skryté skupině osob, například skupina drogové závislých lidí. Přímý přístup k těmto skupinám je většinou nemožný. Začíná se s malým počtem osob, od kterých se získávají informace o dalších členech skupiny. Typickou metodou je Snow Ball Sampling, ve kterém se na vrcholy postupně nabalují další vrcholy podle vazeb mezi předchozími vrcholy. Sparsifikace grafu Mnoho sítí je příliš velkých a manipulace s nimi je obtížná. Řešením je aproximovat husté sítě řidšími sítěmi. To zahrnuje jak redukci hran, tak i redukci vrcholů. Často jsou na výsledný graf procesu sparsifikace kladeny přísné požadavky. Například, že všechny vrcholové řezy původního grafu musí být zachovány. MAD2 2018/19 6
7 Proč sampling (4) Obecně pokud je velikost grafu měřena počtem vrcholů, musíme nějak zjistit, při jaké velikosti je ještě vzorek podobný původnímu grafu. Scaledown sampling: Pro originální síť (graf) G s n vrcholů chceme vytvořit vzorek S s n vrcholů, kde n << n. Cílem je, aby vzorek S měl vlastnosti co nejvíce podobné vlastnostem původního grafu G (např. degree distribution, clustering coefficient, community structure, Pagerank). Back-in-time sampling: Cílem je vrátit se zpět v čase a napodobit minulé verze G, z nichž pouze pozorujeme konečný, statický snapshot. Nechť G n označuje graf G v určitém okamžiku, kdy měl n uzlů. Nyní chceme najít vzorek S na n uzlech, který je nejvíce podobný grafu G n, tj. když měl graf G stejnou velikost jako S. Local substructures: Můžeme vzorkovat lokální substruktury s cílem odhadnou četnost jejich výskytů apod. takové substruktury jsou trojúhelník, motivy nebo graphlets. MAD2 2018/19 7
8 Graphlets MAD2 2018/19 8
9 Vzorkování vzhledem k dostupnosti sítě Plný přístup ke grafu celá rozsáhlá síť je viditelná a uložená v paměti. Je možný náhodný výběr vrcholu nebo hrany z celé sítě. Pro graf s plným přístupem je možné použít metody založené na náhodném výběru vrcholů nebo náhodném výběru hran, případně kombinací obou metod. Omezený přístup ke grafu síť je skryta, nicméně umožňuje procházení vrchol po vrcholu a prozkoumávání sousedů aktuálního vrcholu. Předpokladem je, že síť je propojená do jedné komponenty. Tento způsob je vhodný v případě velmi rozsáhlé sítě, která se nevejde do hlavní paměti. Metody vhodné pro tento způsob jsou založeny na procházení grafu. Během procházení grafu jsou navštívené vrcholy ukládány jako vzorek původního grafu. Stream dat se používá tam, kde je omezena hlavní paměť a data se rychle přesouvají. Tento způsob je vhodný pro dynamické sítě. Hrany přicházejí ke zpracování buď v určeném pořadí, nebo hrany incidentní s jedním vrcholem přicházejí spolu. Stream hran je tak masivní, že není možné všechna data uložit do hlavní paměti. U tohoto způsobu je důležité efektivní zpracování v reálném čase. Většina algoritmů pro vzorkování streamovaných sítí je založena na náhodném ukládání do paměti pevné velikosti. Každá přicházející hrana je s určitou pravděpodobností vybrána a uložena do kontejneru pevné velikosti. Pokud je kontejner plný, nová hrana nahradí již dříve uloženou starší hranu. MAD2 2018/19 9
10 Vzorkovací metody Jakou použít metodu pro vzorkování? Jak nastavit její parametry? Jak velký vzorek vytvořit? Správný výběr záleží také na typu původního grafu (aplikační doména, souvislost, temporální graf, ). Lze použít metody založené na: výběru vrcholů nebo hran (pravděpodobnostní metody) Node Selection (Random Node Sampling, Degree based Sampling, PageRank based Sampling, ), Edge Selection (Random Edge Sampling, Random Node Edge Sampling, ) prohledávání grafu - Sampling by Exploration Snowball Sampling, Random Walk, Random Walk with Restart, Random Jump, Forest Fire, MHRW, MAD2 2018/19 10
11 Probabilistic sampling Pravděpodobnostní vzorkování (Probabilistic sampling) předpokl., že máme k dispozici celou síť Random Node Sampling: vyber (zahrň) každý vrchol i (a jeho sousedy) s pravděpodobností p Random Edge Sampling: vyber každou hranu (i, j) s pravděpodobností p Degree based Sampling: vyber každý vrchol i (a jeho sousedy) s pravděpodobností p / d i, kde d i je stupeň Attribute-proportional: vyber každý vrchol i (a jeho sousedy) s pravděpodobností p / x i, kde x i je atribut MAD2 2018/19 11
12 Sampling by Exploration Sampling by Exploration (Seed-based sampling) Snowball sampling - pro každý počáteční vrchol i, a vzdálenost l, zahrň všechny vrcholy (a tedy i jejich sousedy) ve vzdálenosti l nalezené BFS s počátkem v i BFS edge sampling: pro každý počáteční vrchol i, a vzdálenost l, zahrň všechny hrany ve vzdálenosti l nalezené BFS s počátkem v i. Random Walk Sampling a varianty MAD2 2018/19 12
13 Typické vzory Obecně sampling generuje 3 typické vzory: Řídké grafy - ty produkuje pravděpodobnostní vzorkování - důvod: pst, že dvě množiny sousedů vrcholů i a j vybraných s pstí p se budou překrývat, je velmi malá. Relativně kompaktní graf, který však je ovlivněn tím, že přednostně vybíráme vrcholy (hrany) blízko sebe (co do vzdálenosti l). Takové grafy jsou výsledkem seed-based samplingu. Grafy se spoustou vrcholů s malým stupněm (často d = 1), což je způsobeno tím, že po zařazení sousedů nějakého vrcholu do grafu už do něj nezařadíme sousedy těchto sousedů. MAD2 2018/19 13
14
15 Random Node Sampling Random Node Sampling (Uniform Node Sampling) Vyber (zahrň) do vzorku S vrchol i (a jeho sousedy) s pstí p. Jestliže je velikost vzorku S stanovena například na 15% původní sítě, bude každý vrchol vybrán s pravděpodobností p = Následně do vzorku přidej hrany E S = {(u, v) E u V S, v V S } (tedy z původního grafu jsou ponechány pouze hrany mezi vrcholy V S ze vzorku). Předpokladem pro RN algoritmus je plně přístupná síť. Nevýhodou je, že vzorek získaný touto metodou moc dobře nerespektuje distribuce stupňů původní sítě. MAD2 2018/19 15
16 Random Node Sampling Jinak - jak vybrat pst p tak, abychom dosáhli vzorku o velikosti n vrcholů? Všechny vrcholy mají stejnou pst vybrání do vzorku. Pokaždé, když náhodně s pstí p vybereme nějaký vrchol, se celkový počet vrcholů ve vzorku zvýší o 1+<d> vrcholů, kde d je stupeň vrcholu i a <d> je průměrný stupeň. Pokud každý vrchol vybíráme s pstí MAD2 2018/19 16
17 Random Edge Sampling Metoda Random Edge Sampling (RE, taky Uniform Edge Sampling) provádí výběr hran s uniformní pravděpodobností p a přidává je do vzorku E S E tak dlouho, dokud vzorek není dostatečně velký. Na rozdíl od RN, metoda RE nemění relativní četnost hran, protože výběr hrany připojené k vrcholu i je závislý na jeho stupni d i. Vrchol se stupněm d v původním grafu bude mít stupeň p*d ve vzorku, kde p je pravděpodobnost výběru jedné hrany. To má za následek stejnou distribuci stupňů jako v původním grafu. Nevýhody: Je-li počet hran původního grafu m= E, bude ve vzorku p*m hran rozloženo mezi n vrcholů, což má za následek nízký průměrný stupeň vrcholu. Jestliže průměrný stupeň klesne pod hodnotu 1, vzorek bude postrádat jednu hlavní velkou komponentu a bude obsahovat mnoho malých komponent. Redukovaný graf bude velmi řídce propojen a nebude zachována např. komunitní struktura. MAD2 2018/19 17
18 Snowball sampling Pro každý počáteční vrchol (seed) i a vzdálenost l, zahrň všechny vrcholy (a tedy i jejich sousedy) ve vzdálenosti l nalezené BFS s počátkem v i Snowball sampling vede k rozdělení vrcholů do tří typů Vrchol i a vrcholy, které jsou ve vzdálenosti <= l od vrcholu i vrcholy, které jsou ve vzdálenosti = l+1 od vrcholu i vrcholy, které jsou ve vzdálenosti > l+1 od vrcholu i a nejsou tak součástí vzorku MAD2 2018/19 18
19 Snowball sampling Výsledný graf dobře popisuje strukturu okolí vrcholu i, ale vrcholy stupně =1 v prstenci halo na předchozím obr. mohou komplikovat jakoukoliv další analýzu (ale můžeme je zahodit, pokud nás např. zajímá jen bezprostřední okolí seedu). Obdržené vzorky však jsou ovlivněny stupněm vrcholu čím větší má vrchol stupeň, tím větší má šanci být ve vzdálenosti <= l+1 od vrcholu i a být zařazen do vzorku. 19
20 Random Walk walk Náhodná procházka je algoritmus, ve kterém volíme následující krok zcela náhodně. Jedná se o základní model pro simulaci náhodného procesu v mnoha aplikačních doménách. Obecně lze říci, že náhodná procházka je proces, kde daná konkrétní pozice závisí pouze na předchozí pozici a pravděpodobnostní funkci, která určuje následující směr. MAD2 2018/19 20
21 Random Walk Nechť G = (V, E) je graf na n vrcholech s m hranami. Náhodná procházka je proces, který začíná ve vrcholu v 0 a po k-tém kroku se dostane do vrcholu v k. Každý ze sousedů v k má pravděpodobnost 1/d(v k ), že bude vybrán, kde d(v k ) je stupeň vrcholu v k Počáteční vrchol v 0 může být buď fixní, nebo vybrán z počátečního rozložení pravděpodobnosti vrcholů P 0. P 0 je vektor, který každému vrcholu přiřazuje pravděpodobnost s jakou v něm bude náhodná procházka začínat. P k je potom vektor rozložení pravděpodobnosti, s jakou se bude náhodná procházka nacházet v daných vrcholech s počátečním rozložením P 0 po k krocích. MAD2 2018/19 21
22 Random Walk Sampling V prvním kroku RW se vybere s uniformní pstí počáteční vrchol v 0, po k-tém kroku skončí ve vrcholu v k. Následující navštívený vrchol je volen zcela náhodně z množiny sousedních vrcholů aktuálního vrcholu v každém kroku k se vybere jeden vrchol u z množiny sousedů vrcholu v k 1. v každém kroku k je pravděpodobnost p přechodu z vrcholu v k do sousedního vrcholu dána p = 1/d vk, d vk je stupeň vrcholu v k Nechť je další vrchol v k u a do vzorku se uloží hrana (v k 1, v k ). V každém kroku se s pravděpodobností c algoritmus vrátí do v 0 a začne novou cestu. Obvykle c = 0.15 Kroky se opakují, dokud nemá vzorek požadovanou velikost. MAD2 2018/19 22
23 Random Walk Sampling Výsledný vzorek je tvořen jen z jedné souvislé komponenty - jestliže počáteční vrchol v 0 leží v malé izolované komponentě, nemusí vzorek dosáhnout požadované velikosti. Je tedy dobré kontrolovat velikost vzorku v každém kroku a pokud po dostatečném počtu kroků (např. 100 *n, n je počet vrcholů) nemá vzorek požadovanou velikost, algoritmus se restartuje a vybere se jiný počáteční vrchol. Vzorek vytvořený zachovává tvar distribuce vstupních stupňů. Pravděpodobnost, že vrchol u bude ve vzorku, je dána vztahem p d = d u / 2m, kde d u je stupeň vrcholu u a m je počet hran grafu. Vrcholy s vyšším stupněm mají tedy vyšší šanci na výběr. MAD2 2018/19 23
24 Varianty RWS Random Jump pracuje podobně jako RW. Jediným rozdílem je, že s pravděpodobností c se algoritmus nevrátí na počáteční místo, ale náhodně vybere jakýkoliv jiný vrchol v V, ze kterého pokračuje v procházení. Tato metoda nemá problémy s uváznutím v malé izolované komponentě. Random Jump metoda upřednostňuje vrcholy s vysokým stupněm a distribuce stupňů tak není zachována. MAD2 2018/19 24
25 Varianty RWS Forest Fire - je kombinací Showball samplingu a Random Walku. Metropolis-Hastings Random Walk MAD2 2018/19 25
26 Forest Fire Sampling Je kombinací Showball samplingu a Random Walku. Začíná výběrem náhodného vrcholu v 0 a přidáním vrcholu v 0 do nově vytvořeného vzorku. Následně se začne zapalovat část hran vrcholu v 0 a vrcholy s nimi incidentní (sousední). Proces se rekurzivně opakuje pro každý zapálený vrchol. Počet spálených sousedů k je náhodné číslo generované z geometrického rozdělení k Geom(p) s průměrem x, kde x je x = p/(1-p) Autoři modelu doporučují hodnotu p = 0, 7, což znamená, že každý vrchol spálí v průměru 2,33 sousedů. MAD2 2018/19 26
27 Forest Fire Sampling Proces se opakuje tak dlouho, dokud nebylo spáleno dostatečné množství vrcholů a vzorek tak nemá požadovanou velikost. Na Forest Fire metodu lze nahlížet jako na pravděpodobností verzi Breadth-first search metody, kdy každý soused aktuálního vrcholu je navštíven s pravděpodobností p. Pro Breadth-first search algoritmus je pravděpodobnost p = 1. Proto je u Forest Fire metody šance, že algoritmus skončí dřív, než se vybere dostatečný počet vrcholů. Tato metoda dobře zachovává tvar distribuce vstupních stupňů. MAD2 2018/19 27
28 Vyhodnocení, výběr metod Jak určit metody, které nejlépe zachovávají vlastnosti původní sítě? Jak změřit kvalitu vzorku a jak určit nejlepší vzorkovací metodu? Můžeme porovnávat distribuce vlastností. Každá distribuce vlastnosti vzorku S je porovnávána s distribucí vlastnosti původního grafu G pomocí dvouvýběrového Kolmogorovova-Smirnovova testu. MAD2 2018/19 28
29 Kolmogorovův-Smirnovův test Kolmogorovův-Smirnovův test je statistická metoda, která umožňuje testovat, zda dvě náhodné proměnné pocházejí ze stejného rozdělení pravděpodobnosti, případně zda náhodná proměnná má předpokládané teoretické rozdělení. Použijeme dvouvýběrový test - srovnává rozdělení dvou náhodných veličin, je to neparametrická metoda porovnávání dvou výběrů. Srovnává se rozdíl kumulativních nebo relativních kumulativních četností dvou výběrů. Nulová hypotéza říká, že dva výběry odpovídají stejnému rozdělení. MAD2 2018/19 29
30 Kolmogorovův-Smirnovův test Počítáme D-value, která slouží jako kritérium pro zamítnutí nulové hypotézy. D-hodnota je definována D(P,Q) = max{ P(x)-Q(x) }, x S kde P a Q jsou dvě kumulativní distribuční funkce a hodnota x je z množiny S, která představuje x-ové hodnoty distribuce nějaké vlastnosti vzorku. D-hodnota zachycuje největší odchylku na ose y mezi kumulativními distribučními funkcemi P a Q. Může nabývat hodnot 0 D(P,Q) 1 a platí, že čím menší je D-hodnota pro danou distribuci, tím jsou si grafy v dané vlastnosti podobnější. D(P,Q) = 0 značí totožné distribuce, tj. P = Q. MAD2 2018/19 30
31 Normalizace Porovnávané distribuce nemají stejné měřítko, maximální hodnoty na ose x pro vzorek jsou mnohem menší než maximální hodnoty na ose x původního grafu. D-hodnota porovnává spíše tvar distribucí než jejich hodnoty. Proto je nutné data distribucí znormalizovat. Nejprve se obě porovnávané distribuce převedou na kumulativní distribuce. Následně je osa x převedena na logaritmické měřítko a hodnoty se znormalizují do intervalu 0 x 1 vydělením všech hodnot největší hodnotou v dané ose. MAD2 2018/19 31
32 Kumulativní distribuční funkce Rozložení pravděpodobnosti náhodné proměnné udává, jaká je pravděpodobnost, že náhodná proměnná bude mít danou hodnotu. Součet pravděpodobností všech možných hodnot diskrétní náhodné proměnné je roven 1, Kumulativní distribuční funkce (kumulativní pravděpodobnost nebo distribuční funkce (Cumulative Distribution Function, CDF)) udává pravděpodobnost, že hodnota náhodné proměnné je menší než zadaná hodnota (nerovnost může být i neostrá) 32
33 MAD2 2018/19 33
34 Vizuální porovnání distribucí Ukázka pro citační síť MAD2 2018/19 34
35 BA model MAD2 2018/19 35
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VíceVYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi
VíceMetody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování
Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich
VíceMetody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
VíceAgent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.
Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Dnešní program Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu
VíceMetody analýzy dat II
Metody analýzy dat II Detekce komunit MADII 2018/19 1 Zachary s club, Collaboration network in Santa Fe Institute, Lusseau s network of Bottlenose Dolphins 2 Web Pages, Overlaping communities of word associations
VíceNáhodná veličina a rozdělení pravděpodobnosti
3.2 Náhodná veličina a rozdělení pravděpodobnosti Bůh hraje se světem hru v kostky. Jsou to ale falešné kostky. Naším hlavním úkolem je zjistit, podle jakých pravidel byly označeny, a pak toho využít pro
VíceDatové struktury 2: Rozptylovací tabulky
Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy
Více1. Přednáška. Ing. Miroslav Šulai, MBA
N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy
VíceZpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VíceAlgoritmizace prostorových úloh
INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Algoritmizace prostorových úloh Grafové úlohy Daniela Szturcová Tento
VíceGenerování pseudonáhodných. Ing. Michal Dorda, Ph.D.
Generování pseudonáhodných čísel při simulaci Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky V simulačních modelech se velice často vyskytují náhodné proměnné. Proto se budeme zabývat otázkou, jak při simulaci
Více2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
VíceGrafové algoritmy. Programovací techniky
Grafové algoritmy Programovací techniky Grafy Úvod - Terminologie Graf je datová struktura, skládá se z množiny vrcholů V a množiny hran mezi vrcholy E Počet vrcholů a hran musí být konečný a nesmí být
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
VíceNázev testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)
VYBRANÉ TESTY NEPARAMETRICKÝCH HYPOTÉZ TESTY DOBRÉ SHODY Název testu Předpoklady testu Testová statistika Nulové rozdělení test dobré shody Očekávané četnosti, alespoň 80% očekávaných četností >5 ( ) (p
VíceState Space Search Step Run Editace úloh Task1 Task2 Init Clear Node Goal Add Shift Remove Add Node Goal Node Shift Remove, Add Node
State Space Search Po spuštění appletu se na pracovní ploše zobrazí stavový prostor první předpřipravené úlohy: - Zeleným kroužkem je označen počáteční stav úlohy, který nemůže být změněn. - Červeným kroužkem
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceGrafové algoritmy. Programovací techniky
Grafové algoritmy Programovací techniky Grafy Úvod - Terminologie Graf je datová struktura, skládá se z množiny vrcholů V a množiny hran mezi vrcholy E Počet vrcholů a hran musí být konečný a nesmí být
VíceÚloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů
Stavový prostor a jeho prohledávání SP = formalismus k obecnějšímu uchopení a vymezení problému, který spočívá v nalezení posloupnosti akcí vedoucích od počátečního stavu úlohy (zadání) k požadovanému
VíceInferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů
Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že
VíceMatematické modelování dopravního proudu
Matematické modelování dopravního proudu Ondřej Lanč, Alena Girglová, Kateřina Papežová, Lucie Obšilová Gymnázium Otokara Březiny a SOŠ Telč lancondrej@centrum.cz Abstrakt: Cílem projektu bylo seznámení
Vícebfs, dfs, fronta, zásobník, prioritní fronta, halda
bfs, dfs, fronta, zásobník, prioritní fronta, halda Petr Ryšavý 20. září 2016 Katedra počítačů, FEL, ČVUT prohledávání grafů Proč prohledávání grafů Zkontrolovat, zda je sít spojitá. Hledání nejkratší
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceZáklady informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová
Základy informatiky Teorie grafů Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová Obsah přednášky Barvení mapy Teorie grafů Definice Uzly a hrany Typy grafů Cesty, cykly, souvislost grafů Barvení mapy
Více"Agent Hledač" (3. přednáška)
"Agent Hledač" (3. přednáška) Přehled 3. přednášky v této přednášce se budeme zabývat "goal-based" agenty Přehled 3. přednášky v této přednášce se budeme zabývat "goal-based" agenty připomeňme, že "goal-based"
VíceAlgoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
VíceZáklady teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
VícePopisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
VíceANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
Více11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
VíceVÝBĚR A JEHO REPREZENTATIVNOST
VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:
VícePracovní text a úkoly ke cvičením MF002
Pracovní text a úkoly ke cvičením MF002 Ondřej Pokora, PřF MU, Brno 11. března 2013 1 Brownův pohyb (Wienerův proces) Základním stavebním kamenem simulací náhodných procesů popsaných pomocí stochastických
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
Vícejednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky
Pokročilé heuristiky jednoduchá heuristika asymetrické stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy pokročilá heuristika symetrické stavový prostor, který vyžaduje řízení 1 2 Paměť pouze
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceNáhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
Více11. Tabu prohledávání
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
VíceMetody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy
Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [235-270] Zaki, M. J., Meira Jr, W.
VíceChyby měření 210DPSM
Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
Více10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
VíceŘízení projektů. Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT
Řízení projektů Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT 1 Úvod základní pojmy Projekt souhrn činností, které musí být všechny realizovány, aby byl projekt dokončen Činnost
Více1. Statistická analýza dat Jak vznikají informace Rozložení dat
1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení
Více5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.
5. Náhodná veličina Poznámka: Pro popis náhodného pokusu jsme zavedli pojem jevového pole S jako množiny všech možných výsledků a pravděpodobnost náhodných jevů P jako míru výskytů jednotlivých výsledků.
Vícebfs, dfs, fronta, zásobník, prioritní fronta, halda
bfs, dfs, fronta, zásobník, prioritní fronta, halda Petr Ryšavý 19. září 2017 Katedra počítačů, FEL, ČVUT prohledávání grafů Proč prohledávání grafů Zkontrolovat, zda je sít spojitá. Hledání nejkratší
VíceGenerování sítě konečných prvků
Generování sítě konečných prvků Jaroslav Beran Modelování a simulace Tvorba výpočtového modelu s využitím MKP zahrnuje: Tvorbu (import) geometrického modelu Generování sítě konečných prvků Definování vlastností
VíceNáhodné (statistické) chyby přímých měření
Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně
VíceE(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =
Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní
VíceJEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
VíceTGH05 - aplikace DFS, průchod do šířky
TGH05 - aplikace DFS, průchod do šířky Jan Březina Technical University of Liberec 31. března 2015 Grafová formulace CPM (critical path method) Orientovaný acyklický graf (DAG) je orientovaný graf neobsahující
VíceVšechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
VícePočet pravděpodobnosti
PSY117/454 Statistická analýza dat v psychologii Přednáška 4 Počet pravděpodobnosti Je známo, že když muž použije jeden z okrajových pisoárů, sníží se pravděpodobnost, že bude pomočen o 50%. anonym Pravděpodobnost
Víceodlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VíceAlgoritmizace diskrétních. Ing. Michal Dorda, Ph.D.
Algoritmizace diskrétních simulačních modelů Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Při programování simulačních modelů lze hlavní dílčí problémy shrnout do následujících bodů: 1) Zachycení statických
VíceMATEMATICKÁ STATISTIKA - XP01MST
MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného
VíceBayesovské metody. Mnohorozměrná analýza dat
Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a
VíceTestování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina
Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi
VíceÚvod do mobilní robotiky AIL028
Pravděpodobnostní plánování zbynek.winkler at mff.cuni.cz, md at robotika.cz http://robotika.cz/guide/umor05/cs 12. prosince 2005 1 Co už umíme a co ne? Jak řešit složitější případy? Definice konfiguračního
VíceCvičení ze statistiky - 7. Filip Děchtěrenko
Cvičení ze statistiky - 7 Filip Děchtěrenko Minule bylo.. Probrali jsme spojité modely Tyhle termíny by měly být známé: Rovnoměrné rozdělení Střední hodnota Mccalova transformace Normální rozdělení Přehled
Více15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
VíceMarkov Chain Monte Carlo. Jan Kracík.
Markov Chain Monte Carlo Jan Kracík jan.kracik@vsb.cz Princip Monte Carlo integrace Cílem je (přibližný) výpočet integrálu I(g) = E f [g(x)] = g(x)f (x)dx. (1) Umíme-li generovat nezávislé vzorky x (1),
VíceTestování statistických hypotéz. Ing. Michal Dorda, Ph.D.
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině
Více31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě
31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty
VíceMetoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu
Metoda Monte Carlo a její aplikace v problematice oceňování technologií Manuál k programu This software was created under the state subsidy of the Czech Republic within the research and development project
VíceU Úvod do modelování a simulace systémů
U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceSimulační modely. Kdy použít simulaci?
Simulační modely Simulace z lat. Simulare (napodobení). Princip simulace spočívá v sestavení modelu reálného systému a provádění opakovaných experimentů s tímto modelem. Simulaci je nutno považovat za
VícePRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz o rozdělení Testování hypotéz o rozdělení Nechť X e náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládeme, že neznáme tvar distribuční funkce
VíceZáklady informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant
Základy informatiky 07 Teorie grafů Kačmařík/Szturcová/Děrgel/Rapant Obsah přednášky barvení mapy teorie grafů definice uzly a hrany typy grafů cesty, cykly, souvislost grafů Barvení mapy Kolik barev je
VíceSOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404
SOLVER UŽIVATELSKÁ PŘÍRUČKA Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404 1. Solver Program Solver slouží pro vyhodnocení experimentálně naměřených dat. Základem
Více2. RBF neuronové sítě
2. RBF neuronové sítě Kapitola pojednává o neuronových sítích typu RBF. V kapitole je popsána základní struktura tohoto typu neuronové sítě. Poté následuje definice a charakteristika jednotlivých radiálně
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
VíceYou created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,
VíceUNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
Více4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
VíceMann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení
VíceAVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
VíceJana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
VíceNeuronové sítě v DPZ
Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
VíceVybraná rozdělení náhodné veličiny
3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.
VícePočítačové simulace a statistická mechanika
Počítačové simulace a statistická mechanika Model = soubor aproximaci přijatých za účelem popisu určitého systému okrajové podmínky mezimolekulové interakce Statistické zpracování průměrování ve fázovém
VíceVÝBĚR VZORKU V KVANTITATIVNÍM
VÝBĚR VZORKU V KVANTITATIVNÍM Metodologie ISK, 31/10/2014 TERMINOLOGIE Populace / základní soubor Soubor jednotek, které chceme zkoumat předpokládáme, že naše výroky jsou pro tento soubor platné Soubor
VíceEM algoritmus. Proč zahrnovat do modelu neznámé veličiny
EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost
VícePravděpodobnost a statistika (BI-PST) Cvičení č. 4
Pravděpodobnost a statistika (BI-PST) Cvičení č. 4 J. Hrabáková, I. Petr, F. Štampach, D. Vašata Katedra aplikované matematiky Fakulta informačních technologií České vysoké učení technické v Praze ZS 2014/2015
VíceSIGNÁLY A LINEÁRNÍ SYSTÉMY
SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz VII. SYSTÉMY ZÁKLADNÍ POJMY SYSTÉM - DEFINICE SYSTÉM (řec.) složené, seskupené (v
VíceTGH05 - aplikace DFS, průchod do šířky
TGH05 - aplikace DFS, průchod do šířky Jan Březina Technical University of Liberec 28. března 2017 Grafová formulace CPM (critical path method) Orientovaný acyklický graf (DAG) je orientovaný graf neobsahující
VíceStátnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Více9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy. Vyučující: Ing. Jan Pacina, Ph.D.
9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy Vyučující: Ing. Jan Pacina, Ph.D. e-mail: jan.pacina@ujep.cz Lehký úvod Digitální modely terénu jsou dnes v geoinformačních systémech
VíceDolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
VícePorovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
VíceUrčete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.
3.1. 3.2. Třikrát vystřelíme na cíl. Pravděpodobnost zásahu při každém výstřelu je p = 0,7. Určete: a) pravděpodobnostní funkci počtu zásahů při třech nezávislých výsledcích, b) distribuční funkci a její
VíceSTROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta
STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach vlož do fronty kořen opakuj, dokud není fronta prázdná 1. vyber uzel z fronty a zpracuj jej 2. vlož do fronty levého následníka
VícePearsonův korelační koeficient
I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních
Více12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
VíceZpětnovazební učení Michaela Walterová Jednoocí slepým,
Zpětnovazební učení Michaela Walterová Jednoocí slepým, 17. 4. 2019 V minulých dílech jste viděli Tři paradigmata strojového učení: 1) Učení s učitelem (supervised learning) Trénovací data: vstup a požadovaný
Více