Metody analýzy dat II

Rozměr: px
Začít zobrazení ze stránky:

Download "Metody analýzy dat II"

Transkript

1 Metody analýzy dat II Vzorkování (Sampling) MAD2 2018/19 1

2 Literatura 52/csci L9.pdf urses/networksampling-kdd13-final.pdf MAD2 2018/19 2

3 Sampling Marketing - propagace, nabízení a distribuce vzorků nějakého produktu. Zpracování signálů - proces diskretizace signálu v časové oblasti. Analýza dat - proces, při kterém se analyzuje jen část dat (vzorek, sample) s cílem získat relevantní informace o větším souboru dat. MAD2 2018/19 3

4 Proč sampling? (1) Nemáme přístup k celé datové kolekci, zpracování dat je časově i prostorově náročné. Máme celou síť, ale data se nevejdou do paměti. Jak analyzovat síť v rozumném čase? Máme celou síť, data se vejdou do paměti, ale chceme spustit např. časově náročný algoritmus Je náročné nebo nemožné získat celou síť (Facebook, WWW, Twitter atd.), např. díky crawlingu máme přístup jen k podsítím a přesto chceme získat představu o vlastnostech sítě celé. 4

5 Proč sampling? (2) MAD2 2018/19 5

6 Proč sampling? (3) Vizualizace originální síť je příliš velká k vizualizaci a zobrazení všech hran (vrcholů) vede k nepřehlednosti. Tím se ztrácí informace, která by mohla být vizualizací sítě poskytnuta. Pokud je vzorek kvalitní, lze například vykreslit komunity sítě, které odpovídají i původnímu grafu. Nedostatečný přístup k datům například v sociální síti Facebook nelze za účelem získání sítě procházet kvůli limitům API všechny osoby. Proto se náhodně vybere osoba a od této osoby se přechází po hranách k dalším osobám. Dochází tak k vzorkování vrcholů pomocí metody založené na náhodné procházce. Je důležité dobře odhadnout, kolik vrcholů se musí navštívit tak, aby se ze vzorku získala relevantní informace. Průzkum skryté populace používá se v sociologických průzkumech, kdy je nutné získat informace o skryté skupině osob, například skupina drogové závislých lidí. Přímý přístup k těmto skupinám je většinou nemožný. Začíná se s malým počtem osob, od kterých se získávají informace o dalších členech skupiny. Typickou metodou je Snow Ball Sampling, ve kterém se na vrcholy postupně nabalují další vrcholy podle vazeb mezi předchozími vrcholy. Sparsifikace grafu Mnoho sítí je příliš velkých a manipulace s nimi je obtížná. Řešením je aproximovat husté sítě řidšími sítěmi. To zahrnuje jak redukci hran, tak i redukci vrcholů. Často jsou na výsledný graf procesu sparsifikace kladeny přísné požadavky. Například, že všechny vrcholové řezy původního grafu musí být zachovány. MAD2 2018/19 6

7 Proč sampling (4) Obecně pokud je velikost grafu měřena počtem vrcholů, musíme nějak zjistit, při jaké velikosti je ještě vzorek podobný původnímu grafu. Scaledown sampling: Pro originální síť (graf) G s n vrcholů chceme vytvořit vzorek S s n vrcholů, kde n << n. Cílem je, aby vzorek S měl vlastnosti co nejvíce podobné vlastnostem původního grafu G (např. degree distribution, clustering coefficient, community structure, Pagerank). Back-in-time sampling: Cílem je vrátit se zpět v čase a napodobit minulé verze G, z nichž pouze pozorujeme konečný, statický snapshot. Nechť G n označuje graf G v určitém okamžiku, kdy měl n uzlů. Nyní chceme najít vzorek S na n uzlech, který je nejvíce podobný grafu G n, tj. když měl graf G stejnou velikost jako S. Local substructures: Můžeme vzorkovat lokální substruktury s cílem odhadnou četnost jejich výskytů apod. takové substruktury jsou trojúhelník, motivy nebo graphlets. MAD2 2018/19 7

8 Graphlets MAD2 2018/19 8

9 Vzorkování vzhledem k dostupnosti sítě Plný přístup ke grafu celá rozsáhlá síť je viditelná a uložená v paměti. Je možný náhodný výběr vrcholu nebo hrany z celé sítě. Pro graf s plným přístupem je možné použít metody založené na náhodném výběru vrcholů nebo náhodném výběru hran, případně kombinací obou metod. Omezený přístup ke grafu síť je skryta, nicméně umožňuje procházení vrchol po vrcholu a prozkoumávání sousedů aktuálního vrcholu. Předpokladem je, že síť je propojená do jedné komponenty. Tento způsob je vhodný v případě velmi rozsáhlé sítě, která se nevejde do hlavní paměti. Metody vhodné pro tento způsob jsou založeny na procházení grafu. Během procházení grafu jsou navštívené vrcholy ukládány jako vzorek původního grafu. Stream dat se používá tam, kde je omezena hlavní paměť a data se rychle přesouvají. Tento způsob je vhodný pro dynamické sítě. Hrany přicházejí ke zpracování buď v určeném pořadí, nebo hrany incidentní s jedním vrcholem přicházejí spolu. Stream hran je tak masivní, že není možné všechna data uložit do hlavní paměti. U tohoto způsobu je důležité efektivní zpracování v reálném čase. Většina algoritmů pro vzorkování streamovaných sítí je založena na náhodném ukládání do paměti pevné velikosti. Každá přicházející hrana je s určitou pravděpodobností vybrána a uložena do kontejneru pevné velikosti. Pokud je kontejner plný, nová hrana nahradí již dříve uloženou starší hranu. MAD2 2018/19 9

10 Vzorkovací metody Jakou použít metodu pro vzorkování? Jak nastavit její parametry? Jak velký vzorek vytvořit? Správný výběr záleží také na typu původního grafu (aplikační doména, souvislost, temporální graf, ). Lze použít metody založené na: výběru vrcholů nebo hran (pravděpodobnostní metody) Node Selection (Random Node Sampling, Degree based Sampling, PageRank based Sampling, ), Edge Selection (Random Edge Sampling, Random Node Edge Sampling, ) prohledávání grafu - Sampling by Exploration Snowball Sampling, Random Walk, Random Walk with Restart, Random Jump, Forest Fire, MHRW, MAD2 2018/19 10

11 Probabilistic sampling Pravděpodobnostní vzorkování (Probabilistic sampling) předpokl., že máme k dispozici celou síť Random Node Sampling: vyber (zahrň) každý vrchol i (a jeho sousedy) s pravděpodobností p Random Edge Sampling: vyber každou hranu (i, j) s pravděpodobností p Degree based Sampling: vyber každý vrchol i (a jeho sousedy) s pravděpodobností p / d i, kde d i je stupeň Attribute-proportional: vyber každý vrchol i (a jeho sousedy) s pravděpodobností p / x i, kde x i je atribut MAD2 2018/19 11

12 Sampling by Exploration Sampling by Exploration (Seed-based sampling) Snowball sampling - pro každý počáteční vrchol i, a vzdálenost l, zahrň všechny vrcholy (a tedy i jejich sousedy) ve vzdálenosti l nalezené BFS s počátkem v i BFS edge sampling: pro každý počáteční vrchol i, a vzdálenost l, zahrň všechny hrany ve vzdálenosti l nalezené BFS s počátkem v i. Random Walk Sampling a varianty MAD2 2018/19 12

13 Typické vzory Obecně sampling generuje 3 typické vzory: Řídké grafy - ty produkuje pravděpodobnostní vzorkování - důvod: pst, že dvě množiny sousedů vrcholů i a j vybraných s pstí p se budou překrývat, je velmi malá. Relativně kompaktní graf, který však je ovlivněn tím, že přednostně vybíráme vrcholy (hrany) blízko sebe (co do vzdálenosti l). Takové grafy jsou výsledkem seed-based samplingu. Grafy se spoustou vrcholů s malým stupněm (často d = 1), což je způsobeno tím, že po zařazení sousedů nějakého vrcholu do grafu už do něj nezařadíme sousedy těchto sousedů. MAD2 2018/19 13

14

15 Random Node Sampling Random Node Sampling (Uniform Node Sampling) Vyber (zahrň) do vzorku S vrchol i (a jeho sousedy) s pstí p. Jestliže je velikost vzorku S stanovena například na 15% původní sítě, bude každý vrchol vybrán s pravděpodobností p = Následně do vzorku přidej hrany E S = {(u, v) E u V S, v V S } (tedy z původního grafu jsou ponechány pouze hrany mezi vrcholy V S ze vzorku). Předpokladem pro RN algoritmus je plně přístupná síť. Nevýhodou je, že vzorek získaný touto metodou moc dobře nerespektuje distribuce stupňů původní sítě. MAD2 2018/19 15

16 Random Node Sampling Jinak - jak vybrat pst p tak, abychom dosáhli vzorku o velikosti n vrcholů? Všechny vrcholy mají stejnou pst vybrání do vzorku. Pokaždé, když náhodně s pstí p vybereme nějaký vrchol, se celkový počet vrcholů ve vzorku zvýší o 1+<d> vrcholů, kde d je stupeň vrcholu i a <d> je průměrný stupeň. Pokud každý vrchol vybíráme s pstí MAD2 2018/19 16

17 Random Edge Sampling Metoda Random Edge Sampling (RE, taky Uniform Edge Sampling) provádí výběr hran s uniformní pravděpodobností p a přidává je do vzorku E S E tak dlouho, dokud vzorek není dostatečně velký. Na rozdíl od RN, metoda RE nemění relativní četnost hran, protože výběr hrany připojené k vrcholu i je závislý na jeho stupni d i. Vrchol se stupněm d v původním grafu bude mít stupeň p*d ve vzorku, kde p je pravděpodobnost výběru jedné hrany. To má za následek stejnou distribuci stupňů jako v původním grafu. Nevýhody: Je-li počet hran původního grafu m= E, bude ve vzorku p*m hran rozloženo mezi n vrcholů, což má za následek nízký průměrný stupeň vrcholu. Jestliže průměrný stupeň klesne pod hodnotu 1, vzorek bude postrádat jednu hlavní velkou komponentu a bude obsahovat mnoho malých komponent. Redukovaný graf bude velmi řídce propojen a nebude zachována např. komunitní struktura. MAD2 2018/19 17

18 Snowball sampling Pro každý počáteční vrchol (seed) i a vzdálenost l, zahrň všechny vrcholy (a tedy i jejich sousedy) ve vzdálenosti l nalezené BFS s počátkem v i Snowball sampling vede k rozdělení vrcholů do tří typů Vrchol i a vrcholy, které jsou ve vzdálenosti <= l od vrcholu i vrcholy, které jsou ve vzdálenosti = l+1 od vrcholu i vrcholy, které jsou ve vzdálenosti > l+1 od vrcholu i a nejsou tak součástí vzorku MAD2 2018/19 18

19 Snowball sampling Výsledný graf dobře popisuje strukturu okolí vrcholu i, ale vrcholy stupně =1 v prstenci halo na předchozím obr. mohou komplikovat jakoukoliv další analýzu (ale můžeme je zahodit, pokud nás např. zajímá jen bezprostřední okolí seedu). Obdržené vzorky však jsou ovlivněny stupněm vrcholu čím větší má vrchol stupeň, tím větší má šanci být ve vzdálenosti <= l+1 od vrcholu i a být zařazen do vzorku. 19

20 Random Walk walk Náhodná procházka je algoritmus, ve kterém volíme následující krok zcela náhodně. Jedná se o základní model pro simulaci náhodného procesu v mnoha aplikačních doménách. Obecně lze říci, že náhodná procházka je proces, kde daná konkrétní pozice závisí pouze na předchozí pozici a pravděpodobnostní funkci, která určuje následující směr. MAD2 2018/19 20

21 Random Walk Nechť G = (V, E) je graf na n vrcholech s m hranami. Náhodná procházka je proces, který začíná ve vrcholu v 0 a po k-tém kroku se dostane do vrcholu v k. Každý ze sousedů v k má pravděpodobnost 1/d(v k ), že bude vybrán, kde d(v k ) je stupeň vrcholu v k Počáteční vrchol v 0 může být buď fixní, nebo vybrán z počátečního rozložení pravděpodobnosti vrcholů P 0. P 0 je vektor, který každému vrcholu přiřazuje pravděpodobnost s jakou v něm bude náhodná procházka začínat. P k je potom vektor rozložení pravděpodobnosti, s jakou se bude náhodná procházka nacházet v daných vrcholech s počátečním rozložením P 0 po k krocích. MAD2 2018/19 21

22 Random Walk Sampling V prvním kroku RW se vybere s uniformní pstí počáteční vrchol v 0, po k-tém kroku skončí ve vrcholu v k. Následující navštívený vrchol je volen zcela náhodně z množiny sousedních vrcholů aktuálního vrcholu v každém kroku k se vybere jeden vrchol u z množiny sousedů vrcholu v k 1. v každém kroku k je pravděpodobnost p přechodu z vrcholu v k do sousedního vrcholu dána p = 1/d vk, d vk je stupeň vrcholu v k Nechť je další vrchol v k u a do vzorku se uloží hrana (v k 1, v k ). V každém kroku se s pravděpodobností c algoritmus vrátí do v 0 a začne novou cestu. Obvykle c = 0.15 Kroky se opakují, dokud nemá vzorek požadovanou velikost. MAD2 2018/19 22

23 Random Walk Sampling Výsledný vzorek je tvořen jen z jedné souvislé komponenty - jestliže počáteční vrchol v 0 leží v malé izolované komponentě, nemusí vzorek dosáhnout požadované velikosti. Je tedy dobré kontrolovat velikost vzorku v každém kroku a pokud po dostatečném počtu kroků (např. 100 *n, n je počet vrcholů) nemá vzorek požadovanou velikost, algoritmus se restartuje a vybere se jiný počáteční vrchol. Vzorek vytvořený zachovává tvar distribuce vstupních stupňů. Pravděpodobnost, že vrchol u bude ve vzorku, je dána vztahem p d = d u / 2m, kde d u je stupeň vrcholu u a m je počet hran grafu. Vrcholy s vyšším stupněm mají tedy vyšší šanci na výběr. MAD2 2018/19 23

24 Varianty RWS Random Jump pracuje podobně jako RW. Jediným rozdílem je, že s pravděpodobností c se algoritmus nevrátí na počáteční místo, ale náhodně vybere jakýkoliv jiný vrchol v V, ze kterého pokračuje v procházení. Tato metoda nemá problémy s uváznutím v malé izolované komponentě. Random Jump metoda upřednostňuje vrcholy s vysokým stupněm a distribuce stupňů tak není zachována. MAD2 2018/19 24

25 Varianty RWS Forest Fire - je kombinací Showball samplingu a Random Walku. Metropolis-Hastings Random Walk MAD2 2018/19 25

26 Forest Fire Sampling Je kombinací Showball samplingu a Random Walku. Začíná výběrem náhodného vrcholu v 0 a přidáním vrcholu v 0 do nově vytvořeného vzorku. Následně se začne zapalovat část hran vrcholu v 0 a vrcholy s nimi incidentní (sousední). Proces se rekurzivně opakuje pro každý zapálený vrchol. Počet spálených sousedů k je náhodné číslo generované z geometrického rozdělení k Geom(p) s průměrem x, kde x je x = p/(1-p) Autoři modelu doporučují hodnotu p = 0, 7, což znamená, že každý vrchol spálí v průměru 2,33 sousedů. MAD2 2018/19 26

27 Forest Fire Sampling Proces se opakuje tak dlouho, dokud nebylo spáleno dostatečné množství vrcholů a vzorek tak nemá požadovanou velikost. Na Forest Fire metodu lze nahlížet jako na pravděpodobností verzi Breadth-first search metody, kdy každý soused aktuálního vrcholu je navštíven s pravděpodobností p. Pro Breadth-first search algoritmus je pravděpodobnost p = 1. Proto je u Forest Fire metody šance, že algoritmus skončí dřív, než se vybere dostatečný počet vrcholů. Tato metoda dobře zachovává tvar distribuce vstupních stupňů. MAD2 2018/19 27

28 Vyhodnocení, výběr metod Jak určit metody, které nejlépe zachovávají vlastnosti původní sítě? Jak změřit kvalitu vzorku a jak určit nejlepší vzorkovací metodu? Můžeme porovnávat distribuce vlastností. Každá distribuce vlastnosti vzorku S je porovnávána s distribucí vlastnosti původního grafu G pomocí dvouvýběrového Kolmogorovova-Smirnovova testu. MAD2 2018/19 28

29 Kolmogorovův-Smirnovův test Kolmogorovův-Smirnovův test je statistická metoda, která umožňuje testovat, zda dvě náhodné proměnné pocházejí ze stejného rozdělení pravděpodobnosti, případně zda náhodná proměnná má předpokládané teoretické rozdělení. Použijeme dvouvýběrový test - srovnává rozdělení dvou náhodných veličin, je to neparametrická metoda porovnávání dvou výběrů. Srovnává se rozdíl kumulativních nebo relativních kumulativních četností dvou výběrů. Nulová hypotéza říká, že dva výběry odpovídají stejnému rozdělení. MAD2 2018/19 29

30 Kolmogorovův-Smirnovův test Počítáme D-value, která slouží jako kritérium pro zamítnutí nulové hypotézy. D-hodnota je definována D(P,Q) = max{ P(x)-Q(x) }, x S kde P a Q jsou dvě kumulativní distribuční funkce a hodnota x je z množiny S, která představuje x-ové hodnoty distribuce nějaké vlastnosti vzorku. D-hodnota zachycuje největší odchylku na ose y mezi kumulativními distribučními funkcemi P a Q. Může nabývat hodnot 0 D(P,Q) 1 a platí, že čím menší je D-hodnota pro danou distribuci, tím jsou si grafy v dané vlastnosti podobnější. D(P,Q) = 0 značí totožné distribuce, tj. P = Q. MAD2 2018/19 30

31 Normalizace Porovnávané distribuce nemají stejné měřítko, maximální hodnoty na ose x pro vzorek jsou mnohem menší než maximální hodnoty na ose x původního grafu. D-hodnota porovnává spíše tvar distribucí než jejich hodnoty. Proto je nutné data distribucí znormalizovat. Nejprve se obě porovnávané distribuce převedou na kumulativní distribuce. Následně je osa x převedena na logaritmické měřítko a hodnoty se znormalizují do intervalu 0 x 1 vydělením všech hodnot největší hodnotou v dané ose. MAD2 2018/19 31

32 Kumulativní distribuční funkce Rozložení pravděpodobnosti náhodné proměnné udává, jaká je pravděpodobnost, že náhodná proměnná bude mít danou hodnotu. Součet pravděpodobností všech možných hodnot diskrétní náhodné proměnné je roven 1, Kumulativní distribuční funkce (kumulativní pravděpodobnost nebo distribuční funkce (Cumulative Distribution Function, CDF)) udává pravděpodobnost, že hodnota náhodné proměnné je menší než zadaná hodnota (nerovnost může být i neostrá) 32

33 MAD2 2018/19 33

34 Vizuální porovnání distribucí Ukázka pro citační síť MAD2 2018/19 34

35 BA model MAD2 2018/19 35

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi

Více

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich

Více

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I. Míry a metriky - pokračování Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:

Více

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet. Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Dnešní program Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu

Více

Metody analýzy dat II

Metody analýzy dat II Metody analýzy dat II Detekce komunit MADII 2018/19 1 Zachary s club, Collaboration network in Santa Fe Institute, Lusseau s network of Bottlenose Dolphins 2 Web Pages, Overlaping communities of word associations

Více

Náhodná veličina a rozdělení pravděpodobnosti

Náhodná veličina a rozdělení pravděpodobnosti 3.2 Náhodná veličina a rozdělení pravděpodobnosti Bůh hraje se světem hru v kostky. Jsou to ale falešné kostky. Naším hlavním úkolem je zjistit, podle jakých pravidel byly označeny, a pak toho využít pro

Více

Datové struktury 2: Rozptylovací tabulky

Datové struktury 2: Rozptylovací tabulky Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy

Více

1. Přednáška. Ing. Miroslav Šulai, MBA

1. Přednáška. Ing. Miroslav Šulai, MBA N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Algoritmizace prostorových úloh

Algoritmizace prostorových úloh INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Algoritmizace prostorových úloh Grafové úlohy Daniela Szturcová Tento

Více

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D. Generování pseudonáhodných čísel při simulaci Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky V simulačních modelech se velice často vyskytují náhodné proměnné. Proto se budeme zabývat otázkou, jak při simulaci

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

Grafové algoritmy. Programovací techniky

Grafové algoritmy. Programovací techniky Grafové algoritmy Programovací techniky Grafy Úvod - Terminologie Graf je datová struktura, skládá se z množiny vrcholů V a množiny hran mezi vrcholy E Počet vrcholů a hran musí být konečný a nesmí být

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů) VYBRANÉ TESTY NEPARAMETRICKÝCH HYPOTÉZ TESTY DOBRÉ SHODY Název testu Předpoklady testu Testová statistika Nulové rozdělení test dobré shody Očekávané četnosti, alespoň 80% očekávaných četností >5 ( ) (p

Více

State Space Search Step Run Editace úloh Task1 Task2 Init Clear Node Goal Add Shift Remove Add Node Goal Node Shift Remove, Add Node

State Space Search Step Run Editace úloh Task1 Task2 Init Clear Node Goal Add Shift Remove Add Node Goal Node Shift Remove, Add Node State Space Search Po spuštění appletu se na pracovní ploše zobrazí stavový prostor první předpřipravené úlohy: - Zeleným kroužkem je označen počáteční stav úlohy, který nemůže být změněn. - Červeným kroužkem

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Grafové algoritmy. Programovací techniky

Grafové algoritmy. Programovací techniky Grafové algoritmy Programovací techniky Grafy Úvod - Terminologie Graf je datová struktura, skládá se z množiny vrcholů V a množiny hran mezi vrcholy E Počet vrcholů a hran musí být konečný a nesmí být

Více

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů Stavový prostor a jeho prohledávání SP = formalismus k obecnějšímu uchopení a vymezení problému, který spočívá v nalezení posloupnosti akcí vedoucích od počátečního stavu úlohy (zadání) k požadovanému

Více

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že

Více

Matematické modelování dopravního proudu

Matematické modelování dopravního proudu Matematické modelování dopravního proudu Ondřej Lanč, Alena Girglová, Kateřina Papežová, Lucie Obšilová Gymnázium Otokara Březiny a SOŠ Telč lancondrej@centrum.cz Abstrakt: Cílem projektu bylo seznámení

Více

bfs, dfs, fronta, zásobník, prioritní fronta, halda

bfs, dfs, fronta, zásobník, prioritní fronta, halda bfs, dfs, fronta, zásobník, prioritní fronta, halda Petr Ryšavý 20. září 2016 Katedra počítačů, FEL, ČVUT prohledávání grafů Proč prohledávání grafů Zkontrolovat, zda je sít spojitá. Hledání nejkratší

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová Základy informatiky Teorie grafů Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová Obsah přednášky Barvení mapy Teorie grafů Definice Uzly a hrany Typy grafů Cesty, cykly, souvislost grafů Barvení mapy

Více

"Agent Hledač" (3. přednáška)

Agent Hledač (3. přednáška) "Agent Hledač" (3. přednáška) Přehled 3. přednášky v této přednášce se budeme zabývat "goal-based" agenty Přehled 3. přednášky v této přednášce se budeme zabývat "goal-based" agenty připomeňme, že "goal-based"

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Základy teorie pravděpodobnosti

Základy teorie pravděpodobnosti Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní

Více

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0. 11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15

Více

VÝBĚR A JEHO REPREZENTATIVNOST

VÝBĚR A JEHO REPREZENTATIVNOST VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:

Více

Pracovní text a úkoly ke cvičením MF002

Pracovní text a úkoly ke cvičením MF002 Pracovní text a úkoly ke cvičením MF002 Ondřej Pokora, PřF MU, Brno 11. března 2013 1 Brownův pohyb (Wienerův proces) Základním stavebním kamenem simulací náhodných procesů popsaných pomocí stochastických

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky Pokročilé heuristiky jednoduchá heuristika asymetrické stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy pokročilá heuristika symetrické stavový prostor, který vyžaduje řízení 1 2 Paměť pouze

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

11. Tabu prohledávání

11. Tabu prohledávání Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI

Více

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [235-270] Zaki, M. J., Meira Jr, W.

Více

Chyby měření 210DPSM

Chyby měření 210DPSM Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké

Více

10. Předpovídání - aplikace regresní úlohy

10. Předpovídání - aplikace regresní úlohy 10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu

Více

Řízení projektů. Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT

Řízení projektů. Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT Řízení projektů Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT 1 Úvod základní pojmy Projekt souhrn činností, které musí být všechny realizovány, aby byl projekt dokončen Činnost

Více

1. Statistická analýza dat Jak vznikají informace Rozložení dat

1. Statistická analýza dat Jak vznikají informace Rozložení dat 1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení

Více

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}. 5. Náhodná veličina Poznámka: Pro popis náhodného pokusu jsme zavedli pojem jevového pole S jako množiny všech možných výsledků a pravděpodobnost náhodných jevů P jako míru výskytů jednotlivých výsledků.

Více

bfs, dfs, fronta, zásobník, prioritní fronta, halda

bfs, dfs, fronta, zásobník, prioritní fronta, halda bfs, dfs, fronta, zásobník, prioritní fronta, halda Petr Ryšavý 19. září 2017 Katedra počítačů, FEL, ČVUT prohledávání grafů Proč prohledávání grafů Zkontrolovat, zda je sít spojitá. Hledání nejkratší

Více

Generování sítě konečných prvků

Generování sítě konečných prvků Generování sítě konečných prvků Jaroslav Beran Modelování a simulace Tvorba výpočtového modelu s využitím MKP zahrnuje: Tvorbu (import) geometrického modelu Generování sítě konečných prvků Definování vlastností

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) = Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

TGH05 - aplikace DFS, průchod do šířky

TGH05 - aplikace DFS, průchod do šířky TGH05 - aplikace DFS, průchod do šířky Jan Březina Technical University of Liberec 31. března 2015 Grafová formulace CPM (critical path method) Orientovaný acyklický graf (DAG) je orientovaný graf neobsahující

Více

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

Více

Počet pravděpodobnosti

Počet pravděpodobnosti PSY117/454 Statistická analýza dat v psychologii Přednáška 4 Počet pravděpodobnosti Je známo, že když muž použije jeden z okrajových pisoárů, sníží se pravděpodobnost, že bude pomočen o 50%. anonym Pravděpodobnost

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D. Algoritmizace diskrétních simulačních modelů Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Při programování simulačních modelů lze hlavní dílčí problémy shrnout do následujících bodů: 1) Zachycení statických

Více

MATEMATICKÁ STATISTIKA - XP01MST

MATEMATICKÁ STATISTIKA - XP01MST MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného

Více

Bayesovské metody. Mnohorozměrná analýza dat

Bayesovské metody. Mnohorozměrná analýza dat Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

Úvod do mobilní robotiky AIL028

Úvod do mobilní robotiky AIL028 Pravděpodobnostní plánování zbynek.winkler at mff.cuni.cz, md at robotika.cz http://robotika.cz/guide/umor05/cs 12. prosince 2005 1 Co už umíme a co ne? Jak řešit složitější případy? Definice konfiguračního

Více

Cvičení ze statistiky - 7. Filip Děchtěrenko

Cvičení ze statistiky - 7. Filip Děchtěrenko Cvičení ze statistiky - 7 Filip Děchtěrenko Minule bylo.. Probrali jsme spojité modely Tyhle termíny by měly být známé: Rovnoměrné rozdělení Střední hodnota Mccalova transformace Normální rozdělení Přehled

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Markov Chain Monte Carlo. Jan Kracík.

Markov Chain Monte Carlo. Jan Kracík. Markov Chain Monte Carlo Jan Kracík jan.kracik@vsb.cz Princip Monte Carlo integrace Cílem je (přibližný) výpočet integrálu I(g) = E f [g(x)] = g(x)f (x)dx. (1) Umíme-li generovat nezávislé vzorky x (1),

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu Metoda Monte Carlo a její aplikace v problematice oceňování technologií Manuál k programu This software was created under the state subsidy of the Czech Republic within the research and development project

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Simulační modely. Kdy použít simulaci?

Simulační modely. Kdy použít simulaci? Simulační modely Simulace z lat. Simulare (napodobení). Princip simulace spočívá v sestavení modelu reálného systému a provádění opakovaných experimentů s tímto modelem. Simulaci je nutno považovat za

Více

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz o rozdělení Testování hypotéz o rozdělení Nechť X e náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládeme, že neznáme tvar distribuční funkce

Více

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant Základy informatiky 07 Teorie grafů Kačmařík/Szturcová/Děrgel/Rapant Obsah přednášky barvení mapy teorie grafů definice uzly a hrany typy grafů cesty, cykly, souvislost grafů Barvení mapy Kolik barev je

Více

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404 SOLVER UŽIVATELSKÁ PŘÍRUČKA Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT0000404 1. Solver Program Solver slouží pro vyhodnocení experimentálně naměřených dat. Základem

Více

2. RBF neuronové sítě

2. RBF neuronové sítě 2. RBF neuronové sítě Kapitola pojednává o neuronových sítích typu RBF. V kapitole je popsána základní struktura tohoto typu neuronové sítě. Poté následuje definice a charakteristika jednotlivých radiálně

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Neuronové sítě v DPZ

Neuronové sítě v DPZ Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Vybraná rozdělení náhodné veličiny

Vybraná rozdělení náhodné veličiny 3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.

Více

Počítačové simulace a statistická mechanika

Počítačové simulace a statistická mechanika Počítačové simulace a statistická mechanika Model = soubor aproximaci přijatých za účelem popisu určitého systému okrajové podmínky mezimolekulové interakce Statistické zpracování průměrování ve fázovém

Více

VÝBĚR VZORKU V KVANTITATIVNÍM

VÝBĚR VZORKU V KVANTITATIVNÍM VÝBĚR VZORKU V KVANTITATIVNÍM Metodologie ISK, 31/10/2014 TERMINOLOGIE Populace / základní soubor Soubor jednotek, které chceme zkoumat předpokládáme, že naše výroky jsou pro tento soubor platné Soubor

Více

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost

Více

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4 Pravděpodobnost a statistika (BI-PST) Cvičení č. 4 J. Hrabáková, I. Petr, F. Štampach, D. Vašata Katedra aplikované matematiky Fakulta informačních technologií České vysoké učení technické v Praze ZS 2014/2015

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz VII. SYSTÉMY ZÁKLADNÍ POJMY SYSTÉM - DEFINICE SYSTÉM (řec.) složené, seskupené (v

Více

TGH05 - aplikace DFS, průchod do šířky

TGH05 - aplikace DFS, průchod do šířky TGH05 - aplikace DFS, průchod do šířky Jan Březina Technical University of Liberec 28. března 2017 Grafová formulace CPM (critical path method) Orientovaný acyklický graf (DAG) je orientovaný graf neobsahující

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy. Vyučující: Ing. Jan Pacina, Ph.D.

9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy. Vyučující: Ing. Jan Pacina, Ph.D. 9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy Vyučující: Ing. Jan Pacina, Ph.D. e-mail: jan.pacina@ujep.cz Lehký úvod Digitální modely terénu jsou dnes v geoinformačních systémech

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami. 3.1. 3.2. Třikrát vystřelíme na cíl. Pravděpodobnost zásahu při každém výstřelu je p = 0,7. Určete: a) pravděpodobnostní funkci počtu zásahů při třech nezávislých výsledcích, b) distribuční funkci a její

Více

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach vlož do fronty kořen opakuj, dokud není fronta prázdná 1. vyber uzel z fronty a zpracuj jej 2. vlož do fronty levého následníka

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Zpětnovazební učení Michaela Walterová Jednoocí slepým, Zpětnovazební učení Michaela Walterová Jednoocí slepým, 17. 4. 2019 V minulých dílech jste viděli Tři paradigmata strojového učení: 1) Učení s učitelem (supervised learning) Trénovací data: vstup a požadovaný

Více