Příprava dat data preprocessing

Rozměr: px
Začít zobrazení ze stránky:

Download "Příprava dat data preprocessing"

Transkript

1 Příprava dat data preprocessing 1

2 Příprava dat integrace, čištění, transformace, redukce 2

3 Integrace dat Spojení dat z několika zdrojů do jednoho datového souboru Správně identifikovat záznamy, které k sobě patří Jiné označení nebo hodnoty jednotlivých veličin Jiné jednotky měřených veličin (kg vs lb) Redundance v datech Odstranění duplicit Vytvoření datové matice 3

4 Datová matice Nutný formát dat pro modelování. 2-rozměrná matice n x p. Řádky reprezentují n statistických jednotek (pozorování). Sloupce reprezentují p statistických proměnných. 4

5 Čištění dat: Praktické zkušenosti Pokud vaše nová data obsahují více než 30 čísel, tak je v nich skoro jistě nějaká chyba. Čištění a příprava dat zabírá obvykle % analytikova času. Pokud budete VELMI pečliví v této fázi, ušetříte si daleko víc času a nervů později jinak stavíte dům na písku. GIGO Garbage in, Garbage out (smetí dovnitř, smetí ven) sebelepší model (proces) nevyrobí ze smetí nic jiného než opět smetí. 5

6 Co způsobí nekvalitní data Správa nekvalitních/nadbytečných dat Nedoručené zásilky (marketing, fakturace) Nesprávné výsledky zpracování (reporting, analýzy, data mining) Špatné fungování systému (nekompatibilita) Ztráta image, nespokojení klienti 6

7 Co způsobí nekvalitní data 7

8 Čištění dat problémy a úkoly neúplná data (incomplete) hodnoty některých veličin nejsou známé (chybějící pozorování) chybná data (noisy) hodnoty některých veličin jsou nesmyslné, nebo mimo obor svých hodnot nekonzistentní data (inconsistent) nesrovnalosti v kódování některých veličin (souvisí s agregací dat) záměrné chyby v datech (intentional) místo chybějící hodnoty defaultní hodnota 8

9 Čištění dat: Ověření souboru Ověření souboru s daty / zdrojů dat Jsou to správná data (čas vzniku, výzkum )? Jsou kompletní, bez duplicit, umím je číst Zkoumání případů Mají identifikátory? Jsou tyto ID správné? Neopakují se (duplicity)? Existují i skoro duplicity dva podobné, ale ne přesně totožné záznamy o tomtéž subjektu. Nejsou vynechány? 9

10 Metadata - Ověření proměnných jsou strukturovaná data o datech Zkoumání metadat o proměnných Jsou tam všechny proměnné a správně značené? Je jasné, co znamenají (kódovníky, definice )? Dokumentace OK? Pozor na mezinárodní studie, produkty konsorcií agentur a opakované vlny výzkumů. Jemné nuance metody mohou způsobit hrubý nesoulad! Neopakuje se některá proměnná vícekrát? 10

11 Čištění dat: Průzkum proměnných Nabývá přípustných hodnot (x out of range)? Divné kódy ( xxx, 9999 ) Duplicitní kódy pro stejnou věc ( Ž, ž, žena, zena ) Kódování češtiny/ruštiny/ Překlepy apod. Editovací distance (např. Levenshteinova) pomohou odhalit překlep Editovací distance = počet elementárních editovacích kroků (vložení, mazání, nahrazení) potřebných pro změnu jednoho řetězce na druhý 11

12 Čištění dat: Průzkum proměnných Shluky (clumping), typicky kolem zaokrouhlených hodnot Lidé rádi zaokrouhlují směrem nahoru. Nebo třeba kolem hranic věkových kvót, vzniklé tím, jak tazatelé upravují věky respondentů, aby se vešli do kvót. Pozor na kódy časů (amer. x evrop. konvence), formátů datumu, regionů apod.! 12

13 Chybějící pozorování Důvody: citlivé údaje chyba přístroje lidský faktor odhalena chyba při čištění dat přidání nové proměnné veličina má smysl jen pro některé hodnoty předchozí veličiny 13

14 Chybějící pozorování mechanismy vzniku MCAR (missing completely at random) nezávisí na chybějící hodnotě ani hodnotách ostatních veličin MAR (missing at random) nezávisí na chybějící hodnotě, ale může záviset na hodnotách ostatních veličin MNAR (missing not at random) závisí na chybějící hodnotě i hodnotách ostatních veličin 14

15 Chybějící pozorování - řešení vynechání záznamu (pozorování) zejména pokud chybí cílová proměnná, případně pokud chybí větší množství hodnot (nutný předpoklad MCAR): listwise deletion (vynechání celého pozorování) pairwise deletion (ponechat nechybějící hodnoty) pairwise available deletion někdy lze chybějící hodnotu odvodit z ostatních veličin (např. věk z data narození) imputace nahrazení chybějící hodnoty jinou hodnotou 15

16 Chybějící pozorování - imputace Doplnění nějakou hodnotou z datového souboru: průměrem mediánem metoda maximální věrohodnosti (EM algoritmus) pomocí lineární regrese pomocí lineární regrese + šum Po nahrazení chybějících hodnot těmito technikami se s imputovanými hodnotami pracuje jako s původně pozorovanými. Analýzy tedy vůbec nezohledňují nejistotu spojenou s realizovanými imputacemi. Metody podhodnocují odhady směrodatných odchylek zkoumaných parametrů, užší intervaly spolehlivosti a menší p-hodnoty. 16

17 Imputace - příklad Zkoumání vztahu mezi IQ (horizontální osa) a hrubou měsíční mzdou (vertikální osa). U všech grafů chybí asi 30% hodnot hrubé měsíční mzdy. 17

18 Mnohonásobné imputace (multiple imputation) Místo jedné hodnoty je každá chybějící hodnota nahrazena současně několika (m) hodnotami => m modelů. Conditional multiple imputation, joint multiple imputation (nahrazované hodnoty jsou generované z podmíněného nebo sdruženého rozdělení). Každý imputovaný datový soubor vede k jinému odhadu zkoumaného parametru. Sloučení výsledků - souhrnný odhad parametru se vypočítá jako průměr ze všech odhadů. Vedou k nevychýleným odhadům parametrů a jejich směrodatných odchylek při MCAR a MAR. 18

19 Transformace proměnných Aplikace deterministické funkce na původní proměnné, aby byly splněny předpoklady statistických procedur, nebo pro lepší interpretovatelnost. Normalita dat. Stabilizace rozptylu. Standardizace dat. Vícerozměrné transformace. V širším smyslu: vytváření nových proměnných z původních, třeba i jiného typu. 19

20 Typy proměnných Kvantitativní (číselné) diskrétní spojité Kvalitativní (slovní, znakové) - nemůžeme je měřit, můžeme ji pouze zařadit do tříd nominální - nelze je smysluplně porovnávat ani seřadit ordinální hodnoty umíme porovnávat, seřadit Kategoriální = kvalitativní + diskrétní 20

21 Standardizace min-max normalizace: x -> (x-min)/(max-min) Z-score normalizace: x -> (x-prumer)/sd Decimal scaling normalizace : x -> x/10 j, j je nejmenší přirozené číslo aby maximum x /10 j bylo <1. 21

22 Přiblížení se normalitě logaritmická transformace: x -> log (x) 22

23 Přiblížení se normalitě mocninná transformace: x -> x k k>1 zdůrazňují se vysoké číselné hodnoty používá se zřídka k<1 vysoké číselné hodnoty se podhodnocují k=0.5 - odmocninová transformace 23

24 Boxova-Coxova transformace parametr λ lze odhadnout například pomocí metody maximální věrohodnosti 24

25 Kategorizace (diskretizace) proměnných Ze spojité proměnné chceme vytvořit kategoriální rozdělením hodnot na určité intervaly. Nutné pro některé statistické procedury. Rozdělení podle logické struktury, ze zkušenosti. Histogramová metoda. Rozdělení se stejnou délkou intervalů, nebo se stejnou frekvencí. Pokročilé metody: založené na entropii, shlukování, rozhodovacích stromech. Dělení top-down, nebo bottom-up. 25

26 Kategorizace proměnných 26

27 Transformace kategoriálních proměnných Slučování podobných hodnot (věcná podobnost, podobnost hodnot ve vztahu k cílové proměnné, ) Příklad (prodavač prodejce prodavačka) Slučování málo četných hodnot (národnost brazilská ) je třeba sloučit/přiřadit k nějaké(kým) více četné(ným) kategorii(ím) na základě nějakého vhodného kriteria. 27

28 Transformace kategoriálních proměnných Binarizace (dummy proměnné) Dummy proměnné představují techniku využívající dichotomické proměnné (kódované 0 nebo 1) pro vyjádření jednotlivých hodnot nominálních proměnných. Název dummy poukazuje na fakt, že přítomnost znaku označeného kódem 1 reprezentuje faktor, nebo soubor faktorů, který není měřitelný žádným lepším způsobem v rámci dané analýzy. 28

29 Dummy proměnné Dummy proměnná přiřazuje hodnotu 1 danému pozorování vybrané proměnné a hodnotu 0 ve zbývajících případech. Pro pohlaví (2 kategorie), např. přiřadí 1 pro ženu a 0 pro muže. V tomto případě je postačující vytvoření právě jedné dummy proměnné. Pro rasu (4 kategorie), je třeba vytvořit více dummy proměnných. P1=1, pokud rasa= běloch a 0 jinak. P2=1, pokud rasa= černoch a 0 jinak. P3=1, pokud rasa= asiat a 0 jinak. P4=1, pokud rasa= ostatní a 0 jinak. Důležité: Všechny 4 proměnné nejsou zahrnuty do modelování (způsobilo by to perfektní multikolinearitu, P4=1-P3-P2-P1). Počet dummy proměnných=počet kategorií -1. Vynechaná proměnná je referenční proměnnou. Konstanta obsahuje informaci o této referenční proměnné. Koeficienty zahrnutých proměnných jsou brány ve vztahu ke konstantě. 29

30 Redukce datového souboru Cíl: Získat redukovanou reprezentaci původních dat, která má mnohem menší objem, ale má stále (přibližně) stejnou informační hodnotu. Proč? Databáze mohou obsahovat obrovské množství dat, jejichž zpracování a analýza může trvat velmi dlouho. Strategie: - redukce počtu pozorování - redukce dimenze 30

31 Redukce počtu pozorování Vzorkování (sampling) z celého datového souboru vybereme malý vzorek dat (pozorování), které budeme analyzovat. Výběr musí být reprezentativní. Prostý náhodný výběr. Stratifikovaný náhodný výběr - rozdělení dat na strata, v každém stratu náhodný výběr proporcionálně k celému souboru. 31

32 Redukce dimenze Prokletí dimenzionality Vyšší dimenze, data stále více a více řidší (sparse) Problémy s odhady hustoty, distribuční funkce, vzdáleností, Počet všech možných podprostorů roste exponenciálně Redukce dimenze Vyhnout se prokletí dimenzionality Eliminovat irelevantní rysy a redukovat šum Snížit časovou a prostorovou náročnost Snazší zobrazení dat Techniky redukce dimenze Waveletovské transformace Analýza hlavních komponent Supervised a nelineární techniky (např. budoucí selekce) 32

33 Vlnková transformace (wavelet transform) Původně aplikace v teorii signálu detekce nespojitostí signálu a jeho derivací, identifikace okamžitých frekvencí, odstranění šumu, komprese signálů. Zobecnění Fourierovy transformace. Rozkládá signál podle frekvencí do spektra. Komprese: pracujeme jen s malým počtem nejvyšších koeficientů transformace. Zachovává relativní vzdálenosti mezi objekty. Dokáže lépe rozlišit přirozené shluky. Dokáže odhalit odlehlá pozorování. 33

34 Analýza hlavních komponent (PCA) 1901 Pearson, 1933 Hotelling. Lineární transformace původních proměnných na nové, nekorelované, zvané hlavní komponenty. Celková variabilita dat je zachována. Většina informace o variabilitě dat je soustředěna do první komponenty a nejméně informace je obsaženo v poslední komponentě. Snížení dimenze: užití pouze prvních několik hlavních komponent. Nevyužité hlavní komponenty obsahují malé množství informace, protože jejich rozptyl je příliš malý. 34

35 PCA geometrická interpretace 35

36 PCA geometrická interpretace 36

37 PCA - příklad Ekonomické ukazatele EU: data o 27 zemích EU + Island, Norsko a Švýcarsko, 16 ekonomických ukazatelů: 37

38 PCA - příklad 38

39 PCA - příklad 39

40 PCA - příklad 40

41 Faktorová analýza (Factor Analysis) Zobecnění metody hlavních komponent. Cíl: původní proměnné napsat jako lineární kombinaci malého počtu obecných (nekorelovaných) faktorů a jednoho faktoru specifického (pro každou proměnnou). Nejednoznačnost výsledku vzhledem k rotaci. Exploratorní, konfirmatorní FA. Kontroverze o ekvivalenci PCA a FA. 41

42 Faktorová analýza - příklad 42

43 Faktorová analýza - příklad 43

44 Faktorová analýza - příklad 44

45 45

46 Mnohorozměrné škálování (MDS) PCA a FA vhodné pro spojité veličiny. MDS je vhodné i pro kategoriální veličiny. MDS je metoda založená na zkoumání (ne)podobností mezi objekty. Najít reprezentaci těchto objektů v prostoru nízké dimenze, aby co nejlépe reflektovala vstupní informaci o těchto objektech. Vstupem není datová matice, ale matice nepodobností. Metrické, nemetrické škálování. Nejednoznačnost výsledku vzhledem k posunutí, rotaci a reflexi. 46

47 Mnohorozměrné škálování (MDS) - příklad Vzdálenosti německých měst. Úkol: Na základě tabulky vzdáleností zrekonstruovat mapu německých měst. 47

48 Mnohorozměrné škálování (MDS) - příklad 48

49 Mnohorozměrné škálování (MDS) příklad II 49

50 Mnohorozměrné škálování (MDS) příklad II 50

51 Literatura Diplomová práce Tibora Vansy Extrakce informace z mnohorozměrných dat a jejich zobrazování is.cuni.cz/webapps/zzp/detail/49034/ / Wolfgang Härdle, Leopold Simar - Applied Multivariate Statistical Analysis 51

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I 5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I 5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam

Více

Příprava dat v softwaru Statistica

Příprava dat v softwaru Statistica Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Ordinační analýzy principy redukce dimenzionality Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Ordinační analýza a její cíle Cíle ordinační analýzy

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

Základy teorie pravděpodobnosti

Základy teorie pravděpodobnosti Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie

Více

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka 2. Statistická terminologie a vyjadřovací prostředky 2.1. Statistická terminologie Statistická jednotka Statistická jednotka = nositel statistické informace, elementární prvek hromadného jevu. Příklady:

Více

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Úvod do vícerozměrných metod Statistické metody a zpracování dat Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný O řadě jevů či procesů máme k dispozici ne jeden statistický

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný Statistické metody a zpracování dat IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný Úvod do vícerozměrných metod O řadě jevů či procesů máme k dispozici ne jeden statistický

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

Úvod do dobývání. znalostí z databází

Úvod do dobývání. znalostí z databází POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů

Více

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL Matematika a stejně i matematická statistika a biometrie s námi hovoří řečí čísel. Musíme tedy vlastnosti nebo intenzitu vlastností jedinců změřit kvantifikovat. Měřením

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Více

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY) Charakteristiky kategoriálních veličin Absolutní četnosti (FREQUENCY) Charakteristiky kategoriálních veličin Relativní četnosti Charakteristiky kategoriálních veličin Relativní četnosti Charakteristiky

Více

Univerzita Pardubice 8. licenční studium chemometrie

Univerzita Pardubice 8. licenční studium chemometrie Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Základy pravděpodobnosti a statistiky. Popisná statistika

Základy pravděpodobnosti a statistiky. Popisná statistika Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,

Více

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat ) Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat ) Zadání : Čistota vody v řece byla denně sledována v průběhu 10 dní dle biologické spotřeby kyslíku BSK 5. Jsou v

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem Pracovní adresář getwd() # výpis pracovního adresáře setwd("c:/moje/pracovni") # nastavení pracovního adresáře setwd("c:\\moje\\pracovni") # nastavení pracovního adresáře Nápověda?funkce # nápověda pro

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava ŠKOMAM 2016 Jak získat data? Primární zdroje dat Vlastní měření (fyzika, biologie,

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Pořízení licencí statistického SW

Pořízení licencí statistického SW Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory Zkouška ověřuje znalost základních pojmů, porozumění teorii a schopnost aplikovat teorii při

Více

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY

METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY BLOK 1: epistemologie BLOK 2: principy kvantitativního přístupu BLOK 3: principy kvalitativního přístupu etapy výzkumu I Formulace problému (čtu, co se ví, jak se

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

Předmluva S o u h rn... 89

Předmluva S o u h rn... 89 Obsah Předmluva... 17 1 Ú v o d... 2 1 1.1 Empirický výzkum a jeho etap y... 23 1.2 Význam teorie pro v ý zk u m... 27 1.2.1 Konstrukty a jejich operacionalizace... 27 1.2.2 Role teorie ve v ý zk u m u...

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí

Více

Kontingenční tabulky v Excelu. Představení programu Statistica

Kontingenční tabulky v Excelu. Představení programu Statistica ASTAc/01 Biostatistika 2. cvičení Kontingenční tabulky v Excelu Základní popisné statistiky Představení programu Statistica Import a základní popis dat ve Statistice, M. Cvanová I. Kontingenční tabulky

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně

Více

Statistika I (KMI/PSTAT)

Statistika I (KMI/PSTAT) Statistika I (KMI/PSTAT) Cvičení první aneb Sumační symbolika, úvod do popisné statistiky Statistika I (KMI/PSTAT) 1 / 15 Obsah hodiny Po dnešní hodině byste měli být schopni: správně používat sumační

Více

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR Váš pomocník pro analýzu dat MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich StatSoft CR StatSoft StatSoft CR Dodavatel komplexních analytických řešení Výhradní dodavatel softwaru STATISTICA pro

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Popisná statistika úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Úvod užívá se k popisu základních vlastností dat poskytuje jednoduché shrnutí hodnot proměnných

Více

4. Zpracování číselných dat

4. Zpracování číselných dat 4. Zpracování číselných dat 4.1 Jednoduché hodnocení dat 4.2 Začlenění dat do písemné práce Zásady zpracování vědecké práce pro obory BOZO, PÚPN, LS 2011 4.1 Hodnocení číselných dat Popisná data: střední

Více

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Diagnostika regrese pomocí grafu 7krát jinak

Diagnostika regrese pomocí grafu 7krát jinak StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

AVDAT Mnohorozměrné metody metody redukce dimenze

AVDAT Mnohorozměrné metody metody redukce dimenze AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut. 1/24 KOMPRESE OBRAZŮ Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD 2/24 Cíl:

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických

Více

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Seminární práce 1 Brno, 2002 Ing. Pavel

Více

Cvičení ze statistiky - 3. Filip Děchtěrenko

Cvičení ze statistiky - 3. Filip Děchtěrenko Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf

Více

Nejčastější chyby v explorační analýze

Nejčastější chyby v explorační analýze Nejčastější chyby v explorační analýze Obecně doporučuju přečíst přednášku 5: Výběrová šetření, Exploratorní analýza http://homel.vsb.cz/~lit40/sta1/materialy/io.pptx Použití nesprávných charakteristik

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké

Více

Návrh datového skladu z hlediska zdrojů

Návrh datového skladu z hlediska zdrojů Návrh datového skladu Návrh datového skladu OLTP ETL OLAP, DM Operativní data Datové sklady Zdroje dat Transformace zdroj - cíl Etapy realizace 1 Návrh datového skladu Hlavní úskalí analýzy a návrhu spočívá

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

Učební plán 4. letého studia předmětu matematiky. Učební plán 6. letého studia předmětu matematiky

Učební plán 4. letého studia předmětu matematiky. Učební plán 6. letého studia předmětu matematiky Učební plán 4. letého studia předmětu matematiky Ročník I II III IV Dotace 3 3+1 2+1 2+2 Povinnost povinný povinný povinný povinný Učební plán 6. letého studia předmětu matematiky Ročník 1 2 3 4 5 6 Dotace

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

Úvod do statistické metodologie

Úvod do statistické metodologie Přenos jakékoli části této prezentace mimo účastníky semináře je zakázán bez písemné dohody se StatSoft CR s.r.o. (Dell Software Group). Úvod do statistické metodologie 1. lékařská fakulta Univerzity Karlovy

Více

přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod

přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod Měření Pb v polyethylenu 36 různými laboratořemi 0,47 0 ± 0,02 1 µmol.g -1 tj. 97,4 ± 4,3 µg.g -1 Měření

Více

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

STATISTIKA S EXCELEM. Martina Litschmannová MODAM, STATISTIKA S EXCELEM Martina Litschmannová MODAM, 8. 4. 216 Obsah Motivace aneb Máme data a co dál? Základní terminologie Analýza kvalitativního znaku rozdělení četnosti, vizualizace Analýza kvantitativního

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT (NE)VÝHODY STATISTIKY OTÁZKY si klást ještě před odběrem a podle nich naplánovat design, metodiku odběru (experimentální vs.

Více

Tematický plán Obor: Informační technologie. Vyučující: Ing. Joanna Paździorová

Tematický plán Obor: Informační technologie. Vyučující: Ing. Joanna Paździorová Tematický plán Vyučující: Ing. Joanna Paździorová 1. r o č n í k 5 h o d i n t ý d n ě, c e l k e m 1 7 0 h o d i n Téma- Tematický celek Z á ř í 1. Opakování a prohloubení učiva základní školy 18 1.1.

Více

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ Analýza dat z dotazníkových šetření Cvičení 3. - Jednorozměrné třídění Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ - Seznamte se s dotazníkem a strukturou

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti

Více

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient PSY117/454 Statistická analýza dat v psychologii Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient Analýza vztahů mezi dvěma proměnnými Souvisí nějak? Výška a váha Známky u jednotlivých

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více