Příprava dat data preprocessing
|
|
- Rudolf Matoušek
- před 6 lety
- Počet zobrazení:
Transkript
1 Příprava dat data preprocessing 1
2 Příprava dat integrace, čištění, transformace, redukce 2
3 Integrace dat Spojení dat z několika zdrojů do jednoho datového souboru Správně identifikovat záznamy, které k sobě patří Jiné označení nebo hodnoty jednotlivých veličin Jiné jednotky měřených veličin (kg vs lb) Redundance v datech Odstranění duplicit Vytvoření datové matice 3
4 Datová matice Nutný formát dat pro modelování. 2-rozměrná matice n x p. Řádky reprezentují n statistických jednotek (pozorování). Sloupce reprezentují p statistických proměnných. 4
5 Čištění dat: Praktické zkušenosti Pokud vaše nová data obsahují více než 30 čísel, tak je v nich skoro jistě nějaká chyba. Čištění a příprava dat zabírá obvykle % analytikova času. Pokud budete VELMI pečliví v této fázi, ušetříte si daleko víc času a nervů později jinak stavíte dům na písku. GIGO Garbage in, Garbage out (smetí dovnitř, smetí ven) sebelepší model (proces) nevyrobí ze smetí nic jiného než opět smetí. 5
6 Co způsobí nekvalitní data Správa nekvalitních/nadbytečných dat Nedoručené zásilky (marketing, fakturace) Nesprávné výsledky zpracování (reporting, analýzy, data mining) Špatné fungování systému (nekompatibilita) Ztráta image, nespokojení klienti 6
7 Co způsobí nekvalitní data 7
8 Čištění dat problémy a úkoly neúplná data (incomplete) hodnoty některých veličin nejsou známé (chybějící pozorování) chybná data (noisy) hodnoty některých veličin jsou nesmyslné, nebo mimo obor svých hodnot nekonzistentní data (inconsistent) nesrovnalosti v kódování některých veličin (souvisí s agregací dat) záměrné chyby v datech (intentional) místo chybějící hodnoty defaultní hodnota 8
9 Čištění dat: Ověření souboru Ověření souboru s daty / zdrojů dat Jsou to správná data (čas vzniku, výzkum )? Jsou kompletní, bez duplicit, umím je číst Zkoumání případů Mají identifikátory? Jsou tyto ID správné? Neopakují se (duplicity)? Existují i skoro duplicity dva podobné, ale ne přesně totožné záznamy o tomtéž subjektu. Nejsou vynechány? 9
10 Metadata - Ověření proměnných jsou strukturovaná data o datech Zkoumání metadat o proměnných Jsou tam všechny proměnné a správně značené? Je jasné, co znamenají (kódovníky, definice )? Dokumentace OK? Pozor na mezinárodní studie, produkty konsorcií agentur a opakované vlny výzkumů. Jemné nuance metody mohou způsobit hrubý nesoulad! Neopakuje se některá proměnná vícekrát? 10
11 Čištění dat: Průzkum proměnných Nabývá přípustných hodnot (x out of range)? Divné kódy ( xxx, 9999 ) Duplicitní kódy pro stejnou věc ( Ž, ž, žena, zena ) Kódování češtiny/ruštiny/ Překlepy apod. Editovací distance (např. Levenshteinova) pomohou odhalit překlep Editovací distance = počet elementárních editovacích kroků (vložení, mazání, nahrazení) potřebných pro změnu jednoho řetězce na druhý 11
12 Čištění dat: Průzkum proměnných Shluky (clumping), typicky kolem zaokrouhlených hodnot Lidé rádi zaokrouhlují směrem nahoru. Nebo třeba kolem hranic věkových kvót, vzniklé tím, jak tazatelé upravují věky respondentů, aby se vešli do kvót. Pozor na kódy časů (amer. x evrop. konvence), formátů datumu, regionů apod.! 12
13 Chybějící pozorování Důvody: citlivé údaje chyba přístroje lidský faktor odhalena chyba při čištění dat přidání nové proměnné veličina má smysl jen pro některé hodnoty předchozí veličiny 13
14 Chybějící pozorování mechanismy vzniku MCAR (missing completely at random) nezávisí na chybějící hodnotě ani hodnotách ostatních veličin MAR (missing at random) nezávisí na chybějící hodnotě, ale může záviset na hodnotách ostatních veličin MNAR (missing not at random) závisí na chybějící hodnotě i hodnotách ostatních veličin 14
15 Chybějící pozorování - řešení vynechání záznamu (pozorování) zejména pokud chybí cílová proměnná, případně pokud chybí větší množství hodnot (nutný předpoklad MCAR): listwise deletion (vynechání celého pozorování) pairwise deletion (ponechat nechybějící hodnoty) pairwise available deletion někdy lze chybějící hodnotu odvodit z ostatních veličin (např. věk z data narození) imputace nahrazení chybějící hodnoty jinou hodnotou 15
16 Chybějící pozorování - imputace Doplnění nějakou hodnotou z datového souboru: průměrem mediánem metoda maximální věrohodnosti (EM algoritmus) pomocí lineární regrese pomocí lineární regrese + šum Po nahrazení chybějících hodnot těmito technikami se s imputovanými hodnotami pracuje jako s původně pozorovanými. Analýzy tedy vůbec nezohledňují nejistotu spojenou s realizovanými imputacemi. Metody podhodnocují odhady směrodatných odchylek zkoumaných parametrů, užší intervaly spolehlivosti a menší p-hodnoty. 16
17 Imputace - příklad Zkoumání vztahu mezi IQ (horizontální osa) a hrubou měsíční mzdou (vertikální osa). U všech grafů chybí asi 30% hodnot hrubé měsíční mzdy. 17
18 Mnohonásobné imputace (multiple imputation) Místo jedné hodnoty je každá chybějící hodnota nahrazena současně několika (m) hodnotami => m modelů. Conditional multiple imputation, joint multiple imputation (nahrazované hodnoty jsou generované z podmíněného nebo sdruženého rozdělení). Každý imputovaný datový soubor vede k jinému odhadu zkoumaného parametru. Sloučení výsledků - souhrnný odhad parametru se vypočítá jako průměr ze všech odhadů. Vedou k nevychýleným odhadům parametrů a jejich směrodatných odchylek při MCAR a MAR. 18
19 Transformace proměnných Aplikace deterministické funkce na původní proměnné, aby byly splněny předpoklady statistických procedur, nebo pro lepší interpretovatelnost. Normalita dat. Stabilizace rozptylu. Standardizace dat. Vícerozměrné transformace. V širším smyslu: vytváření nových proměnných z původních, třeba i jiného typu. 19
20 Typy proměnných Kvantitativní (číselné) diskrétní spojité Kvalitativní (slovní, znakové) - nemůžeme je měřit, můžeme ji pouze zařadit do tříd nominální - nelze je smysluplně porovnávat ani seřadit ordinální hodnoty umíme porovnávat, seřadit Kategoriální = kvalitativní + diskrétní 20
21 Standardizace min-max normalizace: x -> (x-min)/(max-min) Z-score normalizace: x -> (x-prumer)/sd Decimal scaling normalizace : x -> x/10 j, j je nejmenší přirozené číslo aby maximum x /10 j bylo <1. 21
22 Přiblížení se normalitě logaritmická transformace: x -> log (x) 22
23 Přiblížení se normalitě mocninná transformace: x -> x k k>1 zdůrazňují se vysoké číselné hodnoty používá se zřídka k<1 vysoké číselné hodnoty se podhodnocují k=0.5 - odmocninová transformace 23
24 Boxova-Coxova transformace parametr λ lze odhadnout například pomocí metody maximální věrohodnosti 24
25 Kategorizace (diskretizace) proměnných Ze spojité proměnné chceme vytvořit kategoriální rozdělením hodnot na určité intervaly. Nutné pro některé statistické procedury. Rozdělení podle logické struktury, ze zkušenosti. Histogramová metoda. Rozdělení se stejnou délkou intervalů, nebo se stejnou frekvencí. Pokročilé metody: založené na entropii, shlukování, rozhodovacích stromech. Dělení top-down, nebo bottom-up. 25
26 Kategorizace proměnných 26
27 Transformace kategoriálních proměnných Slučování podobných hodnot (věcná podobnost, podobnost hodnot ve vztahu k cílové proměnné, ) Příklad (prodavač prodejce prodavačka) Slučování málo četných hodnot (národnost brazilská ) je třeba sloučit/přiřadit k nějaké(kým) více četné(ným) kategorii(ím) na základě nějakého vhodného kriteria. 27
28 Transformace kategoriálních proměnných Binarizace (dummy proměnné) Dummy proměnné představují techniku využívající dichotomické proměnné (kódované 0 nebo 1) pro vyjádření jednotlivých hodnot nominálních proměnných. Název dummy poukazuje na fakt, že přítomnost znaku označeného kódem 1 reprezentuje faktor, nebo soubor faktorů, který není měřitelný žádným lepším způsobem v rámci dané analýzy. 28
29 Dummy proměnné Dummy proměnná přiřazuje hodnotu 1 danému pozorování vybrané proměnné a hodnotu 0 ve zbývajících případech. Pro pohlaví (2 kategorie), např. přiřadí 1 pro ženu a 0 pro muže. V tomto případě je postačující vytvoření právě jedné dummy proměnné. Pro rasu (4 kategorie), je třeba vytvořit více dummy proměnných. P1=1, pokud rasa= běloch a 0 jinak. P2=1, pokud rasa= černoch a 0 jinak. P3=1, pokud rasa= asiat a 0 jinak. P4=1, pokud rasa= ostatní a 0 jinak. Důležité: Všechny 4 proměnné nejsou zahrnuty do modelování (způsobilo by to perfektní multikolinearitu, P4=1-P3-P2-P1). Počet dummy proměnných=počet kategorií -1. Vynechaná proměnná je referenční proměnnou. Konstanta obsahuje informaci o této referenční proměnné. Koeficienty zahrnutých proměnných jsou brány ve vztahu ke konstantě. 29
30 Redukce datového souboru Cíl: Získat redukovanou reprezentaci původních dat, která má mnohem menší objem, ale má stále (přibližně) stejnou informační hodnotu. Proč? Databáze mohou obsahovat obrovské množství dat, jejichž zpracování a analýza může trvat velmi dlouho. Strategie: - redukce počtu pozorování - redukce dimenze 30
31 Redukce počtu pozorování Vzorkování (sampling) z celého datového souboru vybereme malý vzorek dat (pozorování), které budeme analyzovat. Výběr musí být reprezentativní. Prostý náhodný výběr. Stratifikovaný náhodný výběr - rozdělení dat na strata, v každém stratu náhodný výběr proporcionálně k celému souboru. 31
32 Redukce dimenze Prokletí dimenzionality Vyšší dimenze, data stále více a více řidší (sparse) Problémy s odhady hustoty, distribuční funkce, vzdáleností, Počet všech možných podprostorů roste exponenciálně Redukce dimenze Vyhnout se prokletí dimenzionality Eliminovat irelevantní rysy a redukovat šum Snížit časovou a prostorovou náročnost Snazší zobrazení dat Techniky redukce dimenze Waveletovské transformace Analýza hlavních komponent Supervised a nelineární techniky (např. budoucí selekce) 32
33 Vlnková transformace (wavelet transform) Původně aplikace v teorii signálu detekce nespojitostí signálu a jeho derivací, identifikace okamžitých frekvencí, odstranění šumu, komprese signálů. Zobecnění Fourierovy transformace. Rozkládá signál podle frekvencí do spektra. Komprese: pracujeme jen s malým počtem nejvyšších koeficientů transformace. Zachovává relativní vzdálenosti mezi objekty. Dokáže lépe rozlišit přirozené shluky. Dokáže odhalit odlehlá pozorování. 33
34 Analýza hlavních komponent (PCA) 1901 Pearson, 1933 Hotelling. Lineární transformace původních proměnných na nové, nekorelované, zvané hlavní komponenty. Celková variabilita dat je zachována. Většina informace o variabilitě dat je soustředěna do první komponenty a nejméně informace je obsaženo v poslední komponentě. Snížení dimenze: užití pouze prvních několik hlavních komponent. Nevyužité hlavní komponenty obsahují malé množství informace, protože jejich rozptyl je příliš malý. 34
35 PCA geometrická interpretace 35
36 PCA geometrická interpretace 36
37 PCA - příklad Ekonomické ukazatele EU: data o 27 zemích EU + Island, Norsko a Švýcarsko, 16 ekonomických ukazatelů: 37
38 PCA - příklad 38
39 PCA - příklad 39
40 PCA - příklad 40
41 Faktorová analýza (Factor Analysis) Zobecnění metody hlavních komponent. Cíl: původní proměnné napsat jako lineární kombinaci malého počtu obecných (nekorelovaných) faktorů a jednoho faktoru specifického (pro každou proměnnou). Nejednoznačnost výsledku vzhledem k rotaci. Exploratorní, konfirmatorní FA. Kontroverze o ekvivalenci PCA a FA. 41
42 Faktorová analýza - příklad 42
43 Faktorová analýza - příklad 43
44 Faktorová analýza - příklad 44
45 45
46 Mnohorozměrné škálování (MDS) PCA a FA vhodné pro spojité veličiny. MDS je vhodné i pro kategoriální veličiny. MDS je metoda založená na zkoumání (ne)podobností mezi objekty. Najít reprezentaci těchto objektů v prostoru nízké dimenze, aby co nejlépe reflektovala vstupní informaci o těchto objektech. Vstupem není datová matice, ale matice nepodobností. Metrické, nemetrické škálování. Nejednoznačnost výsledku vzhledem k posunutí, rotaci a reflexi. 46
47 Mnohorozměrné škálování (MDS) - příklad Vzdálenosti německých měst. Úkol: Na základě tabulky vzdáleností zrekonstruovat mapu německých měst. 47
48 Mnohorozměrné škálování (MDS) - příklad 48
49 Mnohorozměrné škálování (MDS) příklad II 49
50 Mnohorozměrné škálování (MDS) příklad II 50
51 Literatura Diplomová práce Tibora Vansy Extrakce informace z mnohorozměrných dat a jejich zobrazování is.cuni.cz/webapps/zzp/detail/49034/ / Wolfgang Härdle, Leopold Simar - Applied Multivariate Statistical Analysis 51
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VíceGrafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
VíceMatematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Více5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
Více1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,
KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce
VíceStatistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
VíceProfilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
VíceZáklady popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
Víceodlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
Více5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
VícePříprava dat v softwaru Statistica
Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,
VíceVícerozměrné statistické metody
Vícerozměrné statistické metody Ordinační analýzy principy redukce dimenzionality Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Ordinační analýza a její cíle Cíle ordinační analýzy
VíceObsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceKorelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Více2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
VíceZáklady teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
Více2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka
2. Statistická terminologie a vyjadřovací prostředky 2.1. Statistická terminologie Statistická jednotka Statistická jednotka = nositel statistické informace, elementární prvek hromadného jevu. Příklady:
VíceÚvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)
Úvod do vícerozměrných metod Statistické metody a zpracování dat Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný O řadě jevů či procesů máme k dispozici ne jeden statistický
VíceZískávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
VíceStatistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný
Statistické metody a zpracování dat IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný Úvod do vícerozměrných metod O řadě jevů či procesů máme k dispozici ne jeden statistický
VíceMěření závislosti statistických dat
5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě
Více1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15
Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních
VíceÚvod do dobývání. znalostí z databází
POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů
VíceMĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL
MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL Matematika a stejně i matematická statistika a biometrie s námi hovoří řečí čísel. Musíme tedy vlastnosti nebo intenzitu vlastností jedinců změřit kvantifikovat. Měřením
VíceMgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech
VíceRenáta Bednárová STATISTIKA PRO EKONOMY
Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy
VíceMnohorozměrná statistická data
Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná
VíceVícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod
PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal
VíceCharakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)
Charakteristiky kategoriálních veličin Absolutní četnosti (FREQUENCY) Charakteristiky kategoriálních veličin Relativní četnosti Charakteristiky kategoriálních veličin Relativní četnosti Charakteristiky
VíceUniverzita Pardubice 8. licenční studium chemometrie
Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí
VíceANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní
VíceProgram Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.
Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní
VíceZpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VícePřednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
VíceZáklady pravděpodobnosti a statistiky. Popisná statistika
Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,
VíceÚloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )
Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat ) Zadání : Čistota vody v řece byla denně sledována v průběhu 10 dní dle biologické spotřeby kyslíku BSK 5. Jsou v
VíceZáklady popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
VícePracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem
Pracovní adresář getwd() # výpis pracovního adresáře setwd("c:/moje/pracovni") # nastavení pracovního adresáře setwd("c:\\moje\\pracovni") # nastavení pracovního adresáře Nápověda?funkce # nápověda pro
VíceANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.
VíceMnohorozměrná statistická data
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém
VíceStatistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava
Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava ŠKOMAM 2016 Jak získat data? Primární zdroje dat Vlastní měření (fyzika, biologie,
VíceStatistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
VícePořízení licencí statistického SW
Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ
VíceStatistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability
I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry
VícePožadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory
Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory Zkouška ověřuje znalost základních pojmů, porozumění teorii a schopnost aplikovat teorii při
VíceANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VíceMETODY VÝZKUMU GENDEROVÉ PROBLEMATIKY
METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY BLOK 1: epistemologie BLOK 2: principy kvantitativního přístupu BLOK 3: principy kvalitativního přístupu etapy výzkumu I Formulace problému (čtu, co se ví, jak se
Vícevzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291
Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených
VícePředmluva S o u h rn... 89
Obsah Předmluva... 17 1 Ú v o d... 2 1 1.1 Empirický výzkum a jeho etap y... 23 1.2 Význam teorie pro v ý zk u m... 27 1.2.1 Konstrukty a jejich operacionalizace... 27 1.2.2 Role teorie ve v ý zk u m u...
VíceFakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
VíceSTATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE
STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí
VíceKontingenční tabulky v Excelu. Představení programu Statistica
ASTAc/01 Biostatistika 2. cvičení Kontingenční tabulky v Excelu Základní popisné statistiky Představení programu Statistica Import a základní popis dat ve Statistice, M. Cvanová I. Kontingenční tabulky
VíceZápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
VíceStatistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží
Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně
VíceStatistika I (KMI/PSTAT)
Statistika I (KMI/PSTAT) Cvičení první aneb Sumační symbolika, úvod do popisné statistiky Statistika I (KMI/PSTAT) 1 / 15 Obsah hodiny Po dnešní hodině byste měli být schopni: správně používat sumační
VíceMODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR
Váš pomocník pro analýzu dat MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich StatSoft CR StatSoft StatSoft CR Dodavatel komplexních analytických řešení Výhradní dodavatel softwaru STATISTICA pro
Více4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT
4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami
VícePopisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy
Popisná statistika úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Úvod užívá se k popisu základních vlastností dat poskytuje jednoduché shrnutí hodnot proměnných
Více4. Zpracování číselných dat
4. Zpracování číselných dat 4.1 Jednoduché hodnocení dat 4.2 Začlenění dat do písemné práce Zásady zpracování vědecké práce pro obory BOZO, PÚPN, LS 2011 4.1 Hodnocení číselných dat Popisná data: střední
VíceHledání optimální polohy stanic a zastávek na tratích regionálního významu
Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce
Více5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
VícePopisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
VícePopisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
VíceDiagnostika regrese pomocí grafu 7krát jinak
StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi
VícePopisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
VíceAVDAT Mnohorozměrné metody metody redukce dimenze
AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak
VíceStatistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
VíceStatistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!
Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00
VícePokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
VíceKOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.
1/24 KOMPRESE OBRAZŮ Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD 2/24 Cíl:
VíceStatistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických
VíceUniverzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Seminární práce 1 Brno, 2002 Ing. Pavel
VíceCvičení ze statistiky - 3. Filip Děchtěrenko
Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf
VíceNejčastější chyby v explorační analýze
Nejčastější chyby v explorační analýze Obecně doporučuju přečíst přednášku 5: Výběrová šetření, Exploratorní analýza http://homel.vsb.cz/~lit40/sta1/materialy/io.pptx Použití nesprávných charakteristik
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
VíceNávrh datového skladu z hlediska zdrojů
Návrh datového skladu Návrh datového skladu OLTP ETL OLAP, DM Operativní data Datové sklady Zdroje dat Transformace zdroj - cíl Etapy realizace 1 Návrh datového skladu Hlavní úskalí analýzy a návrhu spočívá
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VíceSimulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
VícePRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
VícePravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
VíceJEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
VíceUčební plán 4. letého studia předmětu matematiky. Učební plán 6. letého studia předmětu matematiky
Učební plán 4. letého studia předmětu matematiky Ročník I II III IV Dotace 3 3+1 2+1 2+2 Povinnost povinný povinný povinný povinný Učební plán 6. letého studia předmětu matematiky Ročník 1 2 3 4 5 6 Dotace
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceVysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky
Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného
VíceÚvod do statistické metodologie
Přenos jakékoli části této prezentace mimo účastníky semináře je zakázán bez písemné dohody se StatSoft CR s.r.o. (Dell Software Group). Úvod do statistické metodologie 1. lékařská fakulta Univerzity Karlovy
Vícepřesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod
přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod Měření Pb v polyethylenu 36 různými laboratořemi 0,47 0 ± 0,02 1 µmol.g -1 tj. 97,4 ± 4,3 µg.g -1 Měření
VíceSTATISTIKA S EXCELEM. Martina Litschmannová MODAM,
STATISTIKA S EXCELEM Martina Litschmannová MODAM, 8. 4. 216 Obsah Motivace aneb Máme data a co dál? Základní terminologie Analýza kvalitativního znaku rozdělení četnosti, vizualizace Analýza kvantitativního
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceRegresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
VíceSTATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT
STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT (NE)VÝHODY STATISTIKY OTÁZKY si klást ještě před odběrem a podle nich naplánovat design, metodiku odběru (experimentální vs.
VíceTematický plán Obor: Informační technologie. Vyučující: Ing. Joanna Paździorová
Tematický plán Vyučující: Ing. Joanna Paździorová 1. r o č n í k 5 h o d i n t ý d n ě, c e l k e m 1 7 0 h o d i n Téma- Tematický celek Z á ř í 1. Opakování a prohloubení učiva základní školy 18 1.1.
VíceAnalýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/
Analýza dat z dotazníkových šetření Cvičení 3. - Jednorozměrné třídění Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ - Seznamte se s dotazníkem a strukturou
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
VícePSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient
PSY117/454 Statistická analýza dat v psychologii Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient Analýza vztahů mezi dvěma proměnnými Souvisí nějak? Výška a váha Známky u jednotlivých
VíceZáklady biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Více