Nejčastější chyby v explorační analýze

Podobné dokumenty
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Tabulka 1. Výběr z datové tabulky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Popisná statistika. Komentované řešení pomocí MS Excel

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Číselné charakteristiky

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT


POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistika pro geografy

Metodologie pro ISK II

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Zápočtová práce STATISTIKA I

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Základy pravděpodobnosti a statistiky. Popisná statistika

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Aplikovaná statistika v R

Popisná statistika. Statistika pro sociology

MATEMATIKA III V PŘÍKLADECH

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Manuál pro zaokrouhlování

Třídění statistických dat

Analýza dat na PC I.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Renáta Bednárová STATISTIKA PRO EKONOMY

Návrhy dalších možností statistického zpracování aktualizovaných dat

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Kontingenční tabulky v Excelu. Představení programu Statistica

Charakteristika datového souboru

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Základní analýza dat. Úvod

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Analýza dat s využitím MS Excel

Deskriptivní statistika (kategorizované proměnné)

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Základy popisné statistiky

STATISTICKÉ CHARAKTERISTIKY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mnohorozměrná statistická data

STATISTICA Téma 1. Práce s datovým souborem

Praktická statistika. Petr Ponížil Eva Kutálková

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Přednáška 5. Výběrová šetření, Exploratorní analýza

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Tomáš Karel LS 2012/2013

MÁME DATA A CO DÁL? Martina Litschmannová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Excel tabulkový procesor

TECHNICKÁ UNIVERZITA V LIBERCI

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Deskriptivní statistika (kategorizované proměnné)

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Základní statistické charakteristiky

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Exploratorní analýza (EDA)

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Simulace. Simulace dat. Parametry

Vzorová prezentace do předmětu Statistika

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Průzkumová analýza dat

Informační technologie a statistika 1

Pracovní list č. 3 Charakteristiky variability

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Náhodná veličina a rozdělení pravděpodobnosti

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Základní statistické pojmy

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Transkript:

Nejčastější chyby v explorační analýze Obecně doporučuju přečíst přednášku 5: Výběrová šetření, Exploratorní analýza http://homel.vsb.cz/~lit40/sta1/materialy/io.pptx

Použití nesprávných charakteristik pro daný typ proměnné Nominální proměnná: např. barva auta (červená, zelená, modrá, ) nemá smysl uspořádání např. podle velikosti => používáme pouze absolutní a relativní četnost, modus, výsečový graf, histogram. Není možné použít kumulativní charakteristiky. Tabulka rozdělení četnosti barev projíždějících aut Podle jakého kritéria bychom barvy seřazovali? Hodnoty Absolutní četnosti Relativní četnosti Kumulativní absolutní četnosti Kumulativní relativní četnosti červená 8 0,40 8 0,40 černá 4 0,20 12 0,60 modrá 5 0,25 17 0,85 bílá 3 0,15 20 1,00 Celkem: 20 1,00 20 1,00

Použití nesprávných charakteristik pro daný typ proměnné Ordinální proměnná: např. známky ve škole (výborně, chvalitebně, dobře, ) má smysl uspořádání např. od nejlepší k nejhorší => používáme absolutní a relativní četnost + kumulativní charakteristiky, modus, výsečový graf, histogram, Lorenzova křivka, Paretův graf Tabulka rozdělení četnosti výsledné známky ze statistiky Hodnoty Absolutní četnosti Relativní četnosti Kumulativní absolutní četnosti Kumulativní relativní četnosti dobře 5 0,25 5 0,25 výborně 4 0,20 9 0,45 velmi dobře 8 0,40 17 0,85 nevyhověl 3 0,15 20 1,00 Hodnoty nejsou seřazeny podle daného kritéria Celkem: 20 1,00 20 1,00

Použití nesprávných charakteristik pro daný typ proměnné Ordinální proměnná: např. známky ve škole (výborně, chvalitebně, dobře, ) má smysl uspořádání např. od nejlepší k nejhorší => používáme absolutní a relativní četnost + kumulativní charakteristiky, modus, výsečový graf, histogram, Lorenzova křivka, Paretův graf Tabulka rozdělení četnosti výsledné známky ze statistiky Hodnoty Absolutní četnosti Relativní četnosti Kumulativní absolutní četnosti Kumulativní relativní četnosti výborně 4 0,20 4 0,20 velmi dobře 8 0,40 12 0,60 dobře 5 0,25 17 0,85 nevyhověl 3 0,15 20 1,00 17 studentů, tj. 85 % u zkoušky ze statistiky prospělo Celkem: 20 1,00 20 1,00

Použití nesprávných charakteristik pro daný typ proměnné Numerická proměnná není možné použít četnosti u numerické proměnné teoreticky se každá hodnota v souboru může od všech ostatních lišit, potom bychom dostali tabulku se všemi hodnotami a u nich četnost 1 (na co by taková analýza byla?) Můžeme roztřídit do kategorií a ty poté analyzovat. Tabulka rozdělení četnosti výšky studentů 4. ročníku Hodnoty [cm] Absolutní četnosti Relativní četnosti 168 1 0,029 169 1 0,029 170 2 0,057 Takhle ne 171 1 0,029 172 1 0,029 o 17 řádků dále 199 2 0,057 200 1 0,029 201 1 0,029 celkem 34 1

Použití nesprávných charakteristik pro daný typ proměnné Numerická proměnná není možné použít četnosti u numerické proměnné teoreticky se každá hodnota v souboru může od všech ostatních lišit, potom bychom dostali tabulku se všemi hodnotami a u nich četnost 1 (na co by taková analýza byla?) Můžeme roztřídit do kategorií a ty poté analyzovat. Tabulka rozdělení četnosti výšky studentů 4. ročníku Hodnoty [cm] Absolutní četnosti Relativní četnosti 160-169 2 0,057 170-179 11 0,314 180-189 10 0,286 190-199 11 0,314 Nad 200 1 0,029 celkem 35 1

Zavádějící grafy Neuvedení absolutních četností u koláčových grafů (popř. celkový rozsah souboru v blízkosti grafu) <-NE ANO -> Posunuté osy u histogramů: kdyby osa y začínala na 0, byl by rozdíl ve výškách sloupců zanedbatelný, takhle to vypadá, že se četnosti jednotlivých odnocení výrazně liší

Neokomentované a zbytečné výstupy Každý výstup (graf, tabulka) by měly být: okomentované co jsme danou analýzou zjistili, jaké jsou hlavní ukazatele, co to v kontextu se zpracovávanými daty a problematikou znamená? (tzn. v tabulce okomentovaná také každá charakteristika) opodstatněné vybereme pouze takový typ výstupu, který dokáže sdělit nejvíce informací velmi častá zbytečnost rozptylogramu (scatterplot) u jednorozměrné analýzy, většinou lépe poslouží histogram velké množství např. koláčových grafů (lepší je použít jeden 100% skládaný pruhový graf) velké množství krabicových grafů pro každou kategorii stejné numerické proměnné zvlášť (lepší je do jednoho grafu vykreslit všechny krabicové grafy lze lépe pozorovat rozdíly nebo podobnosti mezi jednotlivými kategoriemi) příliš velké grafy (např. 1 koláčový graf nebo 1 histogram přes celou stránku, šetříme papír a barvu do tiskárny)

Cizojazyčné popisy ve výstupech Jestliže píšu projekt (domácí úkol, zprávu, závěrečnou práci, ) v určitém jazyce, budou v tom samém jazyce i popisy grafů (Box-and-Whiskers plot krabicový graf) a os, názvy charakteristik v tabulkách (mean průměr) a naměřené hodnoty (red červená) Jestliže používám Statgraphics, nastavím správný font pro českou diakritiku: Kliknout pravým tlačítkem myši na graf Graphics Option Top Title (X-Axis, Y-Axis) Line 1 Fonts (Title Fonts) Script nastavit na Středoevropské (1 nahoru od Západního)

Nesprávné zaokrouhlení číselných Jak zaokrouhlit číselné charakteristiky: charakteristik směrodatná odchylka směrem nahoru na 2 platné cifry (pozor 2 platné cifry neznamenají na 2 řády) průměr, rozptyl, kvantily na stejný řád jako směrodatná odchylka min, max na stejný řád, v jakém provádíme měření počet prvků ve výběru celé číslo variační koeficient, šikmost, špičatost max. na 3 desetinná místa Př. 1. Zpracování hodnot bílkovinné sérum z dat na cvičení (jednovýb. testy) Výstup ze Statgraphicsu Nesprávné přepsání hodnot do tabulky Počet 218 Směr. odchylka 0,393683 Průměr 34,4868 Minimum 33,57 Medián 34,5105 Maximum 35,485 Dolní kvartil 34,195 Šikmost -0,170919 Horní kvartil 34,736 Špičatost -1,6797

Nesprávné zaokrouhlení číselných Jak zaokrouhlit číselné charakteristiky: charakteristik směrodatná odchylka směrem nahoru na 2 platné cifry (pozor 2 platné cifry neznamenají na 2 řády) průměr, rozptyl, kvantily na stejný řád jako směrodatná odchylka min, max na stejný řád, v jakém provádíme měření počet prvků ve výběru celé číslo variační koeficient, šikmost, špičatost max. na 3 desetinná místa Př. 1. Zpracování hodnot bílkovinné sérum z dat na cvičení (jednovýb. testy) Výstup ze Statgraphicsu Počet 218 Směr. odchylka 0,40 Průměr 34,49 Minimum 33,570 Medián 34,51 Maximum 35,485 Dolní kvartil 34,20 Šikmost -0,171 Horní kvartil 34,74 Špičatost -1,680

Nesprávné zaokrouhlení číselných Jak zaokrouhlit číselné charakteristiky: charakteristik směrodatná odchylka směrem nahoru na 2 platné cifry (pozor 2 platné cifry neznamenají na 2 řády) průměr, rozptyl, kvantily na stejný řád jako směrodatná odchylka min, max na stejný řád, v jakém provádíme měření počet prvků ve výběru celé číslo variační koeficient, šikmost, špičatost max. na 3 desetinná místa Př. 2. Zpracování hodnot doba přežití z dat na cvičení (jednovýb. testy) Výstup ze Statgraphicsu Nesprávné přepsání hodnot do tabulky Počet 100 Směr. odchylka 27,5933 Průměr 29,23 Minimum 3,0 Medián 21,0 Maximum 177,0 Dolní kvartil 11,5 Šikmost 10,8897 Horní kvartil 37,0 Špičatost 19,4207

Nesprávné zaokrouhlení číselných Jak zaokrouhlit číselné charakteristiky: charakteristik směrodatná odchylka směrem nahoru na 2 platné cifry (pozor 2 platné cifry neznamenají na 2 řády) průměr, rozptyl, kvantily na stejný řád jako směrodatná odchylka min, max na stejný řád, v jakém provádíme měření počet prvků ve výběru celé číslo variační koeficient, šikmost, špičatost max. na 3 desetinná místa Př. 2. Zpracování hodnot doba přežití z dat na cvičení (jednovýb. testy) Výstup ze Statgraphicsu Počet 100 Směr. odchylka 28 Průměr 29 Minimum 3 Medián 21 Maximum 177 Dolní kvartil 12 Šikmost 10,9 Horní kvartil 37 Špičatost 19,4

Nesprávné zaokrouhlení číselných Jak zaokrouhlit číselné charakteristiky: charakteristik směrodatná odchylka směrem nahoru na 2 platné cifry (pozor 2 platné cifry neznamenají na 2 řády) průměr, rozptyl, kvantily na stejný řád jako směrodatná odchylka min, max na stejný řád, v jakém provádíme měření počet prvků ve výběru celé číslo variační koeficient, šikmost, špičatost max. na 3 desetinná místa Př. 3. Zpracování hodnot osmolalita 8 00 h z dat na cvičení (dvouvýb. testy) Výstup ze Statgraphicsu Nesprávné přepsání hodnot do tabulky Počet 16 Směr. odchylka 238,28 Průměr 577,75 Minimum 300,0 Medián 477,5 Maximum 1300,0 Dolní kvartil 456,0 Šikmost 3,5419 Horní kvartil 616,0 Špičatost 4,376

Nesprávné zaokrouhlení číselných Jak zaokrouhlit číselné charakteristiky: charakteristik směrodatná odchylka směrem nahoru na 2 platné cifry (pozor 2 platné cifry neznamenají na 2 řády) průměr, rozptyl, kvantily na stejný řád jako směrodatná odchylka min, max na stejný řád, v jakém provádíme měření počet prvků ve výběru celé číslo variační koeficient, šikmost, špičatost max. na 3 desetinná místa Př. 3. Zpracování hodnot osmolalita 8 00 h z dat na cvičení (dvouvýb. testy) Výstup ze Statgraphicsu Počet 16 Směr. odchylka 240 Průměr 580 Minimum 300 Medián 480 Maximum 1300 Dolní kvartil 460 Šikmost 3,54 Horní kvartil 620 Špičatost 4,38

Odlehlá pozorování Máme několik kritérií pro posouzení odlehlých pozorování (viz skripta str. 32): vnitřní (resp. vnější) hradby, z-souřadnice, x 0,5 -souřadnice. Obecně je z- souřadnice méně přísná než vnitřní hradby. Co vykresluje Statgraphics v krabicovém grafu = odlehlé a extrémní pozorování podle vnitřních (resp. vnějších ) hradeb. Odlehlé pozorování (označeno čtverečkem) takové, které je vzdáleno od horního kvartilu o více než 1,5 násobek interkvartilového rozpětí, tzn. hodnoty za vnitřními hradbami Extrémní pozorování (označeno čtverečkem s křížkem) takové, které je vzdáleno od horního kvartilu o více než 3 násobek interkvartilového rozpětí, tzn. hodnoty za vnějšími hradbami

Odlehlá pozorování Musíte se rozhodnout, které kritérium použijete. Pokud označíte nějakou hodnotu jako odlehlé pozorování, musíte zhodnotit důvod přítomnosti v datech (např. chyba v zápise, nebo důsledek chybného měření) a postup, co s ním dále uděláte (viz skripta str. 33). Jak ve Statgraphicsu určit odlehlá pozorování podle z-souřadnice: Describe Numeric Data Outlier Identification Odlehlé pozorování je taková hodnota, která je vzdálena od průměru o více než ± trojnásobek směrodatné odchylky Vodorovné čáry znázorňují hodnotu, které je od průměru (vodorovná čára v 0) vzdálena k násobek směrodatné odchylky

Data nepříliš vhodná na projekt Příklad ukázka semestrálního projektu ze statistiky http://homel.vsb.cz/~lit40/sta1/materialy/strakova_smad.pdf 1) Jedná se o data závislá: pro 1 okres máme vždy 3 údaje v jednotlivých letech, tzn. stav dobytka je závislý např. na velikosti okresu (pokud mám malý okres, je v něm ve všech třech letech méně dobytka než ve velikých okresech)-> z pohledu metod týkajících se našeho předmětu bychom měli použít Friedmanův test (namísto nesprávně použité ANOVY) 2) daleko vhodnější je ale použít metody na zpracování časových řad (údaje v několika letech), které nejsou náplní studia našeho předmětu Doporučení: zvolit jiný projekt.