4. Zpracování číselných dat

Podobné dokumenty
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Lineární regrese. Komentované řešení pomocí MS Excel

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Zápočtová práce STATISTIKA I

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Popisná statistika. Komentované řešení pomocí MS Excel

Vzorová prezentace do předmětu Statistika

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

KORELACE. Komentované řešení pomocí programu Statistica

Metodologie pro ISK II

Charakteristika datového souboru

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Statistika pro geografy

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Číselné charakteristiky

Základy popisné statistiky

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Inovace bakalářského studijního oboru Aplikovaná chemie

Analýza dat na PC I.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

KGG/STG Statistika pro geografy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Popisná statistika. Statistika pro sociology

Korelační a regresní analýza

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Diagnostika regrese pomocí grafu 7krát jinak

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Tomáš Karel LS 2012/2013

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Číselné charakteristiky a jejich výpočet

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Korelace. Komentované řešení pomocí MS Excel

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

23. Matematická statistika

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

Jednostranné intervaly spolehlivosti

Náhodná veličina a rozdělení pravděpodobnosti

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Protokol č. 1. Tloušťková struktura. Zadání:

Kalibrace a limity její přesnosti

Aplikovaná statistika pro učitele a žáky v hodinách zeměpisu aneb jak využít MS Excel v praxi. Geografický seminář 30. března 2011 Pavel Bednář

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Pracovní list č. 3 Charakteristiky variability

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Simulace. Simulace dat. Parametry

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Plánování experimentu

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

STATISTICKÉ CHARAKTERISTIKY

Porovnání dvou výběrů

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Cvičení z biostatistiky 06

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Regresní analýza 1. Regresní analýza

Pearsonův korelační koeficient

= = 2368

Výsledný graf ukazuje následující obrázek.

Diskrétní náhodná veličina

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

INDUKTIVNÍ STATISTIKA

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Normální (Gaussovo) rozdělení

Popisná statistika kvantitativní veličiny

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

UKAZATELÉ VARIABILITY

You created this PDF from an application that is not licensed to print to novapdf printer (

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

TECHNICKÁ UNIVERZITA V LIBERCI

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

KGG/STG Statistika pro geografy

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICKÉ ODHADY Odhady populačních charakteristik

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Praktická statistika. Petr Ponížil Eva Kutálková

Tomáš Karel LS 2012/2013

Transkript:

4. Zpracování číselných dat 4.1 Jednoduché hodnocení dat 4.2 Začlenění dat do písemné práce Zásady zpracování vědecké práce pro obory BOZO, PÚPN, LS 2011

4.1 Hodnocení číselných dat

Popisná data: střední hodnota Průměr Příklad: Průměrná výška patnáctiletých hochů v okrese Jindřichův Hradec v r. 2010 Průměrný výnos sena v 1.seči na studovaném lučním komplexu Průměrná spotřeba automobilu určité značky na 100 km

Popisná data: rozptyl Rozptyl = variabilita hodnot tj. jejich rozložení kolem střední hodnoty Směrodatná odchylka = míra rozptylu vypovídá o tom, jak moc se od sebe navzájem liší typické případy v souboru zkoumaných čísel. Variační koeficient Podíl směrodatné odchylky a průměru vyjádřený v procetech

Základní soubor a náhodný výběr Základní soubor: obsahuje všechny případy dané kategorie. Jen výjimečně je mohu změřit všechny (příklad: patnáctiletí chlapci v ČR v r. 2010) Náhodný výběr: obsahuje pouze měřené případy z rozsáhlejšího souboru Statistické soubory většinou představují náhodné výběry

Charakteristiky základního souboru a náhodného výběru Základní soubor i náhodný výběr mají střední hodnotu (průměr) i indikaci rozptylu (směrodatnou odchylku). Vypočítat (pomocí vzorců) můžeme jen hodnoty pro náhodný výběr. Z charakteristik náhodného výběru můžeme usuzovat na charakteristiky základního výběru (s určitou pravděpodobností).

Střední chyba průměru Spočtený průměr náhodného výběru se používá jako bodový odhad průměru celého základního souboru. Musíme ale počítat s tím, že tento odhad se od skutečného průměru základního souboru více nebo méně odchyluje. Přesnost odhadu můžeme vyjádřit tak, že výsledek doplníme o velikost možné odchylky. Běžně používanou mírou je střední (směrodatná) chyba průměru. Střední chyba průměru udává chybu odhadu průměru základního souboru. Konfidenční interval udává meze, v nichž s určitou pravděpodobností (95%) leží průměr základního souboru.

Podmínka využití Průměr, směrodatná odchylka a střední chyba průměru vypovídají o datech dobře (smysluplně) jen tehdy, mají-li data normální rozdělení Normalitu rozdělení hodnot v datových souborech lze testovat

Normální rozdělení hodnot Nejvíce hodnot leží blízko průměru, hodnot vzdálených od průměru je málo. Počet hodnot menších než průměr je podobný jako počet hodnot větších než průměr

Jiná rozdělení hodnot Příklad: Malých hodnot je výrazně více než velkých.

Popis souborů, které nemají normální rozdělení Střední hodnota: medián Rozptyl hodnot: Horní kvartil Dolní kvartil 1 2 3 4 5 6 7 8 9 10 11

Popisné statistiky v programu Statistica Střední hodnota a ukazatel rozptylu Krabicový graf: 1. Otevřít datový soubor (příklad: Chlapci.xls) 2. Grafy, 2D grafy, Krabicové grafy 3. Proměnné: Závislá proměnná 4. Detaily: lze zvolit typ střední hodnoty (průměr nebo medián) a indikace rozptylu (směrodatná odchylka nebo kvantily)

Krabicové grafy 1 192 Krabicový graf z Výška ZZVP_Chlapci 1v*15c 190 188 186 184 182 180 178 176 174 172 170 168 166 164 162 Výška Průměr = 176.6 Průměr±SmCh = (174.9216, 178.2784) Průměr±2*SmOdch = (163.5989, 189.6011)

Krabicové grafy 2 188 Krabicový graf z Výška ZZVP_Chlapci 1v*15c 186 184 182 180 178 176 174 172 170 168 166 164 Výška Medián = 179 25%-75% = (172, 181) Rozsah neodleh. = (165, 187) Odlehlé Extrémy

Testy odlišnosti dvou souborů Odlišnost dvou datových souborů může být náhodná! Proto nestačí pouze porovnat průměry, ale je třeba otestovat odlišnost souborů statisticky!

T-test v programu Statistica Příklad: dvě různé skupiny chlapců. Testujeme, zda se liší jejich výška 1. Statistica, otevřít datový soubor (Chlapci.xls) 2. Menu: Statistiky, Základní statistiky/tabulky 3. T-test, nezávislé dle proměnných, OK 4. Proměnné: vybrat proměnnou pro 1. seznam a pro 2. seznam, OK 5. Výpočet 6. Znovu zvolit analýzu (kliknout na minimalizované okno v levém dolním rohu) 7. Krabicové grafy

T-test v programu Statistica T-test pro nezávislé vzorky (ZZVP Pozn.: Proměnné byly brány jako Průměr Průměr Hodnota t s Skup. 1 vs. skup. 2 skup. 1 skup. 2 Výška 15 let vs. Výška 20 let 176.6000 183.8667-3.35470

T-test v programu Statistica 188 Krabicový graf Výška 15 let vs. Výška 20 let 186 184 182 180 178 176 174 172 Výška 15 let Výška 20 let Průměr Průměr±SmCh Průměr±1.96*SmCh

Vztah dvou proměnných Nejjednodušší v programu MS Excel 1. 1. Otevřít datový soubor (Chlapci.xls) 2. Sestrojit graf x-y bodový 3. Zvolit Graf, Přidat spojnici trendu, typ: lineární 4. Graf, Přidat spojnici trendu, Možnosti, Zobrazit rovnici regrese, Zobrazit hodnotu spolehlivosti R

Vztah dvou proměnných 90 85 Hmotnost (kg) 80 75 70 65 60 55 50 160 165 170 175 180 185 190 Výška (cm) Řada1 Lineární (Řada1) y = 0.7982x - 69.424 R 2 = 0.5325 R2 = determinační koeficient, udává procento variability vysvětlené danou závislostí

4.2 Začlenění číselných dat do textu Jak napsat kapitolu Výsledky

1. Uspořádání primárních dat do tabulek Doporučeny jsou tabulky do velikosti A4. Větší tabulky je vhodné rozdělit na několik menších. Tyto tabulky lze po formální úpravě zahrnout do datových příloh BP.

2. Výběr způsobu (statistického) zpracování primárních dat Pro každý soubor primárních dat je třeba najít vhodný způsob souhrnného zhodnocení a prezentace. Příklad 1 (tabulkové srovnání více hodnot): Ze změřených dat spočítat průměry a směrodatné odchylky. Získané hodnoty průměrů a odchylek uspořádat do souhrnné tabulky. Tuto tabulku umístit do kapitoly Výsledky.

2. Výběr způsobu (statistického) zpracování primárních dat Pro každý soubor primárních dat je třeba najít vhodný způsob souhrnného zhodnocení a prezentace. Příklad 2 (grafické srovnání více hodnot): Ze změřených dat spočítat průměry a směrodatné odchylky. Získané hodnoty průměrů a odchylek vynést do sloupcového grafu s odchylkami nebo do krabicového grafu. Tento graf umístit do kapitoly Výsledky.

2. Výběr způsobu (statistického) zpracování primárních dat Pro každý soubor primárních dat je třeba najít vhodný způsob souhrnného zhodnocení a prezentace. Příklad 3 (časová závislost): Ze změřených dat spočítat průměry. směrodatné odchylky. Získané hodnoty průměrů vynést do grafu (x-y bodový) v závislosti na čase. Tento graf umístit do kapitoly Výsledky.

3. Logické uspořádání souhrnných grafů a tabulek Souhrnné tabulky a grafy je vhodné vytisknout a seřadit za sebou tak, aby na sebe logicky dobře navazovaly. Příklady uspořádání: Časová návaznost Varianty pokusu Opakování pokusu

4. Textové komentáře k tabulkám a grafům Ke každé souhrnné tabulce či grafu je třeba napsat krátký textový komentář. Cílem komentáře je upozornit čtenáře na nejdůležitější zjištění. Komentář musí obsahovat odkaz na danou tabulku či graf. Může obsahovat nejdůležitější číselné údaje. Komentář k jedné tabulce či grafu je obvykle dlouhý 1-2 věty až jeden odstavec. Komentář se řadí v textu nad tabulku či graf.

Příklad: srovnání hodnot Průměrná nadzemní biomasa ostřice štíhlé v době sezónního maxima v roce 2007 dosáhla 423 g. Hodnota nadzemní biomasy ostatních (doprovodných) druhů byla 123 g. V roce 2008 byly zjištěny výrazně vyšší hodnoty biomasy ostřice a celkové biomasy. Biomasa ostřice štíhlé dosáhla 618 g, biomasa doprovodných druhů však tvořila jen 52 g (Graf č.1). Maximální sezónní biomasa Sušina (g.m -2 ) 800 700 600 500 400 300 200 100 0 2006 2007 2008 Roky ostřice živá+odumřelá ostatní druhy živé+odumřelé Graf č. 1: Maximální sezónní nadzemní biomasa porostu s dominantní ostřicí štíhlou v letech 2006-2008

Příklad: sezónní chod Sezónní chod živé nadzemní biomasy porostu s dominantní chrasticí ukazuje graf č.1. Biomasa rychle přirůstala zejména na počátku vegetační sezóny. Největší nárůst celkové živé biomasy byl zaznamenán v období od 15.5 do 29.5., a to ze 224,7 g.m-2 na 394,6 g.m-2 (tj. o 169,9 g.m-2). ( ) Živá biomasa Sušina (g.m-2) 800,0 700,0 600,0 500,0 400,0 300,0 200,0 100,0 0,0 129,2 78,1 115,3 50,3 194,9 344,3 392,5 431,8 465,9 90,2 585,0 48,1 462,6 5.5.2006 19.5.2006 2.6.2006 16.6.2006 30.6.2006 14.7.2006 28.7.2006 11.8.2006 25.8.2006 8.9.2006 22.9.2006 6.10.2006 20.10.2006 Datum Chrastice Ostatní Graf č. 1. Vývoj živé nadzemní biomasy chrastice rákosovité a ostatních rostlinných druhů na Mokrých Loukách u Třeboně během roku 2006

Vhodné slovní obraty: popis časových chodů Hodnoty rostly (klesaly) v období od do Příklad: Hodnoty živé nadzemní biomasy rostly v období od 5.5 do 29.5. Nejvyšší (nejnižší) hodnota byla zjištěna Příklad: Nejvyšší hodnota nadzemní biomasy byla zjištěna na počátku srpna.

Vhodné slovní obraty: srovnání různých variant Výnos sušiny byl větší u rostlin hnojených ve srovnání s nehnojenými. Všechna níže uvedená tvrzení lze použít, ale každé znamená něco trochu jiného. Jaké jsou významové rozdíly mezi nimi? Průměrný výnos sušiny byl větší Výnos sušiny byl mnohem větší Výnos sušiny byl (statisticky) průkazně větší

Významové rozdíly Jaké jsou významové rozdíly mezi tvrzeními níže? Průměrný výnos sušiny byl větší Srovnávají se jen průměrné hodnoty, nevíme nic o rozptylech (směrodatných odchylkách). Nemůžeme říci, zda rozdíly jsou průkazné (a tedy můžeme je brát vážně) Výnos sušiny byl mnohem větší Obecný popis, neříká nic o tom, zda rozdíl byl testován statisticky Výnos sušiny byl (statisticky) průkazně větší Text odkazuje na výsledek statistického testu.

Vzory vhodných slovních obratů Najděte si vlastní vzory vhodných slovních obratů! Publikované odborné články v češtině (Studentské práce jsou méně vhodné, častěji obsahují neobratnosti)

Popis k tabulkám a obrázkům Nad každou tabulku a pod každý obrázek patří popis (popisek). Popis má být samovysvětlující má obsahovat všechny podstatné informace, aby je čtenář nemusel hledat v různých částech práce. Popis je heslovitý neplést si s komentářem v textu!

DÚ 1. Utvořte tabulku primárních dat s popiskem 2. Na podkladě těchto primárních dat vytvořte souhrnnou tabulku nebo graf (opět s popiskem) 3. K souhrnné tabulce či grafu napište textový komentář o délce jednoho odstavce.