31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě
Motto Statistika nuda je, má však cenné údaje.
strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty znaku aritmetický průměr medián 50% kvantil, prostřední hodnota vzestupně uspořádaného souboru modus
strana 4 Statistické charakteristiky Charakteristiky variability popisují stupeň rozrůzněnosti variační rozpětí rozdíl mezi největší a nejmenší hodnotou směrodatná odchylka σ odmocnina z rozptylu, využívaná hlavně pro popis souborů variační koeficient relativní míra variability užívaná ke srovnání variability různých souborů
strana 5 Krabicový graf grafická vizualizace numerických dat pomocí jejich kvartilů 3. kvartil medián 1. kvartil
Korelační a regresní analýza
strana 7 Korelační a regresní analýza korelační analýza zjišťuje existenci závislosti a její druhy, měří těsnost závislosti korelační koeficient R: udává míru korelace, nabývá hodnot od 1 do 1
strana 8 Korelační a regresní analýza regresní analýza zabývá se vytvořením vhodného matematického modelu závislosti, stanoví parametry tohoto modelu koeficient determinace R 2 : vyjadřuje, jakou část celkové variability závisle proměnné (vysvětlované proměnné) objasňuje regresní model, nabývá hodnot od 0 do 1
Testování hypotéz
strana 10 t-test používá se pro testování rozdílu dvou středních hodnot typy: a) jednovýběrový t-test b) dvouvýběrový t-test pro nezávislé výběry c) t-test pro závislé výběry (párový) Před použitím t-testu je nutné znát, zda soubory mají stejné rozptyly (zjistíme F-testem) Předpokládá se normální rozdělení
t-test (pokračování) Jednovýběrový t-test nulová hypotéza H 0 : výběrový soubor pochází z populace, která má střední hodnotu rovnou určité konstantě Příklad: Byla prováděna analýza hustoty dřeva smrku z konkrétní lokality. Literatura udává průměrnou hustotu ρ 12 dřeva SM 460 kg m 3. Liší se zjištěná průměrná hustota od hodnoty z literatury?
t-test (pokračování) Dvouvýběrový nulová hypotéza H 0 : dva nezávislé výběry pocházejí ze základních souborů se shodnými středními hodnotami Příklad: Byla analyzována hustota dřeva dubu z jedné lokality v lužním lese a z jedné lokality z pahorkatiny. Lze považovat zjištěné průměrné hodnoty hustoty za stejné pro obě lokality?
strana 13 F-test F-test test shody rozptylů nulová hypotéza: rozptyly základních souborů, ze kterých pochází analyzované výběry, jsou shodné Vyhodnocení: p < 0,05 hypotéza zamítnuta p > 0,05 hypotéza přijat
strana 14 ANOVA Analýza rozptylu test shody středních hodnot pro více výběrů nulová hypotéza H 0 : mezi středními hodnotami jednotlivých souborů neexistuje statisticky významný rozdíl Příklad: Tři sady vzorků dřeva topolu byly tepelně modifikovány při 3 různých teplotách. Následně bylo 50 vzorků pro každý typ modifikace a 50 vzorků kontrolních (nemodifikovaných) zkoušeno na mez pevnosti ve statickém ohybu. Existuje rozdíl mezi průměrnými hodnotami meze pevnosti jednotlivých modifikovaných vzorků a kontrolních vzorků?
ANOVA (pokračování) V případě, že zamítneme H 0, potom se aspoň jedna skupina statisticky významně odlišuje od ostatních Pro zjištění mezi kterými skupinami je rozdíl slouží metody mnohonásobného porovnání (např. Tukeyho test)
Software (příklad)
strana 17 StatSoft Statistica komerční Univerzitní multilicence Instalační soubory lze stáhnout zde: https://web2.mendelu.cz/statistica/
R prostředí a jazyk opensource (licence GPL) lze volně stáhnout: http://www.r-project.org/ Výhoda: neomezené možnosti Nevýhoda: náročné na zvládnutí
Děkuji za pozornost