5 ANALÝZA ROZPTYLU. 5.1 Jednofaktorová analýza rozptylu (ANOVA1)
|
|
- Jindřich Kašpar
- před 7 lety
- Počet zobrazení:
Transkript
1 5 AALÝZA ROZPTYLU Analýza rozptylu AOVA (z anglického Analysis of Variance) se v technické praxi používá buď ako samostatná technika nebo ako postup umožňuící analýzu zdroů variability u lineárních statistických modelů Cílem e zistit které z kvalitativních nebo kvantitativních faktorů významně ovliňuí sledované veličiny ede přitom o to ak ovliňuí ale zda vůbec ovliňuí V technické praxi se AOVA uplatňue ako samostatná technika v úlohách: (a) Určení vlivu způsobu přípravy vzorků na výsledek analýzy (b) Určení vlivu přístroe lidského faktoru a obsluhy na výsledek měření (c) Zpracování různých mezilaboratorních experimentů (d) Zpracování plánovaných experimentů u kterých se systematicky sledue vliv rozličných faktorů (teploty času koncentrace a dalších) na výsledek reakce či analýzy Podstatou analýzy rozptylu e rozklad celkového rozptylu dat na složky obasněné (známé zdroe variability) a složku neobasněnou o níž se předpokládá že e náhodná ásledně se testuí hypotézy o významnosti ednotlivých zdroů variability Prvním krokem analýzy rozptylu e určit zda de o model analýzy rozptylu s pevnými náhodnými nebo smíšenými efekty Vlastní postup analýzy rozptylu lze rozdělit do pěti kroků imiž sou: Odhad parametrů základního modelu AOVA 2 Testování eho významnosti a konstrukce různých modelů 3 Vyádření složek rozptylů a testování eich významnosti 4 Ověření předpokladu normality a indikace silně vybočuících hodnot 5 Interpretace výsledků s ohledem na zadání dat a eich případné úpravy 5 Jednofaktorová analýza rozptylu (AOVA) Formulace modelu: sledue se faktor A na různých úrovních A A a každé úrovni A i e provedeno n i měření {y i} = n i odel analýzy rozptylu má tvar y i µ i % g i n i kde µ i µ % α i
2 2 a α e efekt i-té úrovně Parametry µ µ a α se odhaduí pomocí odpovídaících výběrových i i i průměrů Celkový počet měření e n i Sloupcový průměr ˆµ představue součet hodnot opakovaného měření y pro úroveň faktoru A dělený počtem opakování n i i i i ˆµ i n i n i y i Celkový průměr e součet všech hodnot y dělený celkovým počtem dat který e roven i průměru sloupcových průměrů ˆµ ˆµ i Pro výpočet odhadu i-tého efektu α lze použít vztah i ˆα i ˆµ i & ˆµ Zavedením efektů vznikne přeurčený model obsahuící o eden parametr více Proto se při odhadu efektů používá omezuící podmínka n i α i 0 a pro vyvážené experimenty α i 0 lasická ednofaktorová analýza rozptylu dat a ruskalo-va-wallisova ednofaktorová analýza rozptylu pořadí dat porovnává střední hodnoty dvou či více úrovní faktoru A čili sloupců v matici dat za účelem určit zda alespoň edna sloupcová střední hodnota se liší od ostatních Statistická významnost e testována F-testem tak že nulová hypotéza H 0 říká Všechny střední hodnoty sou stené proti alternativní H A Alespoň edna střední hodnota se odlišue od ostatních Základní předpoklady ednofaktorové analýzy rozptylu dat Před použitím analýzy rozptylu musí být ověřeny následuící předpoklady o výběru: Data maí normální rozdělení: náhodné chyby g i sou náhodné veličiny s normálním 2 rozdělením a střední hodnotou chyb rovnou nule (0 σ ) 2 2 Rozptyly sloupcových výběrů σ sou stené (homoskedasticita) 3 aždý sloupec e prostým náhodným výběrem ze svého souboru: každý prvek souboru má stenou pravděpodobnost že bude vybrán do výběru Základní předpoklady ruskalova-wallisova testu analýzy rozptylu dat Před použitím analýzy rozptylu musí být ověřeny následuící předpoklady o výběru: ěrná stupnice e přinemenším ordinální 2 Rozdělení souborů musí být stené kromě míry polohy Rozptyly sou stené (homoskedasticita) 3 Všechny sloupce představuí náhodné výběry svých souborů
3 Omezení: velikost výběru může být od několika ednotek až po několik stovek prvků Snad nevětší omezení v datech se týká náhodného výběru ze souboru: když totiž nebude výběr náhodný hladiny významnosti budou nesprávné Testování: součet čtverců odchylek od celkového průměru ˆµ definovaný vztahem 3 lze rozložit na dvě složky S c n i (y i & ˆµ) 2 n i S c [(y i & ˆµ i ) % (ˆµ i & ˆµ)] 2 S A % S R kde S A představue rozptyl mezi ednotlivými úrovněmi daného faktoru S A n i (ˆµ i & ˆµ) 2 a S e rozptyl reziduálnít uvnitř ednotlivých úrovní R S R evychýleným odhadem rozptylu chyb σ 2 e n i (y i & ˆµ i ) 2 e průměrný reziduální čtverec S R dle S S R R & ˆσ2 e Cílem ednofaktorové analýzy e především testování zda sou efekty α i nulové tedy zda ednotlivé úrovně daného faktoru sou statisticky nevýznamně odlišné Testue se nulová hypotéza H 0: α i = 0 i = proti alternativní H σ 2 A: α i 0 i = Při testování se 2 využívá faktu že veličina S e σ 2 A / má χ -rozdělení s ( - ) stupni volnosti a veličina S R / e 2 má nezávislé χ -rozdělení s ( - ) stupni volnosti Jeich podíl má pak F-rozdělení s ( - ) a ( - ) stupni volnosti Testační statistika F e má tvar F e S A S A ( & ) S R S R ( & ) Při platnosti nulové hypotézy H 0 má F e statistika F-rozdělení s ( - ) a ( - ) stupni volnosti Vyde-li F e větší než kvantil F -α( - - ) e nutné nulovou hypotézu H 0 na hladině významnosti α zamítnout a efekty považovat za nenulové čili statisticky významné Vícenásobné porovnávání (ultiple Comparison Procedure CP) dyž AOVA určí že faktor A e statisticky významný e možné nalézt úrovně faktoru A které se významně liší od ostatních Druhy porovnávacích metod CP Volba porovnávací metody e ovlivněna odpovědí na následuící dvě otázky: () Víme už v průběhu experimentu co chceme porovnávat? (2)
4 4 Zaímáme se o všechny nebo enom o některá porovnání? Budeme přitom rozlišovat dva typy chyb chyby typu metodického a chyby typu experimen-tálního etodická chyba δ: každé porovnání dvou průměrů se bere ako ediný test který se provedl a označue se δ Pomovou ednotkou e proto chyba pro edno porovnání Ostatní testy na datech sou pak ignorovány vzhledem k výpočtu hodnoty chyby Experimentální chyba δ f : hodnota chyby vyšla ze skupiny nezávislých testů Je to pravděpodobnost nabytí edné či více chyb typu I ve skupině nezávislých porovnání Označíme tuto chybu u skupiny nezávislých testů δ f Vztah mezi oběma typy chyb e δ f & ( & δ) c kde c e celkový počet porovnání provedených v úloze Definice metod CP Všechny CP metody předpokládaí nezávislost mezi úrovněmi faktoru čili sloupcovými výběry homoskedasticitu a normalitu (kromě ruskalova- Wallisova testu) Budiž ȳ i sloupcový průměr a n i velikost sloupcového výběru i-tého 2 sloupce s představue průměrný čtverec chyb způsobených - stupni volnosti a při uvažování úrovní faktoru A Vícenásobné porovnávání může být provedeno () automaticky kdy každý sloupcový průměr e porovnáván s každým nebo (2) plánovaně dle zadaných váhových koeficientů C i = kdy budeme porovnávat určité vybrané i sloupce s inými vybranými sloupci Jestliže všechny koeficienty C vykazuí součet rovný i nule porovnání se nazývá kontrast oeficienty C i se zadávaí následuícím způsobem: chceme například pro 6 sloupců porovnat pouze první dva sloupcové průměry s posledními dvěma tzn vyčíslit významnost rozdílů ȳ 5 & ȳ ȳ 5 & ȳ 2 ȳ 6 & ȳ ȳ 6 & ȳ 2 což zapíšeme pomocí vahových koeficientů: C = - C = - C = 0 C = 0 C = C = Všimněte si že suma vahových koeficientů musí dávat nulu a porovnání e proto kontrastem Bonferroniho porovnání všech párů Test má odhalit které páry se liší Zvolí se metodická chyba δ tak že bude korigovat požadovanou experimentální chybu δ f Je-li sloupcových průměrů a záem vyšetřit všechny možné kombinace párů sloupcových průměrů metodická chyba δ e definována vztahem: δ *ȳ i & ȳ * s 2 n i δ f & a testační kritérium statistické významnosti testovaných párů e pro ν = - stupňů volnosti a γ = α dáno vztahem % n $ t γν Bonferroniho porovnání sloupců vůči kontrolnímu Jestliže eden sloupec bude představovat kontrolní sloupec a všechny ostatní sloupce budeme porovnávat s kontrolním půde o ν = - porovnání Zvolíme metodickou chybu δ dle vzorce 7
5 5 δ δ f 2( & ) Standardní porovnání Plánovaný test významnosti určitého zvoleného porovnání který se týká metodické chyby Zadává se edna z porovnávacích voleb: (a) standardního porovnání (b) porovnání ortogonálními polynomy (c) porovnání každého sloupce s prvním (d) porovnání každého sloupce s posledním (e) porovnání při více než třech uživatelských kontrastech a další volby astavíme hladinu metodické chyby tak že dosáhneme specifické hodnoty celkové chyby Studentovo testační kritérium významnosti sloupcových průměrů testovaných párů e pro ν = - stupňů volnosti a γ = α/2 dáno vztahem s * C ȳ * C 2 n $ t γν Uvedeme ukázku zadání způsobu (a) standardního porovnání : pro například = 4 úrovně faktoru A máme k dispozici tři volby porovnání sloupcových průměrů Všimněte si že suma vahových koeficientů dává vždy nulu čili de o kontrast Váhové koeficienty C Provádí porovnání sloupcových průměrů: -3 Porovnává průměr sloupce s průměry všech vyšších ostatních t s průměry 2 3 a 4 sloupce 0-2 Porovnává průměr 2 sloupce s průměry všech vyšších ostatních t s průměry 3 a 4 sloupce Porovnává průměr 3 sloupce s průměry všech vyšších ostatních t s průměry 4 sloupce ruskalovo-wallisovo porovnání Z-skóre Hodnoty Z-skóre (standardizovaná veličina kdy od prvků sloupce e odečten sloupcový průměr a pak sou poděleny směrodatnou odchylkou) sou zde využity k porovnání sloupcových mediánů v páru při nesplnění předpokladů výběrové normality Test však vyžadue výběr o minimální četnosti n = 5 (a lépe eště vyšší) v každé úrovni faktoru A Hladina chyby e nastavena na základě i metodické chyby tak aby poskytla experimentální hladinu chyby δ f Za střední hodnoty může test užít vedle mediánu také průměr pořadí ak e zřemé ze vzorce pro δ δ f /( & ) porovnávaící sloupec i se sloupcem ( % ) 2 * R i & R * n i % n $ z α kde e celkový počet prvků n e počet prvků v i-tém sloupci R e suma pořadí v i-tém i i sloupci Rozdělení z e normální se střední hodnotou nula a rozptylem edna Je-li i
6 6 vypočtená hodnota z pro dva sloupce (i a ) větší než kritická hodnota pak se sloupcové i průměry významně liší Scheffeho porovnání Vyšetřue všechna možná porovnání sloupcových průměrů Testační kritérium významnosti pro páry sloupcových průměrů e pro - a pro ν = - stupňů volnosti rovno nebo větší než ( & ) F α&ν Je stené ako Bonferroniho porovnání Postup ednofaktorové analýzy rozptylu (AOVA) Vstupem e tabulka dat obsahuící pro ednotlivé sloupce čili úrovně A A faktoru A vždy n pozorování {y } i = a = n Pro všechny testy e obvykle uvažována i i i hladina významnosti α = 005 Postup obsahue kroky: Přípravu dat: už přípravou dat lze zaistit větší věrohodnost dosažených výsledků (a) Velikost výběru e počet plných řádků AOVA byla původně odvozena za předpokladu že četnosti ve sloupcích sou shodné V praxi e však tento předpoklad zřídka splněn Steně však platí že čím těsněi e toto pravidlo splněno tím věrohodněší sou výsledky Lze analyzovat i malé výběry 4 až 5 hodnot ve sloupci áme-li testovat všechny výběrové předpoklady e třeba prvků ve sloupci více ze statistického hlediska nelépe 30 a více (b) Chyběící hodnoty mohou způsobit vychýlení výsledků V každém případě e poněkud nebezpečné analyzovat výběr s řadou chyběících hodnot (c) Typ dat: matematické pozadí F-testu požadue aby data byla spoitá vůli zaokrouhlo-vání při zápisu dat sou všechna data vlastně technicky vzato diskrétní Požadavek spoitosti e proto na místě sou-li data hodně zaokrouhlovaná (d) Odlehlé hodnoty obecně způsobuí zborcení F-testů Je třeba prozkoumat data v grafech exploratorní analýzy dat EDA často se užívá krabicový graf Pak následue vyšetření zda se odlehlé hodnoty vyskytuí pouze v ednom sloupci nebo i v ostatních Je-li odlehlá hodnota v datech pouze ednou e třeba i odstranit Pakliže i v datech ponecháme e třeba dát přednost neparametrickému testování F-test by totiž mohl selhat 2 Ověření výběrových předpokladů: nestačí se soustředit na tabulku výsledků testování AOVA Je třeba pečlivě ověřit splnění základních předpokladů o výběru Často data nemaí ve všech sloupcích normální rozdělení a e třeba použít mocninnou (nebo logaritmickou) transformaci dat Po transformaci pak data iž vykazuí normální rozdělení I když e pouze ediný sloupec s nenormální rozdělením transformace celého výběru přinese zlepšení výsledků (a) áhodnost: metoda odběru vzorku by měla zaistit že každý prvek souboru má stenou pravděpodobnost být vybrán do výběru (b) ezávislost: aplikací von eumannova testu ověříme nezávislost prvků výběru Budeme-li například porovnávat levé a pravé pneumatiky u výběru určitého množství aut nezávislost nebude zaručena (c) ormalita: nelépe e začít vyšetřením rankitového grafu odchylek od totálního průměru Pak následue řada testů normality Síla těchto testů se zvyšue s velikostí výběru I když byla normalita potvrzena prověříme velikost výběru zda e možné brát výsledky testu za dostatečně věrohodné (d) Homoskedasticita: aby bylo možné užít řadu statistických testů e třeba ověřit zda rozptyly sloupců sou shodné (homoskedasticita) V krabicových grafech e sledována šířka krabic zda e u všech sloupců stená umericky lze ověřit homoskedasticitu pomoci modifiko-vaného Levenova 7 testu
7 3 Průměry a efekty úrovní: e proveden výpočet parametrů ˆµ i ˆµ ˆα i reziduí ê i Jackknife reziduí ê a diagonálních prvků H proekční matice H Jsou identifikovány vlivné body pro které e Ji ê Ji > 2 a H ii > 2/ n i 4 Volbu statistických testů významnosti faktoru A v tabulce AOVA: Je sestavena tabulka AOVA a proveden F-test významnosti efektů faktoru A Předem e třeba ověřit výběrové předpoklady a zvolit správný test: (a) ormalita a homoskedasticita dat: aplikueme F-test (b) ormalita a heteroskedasticita dat: pokusíme se stabilizovat rozptyl mocninnou transformací (nebo logaritmickou) Pak užieme test shodnosti středních hodnot u dvou výběrů při nehomogenitě rozptylů elze užít ani ruskalův-wallisův test protože tento test také předpokládá shodné rozptyly obou výběrů (c) enormalita a homoskedasticita dat: užieme ruskalův-wallisův test (d) enormalita a heteroskedasticita dat: když nede data transformovat za účelem stabilizace 7 rozptylu a zaištění normality užieme olmogorův-smirnovův test (viz cit ) který testue oboí 7 průměry i rozptyly současně Jelikož však už víme z Levenova testu (viz cit ) že rozptyly nesou stené e otázkou zda olmogorův-smirnovův test přinese něco nového Testování hypotéz: výklad analýzy rozptylu e snadný Jednoduše sledueme F-test Je-li hodnota spočtené hladiny významnosti menší než předvolená hladina významnosti α (obyčeně 005) můžeme potvrdit že přinemenším dva sloupcové průměry sou odlišné 5 Vícenásobné porovnávání sloupcových průměrů CP: postup předpokládá normalitu a homoskedasticitu výběrových sloupců ení-li splněna normalita pro každý sloupec e třeba užít ruskalův-wallisův test vícenásobného porovnávání CP: (a) Plánované všechny možné páry: víme-li dopředu že budeme vyšetřovat všechny páry užieme Bonferroniho porovnávání párů (b) eplánované všechny možné páry: užieme Scheffeho porovnávání (c) aždý versus kontrolní sloupec: užieme Bonferroniho porovnání všech sloupců vůči kontrolnímu (d) Vybrané a plánované sloupce: užieme Standardní porovnávání a nastavíme hladinu α 6 Grafy a diagramy: e konstruován rankitový graf Jackknife reziduí a transformační graf závislosti s i vs ˆµ i Pokud sou všechna data kladná a tato závislost e přibližně lineární lze zvolit logaritmickou transformaci ii (viz 6 kapitola) 7 52 Dvoufaktorová analýza rozptylu bez opakování v cele Při dvoufaktorové analýze rozptylu se provádí experimenty na různých úrovních dvou faktorů A a B ombinace úrovní faktorů tvoří typickou mřížkovou strukturu eímž elementem e tzv cela Platí že (i )-tá cela odpovídá kombinaci úrovně A i faktoru A a B faktoru B V každé cele e obecně n pozorování Často se však setkáváme s případem bez i opakování kdy v každé cele e pouze ediné pozorování n i = romě řádkových αi a sloupcových ß efektů se zde vyskytue také interakční člen τ Tento člen e důsledkem i různých kombinací sloupcových a řádkových efektů
8 8 B B B 2 A A 2 cela A 2 B 2 A Obvykle se užívá Tukeyův model interakce vyádřený tvarem τ i C α i β kde C e konstanta U těchto modelů obsahue každá cela právě ednu hodnotu y i O chybách g i se předpokládá že sou to nezávislé a steně rozdělené náhodné veličiny s nulovou střední hodnotou a konstantním rozptylem testování se navíc předpokládá že rozdělení chyb e normální Definuí se omezuící podmínky ˆµ α i 0; β 0; τ i 0; τ i 0 V případě pouze aditivního působení ednotlivých faktorů e τ i = 0 pro všechna i = a = Odhady parametrů µ α i β lze pak určit ze vztahů y i ˆα i y i & ˆµ ˆβ y i & ˆµ Pro rezidua ê i platí ê i y i & ˆµ & ˆα i & ˆβ určení interakcí můžeme využít skutečnosti že τ i E(y i ) & µ & α i & β a pro odhad interakcí platí přibližně ˆτ i ê i Pak lze snadno identifikovat Tukeyův model interakce Platí-li tento model vyde na grafu ê i vs ˆα i ˆβ lineární trend Ze směrnice odpovídaící regresní přímky se odhadne parametr C Platí pro ně výraz: Ĉ ê i ˆα i ˆβ ˆα 2 i Graf ê i vs ˆα i ˆβ /ˆµ se označue ako graf neaditivity Pokud vyde v tomto grafu nenáhodný trend znamená to že e třeba uvažovat interakce Analýza rozptylu pro dvoné třídění s interakcí Tukeyova typu Součet Stupně Průměrný ritérium F čtverců pro volnosti čtverec ˆβ 2
9 9 Faktor A S A Faktor B S B α 2 i ß 2 - = S /(-) F = / A A A A AB - = S /(-) F = / B B B B AB Interakce (Tukey) T = S T F T = T/E Reziduální S R= SAB-ST - - E= S R/(--) - Celkový S C (i) (ˆµ & y i ) () V tabulce představue S součet čtverců odchylek odpovídaící Tukeyově interakci T S T S AB 2 y i ˆα i ˆβ ˆα 2 i β2 Symbol S označue reziduální součet čtverců pro případ bez interakcí AB (y i & ˆµ & ˆα i & ˆβ ) 2 Odpovídaící průměrný čtverec e AB S AB ( & ) ( & ) Hodnota e AB 2 nevychýleným odhadem rozptylu σ Pomocí F-kritéria lze opět provádět statistické testy Začíná se testováním nulové hypotézy H : "Tukeyova interakce e nevýznamná" pro kterou 0 lze použít testační statistiku F Za předpokladu platnosti nulové hypotézy H má tato T 0 testační statistika F-rozdělení s a ( - - ) stupni volnosti Pokud nelze tuto hypotézu zamítnout testue se nulová hypotéza H : α = 0 i = (efekty řádků čili faktoru A sou 0 i nevýznamné) pomocí statistiky F nebo nulová hypotéza H : β = 0 = (efekty A 0 sloupců čili faktoru B sou nevýznamné) pomocí statistiky F Obě tyto testační statistiky B sou uvedeny v tabulce Za předpokladu platnosti hypotézy H má statistika F Fisherovo- 0 A Snedecorovo F-rozdělení s ( - ) a ( - ) ( - ) stupni volnosti a statistika F také F- B rozdělení s ( - ) a ( - )( - ) stupni volnosti Pokud však vyde F vyšší než T odpovídaící kvantil F-rozdělení e efekt Tukeyovy interakce významný Friedmanův pořadový test V případě nenormality a heteroskedasticity se aplikue tento neparametrický test kdy původní data sou nahrazena svými pořadími V experimentu s úrovněmi faktoru A v řádcích a úrovněmi faktoru B v sloupcích matice o rozměru se užie Friedmanovo testační kritérium Q dle vzorce Q ( & ) 2 R 2 i & 3 2 ( % ) 2 ( 2 & ) 2 & (t 3 & t)
10 0 kde data v každém ze řádků sou nahražena pořadím Pořadí sou sečtena pro každý ze sloupců Tato suma pořadí se značí R i Faktor t ve menovateli testačního kritéria Q představue počet opakuící se edné hodnoty v průběhu řádku dyž e tento člen nulový 2 tak se vynechá Testační kritérium Q má přibližně χ rozdělení s - stupni volnosti Toto kritérium e blízké endalově koeficientu dobré shody U těchto testů musí být faktor A vždy náhodným faktorem a faktor B vždy pevným faktorem Vícenásobné porovnávání CP Dá se použít enom pro pevné faktory Plánovaná porovnávání se formuluí v pomech sloupcových průměrů dle vzorce C i w i m kde značí počet úrovní faktoru m sou průměry pro každou hladinu faktoru a wi představue soubor vah pro i-té porovnání Porovnávací hodnota C se testue pomocí t- i testu Všimněte si že estliže váha w nabývá nuly při sumaci přes všechna porovnání i budeme nazývat kontrast průměrů Porovnání může být zadáno ednoduše pomocí vah apříklad uvažume faktor o 3 úrovních kde sloupec představue úroveň kontrolní druhý a třetí sloupec obsahuí 2 a 3 úroveň faktoru Porovnání zadáme pomocí vah: porovnání kontrolního sloupce s 2 úrovní faktoru: - 0 Porovnání kontrolního sloupce se 3 úrovní faktoru: - 0 Porovnání 2 úrovně s 3 úrovní: 0 - Porovnání kontrolního sloupce s průměrem 2 a 3 úrovně: -2
11 Postup dvoufaktorové analýzy rozptylu bez opakování (AOVA2P) Pro dvoufaktorovou analýzu rozptylu a modelu s pevnými efekty v případě n = tedy bez i opakování v cele se předpokládá možnost interakce Tukeyova typu Provádí se odhady parametrů testy významnosti a ověření interakce resp transformace vedoucí k aditivitě efektů Vstupem e obdélníková tabulka dat pro A A úrovní faktoru A (řádky) a B B úrovní faktoru B (sloupce) {y i} = a = Pro všechny testy e standardně uvažována hladina významnosti α = 005 Postup obsahue stené kroky ako postup ednofaktorové analýzy rozptylu: Příprava dat: (a) Velikost výběru (b) Chyběící hodnoty (c) Typ dat (d) Odlehlé hodnoty 2 Průměry a efekty úrovní: sou vypočteny odhady parametrů: celkový průměr ˆµ řádkové efekty ˆα i sloupcové efekty ˆβ interakční člen ˆτ i a Tukeyho konstanta C 3 AOVA tabulka: e sestavena tabulka AOVA a provedeny testy významnosti faktorů A B a AB (a) Za předpokladu normality a homoskedasticity: F-testy významnosti faktorů resp interakcí včetně kombinovaných testů pro ověření celkové významnosti faktorů A B (b) Za předpokladu nenormality nebo heteroskedasticity: Friedmanův pořadový neparametrický test 4 Graf neaditivity: e kreslen graf neaditivity včetně určení optimální mocninné transformace ˆλ pro zaištění aditivity Lze zadat provedení analýzy pro transformovaná data pokud sou kladná 53 Vyvážená dvoufaktorová analýza rozptylu Slouží ke dvoufaktorové analýze rozptylu u vyvážených experimentů n = n a modelů i s pevnými efekty Je hledán optimální model AOVA odhadnuty eho parametry a provedeny testy významnosti Vstupem sou pro úrovně A A faktoru A a úrovně B B faktoru B hodnoty {y ik} i = = a k = n Pro všechny testy e standardně uvažována hladina významnosti α = 005 Pro výpočet se užívá AOVA2B (ADSTAT) Pro tyto modely platí že v každé cele e n i = n pozorování Odhadem µ i sou aritmetické průměry ˆµ i n n Pro odhady ostatních parametrů se použií vztahy y ik k ˆµ ˆµ i ˆα i ˆµ i & ˆµ ˆβ ˆµ i & ˆµ
12 2 Rezidua vyádříme vztahem ê ik y ik & ˆµ & ˆα i & ˆβ Podobně lze i v tomto případě definovat odhad interakcí ˆτ i ˆµ i & ˆµ & ˆα i & ˆβ Povšimněme si že tento vztah se liší od předešlé rovnice en tím že se místo veličin y i používá průměrů ˆµ i Pro ověření Tukeyova modelu interakce neaditivity lze vynášet graf ˆτ i vs ˆα i ˆβ áhodný obrazec zde svědčí o aditivním působení obou faktorů Součty čtverců modelu analýzy rozptylu pro obecný případ interakcí sou uvedeny v tabulce Odpovídaící střední hodnoty (očekávané hodnoty) průměrných čtverců sou E( A ) σ 2 % n α 2 i ( & ) σ 2 σ 2 % nσ 2 A a E( B ) σ 2 % E( AB ) σ 2 % n β 2 ( & ) σ 2 σ 2 % nσ 2 B n τ 2 i σ 2 % n σ 2 ( & ) ( & ) σ 2 AB 2 2 Očekávaná hodnota E( R) = σ ukazue že roztyl R e nevychýleným odhadem σ rozptylu chyb Rozptyly σ 2 A σ2 B a σ 2 AB odpovídaí efektům řádků sloupců a interakcí Těchto vztahů lze využít i v případech kdy se hledaí odhady rozptylů příslušeící faktorům a interakcím Pak se místo středních hodnot E() dosazuí přímo průměrné čtverce a místo 2 2 rozptylu σ reziduální rozptyl ˆσ Důležité e že průměrné čtverce nesou přímo odhady odpovídaících rozptylů Také v případě analýzy rozptylu definované AOVA tabulkou se využitím statistik F F a F testue zda e možné považovat sloupcové a řádkové efekty resp interakce za AB B A nevýznamné Pro test nulové hypotézy H : τ = 0 i = a = lze použít 0 i testační statistiku F která má za předpokladu platnosti hypotézy H F-rozdělení s {( - AB 0 )( - )} a { (n - )} stupni volnosti Při testování významnosti řádkových efektů faktoru A e H : α = 0 i = Pokud nulová hypotéza platí má testační F statistika F- 0 i A rozdělení s ( - ) a { (n - )} stupni volnosti Analogicky při testování významnosti sloupcových efektů faktoru B e H : β = 0 = Pokud nulová hypotéza platí má 0 testační F statistika F-rozdělení s ( - ) a { (n - )} stupni volnosti evychýleným B odhadem rozptylu e zde R Analýza rozptylu pro dvoné třídění a vyvážený experiment Součet Stupně Průměrný ritérium F čtverců pro volnosti čtverec Faktor A
13 3 S A n ˆα 2 i - A Faktor B S B n Interakce AB S AB n Reziduální S R Celkový S C ˆβ 2 - B ˆτ 2 i n k AB S A & S B & S AB ( & ) ( & ) F A A R F B B R F AB AB R (y ik & ˆµ i ) 2 (n - ) R - (n & ) n (y ik & ˆµ) 2 k ( - )( - ) n Výhodou vyvážených experimentů e to že ednotlivé složky modelů analýzy rozptylu sou vzáemně nezávislé Postup vyvážené dvoufaktorové analýzy rozptylu (AOVA2B) Slouží ke dvoustupňové analýze rozptylu u vyvážených experimentů n = n a modelů i s pevnými efekty Je hledán optimální model AOVA odhadnuty eho parametry a provedeny testy významnosti Vstupem sou pro úrovně A A faktoru A a úrovně B B faktoru B hodnoty {y ik} i = = a k = n Pro všechny testy e standardně uvažována hladina významnosti α = 005 Postup obsahue stené kroky ako postup ednofaktorové analýzy rozptylu: Příprava dat: (a) Velikost výběru (b) Chyběící hodnoty (c) Typ dat (d) Odlehlé hodnoty 2 Ověření výběrových předpokladů: z opakování v celách (a) áhodnost (b) ezávislost (c) ormalita (d) Homoskedasticita 3 Průměry a efekty úrovní: sou vypočteny odhady: celkový průměr ˆµ řádkové efekty ˆα i sloupcové efekty ˆβ interakční člen ˆτ i a Tukeyho konstanta C 4 AOVA tabulka: e sestavena tabulka AOVA a provedeny testy významnosti faktorů A B a AB S R
14 4 (a) Za předpokladu normality a homoskedasticity: F-testy významnosti faktorů resp interakcí včetně kombinovaných testů pro ověření celkové významnosti faktorů A B (b) Za předpokladu nenormality nebo heteroskedasticity: Friedmanův pořadový test 5 Grafy a diagramy: e kreslena závislost výběrových směrodatných odchylek s i v celách na průměrech ˆµ i Pokud e nalezena monotónní závislost lze zadat vhodnou transformaci ve které se provede opakovaná analýza Je konstruován rankitový graf pro rezidua ê ik 54 evyvážená dvoufaktorová analýza rozptylu Pro nevyvážené modely platí že v (i )-té cele e n i pozorování Pokud e experiment velmi špatně vyvážený což znamená že rozdíly mezi ednotlivými hodnotami n i sou řádově v desítkách e analýza rozptylu komplikovaněší Analýza rozptylu se pak provádí s využitím programů pro lineární regresi kdy se modely AOVA uvažuí ako speciální regresní modely s vysvětluícími proměnnými které nabývaí pouze hodnot 0 nebo Pro praktické účely se osvědčue použití přibližného rozkladu celkového součtu čtverců Začíná se výpočtem průměrů ˆµ i n k n k y ik k pro všechny cely Z těchto hodnot se dá odhadnout reziduální součet čtverců S R n k (y ik & ˆµ i ) 2 k Pro výpočet dalších složek rozkladu celkového součtu čtverců se používá ˆµ i o kterých * se uvažue že sou určeny z ekvivalentního počtu pozorování n definovaného vztahem n ( n i & Analýza rozptylu se pak provádí steně ako u vyvážených experimentů s tím že sou ednotlivé součty čtverců definovány vztahy S A n ( (ˆµ i & ˆµ) 2 S B n ( (ˆµ & ˆµ) 2 s ( - ) stupni volnosti s ( - ) stupni volnosti a S AB n ( V těchto vztazích e použito označení (ˆµ i & ˆµ i & ˆµ % ˆµ) 2 s ( - )( - ) stupni volnosti
15 5 ˆµ i ˆµ i ˆµ ˆµ i ˆµ s 2 i s 2 i ˆµ i ˆµ i Součet S + S + S + S zde iž není přesně roven S ale rozdíly sou poměrně malé A B AB R C Testování hypotéz o řádkových a sloupcových efektech nebo interakcích se provádí steně ako u vyvážených experimentů V případě více opakování v ednotlivých celách lze pro každou z nich určit výběrový rozptyl a pomocí grafu vs testovat případnou závislost rozptylu na střední hodnotě (heteroskedasticitu) Postup nevyvážené dvoufaktorové analýzy rozptylu (AOVA2U) Slouží ke dvoufaktorové analýze rozptylu u nevyvážených experimentů n a modelů i s pevnými efekty Je hledán optimální model AOVA odhadnuty eho parametry a provedeny testy významnosti Vstupem sou pro úrovně A A faktoru A a úrovně B B faktoru B hodnoty {y ik} i = = a o = O Pro všechny testy e standardně uvažována hladina významnosti α = 005 Postup obsahue stené kroky ako postup ednofaktorové analýzy rozptylu: Příprava dat: (a) Velikost výběru (b) Chyběící hodnoty (c) Typ dat (d) Odlehlé hodnoty 2 Ověření výběrových předpokladů: z opakování v celách (a) áhodnost (b) ezávislost (c) ormalita (d) Homoskedasticita 3 Průměry a efekty úrovní: sou vypočteny odhady: celkový průměr ˆµ řádkové efekty ˆα i sloupcové efekty ˆβ interakční člen ˆτ i a Tukeyho konstanta C 4 Tabulka AOVA: e sestavena tabulka AOVA a provedeny testy významnosti faktorů A B a AB (a) Za předpokladu normality a homoskedasticity: F-testy významnosti faktorů resp interakcí včetně kombinovaných testů pro ověření celkové významnosti faktorů A B (b) Za předpokladu nenormality nebo heteroskedasticity: Friedmanův pořadový neparametrický test 5 Grafy a diagramy: e kreslena závislost výběrových směrodatných odchylek s i v celách na průměrech ˆµ i Pokud e nalezena monotónní závislost lze zadat vhodnou transformaci ve které se provede opakovaná analýza Je konstruován rankitový graf pro rezidua ê ik 55 Opakovatelnost a reprodukovatelnost (O&R analýza)
16 6 Populárně zvané cechování se týká ověření přesnosti zda dotyčná technika měření e co do přesnosti vhodně zvolena a tím pro experimentální proces přiměřená Je-li proměnlivost měření malá ve srovnání s proměnlivostí experimentálního procesu říkáme že postup měření e adekvátní nebo odpovídaící ení-li e třeba techniku měření zlepšit tak aby vůbec mohla uspokoivě monitorovat experimentální proces Jsou-li například míry opracovaného výrobku uváděny v toleranci milimetrů nelze použít techniku měřením měřidlem které má čtení enom v centimetrech O&R analýza rozdělue celkovou proměnlivost do dvou složek: Složky měřicí techniky a 2 složky procesní týkaící se vlastního experimentálního procesu Proměn-livost složky měření e pak dále rozdělena: Do složky operátora O což vlastně představue reprodukovatelnost a 2 složky měřicí techniky V což e opakovatelnost Je důležité zdůraznit že O&R analýza se týká enom přesnosti složky měření Data pro tuto analýzu pocházeí z experimentu zvláště postaveného enom a enom k tomuto účelu ení proto možné kombinovat O&R analýzu s ostatními experimenty v laboratoři Platí obecné pravidlo: náhodné chyby měření by neměly být větší než edna desetina rozptylu procesu O&R analýza zišťue aká část pozorovaného rozptylu procesu náleží rozptylu měřicího systému AOVA rozdělue eště reprodukova-telnost na vliv operátora a interakci operátorvzorek Analýzu rozptylu vyšetřovaného experimentálního plánu vystihue model AOVA y ik µ % V i % O % (VO) i % g ik kde i = I = J k = a V i O (VO) i g ik sou nezávislé normální náhodné proměnné se střední hodnotou nula a rozptyly σ 2 V σ2 O σ2 VO a σ 2 g Tyto rozptyly sou často označovány ako složky rozptylu nazývané také rozptylové komponenty V tomto modelu AOVA shodném s modelem AOVA pro vyváženou dvoufaktorovou analýzu rozptylu značí písmeno V náhodný vzorek písmeno O udává operátora a písmeno g náhodnou chybu Dále v modelu označíme složku rozptylu za opakovatelnost dále složku rozptylu γ = σ 2 g + σ 2 VO za reprodukovatelnost složku rozptylu γ σ 2 O σ 2 VO σ 2 2 = + + g za celkovou proměnlivost měření která se také někdy nazývá O&R hodnota Proměnlivost procesu od vzorku k vzorku představue další složku rozptylu σ 2 V Poměr který porovnává dvě složky rozptylu a sice proměnlivost experimentálního procesu vůči proměnlivosti samotného měření e dán vzorcem σ 2 O δ σ 2 V σ 2 O % σ2 VO % σ2 g V literatuře e popsána řada kritérií k posouzení O&R hodnot V automobilovém průmyslu se užívá kritérium SR (Signal-to-oise Ratio) poměr signálu vůči šumu vyčíslené vzorcem SR = %δ a dále rozhodčí kategorie R = %(2δ) Existuí dvě populární míry k porovnání rozptylu vůči toleranci v nichž se za toleranci bere rozdíl horní a dolní toleranční meze HSL - DSL Jsou to ednak chyba měření dle vzorce 3 σ 2 O % σ2 VO % σ2 g HSL & DSL 00%
17 a dále poměr přesnosti vůči toleranci PT = 2 Obě kritéria sou obvykle vyčíslována spolu se svými intervaly spolehlivosti Cílem analýzy e vyčíslit tyto hodnoty a rozhodnout zda padnou do předem určeného intervalu 7
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
VíceANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.
VíceUNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce ANALÝZA
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
VíceANALÝZA ROZPTYLU (Analysis of Variance ANOVA)
NLÝZ OZPYLU (nalyss of Varance NOV) Používá se buď ako samostatná technka, nebo ako postup, umožňuící analýzu zdroů varablty v lneární regres. Př. použtí: k porovnání středních hodnot (průměrů) více než
VíceUNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Pythagoras Statistické zpracování experimentálních dat Semestrální práce ANOVA vypracoval: Ing. David Dušek
VíceUniverzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat ANOVA Zdravotní ústav se sídlem v Ostravě Odbor hygienických laboratoří
VíceS E M E S T R Á L N Í
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět ANOVA analýza rozptylu
Více5 ANALÝZA ROZPTYLU. Počet sloupců, K = 7 Počet dat, N = 70 Celkový průměr = 3.9846
1 5 ANALÝZA ROZPTYLU Vzorová úloha 5.1 Zkrácený postup jednofaktorové analýzy rozptylu Na úloze B5.02 Porovnání nové metody v sedmi laboratořích ukážeme postup 16 jednofaktorové analýzy rozptylu. Kirchhoefer
VíceTestování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času
Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek
VíceUNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015
Více1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření
1.4 ANOVA Úloha 1 Jednofaktorová ANOVA Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření Bylo měřeno množství DNA hub Fusarium culmorum
VíceDva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.
Uvedeme obecný postup statistického testování:. Formulace nulové H 0a alternativní hpotéz H A.. Volba hladin významnosti α.. Volba testační statistik např... Určení kritického oboru testové charakteristik.
VíceProblematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
VíceCharakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
VíceJednofaktorová analýza rozptylu
Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato
VíceAnalýza rozptylu ANOVA
Licenční studium Galileo: Statistické zpracování dat ANOVA ANOVA B ANOVA P Analýza rozptylu ANOVA Semestrální práce Lenka Husáková Pardubice 05 Obsah Jednofaktorová ANOVA... 3. Zadání... 3. Data... 3.3
VíceStatistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
VíceSEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
VíceZávislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
VíceAnalýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel
Analýza rozptylu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO Brno) Analýza rozptylu 1 / 30 Analýza
VíceInovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
VíceMann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
VíceStanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
VíceSEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI
SEMESTRÁ LNÍ PRÁ CE Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI Předmě t ANOVA A ZÁ KON PROPAGACE CHYB U JEDNOROZMĚ RNÝ CH DAT Ú stav experimentá lní biofarmacie, Hradec
VíceRegresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
VíceTestování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VíceTestování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
VíceRegresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
VíceVYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová
VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),
VíceTestování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
VícePředpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2
Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
VíceUniverzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015 Doc. Mgr. Jan Muselík, Ph.D.
VíceA 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21
Příklad 1 Soutěž o nelepší akost výrobků obeslali čtyři výrobci A, B, C, D celkem 26 výrobky. Porota sestavila toto pořadí (uveden pouze původ výrobku od nelepšího k nehoršímu): Pořadí 1 2 3 4 5 6 7 8
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceStatistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceUniverzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.
Univerzita Pardubice SEMESTRÁLNÍ PRÁCE Tvorba lineárních regresních modelů 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D. Úloha 1 Porovnání regresních přímek u jednoduchého lineárního regresního modelu Porovnání
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
VíceLINEÁRNÍ REGRESE. Lineární regresní model
LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)
VícePYTHAGORAS Statistické zpracování experimentálních dat
UNIVERZITA PARDUBICE Fakulta chemicko-technologická, Katedra analytické chemie SEMESTRÁLNÍ PRÁCE Květen 2008 Licenční studium PYTHAGORAS Statistické zpracování experimentálních dat Předmět 1.4 ANOVA a
VíceJEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a
VícePravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
VíceZobecněná analýza rozptylu, více faktorů a proměnných
Zobecněná analýza rozptylu, více faktorů a proměnných Menu: QCExpert Anova Více faktorů Zobecněná analýza rozptylu (ANalysis Of VAriance, ANOVA) umožňuje posoudit do jaké míry ovlivňují kvalitativní proměnné
VíceKalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015
VíceKorelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
VíceTestování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
VíceÚvod do analýzy rozptylu
Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme
VíceZápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
VícePřednáška IX. Analýza rozptylu (ANOVA)
Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin násobné testování hypotéz Analýza rozptylu jako lineární
VíceSTATISTICA Téma 7. Testy na základě více než 2 výběrů
STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
VícePRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
VíceKanonická korelační analýza
Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle
VíceIlustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
VíceSemestrální práce. 2. semestr
Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceAnalýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.
Analýza rozptylu Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů. Podle počtu analyzovaných faktorů rozlišujeme
VíceLINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
VíceÚloha 1: Lineární kalibrace
Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Vícehttp: //meloun.upce.cz,
Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,
Víceletní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování
VíceTestování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
VíceKatedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci
Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické
VíceTesty statistických hypotéz
Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem
VícePRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz o rozdělení Testování hypotéz o rozdělení Nechť X e náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládeme, že neznáme tvar distribuční funkce
VícePorovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
VíceKalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium GALILEO a limity její přesnosti Seminární práce Monika Vejpustková leden 2016 OBSAH Úloha 1. Lineární kalibrace...
VíceBodové a intervalové odhady parametrů v regresním modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e
VíceTESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B
TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,
VíceMÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VícePlánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Víceodpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
Více5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
VíceDVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát Obsah Úvod... 3 1 Charakterizujte
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VíceKalibrace a limity její přesnosti
SEMESTRÁLNÍ PRÁCE Kalibrace a limity její přesnosti 005/006 Ing. Petr Eliáš 1. LINEÁRNÍ KALIBRACE 1.1 Zadání Povrchově upravená suspenze TiO je protiproudně promývána v kaskádě Dorrových usazováků. Nejvíce
VíceStatistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup
Statistika Testování hypotéz - statistická indukce Parametrické testy Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 1. února 01 Statistika by Birom
VíceKalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 8. Analýza rozptylu Mgr. David Fiedor 13. dubna 2015 Motivace dosud - maximálně dva výběry (jednovýběrové a dvouvýběrové testy) Příklad Na dané hladině významnosti α = 0,05
VíceUNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce STATISTICKÁ
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
VícePříloha č. 1 Grafy a protokoly výstupy z adstatu
1 Příklad 3. Stanovení Si metodou OES Byly porovnávány naměřené hodnoty Si na automatickém analyzátoru OES s atestovanými hodnotami. Na základě testování statistické významnosti regresních parametrů (úseku
Více