PRAVDĚPODOBNOS A SAISIKA
Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ PŘÍČINNÁ ZÁVISLOS!! Regresní analýza se zabývá jednostrannými závislostmi. Jedná se o situaci kdy proti sobě stojí vysvětlující (nezávisle) proměnná v úloze příčin a vysvětlovaná (závisle) proměnná v úloze následků. Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi kdy se klade důraz především na intenzitu (sílu) vzájemného vztahu než na zkoumání veličin ve směru příčina následek.
Regresní analýza - motivace Předpokládejme že chceme najít závislost mezi váhou a výškou u obyvatel Brna. echnicky není možné získat tyto informace od všech obyvatel. Pomocí náhodného výběru provedeme výběr obyvatel (reprezentantů) a naměříme u nich požadovaná data. Vybraní reprezentanti byli studenti SP:
Regresní analýza - motivace
Regresní analýza - motivace
Soot [%] Soot [%] Regresní analýza - motivace 0.4 0.3 0. 0. 0 500 400 300 00 Operating time [Mh] 00 0 0 00 400 400 00 000 800 600 Calendar time [day] 0.6 0.4 0. 0-0. 500 400 300 500 00 000 Operating time [Mh] 00 0 0 500 Calendar time [day]
Regresní analýza - motivace Základy regresní analýzy položil Francis Galton který zkoumal vztah mezi výškou syna a výškou otce. Pokud byl otec velmi vysoký tak jeho syn byl již menší výška se vracela k základu. edy : regrese - návrat Pozor!! Neplést si to s regresí návrat do minulých životů Francis Galton (8-9) - zázračné dítě bratranec Charlese Darwina - zakladatel eugeniky (nauky o zlepšování genetického základu)
Regresní analýza Regresní analýza zkoumá závislost mezi nezávislými proměnnými a závisle proměnnou Y. ( k ) Často se uvažuje ve tvaru k+ rozměrného vektoru: Y k Y Předpoklad že náhodný vektor Y je spojitého typu. ato závislost se vyjadřuje ve tvaru regresní funkce : Y ( β) β ( k... ) kde jsou neznámé parametry..
Regresní analýza lineární regresní model Lineární regresní model Lineární regresní model předpokládá regresní funkci ve tvaru: kde β ( k... ) k Y β) β j ( jsou hledané koeficienty j j Poznámka Lineární regresní model předpokládá linearitu vzhledem k koeficientům: β ( k... ) Náhodné veličiny mohou být funkční hodnotou (statistikou) dalších náhodných proměnných: Z Z Z m g Z. k gk Z Zm Z m ( k )
Regresní analýza lineární regresní model - příklady Speciální lineární regresní model - regresní konstanta: Y - regresní přímka: Y - regresní parabola: Y 3 - jiné možné lineární regresní modely: Y Z 3Z Y 3 - nelineární regresní modely: Y Y e Y Y sin( 3 ) Z Z Z 3 4 Z 3Z 4 cos( Z ) ln( Z ) sin( Z )
Regresní analýza regresní model Regresní model Často se uvažuje regresní model v tomto tvaru: n k k náhodný výběr - matice Y Y náhodný výběr n Y Y n Místo matice se používá její realizace: x i x i x i k j x j n j Pak předpokládáme regresní model ve tvaru: i Yi ( β) i E( i ) 0 D( i ) Y ( β) ε E(ε) 0 var( ε) I Lineární regresní model ve tvaru: i Yi β i E( i ) 0 D( i ) Y β ε E(ε) 0 var( ε) I EY β vary I
Definice lineárního regresního modelu Lineární regresní model Y β ε Matice nk je matice realizací. Předpoklad: n > k h() k - tj. matice je plné hodnosti Vektor β je nenáhodný tedy E Y β vary I Y Y Y n je náhodný vektor a y y y n je jeho realizace. Matice nk se nazývá matice plánu β ( k... ) Parametry se odhadují pomocí metody nejmenších čtverců (MNČ) minimalizuje se součet čtverců tedy hledáme střední hodnotu: y ( x β) E( Y x)
Regresní analýza výpočet
Regresní analýza výpočet Lineární model výpočet Platí: Statistiky které odhadují parametry Statistiky βˆ ( ˆ ˆ ) k β ( k... ) označíme: pomocí MNČ dostaneme ve tvaru: βˆ Y βˆ ( ˆ ˆ ) k Pokud místo náhodného vektoru y y y n Y Y Y n dostaneme bodový odhad parametrů b použijeme realizaci y
Regresní analýza výpočet Poznámky: Vektor Yˆ βˆ sloupců matice Matice H Pak Yˆ HY Matice H je symetrická a idempotentní a Označme: M Y I H Matice M je symetrická a idempotentní a je nejlepší aproximace vektoru Y pomocí se nazývá projekční matice. h(h) k h(m) n k
Regresní analýza výpočet Poznámky: Vektor e Y Yˆ Náhodná veličina se nazývá rezidua. S e e e Y Yˆ Y Yˆ se nazývá reziduální součet. Pokud místo náhodného vektoru βˆ b ( b b k ) edy yˆ Hy yˆ b H b dostaneme bodový odhad y ( ˆ ˆ ) k yˆ použijeme realizaci y
Regresní analýza výpočet Platí: a) βˆ β (nestranným odhad) a b) E c βˆ c (nestranným odhad lineární kombinace) c) d) E ˆ var β β Yˆ Y Se Y MY Y Y βˆ Y Se e) Statistika s je nestranným odhadem parametru n k d) pomocné tvrzení: náhodný vektor: E( ) μ E( ) var( ) Σ. a A n n je libovolná matice. Pak E( A ) r( AΣ) μ Aμ
Regresní analýza vhodnost modelu Označme: S e S S A Y Yˆ Y Yˆ Y Y Y Y Y ˆ Y Y ˆ Y Platí: S S e S A S A Se Hodnota R se nazývá koeficient determinace S S Často se uvádí v procentech a udává kolik procent bodů je vysvětleno pomocí zvoleného modelu. Aby se odstranil vliv počtu parametrů používá se upravený koeficient determinace: n Se n R R ( R ) n k S n k
Regresní analýza vhodnost modelu S celková variabilita S e reziduální variabilita S A variabilita vysvětlená modelem S S e S A x CELKOVÁ VARIABILIA Y (odchylka měřené hodnoty od průměru) REZIDUÁLNÍ VARIABILIA (odchylka měřených a modelových - vypočítaných hodnot) x VARIABILIA VYSVĚLENÁ MODELEM (odchylka modelových hodnot od průměru) x
Regresní analýza modifikace modelu Modifikace modelu: Většina modelů obsahuje konstantu tedy jeden sloupec v matici plánu obsahuje jedničky předpokládejme že je to první sloupec. Nechť r=k- Koeficienty se označují kde odpovídá konstantě. Pak statistiky jsou a jejich realizace Dále ~ k n r n k n ~ ~ ) ( 0 r β ) ˆ ˆ ˆ ( ˆ 0 r β ) ( 0 r b b b b r n S k n S s e e e e S S r n n S S k n n R 0