Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.

Podobné dokumenty
Metody zkoumání závislosti numerických proměnných

Testování statistických hypotéz

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

a další charakteristikou je četnost výběrového souboru n.

9. Měření závislostí ve statistice Pevná a volná závislost

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

, jsou naměřené a vypočtené hodnoty závisle

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Úvod do korelační a regresní analýzy

4.2 Elementární statistické zpracování Rozdělení četností

Mendelova univerzita v Brně Statistika projekt

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Doc. Ing. Dagmar Blatná, CSc.

PRAVDĚPODOBNOST A STATISTIKA

Spolehlivost a diagnostika

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

Lineární regrese ( ) 2

11. Časové řady Pojem a klasifikace časových řad

12. Neparametrické hypotézy

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

Odhady parametrů 1. Odhady parametrů

8 NELINEÁRNÍ REGRESNÍ MODELY

Regresní a korelační analýza

Generování dvojrozměrných rozdělení pomocí copulí

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

Statistika - vícerozměrné metody

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Úvod do teorie měření

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

KVALITA REGRESNÍHO MODELU Radek Fajfr

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Náhodný výběr 1. Náhodný výběr

Deskriptivní statistika 1

12. N á h o d n ý v ý b ě r

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

8. Analýza rozptylu.

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

APLIKOVANÁ STATISTIKA

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Chyby přímých měření. Úvod

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík

Univerzita Karlova v Praze Pedagogická fakulta

PRAVDĚPODOBNOST A STATISTIKA

Intervalové odhady parametrů některých rozdělení.

S1P Popisná statistika. Popisná statistika. Libor Žák

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

VY_52_INOVACE_J 05 01

11. Popisná statistika

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

P2: Statistické zpracování dat

TECHNICKÁ UNIVERZITA V LIBERCI

BIVŠ. Pravděpodobnost a statistika

[ jednotky ] Chyby měření

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

14. B o d o v é o d h a d y p a r a m e t r ů

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Přednáška č. 2 náhodné veličiny

PRAVDĚPODOBNOST A STATISTIKA

NEPARAMETRICKÉ METODY

Pravděpodobnostní modely

8. Zákony velkých čísel

Závislost slovních znaků

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz

Testování hypotéz. 3.1 Základní pojmy a obecný postup při testování

Statistická analýza dat

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Měření závislostí. Statistická závislost číselných znaků

Optimalizace portfolia

1. Základy měření neelektrických veličin

Jednoduchá lineární regrese

Pravděpodobnost a aplikovaná statistika

Lineární regresní model (VJ REGMOD-2)

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Pravděpodobnost a aplikovaná statistika

T e c h n i c k á z p r á v a. Pokyn pro vyhodnocení nejistoty měření výsledků kvantitativních zkoušek. Technická zpráva č.

MATICOVÉ HRY MATICOVÝCH HER

V. Normální rozdělení

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Výsledky této ásti regresní analýzy jsou asto na výstupu z poítae prezentovány ve form tabulky analýzy rozptylu.

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Pravděpodobnost a aplikovaná statistika

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Transkript:

Metody statstcké aalýzy doc. Ig. Dagmar Blatá, CSc. Bakoví sttut vysoká škola, a.s. Praha 0

METODY STATISTICKÉ ANALÝZY Autor: Recezet: Vydal: Tsk: Vydáí: doc. Ig. Dagmar Blatá, CSc. doc. Ig. Jří Trešl, CSc. Ig. Daa Bílková, Dr. Bakoví sttut vysoká škola, a.s., Nároží 600/9 Praha powerprt s.r.o., Bradejsovo áměstí 9/, 65 00, Praha 6 Suchdol prví Rok vydáí: dube 0 Místo vydáí: Praha 0 Bakoví sttut vysoká škola, a.s. Všecha práva vyhrazea. Žádá část této publkace ebude jakýmkolv způsobem reprodukováa bez předchozího písemého souhlasu Bakovího sttut vysoké školy, a.s ISBN 978-80-765-9-0

Metody statstcké aalýzy OBSAH Úvod... 5 I METODY ZKOUMÁNÍ ZÁVISLOSTÍ... 6 I. Zkoumáí závslost kategorálích zaků... 6 I. Jedofaktorová aalýza rozptylu (ANOVA)... I.3 Regresí aalýza... 5 I.3. Jedoduchá (párová) regresí aalýza... 7 I.4 Korelačí aalýza...34 I.4. Jedoduchá (párová) korelace... 35 I.4. Test ezávslost pořadovou korelací... 43 I.5 Víceásobá leárí regresí a korelačí aalýza... 45 I.5. Víceásobá regrese... 45 I.5. Víceásobá korelace... 47 I.5.3 Multkolearta... 50 I.6 Regrese s kategorálí proměou... 5 I.7 KONTROLNÍ OTÁZKY... 53 I.8 PŘÍLADY NA PROCVIČENÍ... 54 I.9 ZÁKLADNÍ VÝRAZY... 6 II METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD... 63 II. Druhy a charakterstky časových řad... 63 II. Dekompozce časových řad... 69 II.3 Vyrováváí časových řad... 70 II.3. Aalytcké vyrováí časových řad... 70 II.3. Adaptví přístupy k tredové složce... 74 II.4 Zkoumáí sezóost v časových řadách... 78 II.4. Sezóí očšťováí... 8 II.5 Náhodá složka časových řad... 84 II.6 Extrapolace časových řad... 85 II.7 Korelace v časových řadách... 86 Obsah 3

Bakoví sttut vysoká škola II.8 KONTROLNÍ OTÁZKY... 89 II.9 PŘÍKLADY NA PROCVIČENÍ... 90 II.0 ZÁKLADNÍ VÝRAZY... 97 III MARKETINGOVÉ PRŮZKUMY... 99 III. Způsoby zjšťováí údajů a výběrové postupy... 99 III.. Způsoby zjšťováí údajů... 99 III.. Výběrové postupy... 00 III..3 Staoveí velkost výběrového souboru... 0 III. Vybraé metody používaé ke zpracováí údajů získaých ve výběru... 0 III.. Porováí struktury výběrového a základího souboru... 0 III.. Ověřováí změy ázorů... 03 III..3 Test o shodě podílů v k souborech... 05 III..4 Neparametrcké testy shody průměrů dvou ezávslých výběrů... 06 III..5 Kruskalův-Wallsův test (eparametrcká aalýza rozptylu)... 09 III..6 Použtí vícerozměrých statstckých metod v marketgových průzkumech... III.3 KONTROLNÍ OTÁZKY... 7 III.4 PŘÍKLADY NA PROCVIČENÍ... 8 III.5 ZÁKLADNÍ VÝRAZY... IV SEZNAM LITERATURY... 4 V PŘÍLOHY STATISTICKÉ TABULKY... 5 4 Obsah

Metody statstcké aalýzy ÚVOD Skrpta Metody statstcké aalýzy jsou učebím textem pro kurz Statstcké metody magsterského studa Bakovího sttutu. Teto kurz avazuje a kurz Statstka a pravděpodobost a předpokládá statstcké zalost v ěm obsažeé, zejméa popsou statstku a metody statstcké dukce (teor statstckých odhadů a teor testováí statstckých hypotéz). Skrpta jsou rozdělea do tří kaptol. I. kaptola se zabývá základím statstckým aalytckým metodam umožňujícím zkoumat závslost jak mez kategorálím tak mez kvattatvím proměým (kotgečí aalýzu, aalýzu rozptylu, regresí a korelačí aalýzu). II. kaptola obsahuje základí metody statstcké aalýzy a extrapolace časových řad. III. kaptola je věováa aplkac statstckých postupů v marketgových průzkumech a obsahuje pops základích způsobů zjšťováí údajů a ěkteré jedodušší metody použtelé v průzkumech. Aalogcky jako ve skrptech Statstka a pravděpodobost je výklad kocpová především tak, aby studet pochopl podstatu metod a uměl rozhodout, kterou metodu by bylo možo pro řešeí kokrétí úlohy použít v prax a jak terpretovat získaé výsledky. Pro lepší porozuměí vykládaé problematce jsou uvedey řešeé příklady s terpretací získaých výsledků. Příklady je uto chápat jako lustratví, jsou vědomě zjedodušeé, slouží především k pochopeí látky a výpočetích postupů. Řešeí příkladů uvedeých v textu je většou prováděo bez použtí počítače, u regresí aalýzy a u metod aalýzy časových řad jsou uvedey výstupy z počítače s použtím programu STATGRAPHICS ebo SAS. Popsovaé postupy obsahuje větša dalších specalzovaých statstckých programů, apř. SPPS, STATISTICA, S-Plus apod., příklady lze řešt pomocí tabulkových kalkulátorů, apř. EXCEL. Výstupy z jých statstckých programů mají většou podobý tvar jako uvedeé výstupy ze STATGRAPHICS ebo SAS. Ve srováí s předchozím učebím textem Metody statstcké aalýzy určeém pro studety BIVŠ, jsou tato skrpta upravea a rozšířea tak, aby více vyhovovala potřebám studetů kombovaého studa. Protože se často jedá o metody, které jsou bez použtí počítače obtížě řeštelé, je větší pozorost věováa porozuměí a terpretac výstupů ze statstckých programových systémů SAS a STATGRAPHICS. Na závěr každé kaptoly jsou zařazey kotrolí otázky a příklady k procvčeí vysvětleé látky. K příkladům jsou uvedey výsledky, v ěkterých případech postup řešeí, většou provedeý pomocí EXCELu. U každé kaptoly je rověž uvede aglcko-český slovík základích statstckých pojmů a výrazů používaých v příslušé kaptole, eboť lze předpokládat, že př aplkac statstckých postupů v prax se studet častěj setkají s počítačovým programy, v chž budou použty aglcké výrazy. V přílohové část jsou přpojey základí statstcké tabulky. Sezam lteratury uvádí vybraé české zahračí publkace, které je možo využít k doplěí a rozšířeí metod a postupů uvedeých ve skrptech. doc. Ig. Dagmar Blatá, CSc. Úvod 5

Bakoví sttut vysoká škola I METODY ZKOUMÁNÍ ZÁVISLOSTÍ V prvém kurzu statstky (Pravděpodobost a statstka) jsme se u statstckých souborů zabýval zkoumáím jedotlvých statstckých zaků odděleě, euvažoval jsme, že mez m mohou být ějaké souvslost a vzájemé vztahy. Přtom právě objevováí a popsováí souvslostí jevů patří k ejdůležtějším statstckým úkolům př kvattatvích výzkumech. Exstuje celá řada, často složtých a áročých metod a postupů zkoumáí závslostí, které jsou bez použtí počítačů praktcky ezvládutelé. V tomto kurzu s uvedeme pouze základí jedoduché metody zkoumáí závslostí a vzájemých vztahů mez statstckým zaky. Musíme s vždy být vědom, že exstují růzé druhy statstckých zaků (základí tříděí je a zaky kategorálí a číselé) a výběr statstcké metody, kterou chceme použít pro zkoumáí závslostí, závsí a typu zkoumaých zaků. V této kaptole se budeme zabývat základím statstckým postupy a metodam, které se používají př aalýzách závslostí, projevujících se v hromadých údajích. Prvotím údaj jsou v tomto případě hodoty sledovaých proměých, zjštěé u každé z jedotek určtého souboru (předpokládáme koečého), jímž může být soubor osob, frem, zemí aj. Na údaje o jedotkách koečého souboru je uté pohlížet jako a výběrová data. Je-l možo předpokládat, že tato data jsou výběrem z ekoečého základího souboru, použjeme metody statstcké dukce (vz kaptola IV skrpt Pravděpodobost a statstka), které umožňují provádět z těchto výběrových dat zevšeobecňující úsudky. Z hledska použtých dat pro zkoumáí závslostí mez proměým lze uvést základí metody zkoumáí závslostí: kotgečí aalýza: - kategorálí (sloví) zaky aalýza rozptylu: - sledovaý zak číselý, třídící zak sloví ebo číselý pořadová korelace: - dva pořadové zaky regresí a korelačí aalýza: - dva ebo více číselých zaků I. Zkoumáí závslost kategorálích zaků S kategorálím proměým se setkáváme často zejméa v oblast průzkumů v růzých oblastech (marketgové průzkumy, průzkumy veřejého míěí, socologcké průzkumy apod.) V rámc kategorálích proměých je třeba rozlšovat mez omálím a ordálím (pořadovým) proměým. K omálím patří apř. typ vzděláí (ekoomcké, techcké, přírodovědé apod.), mez ordálí patří apř. stupeň vzděláí (základí, středoškolské, vysokoškolské, doktorské). Zatímco hodoty omálích proměých lze řadt v podstatě lbovolě, u ordálích proměých je přrozeé je řadt podle jejch hodoty od ejžší (ejméě výzamé, ejméě poztví) až po ejvyšší (ejvýzamější, ejpoztvější apod.). Nejdříve s popíšeme dvourozměrou tabulku rozděleí četostí kategorálích zaků azývaou kotgečí tabulka. Sledovaé kategorálí zaky ozačíme A a B. Zak A abývá k obmě, zak B s obmě. V kotgečí tabulce zobrazujeme rozděleí četostí obou sledovaých zaků podle jedotlvých obmě obou zaků (obvykle řadíme obě proměé ve směru od ejmeší po ejvětší) 6 Metody zkoumáí závslostí

Metody statstcké aalýzy tzv. četost sdružeé (což jsou počty jedotek abývajících současě - tou obměu zaku A a j - tou obměu zaku B). Tabulka I- Kotgečí tabulka Zak A : =,,..., k. Zak B : j =,,..., s. A / B B B B 3... B j... B s A 3... j... s A 3... j... s..... A 3... j... s A k k k k3... kj... ks k j 3... j... s Četost v políčkách uvtř kotgečí tabulky ozačujeme j a azýváme je sdružeé četost. Četost ozačeé a j jsou četost okrajové (margálí); (přtom představují rozděleí četostí zaku A, j pak představují rozděleí četostí zaku B). Celkový počet jedotek souboru je celková četost. Mez četostm v kotgečí tabulce platí vztahy: (I.) j = = = k s = j= = j= k Př zkoumáí závslost mez kategorálím proměým se ejčastěj používá test o ezávslost dvou kategorálích zaků, často azývaý χ - test ezávslost v kotgečí tabulce. s j χ - test ezávslost v kotgečí tabulce K rozhodutí o tom, jestl lze a základě zjštěých dat prohlást dvě kategorálí proměé za závslé č kolv, slouží test o ezávslost. Testujeme př ěm ulovou hypotézu o ezávslost, alteratví hypotéza pak tvrdí, že se jedá o závslost. Vede-l test př dostatečě ízké hladě výzamost k přjetí alteratví hypotézy, lze s malým rzkem omylu říc, že jsou obě proměé závslé, vede-l test k ezamítutí ulové hypotézy o ezávslost, lze pouze kostatovat, že elze toto tvrzeí zamítout, chybý by byl závěr o ezávslost obou proměých. Tedy, v tomto testu formulujeme ulovou a alteratví hypotézu: H 0 : zaky A a B jsou ezávslé H : o H (jsou závslé). 0 Testové krterum ozačeé G má za platost ulové hypotézy rozděleí χ [(k-).(s-)]. Metody zkoumáí závslostí 7

Bakoví sttut vysoká škola (I.) G = k s = j= ( e, j o, j ), kde e,j jsou emprcké (zjštěé) četost, o,j jsou teoretcké (očekávaé) četost, (tj. takové, které by byly v jedotlvých políčkách tabulky, kdyby platla ulová hypotéza o ezávslost) Teoretcké četost vypočítáme podle vztahu (I.3). = j o, j. Krtcký obor tvoří hodoty testového krtera G χ -α [(k-).(s-)]. Použtí uvedeého testu má omezeí v tom, že maxmálě 0 % teoretckých četostí smí být meší ež 5. Pokud eí tato podmíka splěa, slučujeme skupy (obměy), přčemž samozřejmou podmíkou je, abychom sloučl obměy sledovaých zaků tak, aby tvořly logcké skupy (většou se jedá o skupy, které jsou v tabulce vedle sebe, pokud ovšem jsme dodržel výše uvedeý předpoklad uspořádáí kategorí od ejžší po ejvyšší). Příklad I. Na základě údajů získaých z průzkumu u 400 pracovíků frmy ověřte a 5% - í hladě výzamost, jestl absolvováí vzdělávacích kurzů ve frmě ovlvňuje výsledou úroveň jejch zalostí ověřovaou vědomostím testem. Tabulka I- Tabulka zjštěých (emprckých) četostí Navštěvováí kurzů Zalost Zalost Zalost podprůměré průměré adprůměré Četost Nechodl 75 36 3 4 Občasá účast 7 9 33 79 Chodl pravdelě 3 6 86 79 Četost j 33 7 50 400 Výpočet teoretckých četostí podle vzorce (I.3): 47, = (4.33)/ 400, atd. Tabulka I-3 Tabulka teoretckých (očekávaých) četostí Navštěvováí kurzů Zalost Zalost Zalost podprůměré průměré adprůměré Četost Nechodl 47, 4,5 53,3 4 Občasá účast 6,3 3, 9,6 79 Chodl pravdelě 59,5 5,4 67, 79 Četost j 33 7 50 400 8 Metody zkoumáí závslostí

Metody statstcké aalýzy Testové krterum vypočítáme podle vzorce (I.) (75-47,) (36-4, 5) (3-53, 3) (7-6, 3) (86-67,) G = + + + +... + = 47, 4,5 53,3 6,3 67, = 48,68 Krtckou hodotu χ [( k )( s ] = χ [4] ajdeme v přílohové tabulce II. α 0,95 Hodota testového krtera G = 48,68 > χ [4] 0,95 = 9,5, což zameá, že a 5% hladě výzamost zamítáme H 0 o ezávslost úrově zalostí a avštěvováí vzdělávacích kurzů a přjímáme tvrzeí alteratví hypotézy, že avštěvováí kurzů ovlvňuje úroveň zalostí (ověřovaou testem). Testem o ezávslost posoudíme, jestl můžeme ebo emůžeme zamítout hypotézu o ezávslost. K posouzeí, jak je závslost slá (těsá), počítáme růzé statstcké charakterstky, které abývají hodot z tervalu <0;>, případě z polouzavřeého tervalu <0;). Jsou-l obě proměé statstcky ezávslé, abývají hodoty 0. To zameá, že z hodot blízkých ule lze usuzovat a slabou závslost, aopak z hodost blížících se jedé lze usuzovat a slou závslost. Obecě platí, čím je hodota použté charakterstky kotgece blžší, tím je závslost slější a aopak. V případě měřeí síly (těsost) závslost mez kategorálím proměým se používají míry kotgece, uvedeme alespoň dva ejpoužívaější - Pearsoův koefcet kotgece a Cramerův koefcet kotgece (v počítačích ozačovaý jako Cramerovo V), které avazují a výpočet χ - testu ezávslost v kotgečí tabulce s testovým krterem G. Pearsoův koefcet kotgece (I.4) C P = G. G + abývá hodot <0;). Horí mez je dáa hodotou h = m[(k - );(s - )]. S rostoucím h (tj. s růstem rozměrů kotgečí tabulky) se horí mez Pearsoova koefcetu blíží jedé, ale a př pevé závslost hodotu eabude. Cramerův koefcet kotgece (Cramerovo V) (I.5) C C G =, h. kde h = m[(k - );(s - )]. Cramerův koefcet kotgece může abýt hodoty v tervalu <0;>. Používat Cramérův koefcet kotgece je výhodé, pokud pracujeme se čtvercovou kotgečí tabulkou. Příklad I. Pokračováí příkladu I.. Posuďte těsost závslost úrově zalostí a absolvováí kurzů Pearsoovým a Cramérovým koefcetem kotgece. Metody zkoumáí závslostí 9

Bakoví sttut vysoká škola K výpočtům koefcetů kotgece použjeme vzorce (I.4) a (I.5). C P = G 48, 68 G + = 48, 68 + 400 = 0, 38, C C G 48, 68 = = = h. 400. 0, 45. Z hodot koefcetů kotgece můžeme učt ásledující závěr: když jsme a 5% í hladě výzamost prokázal statstckou výzamost závslost úrově zalostí a absolvováí kurzů (zamítl jsme hypotézu o ezávslost), je tato závslost statstcky výzamá, ale její těsost eí přílš slá. Nejjedodušší a přtom velm častý je případ kategorálích dat, která mohou abývat pouze dvou obmě (ejčastěj se jedá o odpověd a otázky typu má emá, souhlasí esouhlasí apod.). Kotgečí tabulka v takovém případě má je dva řádky a dva sloupce a azývá se čtyřpolí tabulka (ebo také asocačí tabulka). Tabulka I-4 Asocačí tabulka A / B B B A A j Testové krterum hypotézy o ezávslost kategorálích dat se v tomto případě zjedoduší a má tvar: (I.6) ( G = ) s rozděleím χ (). Krtcký obor tohoto testu tvoří hodoty testového krtera G χ (). Těsost závslost dvou kategorálích dat lze posoudt koefcetem asocace, který má tvar α (I.7) r AB =. Koefcet asocace může abývat hodoty v tervalu <-;>. Čím je hodota koefcetu asocace blžší ±, tím je závslost těsější. Když r AB = ±, mluvíme o úplé asocac, v případě koefcetu asocace r AB = 0 se jedá o ezávslost. Zaméko koefcetu asocace určuje směr závslost (přímá ebo epřímá). Pozámka. K posouzeí těsost závslost je možo v tomto případě použít rověž Pearsoův ebo Cramérův koefcet kotgece (jsou daé vzorc (I.4). a (I.5), z koefcetů kotgece ale emůžeme posoudt směr závslost). 0 Metody zkoumáí závslostí

Metody statstcké aalýzy Příklad I.3 Posuďte a 5% hladě výzamost, jestl exstuje závslost mez způsobem placeí v obchodím domě a tím, zda se jedá o pravdelého ebo áhodého zákazíka, máte-l k dspozc údaje z průzkumu provedeého u 00 zákazíků. Údaje uvádí Tabulka I-5. Tabulka I-5 Údaje průzkumu Zákazík Placeí Placeí kredtí kartou hotově Celkem Pravdelý 69 5 Náhodý 40 39 79 Celkem 09 9 00 Testové krterum vypočteé podle vzorce (I.6): 00.(69.39-40.5) G = = 0, 787..79.09.9 Krtcká hodota χ () 3, 84. 0,95 = Hodota testového krtera espadá do krtckého oboru, emůžeme proto a hladě výzamost 5 % zamítout hypotézu o ezávslost; eprokázal jsme tedy závslost mez způsobem placeí a typem zákazíka. V případě, kdy testem ezávslost ezamíteme ulovou hypotézu o ezávslost, emá smysl posuzovat sílu (těsost) závslost. I. Jedofaktorová aalýza rozptylu (ANOVA) Aalýza rozptylu patří k základím statstckým metodám aplkovaým př vyhodocováí expermetálích pokusů. Používá se v případech, kdy chceme posoudt jedostraou závslost, zda sledovaý číselý statstcký zak závsí a jém zaku, podle ěhož byl sledovaý zak roztřídě do skup. Jako příklad použtí můžeme uvést zkoumáí vlvu faktoru a hospodářský proces, vlvu způsobu opatřeí a výsledek procesu, vlvu absolvováí typu školy a úspěšost v přjímacích zkouškách, závslost cey akcí a odvětví apod. Tuto úlohu ale můžeme formulovat tak, že chceme ověřt, zda středí hodoty skup (podsouborů) sledovaého zaku vytvořeé podle třídícího hledska (třídícího zaku) jsou stejé, jým slovy to zameá ověřt výzamost rozdílů mez výběrovým průměry většího počtu áhodých výběrů. Třídící zak může být kategorálí (sloví) ebo číselý. V úloze aalýzy rozptylu testujeme ulovou hypotézu H : μ 0 = μ = μ 3 =... = μ k, H ebo ve tvaru : alespoň dvě středí hodoty se lší Metody zkoumáí závslostí

Bakoví sttut vysoká škola H 0 H : hodoty zaku y ezávsí a třídícím zaku A, : hodoty zaku y závsí a třídícím zaku A. Základím předpokladem, z ěhož jedofaktorová aalýza rozptylu vychází, je, že všech k výběrů je ezávslých a každý z ch pochází z ormálího rozděleí s růzým středím hodotam, ale stejým rozptyly rovým kostatě σ. Shreme-l to, je př použtí aalýzy rozptylu uto s uvědomt, že její použtí je vázáo a splěí ásledujících předpokladů: - výběry jsou ezávslé, - každý z k výběrů pochází z ormálího rozděleí N(μ, σ ), - počet pozorováí je větší ež počet skup ( > k ), - rozptyly všech k skup jsou stejé σ = σ = = σ.... k Předpoklad ormalty většou eověřujeme (říkáme, že test je robustí, to zameá málo ctlvý a porušeí ormalty), ale předpoklad shody rozptylů musíme ověřt vždy, eboť v případě edodržeí tohoto předpokladu je třeba pro řešeí použít jou statstckou metodu (apř. Kruskalův - Wallsův test, vz kaptola III..5). Shodu rozptylů ověříme Bartlettovým ebo Cochraovým testem. Tyto testy jsou výpočetě áročější, proto je euvádíme, jsou ale obsažey ve všech statstckých paketech, které obsahují rověž aalýzu rozptylu (posouzeí, zda zamítout, resp. ezamítout testovaou hypotézu o rovost rozptylů provádíme podle p - hodoty (p - value) Je-l p-value α, zamítáme testovaou hypotézu, je-l p-value > α, testovaou hypotézu ezamítáme a víme, že jsme oprávě použít aalýzu rozptylu). Př jedofaktorové aalýze rozptylu se zkoumá, zda lze varabltu hodot umercké proměé Y vysvětlovat jedým faktorem A. Podkladem pro aalýzu jsou hodoty y a růzých úrovích zaku A. Základí myšleka aalýza rozptylu spočívá v rozložeí celkové varablty sledovaého zaku Y a varabltu příslušející vlvu, podle ěhož bylo provedeo tříděí hodot zaku Y (tj. mezskupovou varabltu) a a varabltu, která je způsobea dalším blíže especfkovaým vlvy, které rověž ovlvňují varabltu sledovaého zaku a které způsobují kolísáí hodot uvtř skup vytvořeých podle třídícího zaku (vtroskupovou varabltu). Celkovou varabltu charakterzuje celkový součet čtverců Q (I.8) k ( j ), = j= Q= y y varabltu příslušející vlvu, podle ěhož bylo provedeo tříděí hodot y charakterzuje mezskupový součet čtverců Q M (I.9) Q M = k = ( y y), varabltu zbytkovou (způsobeou dalším blíže especfkovaým čtel, které ovlvňují vedle faktoru A kolísáí hodot proměé y) pak charakterzuje rezduálí součet čtverců Q R Metody zkoumáí závslostí

Metody statstcké aalýzy (I.0) k R = ( j ). = j= Q y y Platí přtom vztah (I.) Q = Q M + Q R. V uvedeých vzorcích jsou výběrové průměry - té úrově podle vzorců y a celkový výběrový průměr y vypočtey (I.) y = y j,, j= k = j = y = y. j Testové krterum aalýzy rozptylu je kostruováo jako podíl varablty mezskupové a varablty vtroskupové, každá z ch je dělea příslušým stup volost. Testové krterum má tvar Q M ( k) ( y y) (I.3) = F = k =, Q k R k ( k ) ( yj y ) k = j= Testové krterum (I.3) má rozděleí F [k-; -k]. Krtcký obor tvoří všechy hodoty testového krtera, pro ěž F F -α [k-; -k]. Hypotézu o ezávslost zamítáme v případě, kdy mezskupová varablta hodot y je výrazě vyšší ež varablta vtroskupová. Výpočty aalýzy rozptylu je zvykem uvádět ve formě tabulky aalýzy rozptylu (vz. Tabulka I-6): Tabulka I-6 Tabulka aalýzy rozptylu Zdroj varablty Součet čtverců Počty stupňů Průměré volost čtverce Sledovaý faktor Q M k- Q M /( k-) Rezduálí Q R -k Q R /(-k) Celkem Q - Testové krterum F Příklad I.4 Baka chce porovat výkoost tří poboček z hledska srovatelých produktů. Každá pobočka byla testováa po stejou dobu a byl zazameá počet srovatelých produktů za sledovaé období. Úkolem je a 5% hladě výzamost otestovat předpoklad stejé průměré výkoost poboček. Metody zkoumáí závslostí 3

Bakoví sttut vysoká škola Získaé hodoty v jedotlvých pobočkách jsou: Pobočka 47 53 49 50 46 Pobočka 55 54 58 6 5 Pobočka 3 54 50 5 5 49 Nulovou a alteratví hypotézu formulujeme: H o : μ = μ = μ 3 (průměré výkoost všech poboček jsou stejé), H : průměrá výkoost alespoň jedé z poboček je já. Nejprve vypočteme potřebé skupové průměry a celkový průměr: y = ( 47 + 53 + 49 + 50 + 46 )/ 5 = 49 y = ( 55 + 54 + 58 + 6 + 5 )/ 5 = 56 y = 3 ( 54 + 50 + 5 + 5 + 49 )/ 5 = 5, y = ( y+ y + y3)/3 = (49+ 56+ 5)/3= 5. Součty čtverců (podle vzorců ( I.8.), (I.9.), (I.0) jsou potom: Q = ( 47-5) + ( 53-5 ) +... + ( 49-5) = 4, Q = 5((49 5) + (56 5) + (5 5) ) = 30, M ( ) ( ) ( ) Q = 47-49 + 53-49 +... + 49-5 = 94. R Výsledky výpočtů uvedeme v tabulce aalýzy rozptylu: Tabulka I-7 Tabulka aalýzy rozptylu výkoost poboček Zdroj varablty Součet čtverců Stupě volost Průměré čtverce Sledovaý faktor 30 65 Rezduálí 94 7,83 Celkem 4 4 Testové krterum 8,30 Krtckou hodotou je kvatl F -α [k-; -k] = F 0,95 (; ) = 3, 89. Protože testová statstka F = 8,30 je větší ež krtcká hodota F 0,95 (; ) = 3, 89, zamítáme a 5% hladě výzamost ulovou hypotézu o rovost výkoost všech poboček. Průměré výkoy poboček musí být tedy pokládáy za rozdílé. Protože výpočty aalýzy rozptylu jsou výpočetě áročé (zejméa př větším počtu hodot sledovaého zaku a větším počtu tříd), lze předpokládat, že se můžete spíše setkat s výstupem aalýzy z počítače. Všechy specalzovaé statstcké programové systémy aalýzu rozptylu 4 Metody zkoumáí závslostí

Metody statstcké aalýzy (ANOVA) obsahují (ANOVA obsahuje MS EXCEL). V tabulce I-8 uvádíme výstup ze systému SAS pro data Příkladu I.4 (výstupy ostatích počítačových systémů jsou obdobé). Tabulka I-8 Výstup aalýzy rozptylu v systému SAS Source DF Sum of Squares Mea Square F Value Pr > F Model 30.000 65.000 8.30 0.0055 Error 94.000 7.833 Corrected Total 4 4.000 Počítačové programy uvádějí u testového krtera p - hodotu (zde ozačeou Pr > F). Hodota (Pr > F) = 0,0055 je v ašem příkladě meší ež zvoleá hlada výzamost α = 0,05, což zameá, že a 5 % hladě výzamost zamíteme ulovou hypotézu o stejé výkoost poboček. Závěr testu pomocí hodoty Pr > F je samozřejmě stejý jako a základě porováí hodoty testového krtera s krtckou hodotou, jak bylo provedeo výše v Příkladě I.4. I.3 Regresí aalýza Základí statstcká metoda, která se zabývá zkoumáím závslostí mez umerckým zaky se azývá regresí a korelačí aalýza. Je to souhr metod a postupů, které slouží k aalýze vztahu středích hodot umercké proměé Y a hodot druhé umercké proměé X ebo většího počtu umerckých proměých X. Př zkoumáí závslostí dvou zaků mluvíme o jedoduché regresí a korelačí aalýze. V případě zkoumáí závslostí více zaků se jedá o víceásobou regresí a korelačí aalýzu (dvojásobou, trojásobou atd.). Ze začátku se omezíme pouze a ejjedodušší případ zkoumáí závslost mez dvěma číselým zaky jedoduchou regresí aalýzu. Budeme se zabývat ejvýzamější formou vzájemých vztahů a souvslostí mez dvěma číselým zaky, kterou je příčá (kauzálí) závslost. Příčou závslostí se rozumí stuace, kdy výskyt jedoho jevu, který ozačujeme jako příča, má za ásledek (úček) výskyt jého jevu. Příču budeme azývat ezávsle proměá a ozačovat j X, ásledek azýváme závsle proměá a ozačujeme jej Y. Mohou přtom astat dva zcela odlšé případy. Pokud jedé hodotě ezávsle proměé X vždy přísluší je jeda hodota závsle proměé Y, mluvíme o závslost pevé (fukčí, determstcké). S takovým typem závslost se setkáváme apř. v matematce ebo ve fyzce. Například dráha u přímočarého pohybu je rychlost ásobeá časem (d = v.t). Př zkoumáí společeských jevů se ale s pevou závslostí esetkáme, eboť každý jev je spoje a ovlvňová celou skupou jých jevů, které mohdy a eumíme zjstt. Například peěží vydáí všech rod, které mají stejý příjem, ejsou stejá. Závsí a počtu dětí a jejch stáří, způsobu bydleí, zvyklostech, árocích atd. Jedá se o závslost volou (statstckou, korelačí), kdy jedé hodotě jedoho zaku (tzv. ezávsle proměé, resp. vysvětlující proměé x) odpovídají růzé hodoty druhého zaku (závsle (vysvětlovaé) proměé y). Statstcky je možé zjstt směr (průběh) této závslost zjstt, a kterých vlvech závsí více a a kterých méě. Př zkoumáí závslostí je vhodé Metody zkoumáí závslostí 5

Bakoví sttut vysoká škola pracovat s rozsáhlým statstckým soubory, protože u malých souborů se může výrazě projevt působeí růzých vedlejších a áhodých vlvů, které může zjštěé výsledky zkreslt. Užtečou pomůckou př jedoduché regresí aalýze (tj., když zkoumáme závslost mez dvěma jevy) je tzv. bodový dagram (scatter plot). V tomto grafu je v pravoúhlé soustavě souřadc zázorěa jako bod každá dvojce hodot (x,y ) všech pozorováí. Na Obrázku I- je graf pevé závslost a a Obrázku I- graf volé závslost. Obrázek I- Bodový graf pevé závslost Obrázek I- Bodový graf volé závslost V regresí aalýze se budeme zabývat zejméa případem statstcké (volé) závslost. Na Obrázku I-3 a Obrázku I-4 jsou uvedey dva růzé bodové grafy (scatter plots). I samotý bodový graf ám může poskytout základí formace o závslost sledovaých zaků. Z bodových dagramů můžeme posoudt průběh závslost jak typ závslost (leárí, eleárí), tak směr závslost (kladá, záporá), sílu závslost - tj. stupeň kolísáí hodot kolem čáry vyjadřují průběh závslost. Obrázek I-3 Bodový graf volé přímé závslost Obrázek I-4 Bodový graf volé epřímé závslost Na Obrázku I-3 vdíme, že se jedá o závslost přímou (kladou), jejíž průběh můžeme popsat přímkou, a Obrázku I-4 je závslost epřímá (záporá), vhodou aalytckou fukcí popsující 6 Metody zkoumáí závslostí

Metody statstcké aalýzy závslost, by zde mohla být parabola. Jak je zřejmé z obou obrázků, elší se obě uvedeé závslost je z hledska průběhu závslost, ale z hledska kolísáí hodot kolem čáry vyjadřující průběh závslostí touto úlohou se budeme blíže zabývat v kaptole I.4. Př zkoumáí závslostí mez kvattatvím zaky tedy budeme řešt dva základí úkoly:. Vysthout průběh závslost, tj. zjstt tedece změy jedé proměé Y př změách druhé proměé X ( tzv. regresí úkol),. Charakterzovat sílu (těsost) této závslost (korelačí úkol). Shreme-l dosud uvedeé, lze uvést, že regresí aalýza je souhr metod a postupů, pomocí chž popsujeme průběh statstcké závslost, odhadujeme hodoty závsle proměé Y odpovídající daé hodotě jedé ebo více ezávsle proměých X.. I.3. Jedoduchá (párová) regresí aalýza V celé regresí aalýze budeme zásadě používat ozačeí Y... závsle proměá (vysvětlovaá proměá), X... ezávsle proměá (vysvětlující proměá). O údajích, které jsou podkladem pro regresí aalýzu se předpokládá, že byly získáy áhodým výběrem. Regresí model popsující průběh závslost mez závsle proměou Y a ezávsle proměou X v základím souboru azýváme teoretcká (hypotetcká) regresí fukce a zapíšeme jej obecě ve tvaru: (I.4) Y = f (x, β 0, β, β,..., β k ) + ε, kde β j jsou regresí parametry (parametry regresí fukce), j = 0,,,, k, ε je áhodá složka (je způsobea vlvy, které ezahruje regresí fukce). V prax pracujeme s expermetálím daty a teoretckou regresí fukc odhadujeme a základě výpočtů z výběrových dat. Odhadem teoretcké regresí fukce je výběrová (emprcká) regresí fukce, kterou apíšeme ve tvaru (I.5) ŷ = f (x, b 0, b, b,..., b k ) kde b jsou výběrové regresí parametry (odhady regresích parametrů β ), Rozdíl mez emprckou hodotou a odpovídající teoretckou hodotou ležící a výběrové regresí fukc ozačujeme e a azýváme ho rezduum. Rezduum je tedy odhadem áhodé složky a vypočteme je podle vztahu Metody zkoumáí závslostí 7

Bakoví sttut vysoká škola (I.6) e = y yˆ. U "klasckého regresího modelu" předpokládáme, že rezdua (áhodé chyby) mají ormálí rozděleí s ulovou středí hodotou a kostatím rozptylem a jsou vzájemě ekorelovaá. Postup (kroky) regresí aalýzy:. volba typu regresí fukce (alezeí regresího modelu),. odhad parametrů regresího modelu, 3. testováí hypotéz o těchto parametrech (ověřeí výzamost parametrů regresího modelu), 4. ověřeí vhodost zvoleého regresího modelu (posouzeí kvalty regresího modelu). Jedotlvé kroky regresí aalýzy postupě probereme podroběj. I.3.. Volba typu regresí fukce (alezeí regresího modelu) Úkolem je alézt vhodou aalytckou fukc, která ejlépe vysthe průběh závslost závsle proměé Y a ezávsle proměé X. Vhodou aalytckou fukc volíme a základě: věcě-logckého rozboru zkoumaých závslostí, grafckého zázorěí (bodového dagramu) vz apř. Obrázek I-3 a I-4, pomocí matematcko-statstckých krterí, s mž se sezámíme v kaptole I.3..5. Př volbě regresí fukce platí zásada, že se sažíme k popsu závslost použít pokud možo jedodušší fukc, která vyhovuje z hledska uvedeých krterí (tzv. "prcp parsmoe"). I.3.. Odhad parametrů regresího modelu Regresí fukce, kterým můžeme popsat závslost dvou umerckých proměých, můžeme rozdělt do dvou základích skup, a chž potom také závsí použtá metoda odhadu parametrů regresí fukce: fukce leárí v parametrech (ěkdy se používá ázev fukce leárí z hledska parametrů), fukce eleárí v parametrech. Fukce leárí v parametrech jsou všechy fukce, které lze obecě vyjádřt ve tvaru (I.7) Y = β 0 + β f (x) + β f (x) +...+ β k f k (x) + ε. Kde fukce f(x) azýváme regresory. 8 Metody zkoumáí závslostí

Metody statstcké aalýzy Mez fukce leárí v parametrech patří apříklad: přímka parabola polyomcká fukce hyperbola Y = β + β x 0 Y = β + β x + β 0 x Y = β + β x + β 0 x +...+ β k x k Y = β + β / x 0 logartmcká fukce Y = β + β 0 log x. Fukce eleárí v parametrech jsou všechy regresí fukce, které elze vyjádřt ve tvaru (I.7). Patří sem apříklad: expoecálí fukce Y = β 0 β x, mocá fukce Y = β 0 x β. růzé druhy S-křvek (apř. logstcká fukce). Základí metoda odvozeí parametrů regresích modelů leárích v parametrech je metoda ejmeších čtverců (MNČ). MNČ s vysvětlíme a ejjedodušším případě, kterým je přímková regrese. Teoretckou regresí přímku vyjádříme ve tvaru (I.8) Y = β + β x, 0 její odhad - výběrová regresí přímka - má záps (I.9) ŷ = b 0 + b x. Cílem MNČ je ajít přímku, která ejlépe popsuje průběh závslost, tj. přímku, která je zjštěým (emprckým) hodotám ejblíže. Pro takovou přímku musí být součet rozdílu emprckých a modelových hodot (tj. součet rezduí) rove ule. Toto ale je podmíkou utou, ale e postačující, proto musíme přdat další podmíku, kterou je, aby součet čtverců rozdílu emprckých a modelových hodot (tj. součet čtverců rezduí) byl mmálí: (I.0) ( ˆ ) m. = = S = y y = e = Dosadíme- l do vztahu (I.0) rovc přímky, dostaeme výraz S ve tvaru (I.) ( 0 ) m. = S = y b bx = Vycházíme-l př odhadu parametrů regresí přímky ze vztahu (I.), říkáme, že se jedá o parametry odvozeé metodou ejmeších čtverců. Metody zkoumáí závslostí 9

Bakoví sttut vysoká škola Matematcky vyjádřeo, jedá se o alezeí extrému fukce dvou proměých. Tuto úlohu řešíme tak, že rovc (I.) parcálě zdervujeme podle obou hledaých parametrů b 0 a b a dervace položíme rovy ule: (I.) ds db 0 ds db = = = = ( y b b 0 x ( y b 0 ).( ) = 0 b x ).( x ) = 0 Po úpravě této soustavy dvou rovc dostaeme tzv. ormálí rovce ve tvaru: (I.3) y = b + b x 0 = = yx = b0x + bx = = = a z ch vypočteme hledaé parametry regresí přímky b 0 a b. Nejdříve uvedeme tvar pro výpočet parametru b, který ozačujeme b yx a azýváme jej výběrový regresí koefcet. Parametr b yx je směrcí výběrové regresí přímky (tz., vyjadřuje průměrou změu závsle proměé Y př jedotkové změě ezávsle proměé X). Je-l hodota regresího koefcetu kladá, jedá se o kladou (přímou) závslost mez Y a X, tj., s růstem hodot x mají hodoty závsle proměé y rostoucí tedec. Je-l hodota regresího koefcetu záporá, jedá se o záporou (epřímou) závslost obou sledovaých proměých. (I.4) y x x y = = = = byx = x x = = b Vzorec pro výpočet regresího koefcetu (I.4) lze upravt do tvaru (I.5) b yx = xy - x y x - x Kde výraz v čtatel je tzv. výběrová kovarace ozačovaá s xy, s íž se budeme dále zabývat v kaptole I.4., ve jmeovatel je rozptyl vysvětlující proměé s x.. Parametr b 0 je absolutí čle přímky a je to bod, v ěmž regresí přímka protíá svslou osu y. V ekoomckých úlohách často parametr b 0 emá terpretačí smysl. (I.6) b 0 = yx yxx = = = = x ( x ) = =. 0 Metody zkoumáí závslostí

Metody statstcké aalýzy Jedodušej lze parametr b 0 vypočítat pomocí vztahu: (I.7) b = y b x 0 yx.. Výpočet parametrů b yx a b 0 z euspořádaých údajů (tj. dvojc hodot (x, y ) u všech zjštěých jedotek) je bez použtí specálího statstckého programu poměrě jedoduchý, lze s výhodou využít jakýkolv tabulkový kalkulátor (apř. MS EXCEL), eboť stačí vypočítat výrazy: x,, y, x, x y :, jak je vdět z Tabulky I-9. Tabulka I-9 Výpočet regresích parametrů x y x y x y x x y x x y x x y................ x y x y x x x y x y Protože v regresí aalýze odhadujeme parametry teoretcké regresí přímky pomocí výběrových regresích parametrů, jsou vypočítaé parametry b 0 a b yx bodové odhady parametrů β 0 a β teoretckého regresího modelu. Důležtou vlastostí parametrů odvozeých metodou ejmeších čtverců je, že se jedá o odhady evychýleé (ezkresleé), platí tedy est β 0 = b 0 E(b 0 ) = β 0 (I.8) est β = b yx E(b yx ) = β Pokud jsou parametry b 0 a b yx ezkresleé (evychýleé) odhady, potom také výběrová regresí přímka je ezkresleým odhadem teoretcké regresí přímky. K posouzeí přesost provedeých regresích odhadů, potřebujeme zát rozptyl rezduí D(ε) = σ. Jeho ezkresleým odhadem je rezduálí rozptyl s (I.9) s ( y ˆ y) e = = = =, p p kde p je počet parametrů regresí fukce (pro přímku je p = ). Pro přímku je rezduálí rozptyl dá vzorcem: (I.30) s = = ( y yˆ ). Přesost odhadů výběrových regresích parametrů b a b 0 (jsou to evychýleé odhady) měříme yx směrodatým chybam jejch odhadů, tj., s s. Vzorce lze alézt ve specelí lteratuře (apř. v [8], b o b yx Metody zkoumáí závslostí

Bakoví sttut vysoká škola [9] ebo v [] ), všechy statstcké počítačové programy je automatcky počítají. Zde s pouze uvedeme, že směrodaté chyby odhadů regresích parametrů jsou ásobky rezduálího rozptylu s (závsí tedy a čtverc odchylek zjštěých hodot od modelu, z čehož plye, že u modelu, kde původí hodoty mají velkou varabltu, rezdua mohou být velká a odhad parametrů regresího modelu bude málo přesý). Lze rověž vypočítat tervalové odhady parametrů regresího modelu (prcp tervalových odhadů regresích parametrů je stejý jako v případě odhadů parametrů polohy základího souboru popsaý ve skrptech Pravděpodobost a statstka, kaptola IV.). Př zvoleé spolehlvost -α jsou dvoustraé tervaly spolehlvost pro regresí parametry vymezey erovostm: (I.3) P( b 0 P( b yx t α t α s bo s byx β b 0 β b 0 + t yx α + t α sb o ) = α s ) = α byx Itervalové odhady vyrovaých hodot (tj., hodot ležících a regresí čáře popsující průběh závslost) pak staovíme podle vztahu (I.3) ˆ P ( y t α / s y Y y + t α / s y ) = α. ˆ Iterval spolehlvost pro odhad hodot regresí přímky eí ve všech bodech a regresí přímce stejě šroký. Nejužší je v bodě se souřadcem [ x; y ]. Teto pozatek má praktcké uplatěí v tom, že odhad hodot ezávsle proměé Y pomocí vypočteé regresí přímky bude přesější pro hodoty v okolí průměré hodoty ezávsle proměé X, čím více se od průměru x vzdalujeme, tím bude vypočteý terval spolehlvost pro hodotu y šrší, tudíž odhad méě přesý. Dosazeím lbovolé další hodoty ezávsle proměé x do vypočteé regresí rovce, získáme regresí predkce pro růzé hodoty ezávsle proměé x. Itervaly spolehlvost regresí predkce budou opět tím přesější, čím je vypočteá regresí závslost těsější (tz, čím je vyšší hodota korelačího koefcetu (resp. dexu determace)) a čím je hodota ezávsle proměé x blžší průměru x. Predkčí tervaly jsou vždy šrší ež tervalové odhady pro hodoty ležící a regresí křvce. Kvatly Studetova rozděleí ve vzorcích (I.30) a (I.3) pro výpočet tervalů spolehlvost mají obecě [ p] stupňů volost, tedy pro přímkovou regres bereme kvatly t [ ]. I.3..3 Testy hypotéz o parametrech regresí fukce Nejčastěj používaým testem, který používají počítačové programy regresí aalýzy, je test o ulové hodotě regresího parametru s ulovou hypotézou: H o : β j = 0. j = 0,,,,k Je používáa oboustraá alteratví hypotéza H : β j 0. Testové krterum má tvar (I.33) t b j =. s b j Metody zkoumáí závslostí

Metody statstcké aalýzy Testové krterum (I.33) má Studetovo rozděleí s [ p] stup volost. Pro případ přímkové regrese tvoří krtcký obor hodoty testového krtera t t α / [ ] a t t -α / [ ]. Test o ulové hodotě parametru β je testem leárí ezávslost mez oběma proměým, eboť v případě ezamítutí testovaé hypotézy H o : β = 0 ezamítáme předpoklad, že směrce teoretcké regresí přímky je ulová, tj. předpoklad, že přímka je rovoběžá s osou x. Jým slovy teto předpoklad říká, že Y je ezávslé a X, eboť pro růzé hodoty x jsou hodoty y stále stejé. Zamítutí hypotézy o ulové hodotě regresího parametru β zameá přjetí předpokladu, že středí hodota vysvětlovaé proměé Y se změí o kostatu b yx př jedotkové změě ezávsle proměé X. Zamítutí hypotézy o ulové hodotě regresího parametru β 0 zameá přjetí předpokladu, že regresí přímka eprochází počátkem (ulou). Protože výpočet směrodatých chyb potřebých pro výpočet testového krtera t je výpočetě áročý, uvádíme pouze výstup z počítače s uvedeím terpretace získaých výsledků. Iterpretace v počítačových programových paketech: Počítačové programy u každého testu uvádějí hladu výzamost, a íž je test výzamý tzv. p - hodotu (p - value, resp. sgfcace level). Pokud je p - value α, zameá to zamítutí testovaé hypotézy o ulové hodotě parametru, tz. potvrzeí výzamost regresího parametru. Příklad I-5. Tabulka I-0 obsahuje údaje o stáří a ceě 0 ojetých aut. Zkostruujte model závslost cey (v ts. Kč) Y a stáří (v letech) X a odhaděte ceu auta starého 0 let. Tabulka I-0 Data a výpočty pro regresí aalýzu x y x y x.y 3 67 9 7889 50 4 65 6 75 660 3 5 39 5 93 695 4 6 49 36 0 894 5 7 9 49 46 833 6 7 9 49 664 903 7 8 89 64 79 7 8 8 5 64 35 90 9 9 76 8 5776 684 0 9 89 8 79 80 66 37 474 68 7603 Na Obrázku I-5 je uvede bodový graf závslost cey a stáří automoblu. Z grafu je patré, že závslost je epřímá a přímka zřejmě může být vhodým regresím modelem sledovaé závslost. Metody zkoumáí závslostí 3

Bakoví sttut vysoká škola Obrázek I-5 Bodový dagram závslost cey a stáří souboru automoblů Výpočty provedeme ručě a porováme s výpočty ze statstckého software SAS. Výpočet parametrů regresí přímky podle vzorců ( I.4) a (I.7): b yx y x x y 0.7603 66.37 = = = 4,65. = = = 0.474 66 x x = = 37 66 b = y - b x = + 4, 65 = 0, 56 0 yx 0 0 Rovce regresí přímky závslost cey ojetého auta a stáří auta má tedy tvar yˆ = 0,56 4, 65x. Regresí koefcet b yx = 4,65 můžeme terpretovat tak, že každý rok cea ojetého auta průměrě klesá o 465 Kč. Absolutí čle odpovídá průměré ceě ového auta (tz, ve stáří ula). V tabulce I- je uvede výstup tohoto příkladu z počítače: Tabulka I- Výstup z počítače (SAS): Parameter Estmates Varable DF Parameter Estmate Stadard Error t Value Pr > t Itercept 0.565.8039 7.0 <.000 Star -4.6458.85966-7.86 <.000 Ve výstupu z PC v řádku Itercept vdíme hodotu absolutího čleu 0,56, v řádku Star hodotu regresího koefcetu (-4,65). Pro výpočet hodot testového krtera t testujícího výzamost jedotlvých parametrů použjeme vypočteé hodoty směrodatých odchylek odhadů regresích parametrů (sloupec Stadard Error). 4 Metody zkoumáí závslostí

Metody statstcké aalýzy Dílčí t-testy vypočteme podle vzorce (I.33): 0,56 t = = 7, 0, 803 4, 65 t = = 7.86, 8597 Hodotu testového krtera t porováme s krtckým hodotam t 0,975 (8) =,306,. t 0,05 (8) =,306. V obou případech je hodota testového krtera meší ež krtcká hodota př uvažovaé hladě výzamost α = 0,05. V obou případech tedy zamítáme hypotézu o ulové hodotě parametru. Stejý závěr můžeme udělat přímo z vypočteé hodoty testového krtera t uvedeé v Tabulce I- ve sloupc t Value a z p hodoty (Pr > t ), která má v obou případech hodotu meší ež 0,05. Odhad cey auta starého 0 let vypočítáme dosazeím hodoty x = 0 do vypočítaé regresí rovce: y ˆ = 0,56 4, 65.0 = 74, 00. Příklad I.6 Agetura zabývající se potravářským trhem provedla průzkum ve vybraých obchodech v Praze. Pro áš příklad bylo áhodě vybráo 30 obchodů a sledovaé zaky: počet prodaých kusů ltrových aaasových džusů baleých v obalech Tetra-Pak, cea za jede ltr a velkostí kategore obchodu ( - hypermarket,...,6 - večerka). Úkolem průzkumu bylo posoudt a 5% hladě výzamost, zda počet prodaých kusů závsí a ceě a a velkost obchodu. Data získaá v průzkumu jsou uvedea v Tabulce I-. V této část úlohy se zaměříme pouze a popsáí závslost mez počtem prodaých kusů a ceou (příklad bude pokračovat v kaptole I.4, Příklad I.9). Závsle proměou (vysvětlovaou proměou) Y je počet kusů, vysvětlující (ezávsle proměou) X je cea. Na Obrázku I-6 je zobraze bodový graf závslost počtu prodaých kusů a ceě. Metody zkoumáí závslostí 5

Bakoví sttut vysoká škola Tabulka I- Data z průzkumu ve 30 prodejách Obchod Prodej Kusů Cea Velkost obchodu 33 38 3 40 3 4,5 3 4 38 36,5 5 9 40 3 6 8 38 3 7 6 38 8 7 43,5 6 9 50 5 0 6 45 5 40 3 8 40 3 55 4 4 5 45 6 5 37 36,5 6 6 38 7 9 38 8 9 38 9 4 4 4 0 7 38 3 38 3 9 39,5 3 3 36,5 4 8 39,5 3 5 9 4,5 3 6 5 45 7 8 4 3 8 55 4 9 4 45 30 30 38 Obrázek I-6 Bodový dagram závslost počtu prodaých kusů a ceě 40 Bodovy dagram Prodej_kusu 30 0 0 0 36,5 38 39,5 40 4 4,5 43,5 45 50 55 Cea Z Obrázku I-6 je zřejmé, že závslost je epřímá, jako vhodá regresí fukce by mohla přcházet v úvahu závslost přímková. Potřebé výpočty pro výpočet regresí přímky uvádí Tabulka I-3 6 Metody zkoumáí závslostí

Metody statstcké aalýzy Tabulka I-3 Výpočetí tabulka y x x y x 33 38 54 444 40 840 600 3 4,5 50 806,5 4 38 36,5 387 33,5 5 9 40 760 600 6 8 38 064 444 7 6 38 988 444 8 7 43,5 304,5 89,5 9 50 00 500 0 6 45 70 05 5 40 600 600 8 40 70 600 3 55 0 305 4 5 45 5 05 5 37 36,5 350,5 33,5 6 6 38 988 444 7 9 38 0 444 8 9 38 7 444 9 4 4 68 764 0 7 38 06 444 3 38 78 444 9 39,5 750,5 560,5 3 3 36,5 68 33,5 4 8 39,5 7 560,5 5 9 4,5 38,5 806,5 6 5 45 5 05 7 8 4 336 764 8 55 55 305 9 4 45 80 05 30 30 38 40 444 Celkem 53 43 065 596 Parametry regresí přímky vypočítáme podle vzorců (I.4) a (I.7): b yx y x x y 30.065 43. 53 = = =,996. = = = 30.596 43 x x = = 53 43 = y b x = (,996) 30 30 b0 yx = 00,4..Rovce regresí přímky popsující závslost mez počtem prodaých kusů a ceou tedy má tvar ŷ = 00,4 -,996 x. Metody zkoumáí závslostí 7

Bakoví sttut vysoká škola Regresí koefcet b yx =,996 můžeme terpretovat tak, že s růstem cey o Kč, dochází v průměru k poklesu prodaých kusů o. Pro porováí uvádíme v tabulce I-4 výstupí tabulku regresí aalýzy z počítačového statstckého programu STATGRAPHICS. Tabulka I-4 Výstupí tabulka regresí aalýzy z PC Regresso Aalyss - Lear model: Y = a + b*x ----------------------------------------------------------------------------- Depedet varable: Pocet_kusu Idepedet varable: Cea ----------------------------------------------------------------------------- Stadard T Parameter Estmate Error Statstc P-Value ----------------------------------------------------------------------------- Itercept 00,4 0,367 9,737 0,0000 Slope -,996 0,47333-8,0709 0,0000 ----------------------------------------------------------------------------- Aalyss of Varace ----------------------------------------------------------------------------- Source Sum of Squares Df Mea Square F-Rato P-Value ----------------------------------------------------------------------------- Model 766,94 766,94 65,4 0,0000 Resdual 89,36 8 4,477 ----------------------------------------------------------------------------- Total (Corr.) 3956,3 9 Correlato Coeffcet = -0,83687 R-squared = 69,9377 percet Stadard Error of Est. = 6,5744 V Tabulce I-4 jsou ve sloupc Estmate vypočteé regresí koefcety, Stadard Error jsou směrodaté odchylky regresích parametrů, ve sloupc T-Statstc je provede výpočet testu výzamost obou regresích parametrů podle vzorce (I.6). Př ručím výpočtu bychom hodotu testového krtera porovával s krtckou hodotou t -α / ( ) = t 0,975 (8) =,048. U obou parametrů je hodota testového krtera v krtckém oboru, zamítáme hypotézu o ulové hodotě regresích parametrů. Počítačový výstup u obou parametrů uvádí hodoty P-Value meší ež hlada výzamost α = 0,05, zamítáme tedy hypotézu o ulové hodotě regresích parametrů. Teto závěr je samozřejmě stejý jako př porováí testového krtera t s krtckou hodotou. Důležtý je závěr o zamítutí ulové hodoty zejméa u regresího koefcetu, eboť ám dovoluje terpretovat regresí koefcet jako průměrou změu závsle proměé př jedotkové změě ezávsle proměé. Pozámka: výzam a terpretac pojmů a údajů v dolí část výstupu a údajů pod tabulkou s vysvětlíme u Příkladu I-9. I.3..4 Neleárí regresí fukce Pokud použjeme eleárí fukc (z hledska průběhu), která je fukcí leárí v parametrech, pak k odhadu parametrů používáme také metodu ejmeších čtverců.. 8 Metody zkoumáí závslostí

Metody statstcké aalýzy Často používaou eleárí regresí fukcí je parabola. Potom mluvíme o parabolcké regres. Teoretcká regresí parabola a její odhad výběrová regresí parabola mají tvar: (I.34) Y = β 0 + β x + β x (I.35) ŷ = b 0 + b x +b x. Parametry regresí paraboly odvodíme opět MNČ: (I.36) ( 0 ) m. = S = y b bx b x = Protože fukce má tř parametry, musíme pro odvozeí parametrů regresí paraboly spočítat parcálí dervace podle všech tří parametrů a položt je rovy ule: (I.37) ds 0 db = ; 0 ds 0 db = ; ds 0 db = ; Po úpravách získáme soustavu ormálích rovc ve tvaru: y = b 0 + b x + b x (I.38) y x = b 0 x + b x + b x 3 jejímž řešeím jsou odhady parametrů b 0, b,b. y x = b 0 x + b x 3 + b x 4 Regresí modely eleárí vzhledem k parametrům mohou být v ěkterých případech převedey a leárí modely pomocí vhodé trasformace a odhady jejch parametrů lze získat MNČ, aebo musí být řešey ěkterou umerckou metodou (vz apř. [8]). Postup odhadu parametrů fukcí eleárích v parametrech:. Najdeme vhodý tzv. počátečí odhad,. Počátečí odhad postupě zlepšujeme teračím postupy tak dlouho, až dostaeme odhad s požadovaou přesostí. ad. Metod počátečích odhadů exstuje celá řada, uvedeme alespoň ěkteré z ch: metoda learzující trasformace, metoda aprorí formace, metoda vybraých bodů. Metody zkoumáí závslostí 9

Bakoví sttut vysoká škola Metoda learzující trasformace Model s eleárí regresí fukcí (fukcí eleárí v parametrech) převedeme vhodou trasformací a model leárí a odhady jeho parametrů získáme MNČ. Například eleárí expoecálí fukc (I.39) Y = β 0 β x převedeme a fukc leárí v parametrech zlogartmováím: (I.40) log Y = log β 0 + x log β. Pro learzac fukce (I.4) Y = b + b x 0 můžeme použít převráceé hodoty (I.4) = b + b x. 0 Y Metoda aprorí formace Jako počátečí odhady použjeme hodoty parametrů doporučovaé ekoomckou teorí ebo hodoty zámé z předchozího šetřeí (výpočtu). Metoda vybraých bodů Vybereme tolk bodů (dvojc hodot (x,y,)) kolk parametrů má zvoleá regresí fukce. Souřadce těchto bodů (hodoty dvojc (x,y )) dosadíme do rovce regresí fukce. Získáme tím soustavu eleárích rovc, jejchž řešeím jsou hledaé počátečí odhady parametrů zvoleé regresí fukce. Ad Metody postupého zlepšováí počátečích odhadů používají teračí postupy apř. Gauss-Newtoův, Marquardtův apod. Prcp postupého zlepšováí spočívá v tom, že v každém kroku se počítá součet čtverců rezduí (I.43) ( ˆ ) = =, S = y y = e postup kočí, když rozdíl součtu čtverců rezduí v ásledujícím kroku se od předchozího lší je evýzamě málo (apř. a 5. desetém místě) (I.44) S S - < ε. I.3..5 Posouzeí kvalty regresí fukce Regresí fukce je tím vhodější, čím jsou apozorovaé hodoty více soustředěy kolem regresí křvky popsující průběh závslost. 30 Metody zkoumáí závslostí

Metody statstcké aalýzy Ozačíme-l y emprcké (zjštěé) hodoty závsle proměé Y, ŷ vyrovaé hodoty (hodoty ležící a regresí křvce), pak pomocí emprckých a vyrovaých hodot lze kostruovat tř růzé součty čtverců odchylek s růzou vypovídací schopostí: celkový součet čtverců (který charakterzuje celkovou varabltu) (I.45) Q = = ( y y) teoretcký součet čtverců charakterzuje část varablty závsle proměé Y zachyceou regresí fukcí (I.46) Q = ( yˆ y), T = rezduálí součet čtverců charakterzuje část varablty závsle proměé Y, kterou elze vysvětlt regresí fukcí (I.47) Přtom platí Q R = = ( y yˆ ). I.3..6 (I.48) Q = Q T + Q R. I.3..7 Jako míry vhodost regresí fukce lze použít celou řadu krtérí založeých a uvedeých rozptylech a kvaltu modelu pak posoudt souborě podle všech krterí. Rezduálí rozptyl (I.49) s R QR = p = = ( y yˆ ) p. Vhodá je regresí fukce, která má ejmeší rezduálí rozptyl. Determačí dex (dex determace), který je kostruová jako poměr teoretckého součtu čtverců a celkového součtu čtverců: Metody zkoumáí závslostí 3

Bakoví sttut vysoká škola (I.50) I Q Q T = = = = ( yˆ y) ( y y). Protože se jedá o podíl jedé část rozptylu a celku, může dex determace abývat pouze hodot v tervalu < 0; >. Idex determace vyjádřeý v % udává, jakou část rozptylu závsle proměé Y lze vysvětlt zvoleou regresí fukcí. Pokud se blíží hodota I jedé, lze usuzovat, že byla použta vhodá regresí fukce a že mez Y a X exstuje slá závslost. Pokud se blíží hodota I ule, pak usuzujeme buď, že byla použta evhodá regresí fukce ebo že mez Y a X exstuje je slabá závslost. Idex determace se ěkdy používá k charakterzováí síly závslost mez proměým Y a X: pokud je jeho hodota vysoká (blízká jedé), lze usuzovat a slou závslost, z ízké hodoty dexu determace ale elze usuzovat, že mez Y a X eexstuje závslost, eboť může exstovat, ale jého typu ež byla použtá regresí fukce. Za vhodější bereme takovou fukc, která má vyšší dex determace. Př výběru vhodé regresí fukce z ěkolka fukcí s růzým počtem parametrů je uto s uvědomt, že velkost dexu determace závsí a počtu parametrů regresí fukce (roste s počtem parametrů). V takovém případě se pro posouzeí, která fukce je vhodější, používá upraveý (modfkovaý) dex determace (v počítačích ozačeý adjusted R - squared), který pealzuje složtost fukce vyjádřeou počtem parametrů: (I.5) I upr = ( I. p "Výzamost" regresích koefcetů ověřeá dílčím t - testy o ulových hodotách regresích koefcetů (H : β = 0 ): 0 j (I.5) t b j =, t (-p). s b j Za vhodou bereme regresí fukc, která má výzamé regresí parametry (tj., zamíteme hypotézu o ulové hodotě regresích parametrů). Celkový F test testuje ulovou hypotézu: H 0 : β 0 = c, β = β =... = β k = 0. H : alespoň jede z parametrů β, β,...,β k eí ulový. 3 Metody zkoumáí závslostí

Metody statstcké aalýzy Testové krterum celkového F - testu má tvar: (I.53) F = QT p. F [(p-); (-p)] QR p Krtcký obor tvoří hodoty testového krtera F F -α [(p-);(-p)]. Vede-l celkový F - test k ezamítutí hypotézy H 0 (říkáme, že test je evýzamý), je zvoleá regresí fukce evhodá. V tomto případě už emá smysl provádět dílčí t - testy. Je-l celkový F- test výzamý, elze ještě usuzovat, že byla zvolea vhodá regresí fukce. Teto závěr je oprávěý, jestlže dílčí t - testy jsou výzamé. Příklad I.7 Pro údaje Příkladu I.6 posuďte, jestl exstuje vhodější regresí fukce ež přímka, kterou jsme použl v Příkladu I.6. Vhodou fukc vybereme podle výše proceta rozptylu závsle proměé Y, který můžeme vysvětlt vlvem ezávsle proměé X př použtí daé regresí fukce, tj. pomocí velkost dexů determace (v počítačích ozačeé R - squared). Výpočty dexu determace pro ěkteré regresí fukce uvádí Tabulka I-5. Tabulka I-5 Porováí regresích modelů pomocí dexu determace Model R-squared S-curve 93,5 Multplcatve 9,46 Expoetal 90,56 Lear 69,94 Z tabulky I-5 je zřejmé, že vhodější regresí fukcí by mohla být apř. S - křvka, pomocí této regresí závslost by bylo možo vysvětlt 93,5 % rozptylu počtu prodaých kusů, zatímco pomocí přímkového modelu pouze 69,94 %. Na Obrázku I-7 je uvede graf závslost s regresím modelem s S - křvkou, tabulka I-6 obsahuje výstupí tabulku modelu s použtím regresí S - křvky. Metody zkoumáí závslostí 33