10. Předpovídání - aplikace regresní úlohy



Podobné dokumenty
MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

You created this PDF from an application that is not licensed to print to novapdf printer (

Korelační a regresní analýza

Bodové a intervalové odhady parametrů v regresním modelu

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Statistika (KMI/PSTAT)

Tomáš Karel LS 2012/2013

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Lineární regrese. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE. Lineární regresní model

Regresní analýza 1. Regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

INDUKTIVNÍ STATISTIKA

odpovídá jedna a jen jedna hodnota jiných

Bodové a intervalové odhady parametrů v regresním modelu

Technická univerzita v Liberci

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Plánování experimentu

Regresní a korelační analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Úvodem Dříve les než stromy 3 Operace s maticemi

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

6. Lineární regresní modely

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

4ST201 STATISTIKA CVIČENÍ Č. 10

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

AVDAT Nelineární regresní model

KORELACE. Komentované řešení pomocí programu Statistica

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

4EK211 Základy ekonometrie

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Odhad parametrů N(µ, σ 2 )

4EK211 Základy ekonometrie

MODEL TVÁŘECÍHO PROCESU

Ilustrační příklad odhadu LRM v SW Gretl

Chyby nepřímých měření

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

otec syn

6. Lineární regresní modely

Voda a život Wasser und Leben

STATISTIKA I Metodický list č. 1 Název tématického celku:

Učební plán 4. letého studia předmětu matematiky. Učební plán 6. letého studia předmětu matematiky

Normální (Gaussovo) rozdělení

Pravděpodobnost a matematická statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

6. Lineární regresní modely

Testování hypotéz a měření asociace mezi proměnnými

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Měření závislosti statistických dat

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Regresní analýza. Eva Jarošová

KGG/STG Statistika pro geografy

Luxmetr LS-BTA, lampička, izolepa, 32 kusů průhledné fólie (nejlépe obaly od CD).

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

MATEMATIKA III V PŘÍKLADECH

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

STATISTICKÉ ODHADY Odhady populačních charakteristik

PRAVDĚPODOBNOST A STATISTIKA

TECHNICKÁ UNIVERZITA V LIBERCI

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Stavový model a Kalmanův filtr

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Diskrétní náhodná veličina

4EK211 Základy ekonometrie

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Národníinformačnístředisko pro podporu jakosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Kalibrace a limity její přesnosti

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Tvorba nelineárních regresních modelů v analýze dat

Transkript:

10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu anebo vysvětlované proměnné) na základě znalosti jiné veličiny (veličin) (nezávisle proměnných, regresorů, kovariát anebo vysvětlujících proměnných). Výsledkem regresní úlohy (analýzy) je nalezení matematické (regresní) funkce, která by co nejlépe zobrazovala průběh závislosti statistických znaků. Příkladem z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě historické znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory). Příklad skutečné regresní analýzy v praxi je například odhadování očekávané pooperační délky života pacientů trpících rakovinou. Na údajů o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. (regresory) a jejich délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. Coxovy regrese) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití. Při regresní analýze používáme různé typy regresních funkcí. Jsou například: Regresní přímka Y i = a + b. x i Regresní parabola 2 Y i = a + b. x i + c. x i Regresní hyperbola Y i = a + b / x i Regresní exponenciála Y i = a. b x Regresní funkce mocninná y = a. x b Regresní funkce logaritmická a Regresní funkce polynomická y a y ln( x) b b 2 6 1 x b2 x... b6 x 1

Regresní úloha měří obecně známé volné závislosti v konkrétních podmínkách, můžeme však pomocí ní mapovat a vyhledávat (chcete-li objevovat ) i dosud neznámé závislosti. Smysl má zabývat se podrobněji pouze závislostmi s vyšší intenzitou [0,7-0,99], u nichž je rozptyl pozorovaných hodnot kolem regresní funkce malý. Regresní funkce v tomto případě popisuje průběh závislosti spolehlivě a umožňuje např.: interpolaci hodnot závislé proměnné pro nenaměřené hodnoty nezávislé proměnné uvnitř intervalu měřených hodnot, extrapolaci hodnot závislé proměnné na základě průběhu regresní funkce mimo interval naměřených hodnot nezávislé proměnné (omezeně), odhad obtížně měřitelných hodnot závislé proměnné na základě snadno měřitelných hodnot nezávislé proměnné. Praktický postup řešení úlohy 1. Definování nezávislé (x) a závislé proměnné (y) a zjištění jejich hodnot některou ze známých metod (pozorování, měření, tázání). 2. Sestrojení korelačního (bodového) grafu (SW). 3. Vložení dostupných regresních grafů, funkcí a koeficientů spolehlivosti R 2 (SW). 4. Výběr nejvhodnější regresní funkce s použitím exaktního, logického a vizuálního přístupu. 5. Grafická předpověď odhad, pro zvolenou hodnotu nezávislé proměnné (SW). 6. Matematická předpověď výpočet, pro zvolenou hodnotu nezávislé proměnné dosazením hodnoty nezávislé proměnné (x) do vybrané regresní funkce. Exaktní přístup pro výběr regresní funkce spočívá ve výběru funkce s nejvyšším koeficientem spolehlivosti R 2. Tento koeficient je možné interpretovat také jako pravděpodobnost předpovědi. Poznámka: Hodnotu nezávislé proměnné na ose x můžeme při extrapolaci volit v různé vzdálenosti od původních dat. Teorie neřeší, zda je koeficient spolehlivosti stále stejný bez ohledu na tuto vzdálenost. Logická úvaha vede k hypotéze, že čím je zvolená hodnota na ose x vzdálenější od původních dat, tím by spolehlivost předpovědi závislé proměnné měla klesat. Logický přístup pro výběr regresní funkce spočívá ve výběru funkce, které průběh nejlépe vystihuje vztah nezávislé a závislé proměnné. Jde o například o situaci, kdy musí regresní funkce vycházet nevyhnutně z bodu [0, 0]. Vizuální (praktický) přístup spočívá ve vizuálním vzájemném posouzení vložených regresních funkcí z hlediska jejich praktické aplikace při předpovědi. 2

Příklad: Statistická otázka: Jakou cenu ojetých automobilů je možné očekávat po 15 letech provozu? Nezávislá proměnná je věk automobilů. Závislá proměnná je cena automobilů v autobazarech. Statistická data získaná pozorováním v autobazaru. Tab. 10.1 Datová tabulka věku a ceny ojetých automobilů Pořadové číslo automobilu Věk automobilů [rok] Ceny jednotlivých automobilů [ ] 1 2 6000 2 5 6000 3 5 6000.... 13 1700 n-1 13 1500 n 13 1300 Obr. 10.1 Korelační graf vztahu věku a ceny automobilů s vloženými regresními čarami 3

Výběr regresní funkce: Z exaktního pohledu je nejspolehlivější exponenciální regresní funkce s koeficientem spolehlivosti R 2 = 0,550. Z logického pohledu je nejvýhodnější mocninná funkce s R 2 = 0,456, která především u mladších automobilů lépe koreluje s množinou dat korelačního grafu. Zjevně nelogická je lineární funkce, která přechází ve věku 14 roků osu x. Z vizuálního - praktického pohledu bude zajímavé zkoumat ceny automobilů zhruba od 3 do 10 let věku. V tomto intervalu jsou přijatelné předpovědi podle všech regresních funkcí. Při předpovědi ceny starších automobilů musíme vyloučit lineární regresní funkci. Na základě předchozích úvah se přikloníme k předpovědi podle mocninné regresní funkce y = 12104x -0,58 s koeficientem spolehlivosti R² = 0,456. Výklad této hodnoty R 2 může být i pravděpodobnostní. Cenu ojetého automobilu je možné v tomto modelu odhadnout s pravděpodobností 0,456. Odhadnutá cena bude správná téměř u každého 4-5 automobilu. Grafická předpověď: Obr. 10.2 Korelační graf s předpovědí ceny automobilu ve věku 15 roků y = 12104 x -0,58 = 12104. 15-0,58 = 2516 Matematická předpověď: 4

Příklad experiment na použití nástroje ANOVA: Nezávislá proměnná je teplota spalin tzv. řízená nezávislá proměnná. Závislá proměnná je obsah škodlivé látky ve spalinách měřené hodnoty. Měřit teplotu a dopočítat (odhadovat) obsah škodliviny z regresní funkce je daleko rychlejší a levnější než určovat přímo obsah škodliviny chemickým rozborem. Osa závislé proměnné Y (množství škodlivin) pozorované hodnoty závislé proměnné (vždy nejméně jedna) regresní funkce řízené hodnoty nezávislé proměnné Osa nezávislé proměnné X (teplota spalin [ o C]) Obr. 10.3 Teoretický korelační graf z experimentu měření škodlivin při zvolených teplotách spalin Na řešení je možné použít komplexní SW nástroj ANOVA. Na grafu je možné vykonávat jednotlivé úkony jako v předcházejícím příkladě. 5

6

7