10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu anebo vysvětlované proměnné) na základě znalosti jiné veličiny (veličin) (nezávisle proměnných, regresorů, kovariát anebo vysvětlujících proměnných). Výsledkem regresní úlohy (analýzy) je nalezení matematické (regresní) funkce, která by co nejlépe zobrazovala průběh závislosti statistických znaků. Příkladem z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě historické znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory). Příklad skutečné regresní analýzy v praxi je například odhadování očekávané pooperační délky života pacientů trpících rakovinou. Na údajů o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. (regresory) a jejich délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. Coxovy regrese) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití. Při regresní analýze používáme různé typy regresních funkcí. Jsou například: Regresní přímka Y i = a + b. x i Regresní parabola 2 Y i = a + b. x i + c. x i Regresní hyperbola Y i = a + b / x i Regresní exponenciála Y i = a. b x Regresní funkce mocninná y = a. x b Regresní funkce logaritmická a Regresní funkce polynomická y a y ln( x) b b 2 6 1 x b2 x... b6 x 1
Regresní úloha měří obecně známé volné závislosti v konkrétních podmínkách, můžeme však pomocí ní mapovat a vyhledávat (chcete-li objevovat ) i dosud neznámé závislosti. Smysl má zabývat se podrobněji pouze závislostmi s vyšší intenzitou [0,7-0,99], u nichž je rozptyl pozorovaných hodnot kolem regresní funkce malý. Regresní funkce v tomto případě popisuje průběh závislosti spolehlivě a umožňuje např.: interpolaci hodnot závislé proměnné pro nenaměřené hodnoty nezávislé proměnné uvnitř intervalu měřených hodnot, extrapolaci hodnot závislé proměnné na základě průběhu regresní funkce mimo interval naměřených hodnot nezávislé proměnné (omezeně), odhad obtížně měřitelných hodnot závislé proměnné na základě snadno měřitelných hodnot nezávislé proměnné. Praktický postup řešení úlohy 1. Definování nezávislé (x) a závislé proměnné (y) a zjištění jejich hodnot některou ze známých metod (pozorování, měření, tázání). 2. Sestrojení korelačního (bodového) grafu (SW). 3. Vložení dostupných regresních grafů, funkcí a koeficientů spolehlivosti R 2 (SW). 4. Výběr nejvhodnější regresní funkce s použitím exaktního, logického a vizuálního přístupu. 5. Grafická předpověď odhad, pro zvolenou hodnotu nezávislé proměnné (SW). 6. Matematická předpověď výpočet, pro zvolenou hodnotu nezávislé proměnné dosazením hodnoty nezávislé proměnné (x) do vybrané regresní funkce. Exaktní přístup pro výběr regresní funkce spočívá ve výběru funkce s nejvyšším koeficientem spolehlivosti R 2. Tento koeficient je možné interpretovat také jako pravděpodobnost předpovědi. Poznámka: Hodnotu nezávislé proměnné na ose x můžeme při extrapolaci volit v různé vzdálenosti od původních dat. Teorie neřeší, zda je koeficient spolehlivosti stále stejný bez ohledu na tuto vzdálenost. Logická úvaha vede k hypotéze, že čím je zvolená hodnota na ose x vzdálenější od původních dat, tím by spolehlivost předpovědi závislé proměnné měla klesat. Logický přístup pro výběr regresní funkce spočívá ve výběru funkce, které průběh nejlépe vystihuje vztah nezávislé a závislé proměnné. Jde o například o situaci, kdy musí regresní funkce vycházet nevyhnutně z bodu [0, 0]. Vizuální (praktický) přístup spočívá ve vizuálním vzájemném posouzení vložených regresních funkcí z hlediska jejich praktické aplikace při předpovědi. 2
Příklad: Statistická otázka: Jakou cenu ojetých automobilů je možné očekávat po 15 letech provozu? Nezávislá proměnná je věk automobilů. Závislá proměnná je cena automobilů v autobazarech. Statistická data získaná pozorováním v autobazaru. Tab. 10.1 Datová tabulka věku a ceny ojetých automobilů Pořadové číslo automobilu Věk automobilů [rok] Ceny jednotlivých automobilů [ ] 1 2 6000 2 5 6000 3 5 6000.... 13 1700 n-1 13 1500 n 13 1300 Obr. 10.1 Korelační graf vztahu věku a ceny automobilů s vloženými regresními čarami 3
Výběr regresní funkce: Z exaktního pohledu je nejspolehlivější exponenciální regresní funkce s koeficientem spolehlivosti R 2 = 0,550. Z logického pohledu je nejvýhodnější mocninná funkce s R 2 = 0,456, která především u mladších automobilů lépe koreluje s množinou dat korelačního grafu. Zjevně nelogická je lineární funkce, která přechází ve věku 14 roků osu x. Z vizuálního - praktického pohledu bude zajímavé zkoumat ceny automobilů zhruba od 3 do 10 let věku. V tomto intervalu jsou přijatelné předpovědi podle všech regresních funkcí. Při předpovědi ceny starších automobilů musíme vyloučit lineární regresní funkci. Na základě předchozích úvah se přikloníme k předpovědi podle mocninné regresní funkce y = 12104x -0,58 s koeficientem spolehlivosti R² = 0,456. Výklad této hodnoty R 2 může být i pravděpodobnostní. Cenu ojetého automobilu je možné v tomto modelu odhadnout s pravděpodobností 0,456. Odhadnutá cena bude správná téměř u každého 4-5 automobilu. Grafická předpověď: Obr. 10.2 Korelační graf s předpovědí ceny automobilu ve věku 15 roků y = 12104 x -0,58 = 12104. 15-0,58 = 2516 Matematická předpověď: 4
Příklad experiment na použití nástroje ANOVA: Nezávislá proměnná je teplota spalin tzv. řízená nezávislá proměnná. Závislá proměnná je obsah škodlivé látky ve spalinách měřené hodnoty. Měřit teplotu a dopočítat (odhadovat) obsah škodliviny z regresní funkce je daleko rychlejší a levnější než určovat přímo obsah škodliviny chemickým rozborem. Osa závislé proměnné Y (množství škodlivin) pozorované hodnoty závislé proměnné (vždy nejméně jedna) regresní funkce řízené hodnoty nezávislé proměnné Osa nezávislé proměnné X (teplota spalin [ o C]) Obr. 10.3 Teoretický korelační graf z experimentu měření škodlivin při zvolených teplotách spalin Na řešení je možné použít komplexní SW nástroj ANOVA. Na grafu je možné vykonávat jednotlivé úkony jako v předcházejícím příkladě. 5
6
7