INTERVALOVÉ ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU

Podobné dokumenty
ZÁKLADNÍ POJMY a analýza výběru

Charakterizace rozdělení

Charakteristika datového souboru

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

IDENTIFIKACE BIMODALITY V DATECH

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

KGG/STG Statistika pro geografy

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Pravděpodobnost a matematická statistika

15. T e s t o v á n í h y p o t é z

Průzkumová analýza dat

Statistická analýza jednorozměrných dat

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Úvod do problematiky měření

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Lineární regrese. Komentované řešení pomocí MS Excel

Zápočtová práce STATISTIKA I

15. T e s t o v á n í h y p o t é z

Tomáš Karel LS 2012/2013

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Normální (Gaussovo) rozdělení

Testování statistických hypotéz

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

UNIVERZITA PARDUBICE

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Tomáš Karel LS 2012/2013

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

STATISTICKÉ ZJIŠŤOVÁNÍ

Regresní analýza 1. Regresní analýza

Odhad parametrů N(µ, σ 2 )

Kvantily a písmenové hodnoty E E E E-02

Aproximace binomického rozdělení normálním

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Výběrové charakteristiky a jejich rozdělení

PRAVDĚPODOBNOST A STATISTIKA

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Kalibrace a limity její přesnosti

ROZDĚLENÍ NÁHODNÝCH VELIČIN

Testování hypotéz o parametrech regresního modelu

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Testování hypotéz o parametrech regresního modelu

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Bodové a intervalové odhady parametrů v regresním modelu

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

5. T e s t o v á n í h y p o t é z

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Regresní a korelační analýza

Vlastnosti odhadů ukazatelů způsobilosti

Statistická analýza. jednorozměrných dat

pravděpodobnosti, popisné statistiky

Statistická analýza jednorozměrných dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

ZÁKLADNÍ ANALÝZA DAT S OHLEDEM NA LIMITU DETEKCE

Popisná statistika. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Odhad parametrů N(µ, σ 2 )

Inovace bakalářského studijního oboru Aplikovaná chemie

Vybraná rozdělení náhodné veličiny

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

MATEMATICKÁ STATISTIKA

Regresní a korelační analýza

Intervalové Odhady Parametrů

Téma 22. Ondřej Nývlt

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz

Cvičení ze statistiky - 8. Filip Děchtěrenko

Normální rozložení a odvozená rozložení

y = 0, ,19716x.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Statistická analýza jednorozměrných dat

STATISTICKÉ CHARAKTERISTIKY

Testování statistických hypotéz. Obecný postup

LINEÁRNÍ REGRESE. Lineární regresní model

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

12. cvičení z PST. 20. prosince 2017

Regresní a korelační analýza

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

PRAVDĚPODOBNOST A STATISTIKA

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Základy teorie odhadu parametrů bodový odhad

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Transkript:

INTERVALOVÉ ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU Interval spolehlivosti pro parametr τ při hladině významnosti α (0,1) je určen statistikami T 1 a T 2 :. P T τ T =1-α ( ) 1 2 X toto je bodový odhad neznámé střední hodnoty μ vypočítaný zprvků výběru nevíme nic o jeho vztahu ke skutečné střední hodnotě T 1 T 2 toto je intervalový odhad neznámé střední hodnoty - předpokládáme, že s pravděpodobností P =1-α leží μ kdekoli v tomto úseku číselné osy

Gosset, William Sealy ("Student"), 1876-1937 The probable error of a mean [Paper on the t-test], Biometrika 6 (1908), pp. 1-25

INTERVALOVÉ ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU α 1 a α 2 představují statistické riziko, že skutečná hodnota parametru τ bude ležet mimo hranice T 1 a T 2 T α 1 P = 1 - α = 1 (α 1 + α 2 ) α 2 τ τ T 1 T 2

JEDNOSTRANNÉ INTERVALOVÉ ODHADY Levostranný odhad Pravostranný odhad P(τ >T)=1 -α P(τ <T)=1 -α 1 2

POROVNÁNÍ JEDNOSTRANNÉHO A OBOUSTRANNÉHO ODHADU T α T 1 jednostranný intervalový odhad P = 1 - α α 1 α 2 τ T 1 oboustranný intervalový T 2 odhad P = 1 - α = 1 (α 1 + α 2 )

HLADINA VÝZNAMNOSTI α V INTERVALOVÝCH ODHADECH μ tento interval spolehlivosti neobsahuje střední hodnotu (je tedy chybný ), těchto intervalů se objeví nejvýše (100α) % x 2 x 1 x 2 tyto intervaly spolehlivosti obsahují střední hodnotu (jsou tedy správné ), těch (při opakovaných výběrech) bude nejméně (1- α).100 %

INTERVAL SPOLEHLIVOSTI STŘEDNÍ HODNOTY μ je známa směrodatná odchylka σ základního souboru nebo je používán velký výběr (nad 30 prvků) x-z σ μ x+zα n α/2 /2 σ n v případě velkého výběru lze použít místo σ výběrovou směrodatnou odchylku S dolní hranice horní hranice z α/2 je kvantil normovaného normálního rozdělení pro hladinu významnosti α/2

INTERVAL SPOLEHLIVOSTI STŘEDNÍ HODNOTY μ není známa směrodatná odchylka σ základního souboru a je používán pouze malý výběr (do 30 prvků) X-μ Platí, že veličina má t-rozdělení s k = ( n 1) stupni volnosti S n x-t α/2,n-1 S μ x+t α/2,n-1 n S n t α/2,n-1 je kvantil Studentova t-rozdělení pro hladinu významnosti α/2 a (n -1) stupňů volnosti

INTERVAL SPOLEHLIVOSTI STŘEDNÍ HODNOTY μ velikost základního souboru je známa (N) a výběrový soubor je relativně velký (n > 5 % N) Používá se korekce na konečný základní soubor: S n S n x tα/2.. 1 μ x+ tα/2.. 1 n N n N Účelem korekce je zmenšit standardní chybu x.

INTERVAL SPOLEHLIVOSTI STŘEDNÍ HODNOTY μ jednostranné intervaly Jednostranné intervaly se počítají podle stejných vztahů jako oboustranné, pouze hladina významnosti je α místo α/2, (veškeré statistické riziko chybného intervalu je na jedné straně)

FAKTORY OVLIVŇUJÍCÍ VELIKOST INTERVALU SPOLEHLIVOSTI (IS) Velikost výběru (čím větší výběr, tím užší IS). Hladina významnosti α (čím vyšší hodnota α, tím užší interval nižší hladina významnosti (např. 0,01 místo 0,05) znamená požadavek vyšší spolehlivosti určení IS. Pokud určíme α = 0.01, požadujeme spolehlivost IS P = 99%. Pokud určíme α = 0.05, požadujeme spolehlivost IS P = 95%, IS musí být širší pro P = 99% než pro P = 95%, protože musíme zaručit vyšší spolehlivost. Variabilita (čím vyšší hodnota směrodatné odchylky, tím širší IS). Použitý vzorec (pokud používáme t-rozdělení, je IS širší než při použití N(0,1), rozdíl je markantnější u malých výběrů).

FAKTORY OVLIVŇUJÍCÍ VELIKOST INTERVALU SPOLEHLIVOSTI (IS) 36 35 34 33 32 31 30 29 28 27 26 25 24 0.05;10;T 0.05;10;Z 0.01;10;T 0.01;10;Z 0.05;50;T 0.05;50;Z 0.01;50;T 0.01;50;Z

INTERVAL SPOLEHLIVOSTI SMĚRODATNÉ ODCHYLKY σ pro malé výběry Výpočet intervalu spolehlivosti směrodatné odchylky využívá χ 2 - rozdělení a je nesouměrný nesouměrnost je vyšší u odhadů vycházejících z malých výběrů. ns χ 2 2 σ ns 2 χ 2 α α 1-2 2

INTERVAL SPOLEHLIVOSTI SMĚRODATNÉ ODCHYLKY σ pro velké výběry (nad 30 prvků) Výpočet intervalu spolehlivosti směrodatné odchylky pro velké výběry využívá normovaného normálního rozdělení a je souměrný. σ =S±z. α/2 S 2n

INTERVALY SPOLEHLIVOSTI PROVEDENÍ V EXCELU interval spolehlivosti střední hodnoty a) pomocí doplňku Analýza dat rozsah dat výběru musí být zatrženo!! hodnota 100.(1-α)%

INTERVALY SPOLEHLIVOSTI PROVEDENÍ V EXCELU pomocí funkce CONFIDENCE hodnota α směrodatná odchylka (např. vypočítaná pomocí modulu Popisná statistika velikost výběru Způsob počítá interval spolehlivosti podle vzorce Způsob počítá interval spolehlivosti podle vzorce t α /2,n-1 z α /2 σ n S n

VELIKOST VÝBĚRU Obecně platí čím větší tím lepší. Nejlepší je žádný výběr a použít základní soubor. Obvyklá otázka: Jakou minimální velikost výběru potřebuji vzhledem k účelu analýzy a k požadované vypovídací schopnosti o základním souboru? Které kritérium použít? Jedním ze základních kritérií velikosti výběru je požadovaná přesnost a spolehlivost určení stanoveného parametru (obvykle střední hodnoty).

VELIKOST VÝBĚRU Jaká bude maximální povolená vzdálenost mezi odhadem parametru a vlastním parametrem? Odpovědí je přesnost odhadu, značená D. Jakou požadujeme spolehlivost, že skutečná vzdálenost mezi odhadem a skutečným parametrem bude menší nebo nejvýše rovna D? Odpovědí je spolehlivost odhadu daná hodnotou 100.(1-α). Musíme tedy určit hladinu významnosti α. Jaká je variabilita základního souboru (většinou ji neznáme, je nutné použít co nejpřesnější odhad). Určíme ji pomocí rozptylu (S 2 ) nebo variačního koeficientu (S%).

VELIKOST VÝBĚRU ZALOŽENÁ NA INTERVALU SPOLEHLIVOSTI μ Jakou velikost výběru n ze základního souboru s variabilitou danou rozptylem S 2 minimálně potřebuji, abych se spolehlivostí 100.(1-α) % zabezpečil, že střední hodnota μ se bude pohybovat v intervalu x ±D (výběrový průměr ± přesnost odhadu)? x +D -D μ

n=t VELIKOST VÝBĚRU ZALOŽENÁ NA INTERVALU SPOLEHLIVOSTI μ S 2 2 α/2 2 n=t α/2 2 D D [%] 2 (S%) t α/2 kvantil t-rozdělení pro hladinu významnosti α/2 a pro n - 1 stupňů volnosti. Pro 1. aproximaci n odhadneme, pro 2. počítáme s výsledným (n - 1) z 1. aproximace a pokračujeme tak dlouho, dokud se n mění. Pro velké výběry můžeme použít přímo z α/2. 2 1) Vzorec vlevo se používá, pokud variabilitu (S 2 ) i přesnost odhadu (D 2 ) určujeme absolutně, tj.v jednotkách měřené veličiny. 2) Vzorec vpravo se používá, pokud obé určujeme relativně (v %).

PŘÍKLAD 1. Určení koncentrace nečistot v surovině Byla sledována koncentrace nečistot v μg/g: DL, DL, 1.24, 1.49, 1.50, 1.56, 1.61, 1.78, kde DL značí hodnoty pod limitou detekce x D = 1 μg/g. Cíl: odhad střední hodnoty rozptylu a intervalu spolehlivosti za předpokladu normálního rozdělení.

Náhodný výběr reprezentovaný N-ticí dat x 1, x 2,, x N. Střední hodnotu, rozptyl a interval spolehlivosti střední hodnoty lze spolehlivě vypočítat jen při znalosti typu rozdělení pravděpodobnostního modelu měření. Existují dvě mezní situace dle rozmezí dat: 1) Rozmezí dat je v rámci jednoho řádu: užijeme standardní statistické metody za konstantního rozptylu a aditivního modelu měření. 2) Rozmezí dat je v rozmezí několika řádů: použijeme logaritmickou transformaci dat nebo multiplikativní model měření. Někdy nelze získat všechny výsledky měření, protože některé jsou pod mezí detekce DL = x D. Náhodný výběr reprezentovaný N-ticí dat x 1, x 2,, x N

1) Z počtu N je N - n 1 nad limitou detekce a zbytek n 1 je pod limitou detekce, prosté cenzorování zdola. 2) Při omezení shora je maximálně meřitelná hodnota UL = x U a n 2 měření je nad limitou intervalu stanovení, prosté cenzorování shora. 3) U oboustranného cenzorování jsou známy hodnoty pouze pro N - n 1 - n 2 prvků výběru. Cohen definuje u prostého cenzorování zdola tři základní úlohy: 1) Data pod limitou detekce n 1 a ani celkový počet N nejsou známa. Je k dispozici pouze N - n 1 hodnot, jednoduché uřezání. 2) Je znám počet hodnot n 1 pod mezí detekce x D a dále hodnoty N - n 1 prvků výběru celkové velikosti N, cenzorování typu I. 3) Nejmenších n 1 prvků pod mezí detekce nemá hodnotu. Pouze je známa hodnota x D, která je menší než než nejmenší hodnota prvků nad limitou detekce x (n1+1), kde x (n1+1) značí pořádkovou statistiku, cenzorování typu II. Standardně se řeší pouze cenzorování typu I.

PŘÍKLAD 2. Určení koncentrace ve stopové analýze Byla sledována koncentrace nečistot v μg/g, kdy řada hodnot je pod limitou detekce x D = 6 μg/g. Cíl: odhad střední hodnoty a intervalu spolehlivosti a) metodou původních nezměněných dat b) metodou cenzorovaného výběru dat, c) metodou uřezaného výběru dat, a d) metodou winsorizovaných dat.

Analýza dat s hodnotami pod LOD Originální data Cenzorovaná data Uřezaná data Winsorizovaná data

Originální data Cenzorovaná data Uřezaná data Winsorizovaná data

Fisher, Sir Ronald Aylmer, 1890-1962 Sir Ronald Fisher F.R.S. (1890-1962) was one of the leading scientists of the 20th century; making major contributions to Statistics, Evolutionary Biology and Genetics. This website has information about him and his work. perhaps the most original mathematical scientist of the [twentieth] century Bradley Efron Annals of Statistics (1976) Fisher was a genius who almost single-handedly created the foundations for modern statistical science. Anders Hald A History of Mathematical Statistics (1998) Sir Ronald Fisher could be regarded as Darwin s greatest twentieth-century successor. Richard Dawkins River out of Eden (1995) http://www.library.adelaide.edu.au/ual/special/fisher.html

Standardizace metodou Z-skóre (u, t, Z jsou transformované proměnné)

Gosset, William Sealy ("Student"), 1876-1937 The probable error of a mean [Paper on the t-test], Biometrika 6 (1908), pp. 1-25

Originální data Cenzorovaná data Uřezaná data Winsorizovaná data

Odhady parametrů Rozdělení měření pro oba modely obsahuje střední hodnotu μ a rozptyl a odhady získáme: 1) Momentová metoda: pro normální rozdělení: odhadem je aritmetický průměr x A a výběrový rozptyl s 2. 2 σ 2) Metoda maximální věrohodnosti získává odhad maximalizující logaritmus ( xi μ ) 2 i věrohodnostní funkce L, tj. ln( L) = ( N / 2)[ln(2 π) + ln( σ )] 2 2σ Pro první derivace logaritmu věrohodnostní funkce pak platí ln( L ) = 2 xi 2N μ μ, ( x i μ ) ln( L ) i N = 2 2 2 2 σ [ σ 2 ] 2σ maximálně věrohodné odhady střední hodnoty a rozptylu jsou totožné s průměrem a výběrovým rozptylem. i 2 2.

1) Stanovení typu rozdělení: pro výpočet F 1 t (P i ) je třeba znát obecně parametry teoretickéh rozdělení. V řadě případů je však možná standardizace s = ( x Q) / R, kde R je parame rozptýlení. Standardizované kvantilové funkce Q s (P i ) = Fs t 1 (P i ) obsahují jen tvarové faktory. V případě shody obou rozdělení pak resultuje přímková závislost x() i = Q + R. QS( Pi) = a + b. QS( Pi). 2) Odhady parametrů polohy a rozptýlení: odhad střední hodnoty odpovídá absolutnímu členu a odhad směrodatné odchylky směrnicí b regresní přímky. Pro odhad parametrů z Q-Q grafů je možno použít bud MNČ. Transformací z Y σ 1/ = ln[(1 + σ * ) ] má veličina z normované normální rozdělení N(0,1). Pořádková statistika x (i) pak souvisí s pořádkovou statistikou normovaného normálního exp( σ z ( i )) 1 x( i) = μ + τ μ τ g i( σ ) rozdělení z (i) dle + σ

V řadě případů je však možná standardizace = ( x Q) R, kde R je parametr rozptýlení. s / V případě shody obou rozdělení pak resultuje přímková závislost x( i) = Q + R. QS( Pi) = a + b. QS( Pi). Odhad střední hodnoty odpovídá absolutnímu členu a odhad směrodatné odchylky směrnicí b regresní přímky. Pro odhad parametrů z Q-Q grafů je možno použít bud MNČ.

Cenzorované výběry Pro odhady parametrů v cenzorovaných výběrech lze použít jak metodu maximální věrohodnosti, tak i metody založené a pořádkových statistikách. Cenzorování typu I: známe limitu detekce x L (mez pod kterou se zaznamenává pouze, Přítomnost měření) a předpokládejme, známe rozdělení dat charakterizované hustotou pravděpodobnosti f(x), resp. distribuční funkcí F(x). Pro cenzorovaná měření lze při znalosti distribuční funkce měření určit pouze pravděpodobnost s jakou leží pod mezí detekce, která je rovna F(x L ). Všechny možné kombinace n 1 prvků, které ve výběru velikosti N leží pod limitou detekce jsou dány binomickým koeficientem N!/(n 1! (N - n 1 )!). Věrohodností funkce má pro tento případ tvar N! ln( L) = n!*( N n N n F( X L ) 1 1)! i= n1 + 1 1 * f ( x( i) ).

Pro případ normálního rozdělení dat nalezl Cohen vztahy pro odhad střední hodnoty x C a rozptylu s odpovídající maximalizaci věrohodnostní funkce s využitím odhadů z necenzorované části dat Platí, že x N = 1 N x() i N n = +, 1 1 i n 1 s x x. N 2 2 N = ( () i N) N n 1 1 i= n + 1 x = x λ *( x x ) C N N L, 2 = 2 + *( ) 2 C N N L s s λ x x Parametr λ závisí: 1) na odhadnutém podílu cenzorovaných dat h = n1 / N a 2 2 2) na parametru g = sn /( xn xl). Hodnoty λ jsou tabelovány a existují také empirické vztahy. 1 1

Postačuje jednokrokový odhad založený na předpokladu, že počet hodnot pod limitou detekce 2 má binomické rozdělení a pro odhad střední hodnoty x CJ a rozptylu s CJ pak platí x = x q* s CJ N N N 2 x() i 2 i= n + 1 2 2 1 2 CJ = N N Φ N n1 ( ) *( * ( ) ) 1 s x s q h q Korekční faktor q má tvar q = ( N N n 1 ) 1 exp( 0.5*[ Φ ( h)] ) 2π. 2 Odhady xcj a 2 s CJ lze tedy určit relativně snadno bez nutnosti použití speciálních tabulek. Pro dvou-parametrové logaritmicko-normální rozdělení stačí místo hodnot x (i) použít jejich logaritmů ln (x (i) ) a logaritmovat i limitu detekce.

Originální data Cenzorovaná data Uřezaná data Winsorizovaná data

Praktické doplňky Při zpracování experimentálních dat záleží na množství informací, které jsou: I. Víme vše: známe pravděpodobnostní model a stačí pouze ověření předpokladů před konfirmativní statistickou analýzou II. Nevíme nic: postavíme datově závislý pravděpodobnostní model a provede se komplex analýza dat (1. EDA průzkumová, 2. Ověření předpokladů, 3. Transformace, 4. Porovnání výběrovéh rozdělení s teoretickými). III. Něco víme: postavíme empirický model se známými tak i datově závislými informacem pak se provede 1., 2., 3. a 4. analýza dat) Doporučené další postupy: 1) Robustní metody, 2) Využití zešikmených rozdělení, 3) Počítačově intenzivní metody, 4) Generalizovaná lineární regrese.

PŘÍKLAD 1. Určení koncentrace nečistot v surovině Koncentrace nečistot v μg/g: DL, DL, 1.24, 1.49, 1.50, 1.56, 1.61, 1.78, kde DL značí pod limitou detekce x D = 1 μg/g. Cílem: odhad střední hodnoty, rozptylu a intervalu spolehlivosti pro normální rozdělení. Řešení: 1. metoda: Postup s vynecháním hodnot pod mezí detekce (nevhodné, chybné!) Průměr = 1.53 a výběrová směrodatná odchylka s = 0.18. Kvantil t rozdělení t 0.975 (5) = 2.571 a 95% interval spolehlivosti UC = 1.72, LC = 1.34. 2. metoda: Maximalizace věrohodnostní funkce Parametr h = 0.25, parametr g = 0.11 a tabelovaná hodnota λ = 0.3387. Průměr = 1.35 a výběrová směrodatná odchylka s = 0.36 a 95% interval spolehlivosti UC = 1.72, LC = 0.98. 3. metoda: Jednokroková aproximace maximalizace věrohodnostní funkce Průměr = 1.46 a výběrová směr. odchylka s = 0.20 a 95% interval spolehlivosti UC = 1.67, LC = 1.25. 4. metoda: Pořádkové statistiky Ze směrnice a úseku určených klasickou MNČ vyšlo: Průměr = 1.43 a výběrová směrodatná odchylka s = 0.24 a 95% interval spolehlivosti UC = 1.68, LC = 1.18.

Rankitový graf spolu s regresními přímkami je pro klasickou a robustní MNČ. 1.8 Pořádková statistika 1.6 1.4 Robustní MNČ 1.2-0.5 0.0 0.5 1.0 1.5 Kvantil normálního rozdělení Závěr: Je patrné, že postupy beroucí v úvahu limitu detekce vedou k výrazně nižší dolní mezi intervalu spolehlivosti. Formální aparát statistiky resp. přizpůsobení dat potřebám statistické analýzy bez hlubšího rozboru zde může vést ke katastrofálním závěrům.