Zpracování dat z experimentů fyziky vysokých energií

Rozměr: px
Začít zobrazení ze stránky:

Download "Zpracování dat z experimentů fyziky vysokých energií"

Transkript

1 Zpracování dat z experimentů fyziky vysokých energií Kód přednášky: JSF109p1a RNDr. Peter Kodyš, CSc. 1, Ústav částicové a jaderné fyziky, MFF UK Připraveno pro školní rok , datum poslední aktualizace: 26. října 2008 Za obsahové i formální připomínky i korekce budu vždy vděčný. 1 peter.kodys@mff.cuni.cz, Trója, KO, 9. patro č.dv. 906, tel: (22191)2453,2761

2 Rozsah v ZS: 2/0 Zk, školní rok: 2005/2006, počet míst: neomezen, určeno: 3,4,5 ročník Základní cíl: na konci přednášky by student měl být schopen posoudit kvalitu nabraných dat a měl by rozumět typickým postupům spojeným s vyhodnocováním dat a měl by být schopný mnohé kroky zrealizovat vlastními silami. Vymezení přednášky: statistické metody nutné pro vyhodnocování dat z moderních detektorů, jejich použití např. pro měření vlastností detektoru, rekonstrukce dráhy částic a jejich průsečíků vertexů, metody fitování a určování chyby měření, programový analytický balík ROOT. Data Evaluation in High Energy Physics Experiments Course Objective: after taking this course, students should be able to evaluate quality of acquired data and understand the typical data evaluation methodology as well as to carry out many steps single-handed. Course Layout: statistics in evaluation of data acquired in modern detectors, its implementation methods, e.g. detector properties assessment, particle tracks and their intersections (vertices) reconstruction, fitting, measurement error evaluation and evaluation tools program framework ROOT. Osnova: 1. Programovací techniky a programy pro vyhodnocování dat (ROOT a jeho použití). 2. Druhy a způsoby nabírání dat, jejich organizace, analogové a digitální zdroje dat. 3. Vlastnosti nabíraných dat a jejich zdrojů, rovnice odezvy, signál / šum, S-křivky, časová odezva signálu, synchronizace, triggering, určováni chyb měření. 4. Signál z detektorů: přechod od signálu detektoru k bodu v prostoru, rekonstrukce dráhy částice, rekonstrukce vertexu rozpadu částice, polohování detektorů (alignment), použití metody nejmenších čtverců. 5. Analogové zpracování signálu, základy vyhodnocování spekter, neurální sítě. 6. Práce na software velkých experimentů a jeho organizace, světová výpočetní distribuovaná sít grid, Athena. Doporučené doplňující přednášky: JSF081 Výpočetní technika ve fyzice vysokých energií (T. Davídek) JSF101 Polovodičové detektory v jaderné a subjaderné fyzice (Z. Doležal) JSF075 Detektory pro fyziku vysokych energii (J. Hladký) Rozsah: 12 přednášek. Příklady jsou prováděny s daty z vnitřního detektoru experimentu ATLAS v letech s použitím testovacích svazků, praktika UČJF v Tróji (spektrum) a z testů v Paříži (analogový detektor). 1

3 2 Seznam přednášek: 1. Úvod do přednášky a její náplň, shrnutí statistických metod. 2. C++ a ROOT - rychlokurz. 3. Druhy nabírání dat a elektronika. 4. Vlastnosti nabíraných dat a jejich zdrojů. 5. Chyba měření, neurální sítě. 6. Příklad výpočtu účinnosti detektorů. 7. Od signálu detektoru k bodu v prostoru, dráhy částice, místo rozpadu částice. 8. Zpracování signálu analogového detektoru, vyhodnocování spekter. 9. Polohování detektorů (alignment). 10. Fitování funkcí, automatizace analýzy. 11. Fitování dráhy částice, chyba fitu, nalezení vertexu častice. 12. Práce na velkých experimentech, jeho organizace, světová výpočetní distribuovaná sít grid, Athena. Na závěr: seznam řešených příkladů, poděkování a doporučená a rozšiřující literatura. Příklady k přednáškám: 1. Úvod do práce s C++ a ROOT - základy, fitování, ntuple. 2. Příklad jak se dají různě volat funkce na fitování v ROOT. 3. Zkouška práce s cernlib knihovnami. 4. Příklad zpracování SCT ATLAS detektorů z testbeamu ze zdrojových ROOT souborů. 5. Příklad vyhodnocení účinnosti SCT ATLAS detektorů z testbeamu. 6. Příklad jemného alignmentu teleskopů z reálných dat ATLAS SCT testbeam. 7. Příklad jemného alignmentu detektorů z reálných dat ATLAS SCT testbeam. 8. Příklad volání minimalizačního balíku Minuit v sobě samém, Minuit volá funkci, která sama volá nezávisle Minuit i pro sebe. 9. Příklad vyhodnocení analogového signálu z detektorů. 10. Zobrazení různých funkcí z nabídky ROOT. 11. Příklad použití neurálních sítí. 12. Příklad práce se spektrem a jeho zpracováním. 13. Příklad různých způsobů proložení bodů přímkou metodami nejmenších čtverců. 14. Ukázka dvou způsobů ohraničení regresní závislosti: pásem predikce a pásem spolehlivosti.

4 Obsah 1 Shrnutí statistických metod Značení Důležitý koeficient: korelační Popis dat Průměr Rozptyl Víc proměnných Typy rozdělení Obecné Binomické Poissonovo Gaussovo Jiné Chyby Práce s chybami Kombinace více chyb Systematické chyby Odhady Maximální pravděpodobnost Nejmenší čtverce χ 2 distribuce Pravděpodobnost a důvěryhodnost Studentovo rozdělení Rozhodování Seřazovací metody

5 OBSAH Mann-Whitneyův test Měření shody ROOT - rychlokurz Úvod do jazyka C/C++ jazyka Základní operace Příklad kódu s hlavičkovým souborem Příslušný hlavičkový soubor Úvod do práce v prostředí ROOT Instalace ROOT Spouštění maker a práce s externími knihovnami Příklad makra a některých operací s daty v ROOT Fitování funkcí a práce s ntuple Jak vyrobit class třídu DLL v prostředí ROOT na čtení dat z detektorů a pro připojení CERNLIB knihoven Výroba DLL knihovny s třídou na čtení TTree formátu dat v ROOT Výroba DLL knihovny s třídou na používání CERNLIB knihoven Druhy nabírání dat a elektronika Jaká data se sbírají a jak? (trochu elektroniky) Organizace nabíraných dat - ukládaný formát Zdroje dat Využití počítačů při měření fyzikálních veličin v jaderné a subjaderné fyzice Úvod Připojení přes sériový, paralelní nebo USB port Speciální karty Univerzální karty Standardní systémy Popis jednotlivých systémů Vlastnosti nabíraných dat a jejich zdrojů Účinnost odezvy v závislosti od předpětí na detektoru Účinnost sběru náboje detektoru Šum Poměr signál k šumu Cluster size

6 OBSAH Odezva detektoru mezi detekčními diodami a na okrajích Odezva na magnetické pole, vliv Lorenzova úhlu Měření šikmého dopadu částic Odezva a změny vlastnosti po ozáření detektorů, jeho degradace (R&D, irradiation) Odezva na různé druhy částic, různé energie částic Rekonstrukce těchto charakteristik z měření na jednotlivých prazích Kalibrace, rovnice odezvy Časová odezva detektoru Chyba měření, neurální sítě Určení chyby při vynesení změřeného bodu Standardní určení chyby (gaussovské, symetrické) Pravděpodobnostní určení chyby (F-rozdělení, nesymetrické) Příklady Neurální sítě při vyhodnocování experimentů Úvod Terminologie při použití neurálních sítí MLP - vícevrstvé sítě - třídění, vlastnosti a učení Před použitím sítě Po použití sítě Proč vlastně požívat neurální sítě Použití NN v ROOTu Příklad výpočtu účinnosti detektorů Od raw data do ROOT trees Jak číst ROOT trees, příprava class dll pro čtení První krok: hitmapa teleskopů a testovaných detektoru (DUT) Teleskopy: od adjustace k dráze částice a mapě testovacího svazku DUT: vyčistění odezvy, maskování kanálů Polohovaní detektorů - alignment Reziduály - odchylky dráhy částice od odezvy detektoru Účinnost a šumová obsazenost kanálů a chyba jejich určení S-křivka a medián Příklad analýzy binárního detektoru

7 OBSAH 6 7 Od signálu detektoru k bodu v prostoru, dráhy částice, místo rozpadu částice Geometrie detektoru a přesnosti z výroby Rekonstrukce bodu v prostoru Hledání drah v detektoru Základ hledání drah Principy hledání drah Vlastnosti hledání drah Metody hledání drah Rekonstrukce dráhy v prostoru, fitování, algoritmy Hledání průsečíků (vertexů) v detektoru Zpracování signálu analogového detektoru, vyhodnocování spekter Analogové zdroje signálu Software pro analýzu šumu Definice základních veličin Testy detektorů SiLCu pomocí beta zářiče Výpočet poměru signál-šum (S/N) stripovývh detektorů Další funkce programu Výsledky Závěr Spektra Eliminace pozadí Dekonvoluce multipletů Vyhlazení šumu Najít píky v spektru a jejich identifikace Fitování Analýza dat ortogonálními transformacemi, filtrování Vícerozměrná spektra Příklad vyhodnocení analogového detektoru Příklad vyhodnocení spektra Polohování detektorů (alignment) Podmínky - selekce vhodných eventů Minimalizace kvadrátů odchylek a alignment teleskopů

8 OBSAH Alignment detektorů (DUT) Užitečné rady a doporučení Příklad v MS Excell Příklad v ROOT Fitování funkcí, automatizace analýzi Ruční určení chyby při regresi - univerzální návod Fitování funkcí v prostředí Excel - ručně Fitování funkcí v prostředí ROOT Automatizace procesu fitování funkcí Fitování dráhy částice Fitování dráhy částice přímkou I Fitování dráhy částice přímkou II Určování chyby polohy dráhy v libovolném bodě Fitování zakřivených drah Hledání průsečíků dvou drah, vertexů Práce na velkých experimentech Software na velkých exerimentech Programový rámec Athena Úvod Struktura souborů ATLAS SW Struktura adresáře balíčků Spouštění úlohy v Athene Generátory Simulace + Digitizace Rekonstrukce Datové soubory Analýza Správa a vývoj SW v Athene CASTOR Výpočetní světová sít : Grid Závěrečné komentáře Seznam řešených příkladů 148

9 Kapitola 1 Shrnutí statistických metod Podle toho co srovnáváme a vyhodnocujeme můžeme rozdělit testy na χ 2 - test, F-test, T-test nebo vyhodnocování gaussovského rozdělení. Důležité je také si uvědomit, že χ 2, F a T testy při dostatečně velkém souboru vyhodnocovaných dat přecházejí do podmínek pro Gausovo rozdělení. Skutečnou užitečnost testy ukazují při menších souborech dat a při jejich nejednoznačné příslušnosti k vyhodnocované podmínce. V dalších kapitolách shrneme základní vztahy, které nám pomáhají ve využívání statistických metod při vyhodnocování dat. 1.1 Značení N, n, m - počet vyhodnocovaných dat, událostí, events X i, Y i - vyhodnocovaná data X, Ȳ - výběrový průměr: X = 1 N N X i (1.1) 1 s x, s y - směrodatná odchylka výběrového průměru s 2 x, s 2 y - rozptyl z měřených hodnot s 2 = 1 N 1 N (X i X) 2 = 1 N 1 N 1 ( Xi 2 2N X 1 N X i + N 2 X2 ) (1.2) 1 8

10 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 9 µ - střední hodnota σ - směrodatná odchylka σ 2 - rozptyl α - pravděpodobnost nastání jevu α (0, 1), α jev již nenastane, α jev se uděje LI - levostranný interval PI - pravostranný interval OI - oboustranný interval N(µ, σ 2 ) - normální rozdělení pravděpodobnosti µ(α) - kritická hodnota pro N(0, 1) χ 2 k(α) - kritická hodnota rozdělení (číslo, které náhodná veličina s rozdělením χ 2 k překročí s pravděpodobností α) T k (α) - Studentovo rozdělení pro k-stupňů volnosti na hladině pravděpodobnosti α r k (α) - kritická hodnota pro korelační koeficient r w k (α) - kritická hodnota pro jedno výběrový Wilcoxonův test F m,n (α) - kritická hodnota shodnosti rozptylu (Fisher-Snedecorov test) w m,n (α) - kritická hodnota dvou výběrového Wilcoxonovho testu 1.2 Důležitý koeficient: korelační Korelační koeficient ukazuje stupeň provázanosti dvou veličin navzájem, stupeň jejich vzájemné korelace, souvislosti mezi sebou. Platí: ρ = σ XY σ 2 Xσ 2 Y (1.3) r = r = S XY SXS 2 Y 2 Xi Y i N XȲ ( Xi 2 N X 2 )( Yi 2 NȲ 2 ) (1.4) (1.5) kde ρ je stupeň korelace mezi X a Y, r je výběrový korelační koeficient z rozsahu r 1, 1

11 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD Popis dat Data můžeme rozdělit na diskrétní (nabývající jen některé hodnoty) nebo spojité. Při jejich popisu můžeme použít nejrůznější kritéria, nejobvyklejší je určení průměru hodnot, rozptylu hodnot a vztah mezi více proměnnými, pokud jsou Průměr Průměr (avarage) je obvykle určen jedním z následujících spůsobů: 1. aritmetický (arithmetic mean) se používá při použití statistických testů když máme symetrické rozdělení, data jsou spojitá. Aritmetický průměr z pruměrů: x = xi N (1.6) x = Ni x i Ni (1.7) Aritmetický průměr když měření mají četnost f i : x = fi x i fi (1.8) 2. geometrický (geometric mean) 3. harmonický (harmonic mean) x = N x i x 2 x 3...x n (1.9) x = N 1/xi (1.10) 4. medián (median) Když seřadíme měření x i podle velikosti (podle velikosti hodnoty x i ), platí: Me = 0.5(x N/2 + x N/2+1 ) pro sudé N (1.11) Me = x N/2 pro liché N (1.12) Použití má hlavně když jsou data hodně zešikmené (nesymetrické rozdělení) nebo jsou v ních odlehlé hodnoty a chceme znát střed rozdělení dat.

12 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD modus (mode) Mo nebo x je hodnota x i která se vyskytuje nejčastěji, u spojitého histogramu hodnota, kde je maximum, pokud je maxim víc, děla se jejich vážený průměr. Používá se hlavně pro diskrétní data, když existuje víc vrcholů, když nám stačí orientační přehled nebo hledáme nejčastější hodnotu. 6. středních čtverců (root mean square) x = x 2 i N (1.13) Dále je důležité si uvědomit, jesli máme pravdivý průměr µ nebo změřený průměr x Rozptyl To, že měřené hodnoty dat nedávají stejné číslo způsobuje jejich rozptyl (spread). Když vyneseme hodnoty měření na x-ovou osu grafu rozděleného na chlívky, vždy spadnou do některého z chlívků, dostaneme obyčejně některé chlívky víc naplněné a jiné míň. Takový typ grafů nazýváme histogram a pozorujeme na něm obvykle maximum, kde hodnoty měření dopadali nejčastěji doprostřed kopečka. Když postupujeme histogramem zleva a počítáme, kolik z celkového počtu měření jsme už zaznamenali, budeme přecházet přes některé zajímavé hodnoty zvane percentily: 1. percentil s hladinou 2.5% resp. 97.5% : krajní hodnoty důležité pro určování hranic ve fyzice 2. percentil s hladinou 5% resp. 95% : podobně, krajní hodnoty důležité pro určování hranic ve fyzice 3. percentil s hladinou 25% : první, dolní kvantil Q I, q = 25% 4. percentil s hladinou 50% : druhý, střední kvantil, medián Q II, q = 50% 5. percentil s hladinou 75% : třetí, horní kvantil Q III, q = 75% Dále je zadefinovaný centrální moment (central moment) m, k-tého stupně z n počtu dat: (xi x) k m k = (1.14) N

13 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 12 Dále je důležité, podobně, jako u střední hodnoty, si uvědomit, jesli máme pravdivou skutečnou střední odchylku σ nebo střední odchylku z měření s. Rozptyl obvykle určujeme nebo popisujeme jako: 1. standardní směrodatná odchylka (standard deviation) je definovaná jako odmocnina z rozptylu: σ = (xi x) 2 N (1.15) (xi x) s = 2 (1.16) N 1 Když hrozí pomíchání nebo nejasnost, je dobré použít explicitně, který vztah použijeme, formou třeba: σ N, σ N 1 Standardní směrodatná odchylka je silně ovlivňována odlehlými hodnotami a nesymetrií rozdělení. 2. rozptyl (variation) σ 2 = (xi x) 2 N = x 2 i N x 2 N (1.17) 3. jiný alternativní popis: FWHM, FW(1/5)M, špičatost, symetričnost,... (a) FWHM - full width at half of maxima, celá šířka píku v polovině výšky maxima (b) FW(1/5)M - celá šířka píku v jedné pětině výšky maxima (c) špičatost (sharpnes): leptokurtická = špičatější než normální, platykurtická = méně špičaté než normální, dá se kvantifikovat: S 1 = m 4 2 kde: m m 2 k je centrální moment (1.18) 2 (d) symetričnost: zešikmení (skew) zprava nebo zleva, míra zešikmení se vyjadřuje více spůsoby: S 2 pomocí 2. a 3. centrálního momentu: KS pomocí kvartilů: KS = Q III + Q I 2 x Q S 2 = m 3 m 3/2 2 (1.19) kde Q je kvantilové rozpětí (1.20)

14 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 13 SK podle K. Pearsona: SK = 3( x Me) s (1.21) využívá při zešikmení nerovnost mediánu M e a aritmetického průměru x Víc proměnných Pokud vyhodnocujeme víc proměnných, zajímá nás víc vlastností: hlavně do jaké míry a jakým způsobem spolu souvisí nebo jsou nezavislé. K tomu máme vytvořené některé nástroje, jako: 1. kovariance - souvislost mezi daty (covariance): cov(x, y) = 1 = 0 nezávislé (x i x)(y i ȳ) = xy xȳ = > 0 přímá úměra N i < 0 nepřímá úměra (1.22) 2. korelace (correlation): ρ = cov(x, y) = σ x σ y = (1.23) 3. pro víc proměnných je nutné prověřit vzájemný vztah různých kombinací proměnných a vytvořit tak kovarianční matici (taky nazývanou odchylkovou nebo chybovou maticí) a kovarianční matici. 1.4 Typy rozdělení Obecné Ve statistice platí zákon velkých čísel: při zvyšování počtu měření se výsledek blíží výsledku získanému z nekonečného počtu měření, nebo očekávaná hodnota r označená jako r nebo i µ konverguje ke středu (mean) je určená: r = µ = r rp (r) (1.24)

15 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 14 kde P (r) je rozložení pravděpodobnostní funkce (hustoty pravděpodobnosti) (probability density distribution). Pro kontinuální rozložení dat pak platí, ža pravděpodobnost s jakou dostaneme nějakou hodnotu měření v hranicích < x 1, x 2 > je určená vztahem: nebo inverzně: P ravdepodobnost = x2 P (x) = lim δx 0 P ravdepodobnost δx x 1 P (x)dx (1.25) (1.26) Binomické Binomial probability distribution: pravděpodobnost P počtu r úspěchů z n pokusů, z nichž každý bude úspěšný s pravděpodobností p, bude: P (r; p, n) = p r (1 p) n p n! r!(n r)! = pr (1 p) n p nc r (1.27) kde máme r úspěchů z n pokusů, p je pravděpodobnost lokálního úspěchu, nc r je binomický koeficient. Střední hodnota úspěchu bude: Standardní odchylka: σ = r = np (1.28) np(1 p) (1.29) Binomické rozdělení poskytuje informaci o úspěchu i neúspěchu Poissonovo Poissonovo rozdělení poskytuje informaci jen o úspěchu. To znamená, že např. víme kolikrát částice prolétla detektorem, ale samozřejmě se nemůžeme vyjádřit k tomu, kolikrát neprolétla. Pravděpodobnost P pozorování r událostí, když očekáváme střední hodnotu λ, je: Střední hodnota úspěchu bude: P (r; λ) = e λ λ r r! (1.30) r = λ (1.31)

16 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 15 Standardní odchylka: σ = λ (1.32) Pro λ > 10 se rozdělení už podobá Gaussovu rozdělení. Pro součet dvou Poissonových distribucí platí: λ vysledne = λ 1 + λ Gaussovo P (x; µ, σ) = 1 σ 2π e (x µ)2 /(2σ2 ) (1.33) Pokud z = (x µ)/σ, pak se rovnice upraví na jednotkové normalizované rozdělení: P (z) = 1 2π e x2 /2) Některé důležité vlastnosti Gaussova rozdělení jsou v tabulce 1.1. (1.34) Obsah plochy uvnitř ohraničení σ Ohraničení σ obsahu plochy hranice v σ plocha v % plocha v % hranice v σ Tabulka 1.1: Vybrané vlastnosti Gaussova rozdělení Jiné 1. Pravoúhlé jednotkové: P (x) = { 1 b a pro a x b 0 jinde (1.35) Střední hodnota bude: Standardní odchylka: r = a + b 2 (1.36) σ = b a 12 (1.37) 2. Weibull rozdělení umožňující popsat ostrost funkce (parametr β): P (x; α, β) = αβ(αx) β 1 e (αx)β (1.38)

17 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD Breit-Wigner nebo Cauchy rozdělení dává pravděpodobost přechodu částice o hmotnosti m do resonance hmotnosti M s šířkou Γ. Funkce nemá rozptyl, protože její celkový integrál diverguje. nebo v Cauchyho redukci: 1.5 Chyby Práce s chybami F (m; M, Γ) = 1 Γ (1.39) 2π (m M) 2 + (Γ/2) 2 F (z) = 1 π z 2 (1.40) Platí centrální limitní teorém: Pro výběr N nezávislých hodnot x i z dat rozložených podle rozdělení se středem µ i a rozptylem σi 2 platí pro součet: očekávaná hodnota: bude mít rozptyl: N X = x i (1.41) i=0 X = µ i = Nµ (1.42) σ 2 = σ 2 i (1.43) pro N Pro N měření se chyba vylepší 1/ N, dostaneme standardní chybu průměru: Pro vážené měření s různými σ i platí: σ nove = σ jednomereni (1.44) N x = xi /σ 2 i 1/σ 2 i (1.45) σ 2 = 1 1/σ 2 i (1.46)

18 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD Kombinace více chyb Pro určení rozptylu funkce s více proměnnými zatížených chybou platí: f(x, y) : σ 2 f(x,y) = ( ) 2 δf σx 2 + δx ( ) 2 δf σy δy ( δf δx ) ( ) δf ρσ x σ y (1.47) δy Systematické chyby Systematické chyby se objevují, když náš metr nemá stejnou vzdálenost mezi vrypy, nebo když měření nejsou nezávislá. Je důležité je najít, rozpoznat, vyhodnotit a odstranit. Pokud se podaří je vyhodnotit, zapisujeme je jako: A = ± 3.2 ± 5.3, kde ±3.2 je statistická chyba a ±5.3 je složka od systematické chyby. 1.6 Odhady Odhady (estimations) jsme nuceni dělat vždy, když nemůžeme měřit přesně, nebo když nám přesnost měření je málo a chceme se dozvědět víc. Odhad je procedura, dělaná nad souborem měřených dat v numerické formě, za účelem zjištění skutečného (nebo alespoň jeho odhadu) rozdělení dat, z kterého jsou vzorky vybrané. Odhadová funkce L (Gauss, Landau,...) má obecně tvar: L(x 1, x 2,..., x N ; a) = P (x i ; a) P (x, a)dx = 1 (1.48) kde a je vlastnost rozdělení na které závisí rozptyl hodnot x i a kterou měřím. Základní očekávané vlastnosti odhadu jsou (pokud nebudou splněny, odhad bude špatný ): 1. konzistentnost (consistency): zvyšováním počtu měření se blížíme skutečné hodnotě, nesklouzneme mimo: lim â = a (1.49) N 2. nezatíženost (unbiased): skutečná hodnota je očekávanou hodnotou: â = a (1.50) 3. účinnost (efficiency): snažíme se měřit účinně, tj. s malým rozptylem

19 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 18 Existuje hranice maximální přesnosti odhadu, nazývaná minimální variační rozptyl (minimum variance bound, MVB) pro L podle 1.48: σ 2 1 (d ln L/da) 2 = 1 (d 2 ln L/da 2 ) (1.51) Pro Gausse je např.: MV B = σ2 N pro mean µ (1.52) MV B = 2σ4 N a z toho pak pro chybu σ a ρ: pro standardní odchylku σ (1.53) σ σ = σ 2N (1.54) σ ρ = 1 ρ N 1 (1.55) Poslední vztah je víc gaussovský, když použijeme substituci: z = 1 2 ln 1 + ρ 1 ρ (1.56) pak: σ z = 1 N 3 (1.57) Maximální pravděpodobnost Pro zjednodušení vztahu 1.48 je výhodné zavést maximální pravděpodobnost z podmínky derivace (maximal likelihood, ML): d ln L da = 0 (1.58) což umožňuje citlivěji nastavovat odhady a i pro malá N nejsou data zatížená. Když nahradíme P nenormalizovanou funkcí Q, dostaneme rozšířenou maximální pravděpodobnost (extended maximal likelihood, EML) Další přístupy jsou například: Q(x, a)dx = ν (1.59)

20 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD metoda momentů (method of moments) x = xp (x; a)dx = xp (x; â)dx = ˆx pro normalizaci: P (x; â i )dx = 1 (1.60) 2. metoda nejmenších čtverců (least squares) je užitečná, když máme data uspořádaná do dvojic x i, y i, x i známe a y i měříme, y = f(x) kde f(x) je Gaussian, pak můžeme napsat: P (y i ; a) = 1 e [y i f(x i ;a)]2/2σ2 i pravděpodobnost pro y i a dané x i σ i 2π (1.61) ln L = 1 [ ] 2 y i f(x i ) ln σ i 2π pravděpodobnost pro datový soubor 2 σ i (1.62) [ ] 2 y i f(x i ; a) = 0 minimalizační podmínka (1.63) σ i Víc detailů a praktické použití v příkladech je na: 1.7, 11.1 (str. 124). 3. metoda přímého strategického výběru (stratified sampling - beating N) umožňuje zlepšit statistiku využitím znalosti dalších souvislotí ve výběru, např. součet kluků a dívek v souboru je konstanta. 1.7 Nejmenší čtverce Metoda nejmenších čtverců (Least Squares) se využívá k nalezení neznámého parametru ze souboru měřených dat. Podmínkou uspěchu je soubor dobře určených x hodnot, odpovídající soubor y hodnot měřených s přesností σ a funkce f(x; a) předpovídající y pro libovolné x, parametr a je známý svou úlohou ve funkci ale neznámý svou hodnotou, a tento tedy budeme hledat. Princip metody nejmenších čtverců je odvozen od maximální pravděpodobnostní funkce a využívá minimalizaci součtu čtverců y-ových odchylek od optimální fitované přímky, vzdáleností y i od f(x i ; a). Minimalizovaný součet nazýváme χ 2 : [ ] N 2 χ 2 yi f(x i ; a) dχ 2 = xa = 0 (1.64) i=1 σ i

21 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 20 Pak platí: 1 df(x i ; a) [y σi 2 i f(x i ; a)] = 0 (1.65) da Sumarizace důsledků fitu přímkou je: a k tomu vyjádření chyby: ˆm = σ 2 m = V ( ˆm) = xy xȳ x 2 x 2 (1.66) ĉ = ȳ ˆm x (1.67) σ 2 N(x 2 x 2 ) (1.68) σ 2 c = V (ĉ) = σ 2 x 2 N(x 2 x 2 ) σ 2 x cov( ˆm, ĉ) = N(x 2 x 2 ) ρ ˆm,ĉ = x x 2 (1.69) (1.70) (1.71) a pro χ 2 je nejlepší fit: χ 2 = V (y) σ (1 2 ρ2 x,y) V (y) = y 2 ȳ 2 (1.72) Pokud se liší σ i pro jednotlivá měření, musíme nahradit (vážené hodnoty): yi nahradit yi /σi 2 (1.73) N 1/σ 2 i Pro extrapolování chyby σ Y σ 2 = pro dané X N 1/σ 2 i (1.74) σy 2 = V (Y ) = σ2 (X ˆx) 2 N(x 2 x 2 ) + σ2 N (1.75) Pro regresní křivku můžeme výslednou přímku napsat matematicky stejně, důležitý rozdíl je však z pohledu filozofického: zpřesňováním měření nedosáhneme přesnější fit protože vstupní data mají přirozený rozptyl hodnot, regresní analýza je tedy popisná statistika reálného stavu, podobně jako třeba korelace, zatímco výsledný fit je formou odhadu, typicky: výsledek není v rámci chyby jednotlivého měření. Rozšíření a určité zobecnění metody nejmenších čtverců je dál ukázané v části 11.1 (str. 124).

22 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD χ 2 distribuce Všeobecně se χ 2 -test používá při určování, jestli náhodný výběr dat je, nebo není, podle gaussovského rozdělení. χ 2 -distribuce popisuje rozdíl mezi měřenou hodnotou a její teoretickou předpovědí. Teoretická předpověd vychází z tvaru Gaussova rozdělení. [ ] N 2 χ 2 yi f(x i ; a) N = = yaktualní i y idealní 2 i i=1 σ i i=1 očekávaná chyba P (χ 2 ; n) = 2 n/2 Γ(n/2) χn 2 e χ2 /2 (1.76) (1.77) kde n je počet stupňů volnosti: n = N p, p je počet proměnných laděných pomocí χ 2. χ 2 má pak maximum v n a σ χ 2 = 2n. Pokud máme chybu v x aj y, platí: ˆm = σ x σ y (A ± A 2 + 1) (1.78) kde: A = σ2 xv (y) σ 2 yv (x) 2σ x σ y cov(x, y) (1.79) Speciální případ orogonální regrese je popsán taky v části 11.1 (str. 124). Pokud máme chybu v x aj y, ale je pro každou hodnotu i jiná (σ xi σ xi+1, σ yj σ yj+1 ), existuje jenom numerické řešení. 1.8 Pravděpodobnost a důvěryhodnost Existují čtyři definice pravděpodobnosti: 1. matematická (Kolmogorov), zavedená pomocí axiom: (a) P (E) 0 (b) P (E 1 ore 2 ) = P (E 1 )+P (E 2 ), pokud E 1 a E 2 se vzájemně vylučují (c) P (E i ) = 1 přes všechny vzájemně se vylučující možnosti (vždy se něco stane)

23 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD empirická frekvenční definice (Richard von Mises): N pokusů, M úspěchů, když N, M/N poměr definuje pravděpodobnost P (A) úspěchu v A 3. objektivní (tendence) (C.S.Peirce, 1910) - jako vnitřní vlastnost hmoty a jevů kolem a platí, že by se měla projevovat, to znamená, že se dřív nebo později projevit musí, příklad: smrt přijde subjektivní pravděpodobnost - Bayesianova statistika: podmiňovaná pravděpodobnost P (a/b), že bude a, když b bude pravda. Bayes teorem (1763): p(a/b)p(b) = p(aandb) = p(b/a)p(a) p(a/b) = p(b/a)p(a) p(b) (1.80) Důležité je dávat pozor na to, se kterou pravděpodobností pracujeme a nemíchat je Studentovo rozdělení Interval spolehlivosti odhadu(confidence levels) popisuje Studentovo rozdělení t popsané Gossettem: t = x µ (1.81) ˆσ a znamená: jak blízko je měřené x skutečné hodnotě µ a z toho jakou teda mám chybu měření ˆσ, za předpokladu že jsme tak blízko µ jak jen to umožňuje χ 2. Pro N měření platí: t = ˆx µ ˆσ/ (1.82) N t-test umožňuje zjistit, jestli dva náhodné výběry podle Gaussova rozdělení X i a Y i jsou vůči sobě nezávislé, a tedy náhodné, nebo spolu souvisí. Na toto rozhodnutí se využije podmínka pomocí χ 2 rozhodnutí. 1.9 Rozhodování V rozhodování (taking decisions) se většinou jedná o testování hypotézy, což můžeme dělat následujícími způsoby:

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Charakterizace rozdělení

Charakterizace rozdělení Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) = Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

MATEMATICKÁ STATISTIKA - XP01MST

MATEMATICKÁ STATISTIKA - XP01MST MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Chyby měření 210DPSM

Chyby měření 210DPSM Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů

Více

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Téma 2: Pravděpodobnostní vyjádření náhodných veličin 0.05 0.0 0.05 0.0 0.005 Nominální napětí v pásnici Std Mean 40 60 80 00 0 40 60 Std Téma : Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Spolehlivost a bezpečnost staveb 4. ročník

Více

Chyby nepřímých měření

Chyby nepřímých měření nepřímé měření: Chyby nepřímých měření chceme určit veličinu z hodnot jiných veličin na základě funkční vztahu máme změřené veličiny pomocí přímých měření (viz. dříve) včetně chyb: x±σ x, y±σ y,... známe

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství 1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Vzorová písemka č. 1 (rok 2015/2016) - řešení

Vzorová písemka č. 1 (rok 2015/2016) - řešení Vzorová písemka č. rok /6 - řešení Pavla Pecherková. května 6 VARIANTA A. Náhodná veličina X je určena hustotou pravděpodobností: máme hustotu { pravděpodobnosti C x pro x ; na intervalu f x jinde jedná

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D. Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která

Více

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Úvod do problematiky měření

Úvod do problematiky měření 1/18 Lord Kelvin: "Když to, o čem mluvíte, můžete změřit, a vyjádřit to pomocí čísel, něco o tom víte. Ale když to nemůžete vyjádřit číselně, je vaše znalost hubená a nedostatečná. Může to být začátek

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Stochastické signály (opáčko)

Stochastické signály (opáčko) Stochastické signály (opáčko) Stochastický signál nemůžeme popsat rovnicí, ale pomocí sady parametrů. Hodit se bude statistika a pravděpodobnost (umíte). Tohle je jen miniminiminiopáčko, později probereme

Více

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9. Statistické metody Matematika pro přírodní vědy přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 9. ledna 2015,

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

ROZDĚLENÍ NÁHODNÝCH VELIČIN

ROZDĚLENÍ NÁHODNÝCH VELIČIN ROZDĚLENÍ NÁHODNÝCH VELIČIN 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

8 Střední hodnota a rozptyl

8 Střední hodnota a rozptyl Břetislav Fajmon, UMAT FEKT, VUT Brno Této přednášce odpovídá kapitola 10 ze skript [1]. Také je k dispozici sbírka úloh [2], kde si můžete procvičit příklady z kapitol 2, 3 a 4. K samostatnému procvičení

Více

Základy teorie pravděpodobnosti

Základy teorie pravděpodobnosti Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie

Více

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným

Více

Vybraná rozdělení náhodné veličiny

Vybraná rozdělení náhodné veličiny 3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

6. T e s t o v á n í h y p o t é z

6. T e s t o v á n í h y p o t é z 6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně

Více

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování KATEDRA ANALYTICKÉ CHEMIE FAKULTY CHEMICKO TECHNOLOGICKÉ UNIVERSITA PARDUBICE - Licenční studium chemometrie LS96/1 SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování Praha, leden 1999 0 Úloha

Více

Normální rozložení a odvozená rozložení

Normální rozložení a odvozená rozložení I Normální rozložení a odvozená rozložení I.I Normální rozložení Data, se kterými pracujeme, pocházejí z různých rozložení. Mohou být vychýlena (doleva popř. doprava, nebo v nich není na první pohled vidět

Více

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která Náhodná veličina a její charakteristiky Náhodná veličina a její charakteristiky Představte si, že provádíte náhodný pokus, jehož výsledek jste schopni ohodnotit nějakým číslem. Před provedením pokusu jeho

Více

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak. 8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) e, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá normované

Více

Náhodná veličina a rozdělení pravděpodobnosti

Náhodná veličina a rozdělení pravděpodobnosti 3.2 Náhodná veličina a rozdělení pravděpodobnosti Bůh hraje se světem hru v kostky. Jsou to ale falešné kostky. Naším hlavním úkolem je zjistit, podle jakých pravidel byly označeny, a pak toho využít pro

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ J. Pruška, T. Parák OBSAH: 1. Co je to spolehlivost, pravděpodobnost poruchy, riziko. 2. Deterministický a pravděpodobnostní přístup k řešení problémů.

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN? NÁHODNÉ VELIČINY GENEROVÁNÍ SPOJITÝCH A DISKRÉTNÍCH NÁHODNÝCH VELIČIN, VYUŽITÍ NÁHODNÝCH VELIČIN V SIMULACI, METODY TRANSFORMACE NÁHODNÝCH ČÍSEL NA HODNOTY NÁHODNÝCH VELIČIN. JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1 Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu. 6. NÁHODNÝ VEKTOR Průvodce studiem V počtu pravděpodobnosti i v matematické statistice se setkáváme nejen s náhodnými veličinami, jejichž hodnotami jsou reálná čísla, ale i s takovými, jejichž hodnotami

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Aplikovaná statistika v R - cvičení 2

Aplikovaná statistika v R - cvičení 2 Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

Metodologie pro ISK II

Metodologie pro ISK II Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech

Více

Měření hmoty Higgsova bosonu podle doby letu tau leptonu

Měření hmoty Higgsova bosonu podle doby letu tau leptonu Měření hmoty Higgsova bosonu podle doby letu tau leptonu Jana Nováková, Tomáš Davídek UČJF Higgs -> tau tau na LHC v oblasti malých hmot Higgse dává významný příspěvek měřitelné v oblasti m H [115, 140]

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Téma 2: Pravděpodobnostní vyjádření náhodných veličin 0.025 0.02 0.015 0.01 0.005 Nominální napětí v pásnici Std Mean 140 160 180 200 220 240 260 Std Téma 2: Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Pravděpodobnostní posuzování

Více