Zpracování dat z experimentů fyziky vysokých energií
|
|
- Vítězslav Holub
- před 8 lety
- Počet zobrazení:
Transkript
1 Zpracování dat z experimentů fyziky vysokých energií Kód přednášky: JSF109p1a RNDr. Peter Kodyš, CSc. 1, Ústav částicové a jaderné fyziky, MFF UK Připraveno pro školní rok , datum poslední aktualizace: 26. října 2008 Za obsahové i formální připomínky i korekce budu vždy vděčný. 1 peter.kodys@mff.cuni.cz, Trója, KO, 9. patro č.dv. 906, tel: (22191)2453,2761
2 Rozsah v ZS: 2/0 Zk, školní rok: 2005/2006, počet míst: neomezen, určeno: 3,4,5 ročník Základní cíl: na konci přednášky by student měl být schopen posoudit kvalitu nabraných dat a měl by rozumět typickým postupům spojeným s vyhodnocováním dat a měl by být schopný mnohé kroky zrealizovat vlastními silami. Vymezení přednášky: statistické metody nutné pro vyhodnocování dat z moderních detektorů, jejich použití např. pro měření vlastností detektoru, rekonstrukce dráhy částic a jejich průsečíků vertexů, metody fitování a určování chyby měření, programový analytický balík ROOT. Data Evaluation in High Energy Physics Experiments Course Objective: after taking this course, students should be able to evaluate quality of acquired data and understand the typical data evaluation methodology as well as to carry out many steps single-handed. Course Layout: statistics in evaluation of data acquired in modern detectors, its implementation methods, e.g. detector properties assessment, particle tracks and their intersections (vertices) reconstruction, fitting, measurement error evaluation and evaluation tools program framework ROOT. Osnova: 1. Programovací techniky a programy pro vyhodnocování dat (ROOT a jeho použití). 2. Druhy a způsoby nabírání dat, jejich organizace, analogové a digitální zdroje dat. 3. Vlastnosti nabíraných dat a jejich zdrojů, rovnice odezvy, signál / šum, S-křivky, časová odezva signálu, synchronizace, triggering, určováni chyb měření. 4. Signál z detektorů: přechod od signálu detektoru k bodu v prostoru, rekonstrukce dráhy částice, rekonstrukce vertexu rozpadu částice, polohování detektorů (alignment), použití metody nejmenších čtverců. 5. Analogové zpracování signálu, základy vyhodnocování spekter, neurální sítě. 6. Práce na software velkých experimentů a jeho organizace, světová výpočetní distribuovaná sít grid, Athena. Doporučené doplňující přednášky: JSF081 Výpočetní technika ve fyzice vysokých energií (T. Davídek) JSF101 Polovodičové detektory v jaderné a subjaderné fyzice (Z. Doležal) JSF075 Detektory pro fyziku vysokych energii (J. Hladký) Rozsah: 12 přednášek. Příklady jsou prováděny s daty z vnitřního detektoru experimentu ATLAS v letech s použitím testovacích svazků, praktika UČJF v Tróji (spektrum) a z testů v Paříži (analogový detektor). 1
3 2 Seznam přednášek: 1. Úvod do přednášky a její náplň, shrnutí statistických metod. 2. C++ a ROOT - rychlokurz. 3. Druhy nabírání dat a elektronika. 4. Vlastnosti nabíraných dat a jejich zdrojů. 5. Chyba měření, neurální sítě. 6. Příklad výpočtu účinnosti detektorů. 7. Od signálu detektoru k bodu v prostoru, dráhy částice, místo rozpadu částice. 8. Zpracování signálu analogového detektoru, vyhodnocování spekter. 9. Polohování detektorů (alignment). 10. Fitování funkcí, automatizace analýzy. 11. Fitování dráhy částice, chyba fitu, nalezení vertexu častice. 12. Práce na velkých experimentech, jeho organizace, světová výpočetní distribuovaná sít grid, Athena. Na závěr: seznam řešených příkladů, poděkování a doporučená a rozšiřující literatura. Příklady k přednáškám: 1. Úvod do práce s C++ a ROOT - základy, fitování, ntuple. 2. Příklad jak se dají různě volat funkce na fitování v ROOT. 3. Zkouška práce s cernlib knihovnami. 4. Příklad zpracování SCT ATLAS detektorů z testbeamu ze zdrojových ROOT souborů. 5. Příklad vyhodnocení účinnosti SCT ATLAS detektorů z testbeamu. 6. Příklad jemného alignmentu teleskopů z reálných dat ATLAS SCT testbeam. 7. Příklad jemného alignmentu detektorů z reálných dat ATLAS SCT testbeam. 8. Příklad volání minimalizačního balíku Minuit v sobě samém, Minuit volá funkci, která sama volá nezávisle Minuit i pro sebe. 9. Příklad vyhodnocení analogového signálu z detektorů. 10. Zobrazení různých funkcí z nabídky ROOT. 11. Příklad použití neurálních sítí. 12. Příklad práce se spektrem a jeho zpracováním. 13. Příklad různých způsobů proložení bodů přímkou metodami nejmenších čtverců. 14. Ukázka dvou způsobů ohraničení regresní závislosti: pásem predikce a pásem spolehlivosti.
4 Obsah 1 Shrnutí statistických metod Značení Důležitý koeficient: korelační Popis dat Průměr Rozptyl Víc proměnných Typy rozdělení Obecné Binomické Poissonovo Gaussovo Jiné Chyby Práce s chybami Kombinace více chyb Systematické chyby Odhady Maximální pravděpodobnost Nejmenší čtverce χ 2 distribuce Pravděpodobnost a důvěryhodnost Studentovo rozdělení Rozhodování Seřazovací metody
5 OBSAH Mann-Whitneyův test Měření shody ROOT - rychlokurz Úvod do jazyka C/C++ jazyka Základní operace Příklad kódu s hlavičkovým souborem Příslušný hlavičkový soubor Úvod do práce v prostředí ROOT Instalace ROOT Spouštění maker a práce s externími knihovnami Příklad makra a některých operací s daty v ROOT Fitování funkcí a práce s ntuple Jak vyrobit class třídu DLL v prostředí ROOT na čtení dat z detektorů a pro připojení CERNLIB knihoven Výroba DLL knihovny s třídou na čtení TTree formátu dat v ROOT Výroba DLL knihovny s třídou na používání CERNLIB knihoven Druhy nabírání dat a elektronika Jaká data se sbírají a jak? (trochu elektroniky) Organizace nabíraných dat - ukládaný formát Zdroje dat Využití počítačů při měření fyzikálních veličin v jaderné a subjaderné fyzice Úvod Připojení přes sériový, paralelní nebo USB port Speciální karty Univerzální karty Standardní systémy Popis jednotlivých systémů Vlastnosti nabíraných dat a jejich zdrojů Účinnost odezvy v závislosti od předpětí na detektoru Účinnost sběru náboje detektoru Šum Poměr signál k šumu Cluster size
6 OBSAH Odezva detektoru mezi detekčními diodami a na okrajích Odezva na magnetické pole, vliv Lorenzova úhlu Měření šikmého dopadu částic Odezva a změny vlastnosti po ozáření detektorů, jeho degradace (R&D, irradiation) Odezva na různé druhy částic, různé energie částic Rekonstrukce těchto charakteristik z měření na jednotlivých prazích Kalibrace, rovnice odezvy Časová odezva detektoru Chyba měření, neurální sítě Určení chyby při vynesení změřeného bodu Standardní určení chyby (gaussovské, symetrické) Pravděpodobnostní určení chyby (F-rozdělení, nesymetrické) Příklady Neurální sítě při vyhodnocování experimentů Úvod Terminologie při použití neurálních sítí MLP - vícevrstvé sítě - třídění, vlastnosti a učení Před použitím sítě Po použití sítě Proč vlastně požívat neurální sítě Použití NN v ROOTu Příklad výpočtu účinnosti detektorů Od raw data do ROOT trees Jak číst ROOT trees, příprava class dll pro čtení První krok: hitmapa teleskopů a testovaných detektoru (DUT) Teleskopy: od adjustace k dráze částice a mapě testovacího svazku DUT: vyčistění odezvy, maskování kanálů Polohovaní detektorů - alignment Reziduály - odchylky dráhy částice od odezvy detektoru Účinnost a šumová obsazenost kanálů a chyba jejich určení S-křivka a medián Příklad analýzy binárního detektoru
7 OBSAH 6 7 Od signálu detektoru k bodu v prostoru, dráhy částice, místo rozpadu částice Geometrie detektoru a přesnosti z výroby Rekonstrukce bodu v prostoru Hledání drah v detektoru Základ hledání drah Principy hledání drah Vlastnosti hledání drah Metody hledání drah Rekonstrukce dráhy v prostoru, fitování, algoritmy Hledání průsečíků (vertexů) v detektoru Zpracování signálu analogového detektoru, vyhodnocování spekter Analogové zdroje signálu Software pro analýzu šumu Definice základních veličin Testy detektorů SiLCu pomocí beta zářiče Výpočet poměru signál-šum (S/N) stripovývh detektorů Další funkce programu Výsledky Závěr Spektra Eliminace pozadí Dekonvoluce multipletů Vyhlazení šumu Najít píky v spektru a jejich identifikace Fitování Analýza dat ortogonálními transformacemi, filtrování Vícerozměrná spektra Příklad vyhodnocení analogového detektoru Příklad vyhodnocení spektra Polohování detektorů (alignment) Podmínky - selekce vhodných eventů Minimalizace kvadrátů odchylek a alignment teleskopů
8 OBSAH Alignment detektorů (DUT) Užitečné rady a doporučení Příklad v MS Excell Příklad v ROOT Fitování funkcí, automatizace analýzi Ruční určení chyby při regresi - univerzální návod Fitování funkcí v prostředí Excel - ručně Fitování funkcí v prostředí ROOT Automatizace procesu fitování funkcí Fitování dráhy částice Fitování dráhy částice přímkou I Fitování dráhy částice přímkou II Určování chyby polohy dráhy v libovolném bodě Fitování zakřivených drah Hledání průsečíků dvou drah, vertexů Práce na velkých experimentech Software na velkých exerimentech Programový rámec Athena Úvod Struktura souborů ATLAS SW Struktura adresáře balíčků Spouštění úlohy v Athene Generátory Simulace + Digitizace Rekonstrukce Datové soubory Analýza Správa a vývoj SW v Athene CASTOR Výpočetní světová sít : Grid Závěrečné komentáře Seznam řešených příkladů 148
9 Kapitola 1 Shrnutí statistických metod Podle toho co srovnáváme a vyhodnocujeme můžeme rozdělit testy na χ 2 - test, F-test, T-test nebo vyhodnocování gaussovského rozdělení. Důležité je také si uvědomit, že χ 2, F a T testy při dostatečně velkém souboru vyhodnocovaných dat přecházejí do podmínek pro Gausovo rozdělení. Skutečnou užitečnost testy ukazují při menších souborech dat a při jejich nejednoznačné příslušnosti k vyhodnocované podmínce. V dalších kapitolách shrneme základní vztahy, které nám pomáhají ve využívání statistických metod při vyhodnocování dat. 1.1 Značení N, n, m - počet vyhodnocovaných dat, událostí, events X i, Y i - vyhodnocovaná data X, Ȳ - výběrový průměr: X = 1 N N X i (1.1) 1 s x, s y - směrodatná odchylka výběrového průměru s 2 x, s 2 y - rozptyl z měřených hodnot s 2 = 1 N 1 N (X i X) 2 = 1 N 1 N 1 ( Xi 2 2N X 1 N X i + N 2 X2 ) (1.2) 1 8
10 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 9 µ - střední hodnota σ - směrodatná odchylka σ 2 - rozptyl α - pravděpodobnost nastání jevu α (0, 1), α jev již nenastane, α jev se uděje LI - levostranný interval PI - pravostranný interval OI - oboustranný interval N(µ, σ 2 ) - normální rozdělení pravděpodobnosti µ(α) - kritická hodnota pro N(0, 1) χ 2 k(α) - kritická hodnota rozdělení (číslo, které náhodná veličina s rozdělením χ 2 k překročí s pravděpodobností α) T k (α) - Studentovo rozdělení pro k-stupňů volnosti na hladině pravděpodobnosti α r k (α) - kritická hodnota pro korelační koeficient r w k (α) - kritická hodnota pro jedno výběrový Wilcoxonův test F m,n (α) - kritická hodnota shodnosti rozptylu (Fisher-Snedecorov test) w m,n (α) - kritická hodnota dvou výběrového Wilcoxonovho testu 1.2 Důležitý koeficient: korelační Korelační koeficient ukazuje stupeň provázanosti dvou veličin navzájem, stupeň jejich vzájemné korelace, souvislosti mezi sebou. Platí: ρ = σ XY σ 2 Xσ 2 Y (1.3) r = r = S XY SXS 2 Y 2 Xi Y i N XȲ ( Xi 2 N X 2 )( Yi 2 NȲ 2 ) (1.4) (1.5) kde ρ je stupeň korelace mezi X a Y, r je výběrový korelační koeficient z rozsahu r 1, 1
11 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD Popis dat Data můžeme rozdělit na diskrétní (nabývající jen některé hodnoty) nebo spojité. Při jejich popisu můžeme použít nejrůznější kritéria, nejobvyklejší je určení průměru hodnot, rozptylu hodnot a vztah mezi více proměnnými, pokud jsou Průměr Průměr (avarage) je obvykle určen jedním z následujících spůsobů: 1. aritmetický (arithmetic mean) se používá při použití statistických testů když máme symetrické rozdělení, data jsou spojitá. Aritmetický průměr z pruměrů: x = xi N (1.6) x = Ni x i Ni (1.7) Aritmetický průměr když měření mají četnost f i : x = fi x i fi (1.8) 2. geometrický (geometric mean) 3. harmonický (harmonic mean) x = N x i x 2 x 3...x n (1.9) x = N 1/xi (1.10) 4. medián (median) Když seřadíme měření x i podle velikosti (podle velikosti hodnoty x i ), platí: Me = 0.5(x N/2 + x N/2+1 ) pro sudé N (1.11) Me = x N/2 pro liché N (1.12) Použití má hlavně když jsou data hodně zešikmené (nesymetrické rozdělení) nebo jsou v ních odlehlé hodnoty a chceme znát střed rozdělení dat.
12 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD modus (mode) Mo nebo x je hodnota x i která se vyskytuje nejčastěji, u spojitého histogramu hodnota, kde je maximum, pokud je maxim víc, děla se jejich vážený průměr. Používá se hlavně pro diskrétní data, když existuje víc vrcholů, když nám stačí orientační přehled nebo hledáme nejčastější hodnotu. 6. středních čtverců (root mean square) x = x 2 i N (1.13) Dále je důležité si uvědomit, jesli máme pravdivý průměr µ nebo změřený průměr x Rozptyl To, že měřené hodnoty dat nedávají stejné číslo způsobuje jejich rozptyl (spread). Když vyneseme hodnoty měření na x-ovou osu grafu rozděleného na chlívky, vždy spadnou do některého z chlívků, dostaneme obyčejně některé chlívky víc naplněné a jiné míň. Takový typ grafů nazýváme histogram a pozorujeme na něm obvykle maximum, kde hodnoty měření dopadali nejčastěji doprostřed kopečka. Když postupujeme histogramem zleva a počítáme, kolik z celkového počtu měření jsme už zaznamenali, budeme přecházet přes některé zajímavé hodnoty zvane percentily: 1. percentil s hladinou 2.5% resp. 97.5% : krajní hodnoty důležité pro určování hranic ve fyzice 2. percentil s hladinou 5% resp. 95% : podobně, krajní hodnoty důležité pro určování hranic ve fyzice 3. percentil s hladinou 25% : první, dolní kvantil Q I, q = 25% 4. percentil s hladinou 50% : druhý, střední kvantil, medián Q II, q = 50% 5. percentil s hladinou 75% : třetí, horní kvantil Q III, q = 75% Dále je zadefinovaný centrální moment (central moment) m, k-tého stupně z n počtu dat: (xi x) k m k = (1.14) N
13 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 12 Dále je důležité, podobně, jako u střední hodnoty, si uvědomit, jesli máme pravdivou skutečnou střední odchylku σ nebo střední odchylku z měření s. Rozptyl obvykle určujeme nebo popisujeme jako: 1. standardní směrodatná odchylka (standard deviation) je definovaná jako odmocnina z rozptylu: σ = (xi x) 2 N (1.15) (xi x) s = 2 (1.16) N 1 Když hrozí pomíchání nebo nejasnost, je dobré použít explicitně, který vztah použijeme, formou třeba: σ N, σ N 1 Standardní směrodatná odchylka je silně ovlivňována odlehlými hodnotami a nesymetrií rozdělení. 2. rozptyl (variation) σ 2 = (xi x) 2 N = x 2 i N x 2 N (1.17) 3. jiný alternativní popis: FWHM, FW(1/5)M, špičatost, symetričnost,... (a) FWHM - full width at half of maxima, celá šířka píku v polovině výšky maxima (b) FW(1/5)M - celá šířka píku v jedné pětině výšky maxima (c) špičatost (sharpnes): leptokurtická = špičatější než normální, platykurtická = méně špičaté než normální, dá se kvantifikovat: S 1 = m 4 2 kde: m m 2 k je centrální moment (1.18) 2 (d) symetričnost: zešikmení (skew) zprava nebo zleva, míra zešikmení se vyjadřuje více spůsoby: S 2 pomocí 2. a 3. centrálního momentu: KS pomocí kvartilů: KS = Q III + Q I 2 x Q S 2 = m 3 m 3/2 2 (1.19) kde Q je kvantilové rozpětí (1.20)
14 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 13 SK podle K. Pearsona: SK = 3( x Me) s (1.21) využívá při zešikmení nerovnost mediánu M e a aritmetického průměru x Víc proměnných Pokud vyhodnocujeme víc proměnných, zajímá nás víc vlastností: hlavně do jaké míry a jakým způsobem spolu souvisí nebo jsou nezavislé. K tomu máme vytvořené některé nástroje, jako: 1. kovariance - souvislost mezi daty (covariance): cov(x, y) = 1 = 0 nezávislé (x i x)(y i ȳ) = xy xȳ = > 0 přímá úměra N i < 0 nepřímá úměra (1.22) 2. korelace (correlation): ρ = cov(x, y) = σ x σ y = (1.23) 3. pro víc proměnných je nutné prověřit vzájemný vztah různých kombinací proměnných a vytvořit tak kovarianční matici (taky nazývanou odchylkovou nebo chybovou maticí) a kovarianční matici. 1.4 Typy rozdělení Obecné Ve statistice platí zákon velkých čísel: při zvyšování počtu měření se výsledek blíží výsledku získanému z nekonečného počtu měření, nebo očekávaná hodnota r označená jako r nebo i µ konverguje ke středu (mean) je určená: r = µ = r rp (r) (1.24)
15 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 14 kde P (r) je rozložení pravděpodobnostní funkce (hustoty pravděpodobnosti) (probability density distribution). Pro kontinuální rozložení dat pak platí, ža pravděpodobnost s jakou dostaneme nějakou hodnotu měření v hranicích < x 1, x 2 > je určená vztahem: nebo inverzně: P ravdepodobnost = x2 P (x) = lim δx 0 P ravdepodobnost δx x 1 P (x)dx (1.25) (1.26) Binomické Binomial probability distribution: pravděpodobnost P počtu r úspěchů z n pokusů, z nichž každý bude úspěšný s pravděpodobností p, bude: P (r; p, n) = p r (1 p) n p n! r!(n r)! = pr (1 p) n p nc r (1.27) kde máme r úspěchů z n pokusů, p je pravděpodobnost lokálního úspěchu, nc r je binomický koeficient. Střední hodnota úspěchu bude: Standardní odchylka: σ = r = np (1.28) np(1 p) (1.29) Binomické rozdělení poskytuje informaci o úspěchu i neúspěchu Poissonovo Poissonovo rozdělení poskytuje informaci jen o úspěchu. To znamená, že např. víme kolikrát částice prolétla detektorem, ale samozřejmě se nemůžeme vyjádřit k tomu, kolikrát neprolétla. Pravděpodobnost P pozorování r událostí, když očekáváme střední hodnotu λ, je: Střední hodnota úspěchu bude: P (r; λ) = e λ λ r r! (1.30) r = λ (1.31)
16 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 15 Standardní odchylka: σ = λ (1.32) Pro λ > 10 se rozdělení už podobá Gaussovu rozdělení. Pro součet dvou Poissonových distribucí platí: λ vysledne = λ 1 + λ Gaussovo P (x; µ, σ) = 1 σ 2π e (x µ)2 /(2σ2 ) (1.33) Pokud z = (x µ)/σ, pak se rovnice upraví na jednotkové normalizované rozdělení: P (z) = 1 2π e x2 /2) Některé důležité vlastnosti Gaussova rozdělení jsou v tabulce 1.1. (1.34) Obsah plochy uvnitř ohraničení σ Ohraničení σ obsahu plochy hranice v σ plocha v % plocha v % hranice v σ Tabulka 1.1: Vybrané vlastnosti Gaussova rozdělení Jiné 1. Pravoúhlé jednotkové: P (x) = { 1 b a pro a x b 0 jinde (1.35) Střední hodnota bude: Standardní odchylka: r = a + b 2 (1.36) σ = b a 12 (1.37) 2. Weibull rozdělení umožňující popsat ostrost funkce (parametr β): P (x; α, β) = αβ(αx) β 1 e (αx)β (1.38)
17 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD Breit-Wigner nebo Cauchy rozdělení dává pravděpodobost přechodu částice o hmotnosti m do resonance hmotnosti M s šířkou Γ. Funkce nemá rozptyl, protože její celkový integrál diverguje. nebo v Cauchyho redukci: 1.5 Chyby Práce s chybami F (m; M, Γ) = 1 Γ (1.39) 2π (m M) 2 + (Γ/2) 2 F (z) = 1 π z 2 (1.40) Platí centrální limitní teorém: Pro výběr N nezávislých hodnot x i z dat rozložených podle rozdělení se středem µ i a rozptylem σi 2 platí pro součet: očekávaná hodnota: bude mít rozptyl: N X = x i (1.41) i=0 X = µ i = Nµ (1.42) σ 2 = σ 2 i (1.43) pro N Pro N měření se chyba vylepší 1/ N, dostaneme standardní chybu průměru: Pro vážené měření s různými σ i platí: σ nove = σ jednomereni (1.44) N x = xi /σ 2 i 1/σ 2 i (1.45) σ 2 = 1 1/σ 2 i (1.46)
18 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD Kombinace více chyb Pro určení rozptylu funkce s více proměnnými zatížených chybou platí: f(x, y) : σ 2 f(x,y) = ( ) 2 δf σx 2 + δx ( ) 2 δf σy δy ( δf δx ) ( ) δf ρσ x σ y (1.47) δy Systematické chyby Systematické chyby se objevují, když náš metr nemá stejnou vzdálenost mezi vrypy, nebo když měření nejsou nezávislá. Je důležité je najít, rozpoznat, vyhodnotit a odstranit. Pokud se podaří je vyhodnotit, zapisujeme je jako: A = ± 3.2 ± 5.3, kde ±3.2 je statistická chyba a ±5.3 je složka od systematické chyby. 1.6 Odhady Odhady (estimations) jsme nuceni dělat vždy, když nemůžeme měřit přesně, nebo když nám přesnost měření je málo a chceme se dozvědět víc. Odhad je procedura, dělaná nad souborem měřených dat v numerické formě, za účelem zjištění skutečného (nebo alespoň jeho odhadu) rozdělení dat, z kterého jsou vzorky vybrané. Odhadová funkce L (Gauss, Landau,...) má obecně tvar: L(x 1, x 2,..., x N ; a) = P (x i ; a) P (x, a)dx = 1 (1.48) kde a je vlastnost rozdělení na které závisí rozptyl hodnot x i a kterou měřím. Základní očekávané vlastnosti odhadu jsou (pokud nebudou splněny, odhad bude špatný ): 1. konzistentnost (consistency): zvyšováním počtu měření se blížíme skutečné hodnotě, nesklouzneme mimo: lim â = a (1.49) N 2. nezatíženost (unbiased): skutečná hodnota je očekávanou hodnotou: â = a (1.50) 3. účinnost (efficiency): snažíme se měřit účinně, tj. s malým rozptylem
19 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 18 Existuje hranice maximální přesnosti odhadu, nazývaná minimální variační rozptyl (minimum variance bound, MVB) pro L podle 1.48: σ 2 1 (d ln L/da) 2 = 1 (d 2 ln L/da 2 ) (1.51) Pro Gausse je např.: MV B = σ2 N pro mean µ (1.52) MV B = 2σ4 N a z toho pak pro chybu σ a ρ: pro standardní odchylku σ (1.53) σ σ = σ 2N (1.54) σ ρ = 1 ρ N 1 (1.55) Poslední vztah je víc gaussovský, když použijeme substituci: z = 1 2 ln 1 + ρ 1 ρ (1.56) pak: σ z = 1 N 3 (1.57) Maximální pravděpodobnost Pro zjednodušení vztahu 1.48 je výhodné zavést maximální pravděpodobnost z podmínky derivace (maximal likelihood, ML): d ln L da = 0 (1.58) což umožňuje citlivěji nastavovat odhady a i pro malá N nejsou data zatížená. Když nahradíme P nenormalizovanou funkcí Q, dostaneme rozšířenou maximální pravděpodobnost (extended maximal likelihood, EML) Další přístupy jsou například: Q(x, a)dx = ν (1.59)
20 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD metoda momentů (method of moments) x = xp (x; a)dx = xp (x; â)dx = ˆx pro normalizaci: P (x; â i )dx = 1 (1.60) 2. metoda nejmenších čtverců (least squares) je užitečná, když máme data uspořádaná do dvojic x i, y i, x i známe a y i měříme, y = f(x) kde f(x) je Gaussian, pak můžeme napsat: P (y i ; a) = 1 e [y i f(x i ;a)]2/2σ2 i pravděpodobnost pro y i a dané x i σ i 2π (1.61) ln L = 1 [ ] 2 y i f(x i ) ln σ i 2π pravděpodobnost pro datový soubor 2 σ i (1.62) [ ] 2 y i f(x i ; a) = 0 minimalizační podmínka (1.63) σ i Víc detailů a praktické použití v příkladech je na: 1.7, 11.1 (str. 124). 3. metoda přímého strategického výběru (stratified sampling - beating N) umožňuje zlepšit statistiku využitím znalosti dalších souvislotí ve výběru, např. součet kluků a dívek v souboru je konstanta. 1.7 Nejmenší čtverce Metoda nejmenších čtverců (Least Squares) se využívá k nalezení neznámého parametru ze souboru měřených dat. Podmínkou uspěchu je soubor dobře určených x hodnot, odpovídající soubor y hodnot měřených s přesností σ a funkce f(x; a) předpovídající y pro libovolné x, parametr a je známý svou úlohou ve funkci ale neznámý svou hodnotou, a tento tedy budeme hledat. Princip metody nejmenších čtverců je odvozen od maximální pravděpodobnostní funkce a využívá minimalizaci součtu čtverců y-ových odchylek od optimální fitované přímky, vzdáleností y i od f(x i ; a). Minimalizovaný součet nazýváme χ 2 : [ ] N 2 χ 2 yi f(x i ; a) dχ 2 = xa = 0 (1.64) i=1 σ i
21 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 20 Pak platí: 1 df(x i ; a) [y σi 2 i f(x i ; a)] = 0 (1.65) da Sumarizace důsledků fitu přímkou je: a k tomu vyjádření chyby: ˆm = σ 2 m = V ( ˆm) = xy xȳ x 2 x 2 (1.66) ĉ = ȳ ˆm x (1.67) σ 2 N(x 2 x 2 ) (1.68) σ 2 c = V (ĉ) = σ 2 x 2 N(x 2 x 2 ) σ 2 x cov( ˆm, ĉ) = N(x 2 x 2 ) ρ ˆm,ĉ = x x 2 (1.69) (1.70) (1.71) a pro χ 2 je nejlepší fit: χ 2 = V (y) σ (1 2 ρ2 x,y) V (y) = y 2 ȳ 2 (1.72) Pokud se liší σ i pro jednotlivá měření, musíme nahradit (vážené hodnoty): yi nahradit yi /σi 2 (1.73) N 1/σ 2 i Pro extrapolování chyby σ Y σ 2 = pro dané X N 1/σ 2 i (1.74) σy 2 = V (Y ) = σ2 (X ˆx) 2 N(x 2 x 2 ) + σ2 N (1.75) Pro regresní křivku můžeme výslednou přímku napsat matematicky stejně, důležitý rozdíl je však z pohledu filozofického: zpřesňováním měření nedosáhneme přesnější fit protože vstupní data mají přirozený rozptyl hodnot, regresní analýza je tedy popisná statistika reálného stavu, podobně jako třeba korelace, zatímco výsledný fit je formou odhadu, typicky: výsledek není v rámci chyby jednotlivého měření. Rozšíření a určité zobecnění metody nejmenších čtverců je dál ukázané v části 11.1 (str. 124).
22 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD χ 2 distribuce Všeobecně se χ 2 -test používá při určování, jestli náhodný výběr dat je, nebo není, podle gaussovského rozdělení. χ 2 -distribuce popisuje rozdíl mezi měřenou hodnotou a její teoretickou předpovědí. Teoretická předpověd vychází z tvaru Gaussova rozdělení. [ ] N 2 χ 2 yi f(x i ; a) N = = yaktualní i y idealní 2 i i=1 σ i i=1 očekávaná chyba P (χ 2 ; n) = 2 n/2 Γ(n/2) χn 2 e χ2 /2 (1.76) (1.77) kde n je počet stupňů volnosti: n = N p, p je počet proměnných laděných pomocí χ 2. χ 2 má pak maximum v n a σ χ 2 = 2n. Pokud máme chybu v x aj y, platí: ˆm = σ x σ y (A ± A 2 + 1) (1.78) kde: A = σ2 xv (y) σ 2 yv (x) 2σ x σ y cov(x, y) (1.79) Speciální případ orogonální regrese je popsán taky v části 11.1 (str. 124). Pokud máme chybu v x aj y, ale je pro každou hodnotu i jiná (σ xi σ xi+1, σ yj σ yj+1 ), existuje jenom numerické řešení. 1.8 Pravděpodobnost a důvěryhodnost Existují čtyři definice pravděpodobnosti: 1. matematická (Kolmogorov), zavedená pomocí axiom: (a) P (E) 0 (b) P (E 1 ore 2 ) = P (E 1 )+P (E 2 ), pokud E 1 a E 2 se vzájemně vylučují (c) P (E i ) = 1 přes všechny vzájemně se vylučující možnosti (vždy se něco stane)
23 KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD empirická frekvenční definice (Richard von Mises): N pokusů, M úspěchů, když N, M/N poměr definuje pravděpodobnost P (A) úspěchu v A 3. objektivní (tendence) (C.S.Peirce, 1910) - jako vnitřní vlastnost hmoty a jevů kolem a platí, že by se měla projevovat, to znamená, že se dřív nebo později projevit musí, příklad: smrt přijde subjektivní pravděpodobnost - Bayesianova statistika: podmiňovaná pravděpodobnost P (a/b), že bude a, když b bude pravda. Bayes teorem (1763): p(a/b)p(b) = p(aandb) = p(b/a)p(a) p(a/b) = p(b/a)p(a) p(b) (1.80) Důležité je dávat pozor na to, se kterou pravděpodobností pracujeme a nemíchat je Studentovo rozdělení Interval spolehlivosti odhadu(confidence levels) popisuje Studentovo rozdělení t popsané Gossettem: t = x µ (1.81) ˆσ a znamená: jak blízko je měřené x skutečné hodnotě µ a z toho jakou teda mám chybu měření ˆσ, za předpokladu že jsme tak blízko µ jak jen to umožňuje χ 2. Pro N měření platí: t = ˆx µ ˆσ/ (1.82) N t-test umožňuje zjistit, jestli dva náhodné výběry podle Gaussova rozdělení X i a Y i jsou vůči sobě nezávislé, a tedy náhodné, nebo spolu souvisí. Na toto rozhodnutí se využije podmínka pomocí χ 2 rozhodnutí. 1.9 Rozhodování V rozhodování (taking decisions) se většinou jedná o testování hypotézy, což můžeme dělat následujícími způsoby:
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceCharakterizace rozdělení
Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceZápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
VíceCharakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VícePopisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
VícePravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
VíceJiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VícePOPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceMatematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
Víceveličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
VíceStatistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VíceZpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VíceE(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =
Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní
VícePraktická statistika. Petr Ponížil Eva Kutálková
Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo
VíceMATEMATICKÁ STATISTIKA - XP01MST
MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceNáhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
VíceNáhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
VíceChyby měření 210DPSM
Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů
VíceTéma 2: Pravděpodobnostní vyjádření náhodných veličin
0.05 0.0 0.05 0.0 0.005 Nominální napětí v pásnici Std Mean 40 60 80 00 0 40 60 Std Téma : Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Spolehlivost a bezpečnost staveb 4. ročník
VíceChyby nepřímých měření
nepřímé měření: Chyby nepřímých měření chceme určit veličinu z hodnot jiných veličin na základě funkční vztahu máme změřené veličiny pomocí přímých měření (viz. dříve) včetně chyb: x±σ x, y±σ y,... známe
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceNáhodné (statistické) chyby přímých měření
Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceStatistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
VíceRegresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
VícePorovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
VícePopisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
VíceVzorová písemka č. 1 (rok 2015/2016) - řešení
Vzorová písemka č. rok /6 - řešení Pavla Pecherková. května 6 VARIANTA A. Náhodná veličina X je určena hustotou pravděpodobností: máme hustotu { pravděpodobnosti C x pro x ; na intervalu f x jinde jedná
VíceSTATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a
VíceZáklady popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceInformační technologie a statistika 1
Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceStřední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.
Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která
Vícemarek.pomp@vsb.cz http://homel.vsb.cz/~pom68
Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
VíceÚvod do problematiky měření
1/18 Lord Kelvin: "Když to, o čem mluvíte, můžete změřit, a vyjádřit to pomocí čísel, něco o tom víte. Ale když to nemůžete vyjádřit číselně, je vaše znalost hubená a nedostatečná. Může to být začátek
VíceMann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
VíceStochastické signály (opáčko)
Stochastické signály (opáčko) Stochastický signál nemůžeme popsat rovnicí, ale pomocí sady parametrů. Hodit se bude statistika a pravděpodobnost (umíte). Tohle je jen miniminiminiopáčko, později probereme
VíceStatistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.
Statistické metody Matematika pro přírodní vědy přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 9. ledna 2015,
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceROZDĚLENÍ NÁHODNÝCH VELIČIN
ROZDĚLENÍ NÁHODNÝCH VELIČIN 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
Více8 Střední hodnota a rozptyl
Břetislav Fajmon, UMAT FEKT, VUT Brno Této přednášce odpovídá kapitola 10 ze skript [1]. Také je k dispozici sbírka úloh [2], kde si můžete procvičit příklady z kapitol 2, 3 a 4. K samostatnému procvičení
VíceZáklady teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
VícePSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady
PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným
VíceVybraná rozdělení náhodné veličiny
3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení
VíceSTATISTICKÉ CHARAKTERISTIKY
STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
Více6. T e s t o v á n í h y p o t é z
6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně
VíceSEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování
KATEDRA ANALYTICKÉ CHEMIE FAKULTY CHEMICKO TECHNOLOGICKÉ UNIVERSITA PARDUBICE - Licenční studium chemometrie LS96/1 SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování Praha, leden 1999 0 Úloha
VíceNormální rozložení a odvozená rozložení
I Normální rozložení a odvozená rozložení I.I Normální rozložení Data, se kterými pracujeme, pocházejí z různých rozložení. Mohou být vychýlena (doleva popř. doprava, nebo v nich není na první pohled vidět
VíceNáhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která
Náhodná veličina a její charakteristiky Náhodná veličina a její charakteristiky Představte si, že provádíte náhodný pokus, jehož výsledek jste schopni ohodnotit nějakým číslem. Před provedením pokusu jeho
VíceLINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Více8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.
8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) e, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá normované
VíceNáhodná veličina a rozdělení pravděpodobnosti
3.2 Náhodná veličina a rozdělení pravděpodobnosti Bůh hraje se světem hru v kostky. Jsou to ale falešné kostky. Naším hlavním úkolem je zjistit, podle jakých pravidel byly označeny, a pak toho využít pro
VícePříklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
VíceRozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
VíceStatistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
VíceINDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
VíceANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní
VíceSTANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák
STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ J. Pruška, T. Parák OBSAH: 1. Co je to spolehlivost, pravděpodobnost poruchy, riziko. 2. Deterministický a pravděpodobnostní přístup k řešení problémů.
Více15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
Více4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
VíceNÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?
NÁHODNÉ VELIČINY GENEROVÁNÍ SPOJITÝCH A DISKRÉTNÍCH NÁHODNÝCH VELIČIN, VYUŽITÍ NÁHODNÝCH VELIČIN V SIMULACI, METODY TRANSFORMACE NÁHODNÝCH ČÍSEL NA HODNOTY NÁHODNÝCH VELIČIN. JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU
VíceZáklady popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
VíceNáhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1
Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud
Více2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
VícePojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.
6. NÁHODNÝ VEKTOR Průvodce studiem V počtu pravděpodobnosti i v matematické statistice se setkáváme nejen s náhodnými veličinami, jejichž hodnotami jsou reálná čísla, ale i s takovými, jejichž hodnotami
VíceKORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
VíceMATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),
VíceStatistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
VíceAplikovaná statistika v R - cvičení 2
Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových
VíceMnohorozměrná statistická data
Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná
VíceMěření závislosti statistických dat
5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě
VíceMetodologie pro ISK II
Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech
VíceMěření hmoty Higgsova bosonu podle doby letu tau leptonu
Měření hmoty Higgsova bosonu podle doby letu tau leptonu Jana Nováková, Tomáš Davídek UČJF Higgs -> tau tau na LHC v oblasti malých hmot Higgse dává významný příspěvek měřitelné v oblasti m H [115, 140]
Více23. Matematická statistika
Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
VíceTéma 2: Pravděpodobnostní vyjádření náhodných veličin
0.025 0.02 0.015 0.01 0.005 Nominální napětí v pásnici Std Mean 140 160 180 200 220 240 260 Std Téma 2: Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Pravděpodobnostní posuzování
Více