Zpracování dat z experimentů fyziky vysokých energií



Podobné dokumenty
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Charakterizace rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza dat na PC I.

Zápočtová práce STATISTIKA I

Charakteristika datového souboru

Lineární regrese. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel

Pravděpodobnost a aplikovaná statistika

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

7. Rozdělení pravděpodobnosti ve statistice

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika pro geografy

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Normální (Gaussovo) rozdělení

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Praktická statistika. Petr Ponížil Eva Kutálková

MATEMATICKÁ STATISTIKA - XP01MST

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Náhodné chyby přímých měření

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Chyby měření 210DPSM

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Chyby nepřímých měření

Regresní a korelační analýza

= = 2368

Regresní a korelační analýza

Náhodné (statistické) chyby přímých měření

Odhad parametrů N(µ, σ 2 )

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Regresní analýza 1. Regresní analýza

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Porovnání dvou výběrů

Popisná statistika kvantitativní veličiny

Vzorová písemka č. 1 (rok 2015/2016) - řešení

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Informační technologie a statistika 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.


6. Lineární regresní modely

Úvod do problematiky měření

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Stochastické signály (opáčko)

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

ROZDĚLENÍ NÁHODNÝCH VELIČIN

8 Střední hodnota a rozptyl

Základy teorie pravděpodobnosti

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Vybraná rozdělení náhodné veličiny

KGG/STG Statistika pro geografy

STATISTICKÉ CHARAKTERISTIKY

6. T e s t o v á n í h y p o t é z

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování

Normální rozložení a odvozená rozložení

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Náhodná veličina a rozdělení pravděpodobnosti

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

INDUKTIVNÍ STATISTIKA

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

15. T e s t o v á n í h y p o t é z

4ST201 STATISTIKA CVIČENÍ Č. 7

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

Základy popisné statistiky

Kontingenční tabulky, korelační koeficienty

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

KORELACE. Komentované řešení pomocí programu Statistica

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Statistická analýza jednorozměrných dat

Aplikovaná statistika v R - cvičení 2

Mnohorozměrná statistická data

Měření závislosti statistických dat

Metodologie pro ISK II

Měření hmoty Higgsova bosonu podle doby letu tau leptonu

23. Matematická statistika

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Kontingenční tabulky, korelační koeficienty

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Transkript:

Zpracování dat z experimentů fyziky vysokých energií Kód přednášky: JSF109p1a RNDr. Peter Kodyš, CSc. 1, Ústav částicové a jaderné fyziky, MFF UK Připraveno pro školní rok 2008-2009, datum poslední aktualizace: 26. října 2008 Za obsahové i formální připomínky i korekce budu vždy vděčný. 1 peter.kodys@mff.cuni.cz, Trója, KO, 9. patro č.dv. 906, tel: (22191)2453,2761

Rozsah v ZS: 2/0 Zk, školní rok: 2005/2006, počet míst: neomezen, určeno: 3,4,5 ročník Základní cíl: na konci přednášky by student měl být schopen posoudit kvalitu nabraných dat a měl by rozumět typickým postupům spojeným s vyhodnocováním dat a měl by být schopný mnohé kroky zrealizovat vlastními silami. Vymezení přednášky: statistické metody nutné pro vyhodnocování dat z moderních detektorů, jejich použití např. pro měření vlastností detektoru, rekonstrukce dráhy částic a jejich průsečíků vertexů, metody fitování a určování chyby měření, programový analytický balík ROOT. Data Evaluation in High Energy Physics Experiments Course Objective: after taking this course, students should be able to evaluate quality of acquired data and understand the typical data evaluation methodology as well as to carry out many steps single-handed. Course Layout: statistics in evaluation of data acquired in modern detectors, its implementation methods, e.g. detector properties assessment, particle tracks and their intersections (vertices) reconstruction, fitting, measurement error evaluation and evaluation tools program framework ROOT. Osnova: 1. Programovací techniky a programy pro vyhodnocování dat (ROOT a jeho použití). 2. Druhy a způsoby nabírání dat, jejich organizace, analogové a digitální zdroje dat. 3. Vlastnosti nabíraných dat a jejich zdrojů, rovnice odezvy, signál / šum, S-křivky, časová odezva signálu, synchronizace, triggering, určováni chyb měření. 4. Signál z detektorů: přechod od signálu detektoru k bodu v prostoru, rekonstrukce dráhy částice, rekonstrukce vertexu rozpadu částice, polohování detektorů (alignment), použití metody nejmenších čtverců. 5. Analogové zpracování signálu, základy vyhodnocování spekter, neurální sítě. 6. Práce na software velkých experimentů a jeho organizace, světová výpočetní distribuovaná sít grid, Athena. Doporučené doplňující přednášky: JSF081 Výpočetní technika ve fyzice vysokých energií (T. Davídek) JSF101 Polovodičové detektory v jaderné a subjaderné fyzice (Z. Doležal) JSF075 Detektory pro fyziku vysokych energii (J. Hladký) Rozsah: 12 přednášek. Příklady jsou prováděny s daty z vnitřního detektoru experimentu ATLAS v letech 2001 2004 s použitím testovacích svazků, praktika UČJF v Tróji (spektrum) a z testů v Paříži (analogový detektor). 1

2 Seznam přednášek: 1. Úvod do přednášky a její náplň, shrnutí statistických metod. 2. C++ a ROOT - rychlokurz. 3. Druhy nabírání dat a elektronika. 4. Vlastnosti nabíraných dat a jejich zdrojů. 5. Chyba měření, neurální sítě. 6. Příklad výpočtu účinnosti detektorů. 7. Od signálu detektoru k bodu v prostoru, dráhy částice, místo rozpadu částice. 8. Zpracování signálu analogového detektoru, vyhodnocování spekter. 9. Polohování detektorů (alignment). 10. Fitování funkcí, automatizace analýzy. 11. Fitování dráhy částice, chyba fitu, nalezení vertexu častice. 12. Práce na velkých experimentech, jeho organizace, světová výpočetní distribuovaná sít grid, Athena. Na závěr: seznam řešených příkladů, poděkování a doporučená a rozšiřující literatura. Příklady k přednáškám: 1. Úvod do práce s C++ a ROOT - základy, fitování, ntuple. 2. Příklad jak se dají různě volat funkce na fitování v ROOT. 3. Zkouška práce s cernlib knihovnami. 4. Příklad zpracování SCT ATLAS detektorů z testbeamu ze zdrojových ROOT souborů. 5. Příklad vyhodnocení účinnosti SCT ATLAS detektorů z testbeamu. 6. Příklad jemného alignmentu teleskopů z reálných dat ATLAS SCT testbeam. 7. Příklad jemného alignmentu detektorů z reálných dat ATLAS SCT testbeam. 8. Příklad volání minimalizačního balíku Minuit v sobě samém, Minuit volá funkci, která sama volá nezávisle Minuit i pro sebe. 9. Příklad vyhodnocení analogového signálu z detektorů. 10. Zobrazení různých funkcí z nabídky ROOT. 11. Příklad použití neurálních sítí. 12. Příklad práce se spektrem a jeho zpracováním. 13. Příklad různých způsobů proložení bodů přímkou metodami nejmenších čtverců. 14. Ukázka dvou způsobů ohraničení regresní závislosti: pásem predikce a pásem spolehlivosti.

Obsah 1 Shrnutí statistických metod 8 1.1 Značení...................................... 8 1.2 Důležitý koeficient: korelační.......................... 9 1.3 Popis dat..................................... 10 1.3.1 Průměr.................................. 10 1.3.2 Rozptyl.................................. 11 1.3.3 Víc proměnných............................. 13 1.4 Typy rozdělení.................................. 13 1.4.1 Obecné.................................. 13 1.4.2 Binomické................................ 14 1.4.3 Poissonovo................................ 14 1.4.4 Gaussovo................................. 15 1.4.5 Jiné.................................... 15 1.5 Chyby....................................... 16 1.5.1 Práce s chybami............................. 16 1.5.2 Kombinace více chyb.......................... 17 1.5.3 Systematické chyby........................... 17 1.6 Odhady...................................... 17 1.6.1 Maximální pravděpodobnost...................... 18 1.7 Nejmenší čtverce................................. 19 1.7.1 χ 2 distribuce............................... 21 1.8 Pravděpodobnost a důvěryhodnost....................... 21 1.8.1 Studentovo rozdělení.......................... 22 1.9 Rozhodování................................... 22 1.10 Seřazovací metody................................ 24 3

OBSAH 4 1.10.1 Mann-Whitneyův test.......................... 25 1.10.2 Měření shody.............................. 25 2 ROOT - rychlokurz 27 2.1 Úvod do jazyka C/C++ jazyka......................... 29 2.1.1 Základní operace............................ 30 2.1.2 Příklad kódu s hlavičkovým souborem................. 32 2.1.3 Příslušný hlavičkový soubor...................... 33 2.2 Úvod do práce v prostředí ROOT....................... 34 2.2.1 Instalace ROOT............................. 34 2.2.2 Spouštění maker a práce s externími knihovnami........... 35 2.2.3 Příklad makra a některých operací s daty v ROOT......... 38 2.2.4 Fitování funkcí a práce s ntuple.................... 44 2.3 Jak vyrobit class třídu DLL v prostředí ROOT na čtení dat z detektorů a pro připojení CERNLIB knihoven....................... 47 2.3.1 Výroba DLL knihovny s třídou na čtení TTree formátu dat v ROOT 47 2.3.2 Výroba DLL knihovny s třídou na používání CERNLIB knihoven. 49 3 Druhy nabírání dat a elektronika 51 3.1 Jaká data se sbírají a jak? (trochu elektroniky)................ 51 3.2 Organizace nabíraných dat - ukládaný formát................ 55 3.3 Zdroje dat.................................... 58 3.4 Využití počítačů při měření fyzikálních veličin v jaderné a subjaderné fyzice 62 3.4.1 Úvod................................... 62 3.4.2 Připojení přes sériový, paralelní nebo USB port........... 62 3.4.3 Speciální karty.............................. 63 3.4.4 Univerzální karty............................ 63 3.4.5 Standardní systémy........................... 64 3.4.6 Popis jednotlivých systémů....................... 65 4 Vlastnosti nabíraných dat a jejich zdrojů 68 4.1 Účinnost odezvy v závislosti od předpětí na detektoru............ 69 4.2 Účinnost sběru náboje detektoru........................ 69 4.3 Šum........................................ 70 4.4 Poměr signál k šumu............................... 70 4.5 Cluster size.................................... 70

OBSAH 5 4.6 Odezva detektoru mezi detekčními diodami a na okrajích........... 70 4.7 Odezva na magnetické pole, vliv Lorenzova úhlu................ 71 4.8 Měření šikmého dopadu částic.......................... 71 4.9 Odezva a změny vlastnosti po ozáření detektorů, jeho degradace (R&D, irradiation)..................................... 71 4.10 Odezva na různé druhy částic, různé energie částic.............. 72 4.11 Rekonstrukce těchto charakteristik z měření na jednotlivých prazích..... 72 4.12 Kalibrace, rovnice odezvy............................ 72 4.13 Časová odezva detektoru............................. 73 5 Chyba měření, neurální sítě 74 5.1 Určení chyby při vynesení změřeného bodu................... 74 5.1.1 Standardní určení chyby (gaussovské, symetrické)........... 74 5.1.2 Pravděpodobnostní určení chyby (F-rozdělení, nesymetrické)..... 75 5.1.3 Příklady.................................. 76 5.2 Neurální sítě při vyhodnocování experimentů................. 77 5.2.1 Úvod.................................... 77 5.2.2 Terminologie při použití neurálních sítí................. 78 5.2.3 MLP - vícevrstvé sítě - třídění, vlastnosti a učení........... 79 5.2.4 Před použitím sítě............................ 79 5.2.5 Po použití sítě............................... 80 5.2.6 Proč vlastně požívat neurální sítě.................... 80 5.2.7 Použití NN v ROOTu.......................... 81 6 Příklad výpočtu účinnosti detektorů 86 6.1 Od raw data do ROOT trees........................... 86 6.2 Jak číst ROOT trees, příprava class dll pro čtení............... 87 6.3 První krok: hitmapa teleskopů a testovaných detektoru (DUT)....... 87 6.4 Teleskopy: od adjustace k dráze částice a mapě testovacího svazku...... 87 6.5 DUT: vyčistění odezvy, maskování kanálů................... 88 6.6 Polohovaní detektorů - alignment........................ 88 6.7 Reziduály - odchylky dráhy částice od odezvy detektoru........... 88 6.8 Účinnost a šumová obsazenost kanálů a chyba jejich určení.......... 89 6.9 S-křivka a medián................................. 89 6.10 Příklad analýzy binárního detektoru...................... 89

OBSAH 6 7 Od signálu detektoru k bodu v prostoru, dráhy částice, místo rozpadu částice 91 7.1 Geometrie detektoru a přesnosti z výroby.................... 91 7.2 Rekonstrukce bodu v prostoru.......................... 92 7.3 Hledání drah v detektoru............................. 92 7.3.1 Základ hledání drah........................... 93 7.3.2 Principy hledání drah.......................... 93 7.3.3 Vlastnosti hledání drah.......................... 93 7.3.4 Metody hledání drah........................... 94 7.4 Rekonstrukce dráhy v prostoru, fitování, algoritmy.............. 95 7.5 Hledání průsečíků (vertexů) v detektoru.................... 97 8 Zpracování signálu analogového detektoru, vyhodnocování spekter 98 8.1 Analogové zdroje signálu............................. 98 8.1.1 Software pro analýzu šumu....................... 98 8.1.2 Definice základních veličin........................ 99 8.1.3 Testy detektorů SiLCu pomocí beta zářiče............... 99 8.1.4 Výpočet poměru signál-šum (S/N) stripovývh detektorů....... 100 8.1.5 Další funkce programu.......................... 103 8.1.6 Výsledky................................. 104 8.1.7 Závěr................................... 105 8.2 Spektra...................................... 106 8.2.1 Eliminace pozadí............................ 106 8.2.2 Dekonvoluce multipletů......................... 107 8.2.3 Vyhlazení šumu............................. 107 8.2.4 Najít píky v spektru a jejich identifikace............... 108 8.2.5 Fitování................................. 108 8.2.6 Analýza dat ortogonálními transformacemi, filtrování........ 109 8.2.7 Vícerozměrná spektra.......................... 109 8.3 Příklad vyhodnocení analogového detektoru.................. 109 8.4 Příklad vyhodnocení spektra........................... 110 9 Polohování detektorů (alignment) 112 9.1 Podmínky - selekce vhodných eventů...................... 112 9.2 Minimalizace kvadrátů odchylek a alignment teleskopů............ 113

OBSAH 7 9.3 Alignment detektorů (DUT)........................... 113 9.4 Užitečné rady a doporučení........................... 114 9.5 Příklad v MS Excell............................... 116 9.6 Příklad v ROOT................................. 116 10 Fitování funkcí, automatizace analýzi 119 10.1 Ruční určení chyby při regresi - univerzální návod.............. 119 10.2 Fitování funkcí v prostředí Excel - ručně................... 120 10.3 Fitování funkcí v prostředí ROOT....................... 120 10.4 Automatizace procesu fitování funkcí...................... 122 11 Fitování dráhy částice 123 11.1 Fitování dráhy částice přímkou I........................ 124 11.2 Fitování dráhy částice přímkou II........................ 127 11.3 Určování chyby polohy dráhy v libovolném bodě............... 132 11.4 Fitování zakřivených drah........................... 133 11.5 Hledání průsečíků dvou drah, vertexů..................... 133 12 Práce na velkých experimentech 135 12.1 Software na velkých exerimentech....................... 135 12.2 Programový rámec Athena........................... 136 12.2.1 Úvod................................... 136 12.2.2 Struktura souborů ATLAS SW..................... 137 12.2.3 Struktura adresáře balíčků....................... 138 12.2.4 Spouštění úlohy v Athene........................ 138 12.2.5 Generátory................................ 139 12.2.6 Simulace + Digitizace.......................... 140 12.2.7 Rekonstrukce............................... 140 12.2.8 Datové soubory............................. 140 12.2.9 Analýza................................. 141 12.2.10 Správa a vývoj SW v Athene...................... 143 12.2.11 CASTOR................................. 144 12.2.12 Výpočetní světová sít : Grid...................... 145 12.3 Závěrečné komentáře.............................. 146 13 Seznam řešených příkladů 148

Kapitola 1 Shrnutí statistických metod Podle toho co srovnáváme a vyhodnocujeme můžeme rozdělit testy na χ 2 - test, F-test, T-test nebo vyhodnocování gaussovského rozdělení. Důležité je také si uvědomit, že χ 2, F a T testy při dostatečně velkém souboru vyhodnocovaných dat přecházejí do podmínek pro Gausovo rozdělení. Skutečnou užitečnost testy ukazují při menších souborech dat a při jejich nejednoznačné příslušnosti k vyhodnocované podmínce. V dalších kapitolách shrneme základní vztahy, které nám pomáhají ve využívání statistických metod při vyhodnocování dat. 1.1 Značení N, n, m - počet vyhodnocovaných dat, událostí, events X i, Y i - vyhodnocovaná data X, Ȳ - výběrový průměr: X = 1 N N X i (1.1) 1 s x, s y - směrodatná odchylka výběrového průměru s 2 x, s 2 y - rozptyl z měřených hodnot s 2 = 1 N 1 N (X i X) 2 = 1 N 1 N 1 ( Xi 2 2N X 1 N X i + N 2 X2 ) (1.2) 1 8

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 9 µ - střední hodnota σ - směrodatná odchylka σ 2 - rozptyl α - pravděpodobnost nastání jevu α (0, 1), α 0.05 - jev již nenastane, α 0.95 - jev se uděje LI - levostranný interval PI - pravostranný interval OI - oboustranný interval N(µ, σ 2 ) - normální rozdělení pravděpodobnosti µ(α) - kritická hodnota pro N(0, 1) χ 2 k(α) - kritická hodnota rozdělení (číslo, které náhodná veličina s rozdělením χ 2 k překročí s pravděpodobností α) T k (α) - Studentovo rozdělení pro k-stupňů volnosti na hladině pravděpodobnosti α r k (α) - kritická hodnota pro korelační koeficient r w k (α) - kritická hodnota pro jedno výběrový Wilcoxonův test F m,n (α) - kritická hodnota shodnosti rozptylu (Fisher-Snedecorov test) w m,n (α) - kritická hodnota dvou výběrového Wilcoxonovho testu 1.2 Důležitý koeficient: korelační Korelační koeficient ukazuje stupeň provázanosti dvou veličin navzájem, stupeň jejich vzájemné korelace, souvislosti mezi sebou. Platí: ρ = σ XY σ 2 Xσ 2 Y (1.3) r = r = S XY SXS 2 Y 2 Xi Y i N XȲ ( Xi 2 N X 2 )( Yi 2 NȲ 2 ) (1.4) (1.5) kde ρ je stupeň korelace mezi X a Y, r je výběrový korelační koeficient z rozsahu r 1, 1

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 10 1.3 Popis dat Data můžeme rozdělit na diskrétní (nabývající jen některé hodnoty) nebo spojité. Při jejich popisu můžeme použít nejrůznější kritéria, nejobvyklejší je určení průměru hodnot, rozptylu hodnot a vztah mezi více proměnnými, pokud jsou. 1.3.1 Průměr Průměr (avarage) je obvykle určen jedním z následujících spůsobů: 1. aritmetický (arithmetic mean) se používá při použití statistických testů když máme symetrické rozdělení, data jsou spojitá. Aritmetický průměr z pruměrů: x = xi N (1.6) x = Ni x i Ni (1.7) Aritmetický průměr když měření mají četnost f i : x = fi x i fi (1.8) 2. geometrický (geometric mean) 3. harmonický (harmonic mean) x = N x i x 2 x 3...x n (1.9) x = N 1/xi (1.10) 4. medián (median) Když seřadíme měření x i podle velikosti (podle velikosti hodnoty x i ), platí: Me = 0.5(x N/2 + x N/2+1 ) pro sudé N (1.11) Me = x N/2 pro liché N (1.12) Použití má hlavně když jsou data hodně zešikmené (nesymetrické rozdělení) nebo jsou v ních odlehlé hodnoty a chceme znát střed rozdělení dat.

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 11 5. modus (mode) Mo nebo x je hodnota x i která se vyskytuje nejčastěji, u spojitého histogramu hodnota, kde je maximum, pokud je maxim víc, děla se jejich vážený průměr. Používá se hlavně pro diskrétní data, když existuje víc vrcholů, když nám stačí orientační přehled nebo hledáme nejčastější hodnotu. 6. středních čtverců (root mean square) x = x 2 i N (1.13) Dále je důležité si uvědomit, jesli máme pravdivý průměr µ nebo změřený průměr x. 1.3.2 Rozptyl To, že měřené hodnoty dat nedávají stejné číslo způsobuje jejich rozptyl (spread). Když vyneseme hodnoty měření na x-ovou osu grafu rozděleného na chlívky, vždy spadnou do některého z chlívků, dostaneme obyčejně některé chlívky víc naplněné a jiné míň. Takový typ grafů nazýváme histogram a pozorujeme na něm obvykle maximum, kde hodnoty měření dopadali nejčastěji doprostřed kopečka. Když postupujeme histogramem zleva a počítáme, kolik z celkového počtu měření jsme už zaznamenali, budeme přecházet přes některé zajímavé hodnoty zvane percentily: 1. percentil s hladinou 2.5% resp. 97.5% : krajní hodnoty důležité pro určování hranic ve fyzice 2. percentil s hladinou 5% resp. 95% : podobně, krajní hodnoty důležité pro určování hranic ve fyzice 3. percentil s hladinou 25% : první, dolní kvantil Q I, q = 25% 4. percentil s hladinou 50% : druhý, střední kvantil, medián Q II, q = 50% 5. percentil s hladinou 75% : třetí, horní kvantil Q III, q = 75% Dále je zadefinovaný centrální moment (central moment) m, k-tého stupně z n počtu dat: (xi x) k m k = (1.14) N

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 12 Dále je důležité, podobně, jako u střední hodnoty, si uvědomit, jesli máme pravdivou skutečnou střední odchylku σ nebo střední odchylku z měření s. Rozptyl obvykle určujeme nebo popisujeme jako: 1. standardní směrodatná odchylka (standard deviation) je definovaná jako odmocnina z rozptylu: σ = (xi x) 2 N (1.15) (xi x) s = 2 (1.16) N 1 Když hrozí pomíchání nebo nejasnost, je dobré použít explicitně, který vztah použijeme, formou třeba: σ N, σ N 1 Standardní směrodatná odchylka je silně ovlivňována odlehlými hodnotami a nesymetrií rozdělení. 2. rozptyl (variation) σ 2 = (xi x) 2 N = x 2 i N x 2 N (1.17) 3. jiný alternativní popis: FWHM, FW(1/5)M, špičatost, symetričnost,... (a) FWHM - full width at half of maxima, celá šířka píku v polovině výšky maxima (b) FW(1/5)M - celá šířka píku v jedné pětině výšky maxima (c) špičatost (sharpnes): leptokurtická = špičatější než normální, platykurtická = méně špičaté než normální, dá se kvantifikovat: S 1 = m 4 2 kde: m m 2 k je centrální moment (1.18) 2 (d) symetričnost: zešikmení (skew) zprava nebo zleva, míra zešikmení se vyjadřuje více spůsoby: S 2 pomocí 2. a 3. centrálního momentu: KS pomocí kvartilů: KS = Q III + Q I 2 x Q S 2 = m 3 m 3/2 2 (1.19) kde Q je kvantilové rozpětí (1.20)

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 13 SK podle K. Pearsona: SK = 3( x Me) s (1.21) využívá při zešikmení nerovnost mediánu M e a aritmetického průměru x 1.3.3 Víc proměnných Pokud vyhodnocujeme víc proměnných, zajímá nás víc vlastností: hlavně do jaké míry a jakým způsobem spolu souvisí nebo jsou nezavislé. K tomu máme vytvořené některé nástroje, jako: 1. kovariance - souvislost mezi daty (covariance): cov(x, y) = 1 = 0 nezávislé (x i x)(y i ȳ) = xy xȳ = > 0 přímá úměra N i < 0 nepřímá úměra (1.22) 2. korelace (correlation): ρ = cov(x, y) = σ x σ y = 0 +1 1 (1.23) 3. pro víc proměnných je nutné prověřit vzájemný vztah různých kombinací proměnných a vytvořit tak kovarianční matici (taky nazývanou odchylkovou nebo chybovou maticí) a kovarianční matici. 1.4 Typy rozdělení 1.4.1 Obecné Ve statistice platí zákon velkých čísel: při zvyšování počtu měření se výsledek blíží výsledku získanému z nekonečného počtu měření, nebo očekávaná hodnota r označená jako r nebo i µ konverguje ke středu (mean) je určená: r = µ = r rp (r) (1.24)

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 14 kde P (r) je rozložení pravděpodobnostní funkce (hustoty pravděpodobnosti) (probability density distribution). Pro kontinuální rozložení dat pak platí, ža pravděpodobnost s jakou dostaneme nějakou hodnotu měření v hranicích < x 1, x 2 > je určená vztahem: nebo inverzně: P ravdepodobnost = x2 P (x) = lim δx 0 P ravdepodobnost δx x 1 P (x)dx (1.25) (1.26) 1.4.2 Binomické Binomial probability distribution: pravděpodobnost P počtu r úspěchů z n pokusů, z nichž každý bude úspěšný s pravděpodobností p, bude: P (r; p, n) = p r (1 p) n p n! r!(n r)! = pr (1 p) n p nc r (1.27) kde máme r úspěchů z n pokusů, p je pravděpodobnost lokálního úspěchu, nc r je binomický koeficient. Střední hodnota úspěchu bude: Standardní odchylka: σ = r = np (1.28) np(1 p) (1.29) Binomické rozdělení poskytuje informaci o úspěchu i neúspěchu. 1.4.3 Poissonovo Poissonovo rozdělení poskytuje informaci jen o úspěchu. To znamená, že např. víme kolikrát částice prolétla detektorem, ale samozřejmě se nemůžeme vyjádřit k tomu, kolikrát neprolétla. Pravděpodobnost P pozorování r událostí, když očekáváme střední hodnotu λ, je: Střední hodnota úspěchu bude: P (r; λ) = e λ λ r r! (1.30) r = λ (1.31)

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 15 Standardní odchylka: σ = λ (1.32) Pro λ > 10 se rozdělení už podobá Gaussovu rozdělení. Pro součet dvou Poissonových distribucí platí: λ vysledne = λ 1 + λ 2 1.4.4 Gaussovo P (x; µ, σ) = 1 σ 2π e (x µ)2 /(2σ2 ) (1.33) Pokud z = (x µ)/σ, pak se rovnice upraví na jednotkové normalizované rozdělení: P (z) = 1 2π e x2 /2) Některé důležité vlastnosti Gaussova rozdělení jsou v tabulce 1.1. (1.34) Obsah plochy uvnitř ohraničení σ Ohraničení σ obsahu plochy hranice v σ plocha v % plocha v % hranice v σ 1 68.27 99.9 3.290 2 95.45 99 2.576 3 99.73 95 1.960 90 1.645 Tabulka 1.1: Vybrané vlastnosti Gaussova rozdělení 1.4.5 Jiné 1. Pravoúhlé jednotkové: P (x) = { 1 b a pro a x b 0 jinde (1.35) Střední hodnota bude: Standardní odchylka: r = a + b 2 (1.36) σ = b a 12 (1.37) 2. Weibull rozdělení umožňující popsat ostrost funkce (parametr β): P (x; α, β) = αβ(αx) β 1 e (αx)β (1.38)

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 16 3. Breit-Wigner nebo Cauchy rozdělení dává pravděpodobost přechodu částice o hmotnosti m do resonance hmotnosti M s šířkou Γ. Funkce nemá rozptyl, protože její celkový integrál diverguje. nebo v Cauchyho redukci: 1.5 Chyby 1.5.1 Práce s chybami F (m; M, Γ) = 1 Γ (1.39) 2π (m M) 2 + (Γ/2) 2 F (z) = 1 π 1 1 + z 2 (1.40) Platí centrální limitní teorém: Pro výběr N nezávislých hodnot x i z dat rozložených podle rozdělení se středem µ i a rozptylem σi 2 platí pro součet: očekávaná hodnota: bude mít rozptyl: N X = x i (1.41) i=0 X = µ i = Nµ (1.42) σ 2 = σ 2 i (1.43) pro N Pro N měření se chyba vylepší 1/ N, dostaneme standardní chybu průměru: Pro vážené měření s různými σ i platí: σ nove = σ jednomereni (1.44) N x = xi /σ 2 i 1/σ 2 i (1.45) σ 2 = 1 1/σ 2 i (1.46)

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 17 1.5.2 Kombinace více chyb Pro určení rozptylu funkce s více proměnnými zatížených chybou platí: f(x, y) : σ 2 f(x,y) = ( ) 2 δf σx 2 + δx ( ) 2 δf σy 2 + 2 δy ( δf δx ) ( ) δf ρσ x σ y (1.47) δy 1.5.3 Systematické chyby Systematické chyby se objevují, když náš metr nemá stejnou vzdálenost mezi vrypy, nebo když měření nejsou nezávislá. Je důležité je najít, rozpoznat, vyhodnotit a odstranit. Pokud se podaří je vyhodnotit, zapisujeme je jako: A = +24.8 ± 3.2 ± 5.3, kde ±3.2 je statistická chyba a ±5.3 je složka od systematické chyby. 1.6 Odhady Odhady (estimations) jsme nuceni dělat vždy, když nemůžeme měřit přesně, nebo když nám přesnost měření je málo a chceme se dozvědět víc. Odhad je procedura, dělaná nad souborem měřených dat v numerické formě, za účelem zjištění skutečného (nebo alespoň jeho odhadu) rozdělení dat, z kterého jsou vzorky vybrané. Odhadová funkce L (Gauss, Landau,...) má obecně tvar: L(x 1, x 2,..., x N ; a) = P (x i ; a) P (x, a)dx = 1 (1.48) kde a je vlastnost rozdělení na které závisí rozptyl hodnot x i a kterou měřím. Základní očekávané vlastnosti odhadu jsou (pokud nebudou splněny, odhad bude špatný ): 1. konzistentnost (consistency): zvyšováním počtu měření se blížíme skutečné hodnotě, nesklouzneme mimo: lim â = a (1.49) N 2. nezatíženost (unbiased): skutečná hodnota je očekávanou hodnotou: â = a (1.50) 3. účinnost (efficiency): snažíme se měřit účinně, tj. s malým rozptylem

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 18 Existuje hranice maximální přesnosti odhadu, nazývaná minimální variační rozptyl (minimum variance bound, MVB) pro L podle 1.48: σ 2 1 (d ln L/da) 2 = 1 (d 2 ln L/da 2 ) (1.51) Pro Gausse je např.: MV B = σ2 N pro mean µ (1.52) MV B = 2σ4 N a z toho pak pro chybu σ a ρ: pro standardní odchylku σ (1.53) σ σ = σ 2N (1.54) σ ρ = 1 ρ N 1 (1.55) Poslední vztah je víc gaussovský, když použijeme substituci: z = 1 2 ln 1 + ρ 1 ρ (1.56) pak: σ z = 1 N 3 (1.57) 1.6.1 Maximální pravděpodobnost Pro zjednodušení vztahu 1.48 je výhodné zavést maximální pravděpodobnost z podmínky derivace (maximal likelihood, ML): d ln L da = 0 (1.58) což umožňuje citlivěji nastavovat odhady a i pro malá N nejsou data zatížená. Když nahradíme P nenormalizovanou funkcí Q, dostaneme rozšířenou maximální pravděpodobnost (extended maximal likelihood, EML) Další přístupy jsou například: Q(x, a)dx = ν (1.59)

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 19 1. metoda momentů (method of moments) x = xp (x; a)dx = xp (x; â)dx = ˆx pro normalizaci: P (x; â i )dx = 1 (1.60) 2. metoda nejmenších čtverců (least squares) je užitečná, když máme data uspořádaná do dvojic x i, y i, x i známe a y i měříme, y = f(x) kde f(x) je Gaussian, pak můžeme napsat: P (y i ; a) = 1 e [y i f(x i ;a)]2/2σ2 i pravděpodobnost pro y i a dané x i σ i 2π (1.61) ln L = 1 [ ] 2 y i f(x i ) ln σ i 2π pravděpodobnost pro datový soubor 2 σ i (1.62) [ ] 2 y i f(x i ; a) = 0 minimalizační podmínka (1.63) σ i Víc detailů a praktické použití v příkladech je na: 1.7, 11.1 (str. 124). 3. metoda přímého strategického výběru (stratified sampling - beating N) umožňuje zlepšit statistiku využitím znalosti dalších souvislotí ve výběru, např. součet kluků a dívek v souboru je konstanta. 1.7 Nejmenší čtverce Metoda nejmenších čtverců (Least Squares) se využívá k nalezení neznámého parametru ze souboru měřených dat. Podmínkou uspěchu je soubor dobře určených x hodnot, odpovídající soubor y hodnot měřených s přesností σ a funkce f(x; a) předpovídající y pro libovolné x, parametr a je známý svou úlohou ve funkci ale neznámý svou hodnotou, a tento tedy budeme hledat. Princip metody nejmenších čtverců je odvozen od maximální pravděpodobnostní funkce a využívá minimalizaci součtu čtverců y-ových odchylek od optimální fitované přímky, vzdáleností y i od f(x i ; a). Minimalizovaný součet nazýváme χ 2 : [ ] N 2 χ 2 yi f(x i ; a) dχ 2 = xa = 0 (1.64) i=1 σ i

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 20 Pak platí: 1 df(x i ; a) [y σi 2 i f(x i ; a)] = 0 (1.65) da Sumarizace důsledků fitu přímkou je: a k tomu vyjádření chyby: ˆm = σ 2 m = V ( ˆm) = xy xȳ x 2 x 2 (1.66) ĉ = ȳ ˆm x (1.67) σ 2 N(x 2 x 2 ) (1.68) σ 2 c = V (ĉ) = σ 2 x 2 N(x 2 x 2 ) σ 2 x cov( ˆm, ĉ) = N(x 2 x 2 ) ρ ˆm,ĉ = x x 2 (1.69) (1.70) (1.71) a pro χ 2 je nejlepší fit: χ 2 = V (y) σ (1 2 ρ2 x,y) V (y) = y 2 ȳ 2 (1.72) Pokud se liší σ i pro jednotlivá měření, musíme nahradit (vážené hodnoty): yi nahradit yi /σi 2 (1.73) N 1/σ 2 i Pro extrapolování chyby σ Y σ 2 = pro dané X N 1/σ 2 i (1.74) σy 2 = V (Y ) = σ2 (X ˆx) 2 N(x 2 x 2 ) + σ2 N (1.75) Pro regresní křivku můžeme výslednou přímku napsat matematicky stejně, důležitý rozdíl je však z pohledu filozofického: zpřesňováním měření nedosáhneme přesnější fit protože vstupní data mají přirozený rozptyl hodnot, regresní analýza je tedy popisná statistika reálného stavu, podobně jako třeba korelace, zatímco výsledný fit je formou odhadu, typicky: výsledek není v rámci chyby jednotlivého měření. Rozšíření a určité zobecnění metody nejmenších čtverců je dál ukázané v části 11.1 (str. 124).

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 21 1.7.1 χ 2 distribuce Všeobecně se χ 2 -test používá při určování, jestli náhodný výběr dat je, nebo není, podle gaussovského rozdělení. χ 2 -distribuce popisuje rozdíl mezi měřenou hodnotou a její teoretickou předpovědí. Teoretická předpověd vychází z tvaru Gaussova rozdělení. [ ] N 2 χ 2 yi f(x i ; a) N = = yaktualní i y idealní 2 i i=1 σ i i=1 očekávaná chyba P (χ 2 ; n) = 2 n/2 Γ(n/2) χn 2 e χ2 /2 (1.76) (1.77) kde n je počet stupňů volnosti: n = N p, p je počet proměnných laděných pomocí χ 2. χ 2 má pak maximum v n a σ χ 2 = 2n. Pokud máme chybu v x aj y, platí: ˆm = σ x σ y (A ± A 2 + 1) (1.78) kde: A = σ2 xv (y) σ 2 yv (x) 2σ x σ y cov(x, y) (1.79) Speciální případ orogonální regrese je popsán taky v části 11.1 (str. 124). Pokud máme chybu v x aj y, ale je pro každou hodnotu i jiná (σ xi σ xi+1, σ yj σ yj+1 ), existuje jenom numerické řešení. 1.8 Pravděpodobnost a důvěryhodnost Existují čtyři definice pravděpodobnosti: 1. matematická (Kolmogorov), zavedená pomocí axiom: (a) P (E) 0 (b) P (E 1 ore 2 ) = P (E 1 )+P (E 2 ), pokud E 1 a E 2 se vzájemně vylučují (c) P (E i ) = 1 přes všechny vzájemně se vylučující možnosti (vždy se něco stane)

KAPITOLA 1. SHRNUTÍ STATISTICKÝCH METOD 22 2. empirická frekvenční definice (Richard von Mises): N pokusů, M úspěchů, když N, M/N poměr definuje pravděpodobnost P (A) úspěchu v A 3. objektivní (tendence) (C.S.Peirce, 1910) - jako vnitřní vlastnost hmoty a jevů kolem a platí, že by se měla projevovat, to znamená, že se dřív nebo později projevit musí, příklad: smrt přijde... 4. subjektivní pravděpodobnost - Bayesianova statistika: podmiňovaná pravděpodobnost P (a/b), že bude a, když b bude pravda. Bayes teorem (1763): p(a/b)p(b) = p(aandb) = p(b/a)p(a) p(a/b) = p(b/a)p(a) p(b) (1.80) Důležité je dávat pozor na to, se kterou pravděpodobností pracujeme a nemíchat je. 1.8.1 Studentovo rozdělení Interval spolehlivosti odhadu(confidence levels) popisuje Studentovo rozdělení t popsané Gossettem: t = x µ (1.81) ˆσ a znamená: jak blízko je měřené x skutečné hodnotě µ a z toho jakou teda mám chybu měření ˆσ, za předpokladu že jsme tak blízko µ jak jen to umožňuje χ 2. Pro N měření platí: t = ˆx µ ˆσ/ (1.82) N t-test umožňuje zjistit, jestli dva náhodné výběry podle Gaussova rozdělení X i a Y i jsou vůči sobě nezávislé, a tedy náhodné, nebo spolu souvisí. Na toto rozhodnutí se využije podmínka pomocí χ 2 rozhodnutí. 1.9 Rozhodování V rozhodování (taking decisions) se většinou jedná o testování hypotézy, což můžeme dělat následujícími způsoby: