MATEMATIKA MEZI... ANEB NĚCO MÁLO O DISKRIMINACI
|
|
- Luboš Slavík
- před 10 lety
- Počet zobrazení:
Transkript
1 ROBUST 2000, c JČMF 2001 MATEMATIKA MEZI... ANEB NĚCO MÁLO O DISKRIMINACI ARNOŠT KOMÁREK Abstrakt. If somebody wants to distinguish objects from two groups,he can use a statistical model to achieve this target. Three possible statistical models are discussed a bit in this paper. Models are as follows: normal discriminant analysis (NDA),logistic regression (LR) and mixture of normal distributions (MND). The sense of this article is to reveal for another author s paper where those models are discussed many more. One of the supposed models (MND) is used for analyzis of the entrance examination at the Faculty of Law of the Charles University in Prague in We try to distinguish between honest and fraudulent candidates of studying at this college. Abstrakt. Vto state izuqaets diskriminacionny analiz dl statistixeskogo obsudeni prinimate nyh ekzamenov v Universitet Karla. Cílem příspěvku je upozornit na práci [1], jež se zabývá některými modely, pomocí nichž lze provádět diskriminaci. Konkrétně se jedná o modely normální diskriminační analýzy (NDA), logistické regrese (LR) a směsi normálníchrozdělení (MND). Vždy máme za úkol zařadit dané objekty do jedné za dvou skupin na základě hodnot jistýchznaků na nichnaměřených. Znaky naměřené na daném objektu můžeme reprezentovat pomocí hodnoty náhodného vektoru X a zařazení tohoto objektu pomocí hodnoty náhodné veličiny Y, jež nabývá hodnot 0 a 1, jelikož v naší práci rozlišujeme pouze mezi dvěma skupinami. Jednotlivé modely jsou potom definovány následovně. (LR): P (Y =1 X = x) =[1+exp( β 0 β x)] 1, P (Y =0 X = x) =[1+exp(β 0 + β x)] 1, kde β 0 a β jsou parametry modelu (β 0 R, β R p ). (NDA): P (Y =1)=λ (0, 1), L(X Y =0)=N p (µ 0, Σ), L(X Y =1)=N p (µ 1, Σ) Mathematics Subject Classification. Primary 62H30; Secondary 62P25. Klíčová slova. Diskriminační analýza. Tato práce vznikla za podpory grantu GAČR č. 201/00/0769 a grantu MSM
2 120 Arnošt Komárek Parametry jsou tentokrát λ, µ 1 µ 0 aσ. (MND): X má hustotu f(x) =λf 1 (x)+(1 λ)f 0 (x), kde f 1 je hustota N p (µ 1, Σ) a f 0 hustota N p (µ 0, Σ). Parametry jsou opět λ (0, 1), µ 1 µ 0 aσ. V práci [1] jsou jednotlivé modely podrobně popsány a porovnány. Jsou zde též uvedeny postupy pro odhadování neznámýchparametrů v jednotlivýchmodelechv praktickýchsituacích. Součástí je samozřejmě též odvození diskriminačníchpravidel. Na přiložené disketě je možno nalézt procedury v Matlabu pro výpočet odhadů. Na tomto místě poznamenejme, že modely (LR) a (NDA) vyžadují k sestavení diskriminační procedury učící skupinu objektů, zatímco model (MND) nikoliv. část práce [1] je věnována následujícímu příkladu, který se pokouší analyzovat výsledky přijímacíchzkoušek na Právnické fakultě UK v Praze v roce Tyto přijímací zkoušky jsou nechvalně známy možností, že někteří uchazeči o studium na zmíněné fakultě znali znění přijímacíchtestů před vlastní přijímací zkouškou. Pomocí studovanýchmodelů se pokusíme rozlišit studenty, kteří neznali zadání přijímacíchtestů (běžní studenti), a studenty, kteří mohli znát předem znění těchto testů (zvýhodnění studenti). K dispozici jsou výsledky jednotlivýchuchazečů v následující podobě: počet bodů za test z cizího jazyka (proměnná jazyk), z historie a všeobecného přehledu (proměnná historie) a za test z logiky (proměnná logika). Dále je u každého uchazeče uvedeno pořadové číslo termínu zkoušky, kterého se zúčastnil. Termínů bylo dohromady třináct, přitom ten třináctý byl náhradní za termín číslo dvanáct, který byl anulován kvůli podezření na podvodné jednání některýchuchazečů. V analýze nebudeme tedy pracovat s daty z třináctého termínu, neboť se ho zúčastnili studenti, kteří již přijímací zkoušku absolvovali v termínu dvanáctém. Přidání dat ze třináctého termínu do celého souboru by mohlo způsobit porušení nezávislosti jednotlivých pozorování. Každého z prvních dvanácti termínů se zúčastnil přibližně stejný počet uchazečů v rozmezí od 426 do 488. Za test z jazyka bylo přitom možné získat maximálně patnáct bodů, za test z historie a všeobecného přehledu maximálně čtyřicet pět bodů a za test z logiky maximálně čtyřicet bodů. Veličina Y, jež indikuje zařazení jednotlivých uchazečů, bude nabývat hodnoty jedna pro zvýhodněné a hodnoty nula pro běžné uchazeče. Diskriminaci budeme provádět na základě vektoru X, jehož složky budou odpovídat po řadě proměnným jazyk, historie, logika. Skupinu pro výpočet odhadů tvoří v tomto případě všichni uchazeči, kteří se zúčastnili jednoho z prvních dvanácti termínů. U žádného z nich nevíme, zda ho zařadit mezi běžné nebo zvýhodněné studenty. K sestavení diskriminační funkce tedy musíme nyní použít model směsi normálníchrozdělení. Pro podpoření domněnky, že zkoumaná data jsou skutečně směsí dvou normálníchrozdělení, jsou v [1] uvedeny histogramy dosažených bodů u jednotlivých testů zvlášť pro první a dvanáctý termín. Výsledky uchazečů z prvního termínu by směs tvořit neměly, naopak výsledky dvanáctého termínu by měly tvořit směs z rozdělení, z něhož pocházejí data u ostatních termínů a rozdělení, z něhož pocházejí data zvýhodněných uchazečů. Histogramy pro druhý až jedenáctý termín se od toho pro termín číslo jedna příliš neliší a proto nejsou uvedeny. My zařazujeme histogramy
3 Matematika mezi... aneb něco málo o diskriminaci 121 pro test z historie, jelikož zde se směs projevuje nejvíce a histogramy pro bodový součet. Směs dvou rozdělení lze odhalit v podstatě na všech histogramech odpovídajících dvanáctému termínu, přitom nejvíce se promíchání dat ze dvou výběrů projevuje právě u testu z historie a všeobecného přehledu. Naproti tomu histogramy prvního termínu poměrně dobře odpovídají hustotě normálního rozdělení. Na závěr ještě uvádíme tabulku s průměry výsledků jednotlivých testů a celkového bodového součtu zvlášť pro prvníchjedenáct termínů a pro termín dvanáctý. Průměry získaných bodů termín 12. termín (5110 studentů) (440 studentů) jazyk 10,11 10,95 historie 27,51 34,11 logika 28,64 32,05 bodový součet 66,27 77,11
4 122 Arnošt Komárek Z tabulky vidíme, že průměry dosaženýchbodů jsou u dvanáctého termínu vždy vyšší. Přitom rozdíl je věcně zanedbatelný pro jazyk a nejvyšší pro historii. Avšak statistické testy indikují významný rozdíl u všechuvažovanýchveličin. Jednostranný Wilcoxonův (Mannův-Whitneyův) test (s alternativou vyšších hodnot u dvanáctého termínu než u zbylých jedenácti termínů) dosahoval pro všechny uvažované veličiny hladiny nižší než 0,0001. Také tato zjištění nás utvrzují v domněnce, že máme co do činění se směsí dvou rozdělení. Podrobněji se lze s důvody, jež vedou k předpokladu, že data jsou směsí dvou rozdělení, seznámit na síti Internet na adrese kde je zveřejněn Komentář ke statistickému zpracování výsledků přijímacích zkoušek na Právnické fakultě UK v Praze v roce Pro vlastní sestavení diskriminační funkce použijeme výsledky všechuchazečů, kteří se zúčastnili prvníchdvanácti termínů. Takto získáme náhodný výběr ze směsi dvou rozdělení, přičemž nyní již promíchanost nevynikne tolik, jako v případě dvanáctého termínu. Prvních dvanácti termínů se zúčastnilo 5550 uchazečů. Odhady budeme počítat pomocí Matlabu. Po provedení výpočtů získáme následující výsledky: λ =0,062, µ 1 = 11,57 38,84, µ 0 = 10,09 27,32, Σ = 33,61 28,60 7,07 2,48 2,31 2,48 20,84 3,61 2,31 3,61 15,70 Vidíme, že odhad střední hodnoty bodových zisků běžných uchazečů je téměř shodný s průměry bodovýchzisků studentů, kteří se zúčastnili prvníchjedenácti termínů. Odhad střední hodnoty bodových zisků zvýhodněných uchazečů je o něco vyšší než průměr bodovýchzisků dosaženýchv rámci dvanáctého termínu. Tento fakt je způsoben skutečností, že dvanáctého termínu se zúčastnili též běžní studenti. Vzhledem k uvedenému se zdá, že data odpovídají domněnce, že prvníchjedenácti termínů se patrně nezúčastnil žádný zvýhodněný student. Z uvedených odhadů spočítáme odhady koeficientů v diskriminační funkci: β 0 = 25,92, β = 0,04 0,52. 0,20 Tedy uchazeče, který u přijímací zkoušky dosáhl bodového zisku reprezentovaného vektorem X =(jazyk, historie, logika), zařadíme mezi zvýhodněné, pokud 0,04 jazyk +0,52 historie +0,20 logika > 25,92. Pokud aplikujeme toto rozhodovací pravidlo na výsledky uvažovaných uchazečů, získáme následující odhady počtu běžných a zvýhodněných uchazečů na jednotlivýchtermínechpřijímací zkoušky. Odhady počtu běžnýchuchazečů jsou ve sloupci označeném nulou, počtu zvýhodněných uchazečů ve sloupci označeném jedničkou..
5 Matematika mezi... aneb něco málo o diskriminaci 123 Odhady počtu běžných a zvýhodněných uchazečů zařazení podíl termín 0 1 součet zvýhodněných (%) , , , , , , , , , , ,6 součet ,0 Samozřejmě, že ne každý uchazeč, který je podle našeho diskriminačního pravidla označen za zvýhodněného, jím skutečně je. Diskriminační funkce musí totiž pomocí roviny rozdělit jednoznačně trojrozměrný eukleidovský prostor na dvě části. Takto se do části se zvýhodněnými uchazeči může dostat i ten, který přirozeným způsobem (vlastními vědomostmi) dosáhl vyššího bodového zisku. Proto se mezi zvýhodněnými uchazeči objevují též studenti, kteří se zúčastnili jednoho z prvních jedenácti termínů, nikdy jichvšak není mnoho (maximálně 2,7 %). Naproti tomu v případě dvanáctého termínu bylo za zvýhodněné označeno 161 studentů, tj. 36,6 %, což podporuje domněnku, že někteří uchazeči, kteří se zúčastnili tohoto termínu přijímacích zkoušek, znali zadání testů předem. Pro srovnání ještě spočítáme odhady neznámých parametrů pouze s využitím dat z kritického dvanáctého termínu. Po provedení výpočtů dostaneme následující odhady: λ 12 =0,431, µ 12 1 = Σ 12 = 12,09 41,19 35,18, µ 12 0 = 6,83 1,47 1,64 1,47 12,12 2,74 1,64 2,74 14,92 10,08 28,75 29,68 Odhady µ 12 1, µ 12 0 a Σ 12 jsou poměrně blízké odhadům µ 1, µ 0, Σ. Odhad λ 12 sodhadem λ srovnávat nemůžeme, neboť se vztahuje k podílu zvýhodněných uchazečů v rámci dvanáctého termínu, který byl podstatně vyšší než v rámci celého přijímacího řízení. Odhady koeficientů v diskriminační funkci jsou následující: β 12 0 = 40,94, β12 =. 0,04 0,98 0,18 Pokud pomocí této diskriminační procedury zařadíme uchazeče, kteří se zúčastnili dvanáctého termínu, bude jich 185 označeno za zvýhodněné, což je o 24 více, než při diskriminaci prováděné pomocí původní procedury. Přitom žádný z uchazečů, který byl původní procedurou označen za zvýhodněného, nebude nyní nezvýhodněný. Nová procedura tedy pouze k původním zvýhodněným studentům přidala.,
6 124 Arnošt Komárek dalších24 uchazečů. Tato skutečnost může být způsobena faktem, že nyní byl podíl zvýhodněných uchazečů v učícím souboru podstatně vyšší, než při sestavování původní procedury. Zařazovat uchazeče z ostatních termínů pomocí procedury určené 12 koeficienty β 0 a β 12 nebude mít příliš velký smysl kvůli chybnému odhadu podílu zvýhodněných uchazečů v souboru všech studentů, kteří se zúčastnili přijímacích zkoušek. Upravíme-li tento odhad do tvaru λ 12,all = λ 12 počet uchazečů v 12. termínu 0, = =0,034 počet všechuchazečů 5550 a spočítáme pomocí µ 12 1, µ 12 0, Σ 12 a λ 12,all 12,all koeficienty β 0, β 12,all, jež vyjdou β 12,all 0 = 44,00, β12,all = 0,04 0,98 0,18 získáme diskriminační proceduru, pomocí níž již můžeme zařazovat též studenty z ostatních termínů. Tato procedura označí studenta za zvýhodněného, pokud 0,04 jazyk +0,98 historie +0,18 logika > 44,00. Toto rozhodovací pravidlo se na první pohled poměrně liší od původního pravidla založeného na β 0, β, ale pokud porovnáme rozhodnutí učiněná na základě těchto dvou procedur, zjistíme, že odlišnost není příliš velká, jak je možné se přesvědčit v následující tabulce, která obě procedury porovnává. Ve sloupci označeném 0 1 je počet uchazečů označených novou procedurou za zvýhodněné, ale starou za běžné, sloupec označený 1 0 obsahuje naopak počet uchazečů označených za zvýhodněné pouze původní procedurou. Sloupce původní a nová procedura přinášejí počty uchazečů, kteří byli označeni za zvýhodněné užitím příslušné diskriminační funkce. Porovnání dvou procedur původní nová počet odlišně termín procedura procedura zařazených součet Literatura. [1] Komárek A., Porovnání tří modelů, Diplomová práce MFF UK Praha, 2000 UK MFF, KPMS, Sokolovská 83, Praha komarek@karlin.mff.cuni.cz,
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:
Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst
IB112 Základy matematiky
IB112 Základy matematiky Řešení soustavy lineárních rovnic, matice, vektory Jan Strejček IB112 Základy matematiky: Řešení soustavy lineárních rovnic, matice, vektory 2/53 Obsah Soustava lineárních rovnic
Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina
Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.
VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:
Fyzikální korespondenční seminář MFF UK
Úloha I.S... náhodná 10 bodů; průměr 7,04; řešilo 45 studentů a) Zkuste vlastními slovy popsat, co je to náhodná veličina a jaké má vlastnosti (postačí vlastními slovy objasnit následující pojmy: náhodná
katedra statistiky PEF, Vysoká škola zemědělská, 165 21 Praha 6 - Suchdol
STATISTICKÁ ANALÝZA PŘIJÍMACÍHO ŘÍZENÍ NA PEF PRO AKADEMICKÝ ROK 1994/1995 Bohumil Kába, Libuše Svatošová katedra statistiky PEF, Vysoká škola zemědělská, 165 21 Praha 6 - Suchdol Anotace: Příspěvek pojednává
STATISTICKÁ EVALUACE INDIKÁTORŮ PŘIJÍMACÍHO ŘÍZENÍ STATISTICAL EVALUATION OF THE ADMISSION PROCEDURE INDICATORS
STATISTICKÁ EVALUACE INDIKÁTORŮ PŘIJÍMACÍHO ŘÍZENÍ STATISTICAL EVALUATION OF THE ADMISSION PROCEDURE INDICATORS Libuše Svatošová, Bohumil Kába Anotace: Příspěvek shrnuje a prezentuje výsledky statistické
EXTRÉMY V TEPLOTNÍCH ŘADÁCH
ROBUST 24 c JČMF 24 EXTRÉMY V TEPLOTNÍCH ŘADÁCH Monika Rencová Klíčová slova: Teorie extrémů, teplotní řady, tříparametrické Weibullovo rozdělení. Abstrakt: Ze statistického hlediska je užitečné studovat
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:
Regrese 28. listopadu 2013 Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: 1. Ukázat, že data jsou opravdu závislá. 2. Provést regresi. 3. Ukázat, že zvolená křivka
Úvod do analýzy rozptylu
Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.
Dvouvýběrové testy 11.12.2017 Úvodní nastavení. Z internetové stránky www.karlin.mff.cuni.cz/~hudecova/education/ si stáhněte data Iq2.txt a zdrojové kódy cviceni11.r a figks.r. Otevřete si program R Studio,
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.
4 Afinita Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe. Poznámka. Vzájemně jednoznačným zobrazením rozumíme zobrazení,
Přijímací zkouška na navazující magisterské studium 2014
Přijímací zkouška na navazující magisterské studium 24 Příklad (25 bodů) Spočtěte Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A M x 2 dxdy, kde M = {(x, y) R 2 ;
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.
Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A
VEKTORY Vektorem se rozumí množina všech orientovaných úseček, které mají stejnou velikost, směr a orientaci, což vidíme na obr. 1. Jedna konkrétní orientovaná úsečka se nazývá umístění vektoru na obr.
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Tabulka obsahuje údaje o četnosti volby jednotlivých alternativ uzavřených úloh a četnosti bodových zisků v otevřených úlohách.
Tabulka obsahuje údaje o četnosti volby jednotlivých alternativ uzavřených úloh a četnosti bodových zisků v otevřených úlohách. Komentář k významu jednotlivých položek: : pod: : : - číslo v didaktickém
Gymnázium, Brno. Matice. Závěrečná maturitní práce. Jakub Juránek 4.A Školní rok 2010/11
Gymnázium, Brno Matice Závěrečná maturitní práce Jakub Juránek 4.A Školní rok 2010/11 Konzultant: Mgr. Aleš Kobza Ph.D. Brno, 2011 Prohlášení Prohlašuji, že jsem předloženou práci zpracoval samostatně
Pojem a úkoly statistiky
Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby
Zápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
Robustní odhady statistických parametrů
Robustní odhady statistických parametrů ěkdy pracují dobře, jinde ne. Typická data - pozorování BL Lac 100 mag 40 0 0.41 0.40 JD date 0.39 0.38 0.38223-1.586 0.017 0.40550-1.530 0.019 0.39453-1.610 0.024
5. Lokální, vázané a globální extrémy
5 Lokální, vázané a globální extrémy Studijní text Lokální extrémy 5 Lokální, vázané a globální extrémy Definice 51 Řekneme, že f : R n R má v bodě a Df: 1 lokální maximum, když Ka, δ Df tak, že x Ka,
PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1
PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1 Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
Výběrové charakteristiky a jejich rozdělení
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistické šetření úplné (vyčerpávající) neúplné (výběrové) U výběrového šetření se snažíme o to, aby výběrový
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Výsledky základní statistické charakteristiky
Výsledky základní statistické charakteristiky (viz - Vyhláška č. 343/2002 Sb. o průběhu přijímacího řízení na vysokých školách a Vyhláška 276/2004 Sb. kterou se mění vyhláška č. 343/2002 Sb., o postupu
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
7B. Výpočet limit L Hospitalovo pravidlo
7B. Výpočet it L Hospitalovo pravidlo V prai často potřebujeme určit itu výrazů, které vzniknou operacemi nebo složením několika spojitých funkcí. Většinou pomohou pravidla typu ita součtu násobku, součinu,
Přijímací zkouška na navazující magisterské studium 2017
Přijímací zkouška na navazující magisterské studium 27 Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A Řešení příkladů pečlivě odůvodněte. Věnujte pozornost ověření
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Bodové odhady parametrů a výstupů
Bodové odhady parametrů a výstupů 26. listopadu 2013 Máme rozdělení s neznámými parametry a chceme odhadnout jeden nebo několik příštích výstupů. Již víme, že úplnou informaci v této situaci nese sdružené
Souběžná validita testů SAT a OSP
Souběžná validita testů SAT a OSP www.scio.cz 15. ledna 2013 Souběžná validita testů SAT a OSP Abstrakt Pro testování obecných studijních dovedností existuje mnoho testů. Některé jsou všeobecně známé a
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
AVDAT Nelineární regresní model
AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných
Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel
Dvouvýběrové a párové testy Komentované řešení pomocí MS Excel Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci glukózy v
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
Výstupní testování studentů 4. ročníku
Výstupní testování studentů 4. ročníku V říjnu roku 2017 se studenti naší školy zapojili do projektu Vektor 4 od firmy Scio. Studenti byli testováni z obecných studijních předpokladů, českého jazyka, matematiky,
7 Regresní modely v analýze přežití
7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce
Protokol č. 1. Tloušťková struktura. Zadání:
Protokol č. 1 Tloušťková struktura Zadání: Pro zadané výčetní tloušťky (v cm) vypočítejte statistické charakteristiky a slovně interpretujte základní statistické vlastnosti tohoto souboru tloušťek. Dále
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině
Výsledky základní statistické charakteristiky
Výsledky základní statistické charakteristiky (viz - Vyhláška č. 343/00 Sb. o průběhu přijímacího řízení na vysokých školách a Vyhláška 76/004 Sb. kterou se mění vyhláška č. 343/00 Sb., o postupu a podmínkách
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
8. Posloupnosti, vektory a matice
. jsou užitečné matematické nástroje. V Mathcadu je často používáme například k rychlému zápisu velkého počtu vztahů s proměnnými parametry, ke zpracování naměřených hodnot, k výpočtům lineárních soustav
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Četnost volby odpovědí u didaktického testu MZ 2016 podzim
Tabulka obsahuje údaje o četnosti volby jednotlivých alternativ uzavřených úloh a četnosti bodových zisků v otevřených úlohách didaktického testu z anglického jazyka s výjimkou žáků s přiznaným uzpůsobením
Četnost volby odpovědí u didaktického testu MZ 2016 podzim
Tabulka obsahuje údaje o četnosti volby jednotlivých alternativ uzavřených úloh a četnosti bodových zisků v otevřených úlohách didaktického testu z anglického jazyka s výjimkou žáků s přiznaným uzpůsobením
Finanční modely v oblasti Consultingu
Finanční modely v oblasti Consultingu Jan Cimický 1 Abstrakt Ve své disertační práci se zabývám finančním modelováním. Práce je koncipována jako soubor vzájemně často propojených nebo na sebe navazujících
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Pravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
Metoda backward výběru proměnných v lineární regresi a její vlastnosti
Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní
Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky
Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
Národní informační středisko pro podporu jakosti
Národní informační středisko pro podporu jakosti 1 METODA KUMULOVANÝCH SOUČTŮ C U S U M metoda: tabulkový (lineární) CUSUM RNDr. Jiří Michálek, CSc., Ing. Antonie Poskočilová 2 Základem SPC jsou Shewhartovy
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a
vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).
Řešené příklady z lineární algebry - část 6 Typové příklady s řešením Příklad 6.: Kvadratickou formu κ(x) = x x 6x 6x x + 8x x 8x x vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých
Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
Výsledky základní statistické charakteristiky
Příloha č. 2 k č. j. PA-1855-1/ČJ-2018-820061 Počet listů: 15 Výsledky základní statistické charakteristiky (viz - Vyhláška č. 343/2002 Sb. o průběhu přijímacího řízení na vysokých školách a Vyhláška 276/2004
Četnost volby odpovědí u didaktického testu MZ 2016 podzim
Tabulka obsahuje údaje o četnosti volby jednotlivých alternativ uzavřených úloh a četnosti bodových zisků v otevřených úlohách didaktického testu z anglického jazyka s výjimkou žáků s přiznaným uzpůsobením
PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz o rozdělení Testování hypotéz o rozdělení Nechť X e náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládeme, že neznáme tvar distribuční funkce
2 ) 4, Φ 1 (1 0,005)
Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje
Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.
Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.
IDENTIFIKACE BIMODALITY V DATECH
IDETIFIKACE BIMODALITY V DATECH Jiří Militky Technická universita v Liberci e- mail: jiri.miliky@vslib.cz Milan Meloun Universita Pardubice, Pardubice Motto: Je normální předpokládat normální data? Zvláštnosti
Vzorová prezentace do předmětu Statistika
Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota
Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada
Základní statistické modely 1 Statistika Matematická statistika se zabývá interpretací získaných náhodných dat. Snažíme se přiřadit statistickému souboru vhodnou distribuční funkci a najít základní číselné
Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích
Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové