MOLEKULÁRNÍ TAXONOMIE 9
|
|
- Renáta Horáková
- před 8 lety
- Počet zobrazení:
Transkript
1 MOLEKULÁRNÍ TAXONOMIE 9 Zdokonalování substitučního modelu V předchozích přednáškách jsme si představili metodu maximum likelihood, která počítá s pravděpodobnostmi substitucí na větvích a topologiích. Díky pravděpodobnostním počtům tato metoda má snahu vyhnout se problému inkonzistence, kterým trpí metoda maximální parsimonie v případě, že se v mezi sekvencemi vyskytují takové, jejichž substituční rychlost vůči ostatním přesahuje určitou míru. Maximum likelihood je metodou konzistentní, pokud ovšem substituční model použitý při výpočtu pravděpodobností dokonale vystihuje substituční proces, kterými sekvence prošly. Pokud tomu tak není, tak Felsensteinova zóna stále existuje, ale je menší než v případě maximální parsimonie. I ten nejsložitější model, který jsme si dosud představili (GTR+Γ) nevystihuje veškeré nuance substitučního procesu. Co dále je ještě možné v modelu změnit, uvolnit, aby lépe pasoval na substituční proces, ukazuje obrázek níže. Je rozumné předpokládat, že matice substitučních rychlostí neplatí univerzálně pro celou fylogenezi. Některé části stromu nebo dokonce každá větev by si jistě zasluhovaly vlastní pro ně specifické substituční matice Q, ze kterých by vycházely matice pravděpodobností záměn P(t) na míru šité jednotlivým větvím. Podobně je rozumné předpokládat, že jednotlivé sloupce alignmentu neprochází substitucemi podle univerzální matice Q a že by bylo rozumné přidělit každému sloupci jeho vlastní matici Q. Pokud bychom takto náš model uvolnili, tak by jistě velmi dobře fitoval na substituční proces, ale dostali bychom se do nového problému - přeparametrizování. Pokud bychom chtěli tímto supervolným modelem modelovat substituční proces na alignmentu 10 sekvencí (strom 10 druhů obsahuje 16 větví) a dlouhých 1000 aminokyselin. Tak by se v substitučních maticích Q, z nichž každá obsahuje 190 členů,
2 vyskytovalo celkem 190x16x1000, tj. více než 3 milióny parametrů. Již dříve jsem upozorňoval na to, že hodnoty parametrů, které můžeme získat, jsou vždy jen odhadem skutečné hodnoty, který je zatížen chybou. Pokud se v analýze sejde tak velké množství parametrů zatížených chybou, začne se metoda chovat nedobře. Naší snahou je proplout mezi dvěma zmíněnými nástrahami - Skyllou (model, který nevystihuje substituční proces) a Charybdou (přeparametrizování) a vyvíjet chytré modely, které relativně dobře vystihují substituční děje s málo parametry. Dva takové modely bych chtěl na tomto místě zmínit. Prvním z nich je CAT model implementovaný v programu PhyloBayes a druhým je model Covarion implementovaný v programu MrBayes. CAT model (Lartillot a Philippe ) uvolňuje předpoklad, že pro všechny pozice platí jedna matice substitučních rychlostí. Nedovoluje sice, aby každá pozice měla svoji vlastní Q, ale rozdělí si pozice do několika kategorií. Počet těchto kategorií je proměnná, kterou si model také optimalizuje. Každá kategorie substituuje podle vlastní Q matice. Analýzy na reálných datech ukázaly, že na modelování subtitučního procesu jednoho proteinu je třeba kategorií pozic. Model CAT v praxi velmi dobře funguje. Model Covarion umožňuje modelovat proměnlivost substitučních rychlostí napříč stromem. Ve své nejjednodušší variantě (Penny a kol ) předpokládá, že každý nukleotid substituuje s rychlostí δ na svého dvojníka, který se liší jedině v tom, že není schopen dalších substitucí. Rychlosti substituce takového nukleotidu nebo aminokyseliny na jiné jsou 0. Jediná možná substituce je zpětná substituce na svého dvojníka, který je schopný měnit se na jiná rezidua. Ke zpětné substituci dochází s rychlostí κδ. Tento model potřebuje tedy jen dva parametry navíc. Substituční proces podle tohoto modelu je znázorněn níže. Konsenzus stromů
3 Někdy se ocitneme v situaci, že je potřeba kombinovat sadu topologií do jedné, která by shrnovala informaci obsaženu v této sadě topologií. Říkáme, že vytváříme konsezuální strom. Pokud topologie obsahují stejnou nebo podobnou sadu OTU (operačně taxonomických jednotek), tak je lze smysluplně kombinovat. Lze postupovat různými způsoby. Při sestavování striktně konsezuálního stromu dbáme na to, aby výsledná topologie obsahovala jen ty bipartitions neboli splits, které se vyskytují ve všech topologiích, které kombinujeme. Anglický termín bipartition nebo split označuje sady OTU, na které lze danou topologii rozdělit jedním řezem. Například topologie na obrázku níže se dá rozdělit na následující sady OTU: DE ABC, DEA BC. Nelze ji rodělit třeba na DAB EC. Samozřejmě, že ji lze rozdělit také na část obsahující jednu OTU a zbytek (A CEBD), ale to jde u všech možných topologií a nepřináší to žádnou informaci, takže to nebudeme řešit. Je důležité podotknout, že u splitu neřešíme topologii v rámci tohoto splitu, takže všechny splity sestávající z ABC jsou v tomto případě shodné, ať je jejich vnitřní topologie jakákoli. Striktní konsenzus tří níže uvedených topologií je uveden v rámečku pod nimi. Protože tyto tři topologie neobsahují žádný společný split, je konsezuální topologie nerozlišená hvězdice, říkáme, že obsahuje polytomii neboli multifurkaci. Striktní konsenzus krajních topologií by již byl částečně rozlišený. Krajní topologie totiž obsahují společný split AED BC. Ten bude proto přítomný v konsenzuální topologii
4 Někdy nechceme být tak přísní a přijmeme do konsenzuálního stromu takové splity, které se vyskytují v nadpoloviční většině stromů v sadě, kterou kombinujeme. Takovému konsenzu se říká majority rule konsenzus. V případě naší trojice stromů se jedná o splity AED BC a ABC ED. Ty se vyskytují ve ⅔ topologií a musí být tedy zastoupeny v konsenzu uvedeném v šedém rámečky. Splity přítomné v nadpoloviční většině topologií si z principu nemohou vzájemně odporovat, takže vždy lze sestavit takovýto konsenzus. Je možné sestavovat i strom zohledňující splity přítomné ve většině, která však není nadpoloviční. Takovému postupu říkáme extended majority rule. V takovém případě je potřeba postupovat opatrněji. Nejprve sestavit majority rule konsenzus a poté rozlišit ty části stromu obsahující polytomie způsobem, který je v sadě kombinovaných topologií nejčastější. Majority rule sady pěti topologií uvedených níže vypadá jako topologie v rámečku. Zohledňuje to, že splity BC DEAF a ABC DEF se vyskují v 5/7 stromů. Pokud bychom chtěli rozlišit polytomii mezi DEF musíme se ještě podívat, jak je rozlišená tato část topologie v naší sadě. Split ED FABC se vyskutuje ve 3/7 stromů, kdežto splity DF EABC a EF DABC se vyskytují jen ve 2/7 stromů, a proto zvolíme split ED FABC.
5 Otázky, který bychom si měli klást Při fylogenetických analýzách bychom si měli klást následující otázky: Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsme získali? Všechny metody konstruující fylogenezi poskytnou jako výstup fylogenetický strom, a to bez ohledu na to, zda alignment podporuje topologii stromu pevně, tj. mnoho sloupců alignmentu vykazuje vzor znaků souhlasný s topologií, nebo slabě, tj. jen velmi málo sloupců podporuje výslednou topologii. Je můj strom skutečně lepší než nějaký jiný? V určitých situacích je vhodné si ověřit, že zda je výsledný strom statisticky významně lepší než jiný strom. Často se do takové situace dostaneme v případě, když výsledná topologie nepodporuje existenci taxonu, který nás zajímá, protože jeho zástupci nevytváří monofyletickou skupinu klád. V takovém případě je třeba ověřit, zda jsou topologie, které existenci taxonu podporují, signifikantně horší či nikoli. Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi našimi OTU pomocí stromu? Všechny metody konstrukce stromů, které jsme si dosud představovali, konstruují dichotomicky se větvící stromy, protože jejich základní předpoklad je, že evoluce takto probíhá. To však nemusí být pravda. Sekvence, které analyzujeme, mohly v minulosti prodělat rekombinaci, tj. různé části genu mají různé předky. V takovém případě, by jejich evoluční minulost zachytil lépe síťový graf. Některé metody rekonstrukci fylogeneze toto umožňují. Rekonstrukce fylogeneze může být navíc ztěžována přítomností vysoké substituční saturace, která fylogenetické vztahy maskuje, nebo naopak malým množstvím fylogenetického signálu (všechny sekvence téměř stejné). Data mohou navíc obsahovat zavádějící signál (artefakt) způsobený různorodým obsahem nukleotidů či aminokyselin nebo způsobený velmi odlišnou délkou větví.
6 Statistická podpora větvení Existuje několik způsobů, jak vyčíslit podporu větvení. Výstupem bayéské metody, která používá Marcov Chain Monte Carlo pro odhad posteriorní pravděpodobnosti topologie, jsou posteriorní pravděpodobnoti uzlů. Zopakujme si, že MCMC poté, co dosáhne rovnovážného stavu, navštěvuje opakovaně určitou omezenou skupinu stromů. Frekvence, s jakou strom navštíví, je odhadem jeho posteriorní pravděpodobnosti. Hlavním výstupem bayéské analýzy ovšem není topologie s nejvyšší posteriorní pravděpodobností, i když i tu ve výstupních souborech můžeme nalézt, ale konsenzuální strom vytvořený například metodou majority rule extended ze vzorku všech stromů navštívených v rovnovážném stavu. Tato topologie se vlastně mezi vzorky v rovnovážném stavu nemusí vůbec nacházet, ale je to konsensus vzorku kvalitních topologií. Čísla na každém uzlu této topologie jsou posteriorní pravděpodobnosti bipartitions /splitů. Jejich hodnoty udávají, v jakém procentu topologií v rovnovážném stavu se vyskytuje daný split. Hodnota 1,00 označená v obrázku červenou šipkou znamená, že všechny topologie obsahovaly tento split, tj. že všechny bylo možné rozdělit jedním řezem na část obsahující taxony napravo od šipky část obsahující taxony nalevo od šipky. Hodnota 0,31 na splitu označená modrou šipkou znamená, že tento split se vyskytoval jen na 31% topologií. Přitom vůbec nezáleží na tom, jakou vnitřní topologii měla jedna či druhá část splitu. Zdůrazňuji, že přestože se hodnoty posteriorních pravděpodobností (a totéž bude platit o bootstrapech a jackknifech) často píšou na uzly, jsou to hodnoty náležející ke splitům, tedy k vnitřním větvím. Pokud si to budeme uvědomovat, tak nás nezmatou různé způsoby znázornění stromů, jejich různá zakořenění a ohnutí.
7 Ostatní metody konstrukce stromu nám samy o sobě neposkytují takové hodnoty. Musíme si je dopočítat pomocí "resampling" metod (bootstraping nebo jakknifing). Základní princip těchto metod je vytvořit mnoha permutacemi ( x) z původního souboru dat (alignmentu) nové soubory dat. Tyto permutované soubory potom analyzovat a zkonstruovat z nich nové stromy. Z těchto stromů pak vytvoříme konsensus, který bude obsahovat na splitech hodnoty ukazující, jak často byl daný split přítomen v souboru stromů vytvořených s permutovaných dat. Získané hodnoty na splitech bychom pak měli přenést na strom vytvořený z původních dat. Rozdíl mezi bootstrapingem a jackknifingem spočívá v tom, že v případě boostrapingu vytvoříme alignment permutacemi s opakováním a při jackkniffingu permutacemi bez opakování. To znamená, že při bootstrapingu vytváříme permutované alignmenty o stejné délce, jako měl původní a sloupce se v něm mohou opakovat, kdežto při jackkniffingu vytváříme alignmenty kratší, než byl původní, a sloupce se neopakují. Bootstraping se využívá v molekulární fylogenetice mnohem častěji. Hodnoty bootstrapu i jackkniffu pro tytéž uzly jsou v průměru nižší než posteriorní pravděpodobnosti vypočtené bayéskou metodou. Ani posteriorní pravděpodobnosti ani bootstrapy nemají vlastnosti p-value, tj. bootstrap 95 neznamená, že alternativní strom, který daný split neobsahuje, je možné zavrhnout na hladině pravděpodobnosti 5%. Existuje ovšem metoda (Susko 2010, Mol Biol Evol 3 ), jak převádět BP na abp (adjustedbp), které mají vlastnosti p-value. Simulace ukázala, že abp jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99% (viz. tabulka níže). 3
8 Testy topologických hypotéz Někdy se dostaneme do situace, že bychom chtěli vědět, zda naše data statisticky signifikantně zavrhují určitou fylogenetickou hypotézu, která nás zajímá. Typickým příkladem je situace, kdy náš strom nepodporuje existenci taxonu (na stromu se jeví taxon jako nemonofyletický). Než existenci tohoto taxonu vážně zpochybníme, měli bychom si ověřit, zda je fylogeneze podporující monofylii taxonu (nulová hypotéza, H 0 ) signifikantně horší. V rámci metody maximum likelihoodu je toto teoreticky možné a bylo navrženo hne několik různých druhů statistických testů pojmenovaných často podle jejich autorů - Kishino-Hasegawa (KH), Shimodaria-Hasegawa (SH), approximatelly unbiased (AU) test a pod. Ty se liší v různých více či méně podstatných detailech, ale jejich princip je podobný. Nyní si ve stručnosti představíme poslední zmíněný, který je v současnosti nejpoužívanější. Nejprve si spočítáme rozdíl mezi likelihoodem "nejlepšího" stromu a testované (H 0 ) hypotézy. Tuto statistiku označme δ δ = LnL 1 - lnl 0 4 δ bude vždy vyšší než nula, ale abychom zjistili, zda je rozdíl statisticky signifikantní, musíme znát rozložení statistiky δ. Bohužel pro nás, rozložení této statistiky nepřipomíná, žádnou používanou funkci, a proto nám nezbude, než si její rozložení nasimulovat následujícím způsobem. Pro obě hypotézy budeme permutovat (s opakováním) likelihoody pozic alignmentu ("site likelihoods"). Tedy něco jako bootstraping, ale přímo s likelihoody. Pro každou permutaci vypočteme statistiku δ p, přičemž celkový likelihood získáme jako obvykle vynásobením likelihoodů pozic. Permutací provedeme mnoho (desetitisíce). Procento permutací, pro které platí δ p >= δ představuje hodnotu p (statistickou významnost), s jakou můžeme H 0 zavrhnout. Testy substitučních modelů Jak vyplynulo z úvodů této přednášky, není úplně snadné najít "zlatou střední cestu" mezi příliš jednoduchým (a tedy nereálným) a přeparametrizovaným substitučním modelem. Naštěstí existují statistické postupy, jak takový model vybrat. Jednou z možností je použít indexy vyjadřující vhodnost modelu - AIC (Akaike infomation criterion) nebo BIC (Bayesian information criterion). Výpočet těchto indexů je uveden níže 4 Proč neporovnáváme likelihoody, ale jejich logaritmy? Důvod je ryze praktický. Likelihood je vždy velmi malé desetinné číslo (vzniká násobením mnoha desetinných čísel). S jeho logaritmem, záporné rozumně veliké číslo, se mnohem lépe pracuje.
9 AIC i = -2lnL i + 2p i BIC= -2ln(L i )+p i ln(n) L i. Likelihood hypotézy p i. Počet parametrů modelu n. Počet pozic alignmentu Oba porovnávají substituční modely podle výše likelihoodu, který nám poskytnou pro zvolenou (ideálně tu nejlepší) topologii a penalizují je za množství parametrů, které používají. BIC přihlíží navíc k počtu pozic v alignmentu. V obou případech volíme substituční model s nižším hodnotou indexu. Další možností, jak porovnávat dvojici modelů je likelihood ratio test (LRT). V tomto případě spočítáme, podobně jako u topologických testů, statistiku δ δ = 2(LnL 1 - lnl 0 ) kdy L 0 je likelihood jednodužšího modelu (nulová hypotéza) a L 1 likelihood modelu složitějšího. Důležité je, aby L 0 byl obsažen v L 1, tj. aby byl jeho speciálním případem (např. GTR je speciálním případem GTR+Γ pokud α = ). V takovém případě rozložení statistiky δ odpovídá rozložení χ 2 s počtem stupňů volnosti odpovídajícím rozdílu v počtu parametrů mezi porovnávanými modely. Signifikanci rozdílu pak odečteme ze statistických tabulek.
Typy fylogenetických analýz
Typy fylogenetických analýz Distanční metody: Neighbor-Joining Minimum Evolultion UPGMA,... Maximum Likelihood Bayesian Inference Maximum Parsimony Genetické distance, substituční modely pro výpočet fylogenetických
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
MOLEKULÁRNÍ TAXONOMIE 10
MOLEKULÁRNÍ TAXONOMIE 10 Molekulární hodiny Skutečnost, že počet substitučních událostí vzrůstá s časem, vedla velmi brzy ke snahám využít sekvencí k datování stáří uzlů na fylogenetických stromech. Jako
Uvolňování parametrů v substitučních modelech (opakování z minula, trochu jinak)
MOLEKULÁRNÍ TAXONOMIE - 6 (2015) Uvolňování parametrů v substitučních modelech (opakování z minula, trochu jinak) Nyní si ukážeme obecný princip, jakým se obohacují substituční modely o parametry tak,
SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
Ranní úvahy o statistice
Ranní úvahy o statistice Neúplný návod ke čtení statistických výsledků Dušan Merta květen 2016 Co nás čeká 1 Základní pojmy 2 Testování hypotéz 3 Confidence interval 4 Odds ratio 2 / 26 Základní pojmy
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Analýza výsledků dotazníkového šetření - fakultní dotazník Vypracovaly: Klára Habrová,
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).
Strom života. Cíle. Stručná anotace
Předmět: Doporučený ročník: Vazba na ŠVP: Biologie 1. ročník Úvod do taxonomie Cíle Studenti zařadí člověka do příslušných taxonů taxonomického systému. Studenti se seznámí s principem fylogenetického
Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)
Jarqueův a Beryho test normality (Jarque-Bera Test, JB test) Autoři: Carlos M. Jarque and Anil K. Bera Předpoklady: - Výběrová data mohou obsahovat chybějící pozorování (chybějící hodnoty) vhodné zejména
Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.
Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení
Cvičení ze statistiky - 8. Filip Děchtěrenko
Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly
Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. Př. : Ve vjezdové skupině kolejí byly sledovány počty přijíždějících vlaků za hodinu. Za 5 dní (tedy 360 hodin) přijelo celkem 87 vlaků. Výsledky sledování jsou uvedeny v tabulce.
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
Základy navrhování průmyslových experimentů DOE
Základy navrhování průmyslových experimentů DOE cílová hodnota V. Vícefaktoriální experimenty Gejza Dohnal střední hodnota cílová hodnota Vícefaktoriální návrhy experimentů počet faktorů: počet úrovní:
PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady
PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným
2. Maximální úspornost (Maximum Parsimony, MP)
2. Maximální úspornost (Maximum Parsimony, MP) Ze všech metod konstrukce fylogenetických stromů byly donedávna nejpoužívanější metody maximální úspornosti (parsimonie). Důvodem pro jejich mimořádnou oblibu
Testy. Pavel Provinský. 19. listopadu 2013
Testy Pavel Provinský 19. listopadu 2013 Test a intervalový odhad Testy a intervalové odhady - jsou vlastně to samé. Jiný je jen úhel pohledu. Lze přecházet od jednoho k druhému. Například: Při odvozování
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.
Téma 10: Analýza závislosti dvou nominálních veličin Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. barva očí barva vlasů světlá
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota závisí nějakým způsobem na vstupní, je její funkcí = f(x). Pokud
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele
Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. 1 Záznam epidemiologických dat Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly
Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných
Výběr metody Jak vybrat správnou statistickou metodu pro moje data a pro otázku, kterou si kladu Neexistuje žádná náhražka za zkušenost nejlepší metoda, jak vědět co dělat, je použít stejnou správnou metodu
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze
Technická univerzita v Liberci
Technická univerzita v Liberci Ekonomická fakulta Analýza výsledků z dotazníkového šetření Jména studentů: Adam Pavlíček Michal Karlas Tomáš Vávra Anna Votavová Ročník: 2015/2016 Datum odevzdání: 13/05/2016
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích
Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové
V roce 1998 se v Liberci oženili muži a vdaly ženy v jednotlivých věkových skupinách v následujících počtech:
Příklad 1 V roce 1998 se v Liberci oženili muži a vdaly ženy v jednotlivých věkových skupinách v následujících počtech: Skupina Počet ženichů Počet nevěst 15-19 let 11 30 20-24 let 166 272 25-29 let 191
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
1 Linearní prostory nad komplexními čísly
1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák
STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ J. Pruška, T. Parák OBSAH: 1. Co je to spolehlivost, pravděpodobnost poruchy, riziko. 2. Deterministický a pravděpodobnostní přístup k řešení problémů.
Testování hypotéz a měření asociace mezi proměnnými
Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,
Soustavy lineárních rovnic a determinanty
Soustavy lineárních rovnic a determinanty Petr Hasil Přednáška z matematiky Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipĺıny
Jana Vránová, 3. lékařská fakulta, UK Praha
Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně
Testování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině
Stručný úvod do testování statistických hypotéz
Stručný úvod do testování statistických hypotéz 1. Formulujeme hypotézu (předpokládáme, že pozorovaný jev je pouze náhodný). 2. Zvolíme hladinu významnosti testu a, tj. riziko, s nímž jsme ochotni se smířit.
jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.
Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.
Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je
Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.
Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy
Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
řešeny numericky 6 Obyčejné diferenciální rovnice řešeny numericky
řešeny numericky řešeny numericky Břetislav Fajmon, UMAT FEKT, VUT Brno Na minulé přednášce jsme viděli některé klasické metody a přístupy pro řešení diferenciálních rovnic: stručně řečeno, rovnice obsahující
Vzorová prezentace do předmětu Statistika
Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),
Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času
Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,
Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry
Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)
cvičení z PSI 0-4 prosince 06 Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) Z realizací náhodných veličin X a Y s normálním rozdělením) jsme z výběrů daného rozsahu obdrželi
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Jméno: Lucie Krechlerová, Karel Kozma, René Dubský, David Drobík Ročník: 2015/2016
4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E
Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Epidemiologické ukazatele Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly
8 Coxův model proporcionálních rizik I
8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná
Náhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
1 Analytické metody durace a konvexita aktiva (dluhopisu) $)*
Modely analýzy a syntézy plánů MAF/KIV) Přednáška 10 itlivostní analýza 1 Analytické metody durace a konvexita aktiva dluhopisu) Budeme uvažovat následující tvar cenové rovnice =, 1) kde jsou současná
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:
3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ
PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ Ing. David KUDLÁČEK, Katedra stavební mechaniky, Fakulta stavební, VŠB TUO, Ludvíka Podéště 1875, 708 33 Ostrava Poruba, tel.: 59
Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)
Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA) 8.1.2018 Testy dobré shody se známými parametry. Mezi 891 studenty pražských vysokých škol byl na podzim 2017 proveden průzkum týkající
Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,
Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread, morphologically diverse genus. Evolution 56(1):42-57 Proč to
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.
Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost
Statistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Matematická statistika Zimní semestr
Analýza rozptylu (jednoduché třídění) 11.1.2018 Úvodní nastavení. Z internetové stránky www.karlin.mff.cuni.cz/~hudecova/education/ si stáhněte data Med.txt. Otevřete si program R Studio a načtěte si výše
Monotonie a lokální extrémy. Konvexnost, konkávnost a inflexní body. 266 I. Diferenciální počet funkcí jedné proměnné
66 I. Diferenciální počet funkcí jedné proměnné I. 5. Vyšetřování průběhu funkce Monotonie a lokální etrémy Důsledek. Nechť má funkce f) konečnou derivaci na intervalu I. Je-li f ) > 0 pro každé I, pak
Plánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
Cvičení 5 - Inverzní matice
Cvičení 5 - Inverzní matice Pojem Inverzní matice Buď A R n n. A je inverzní maticí k A, pokud platí, AA = A A = I n. Matice A, pokud existuje, je jednoznačná. A stačí nám jen jedna rovnost, aby platilo,
Elektronické praktikum EPR1
Elektronické praktikum EPR1 Úloha číslo 4 název Záporná zpětná vazba v zapojení s operačním zesilovačem MAA741 Vypracoval Pavel Pokorný PINF Datum měření 9. 12. 2008 vypracování protokolu 14. 12. 2008
STATISTICKÉ HYPOTÉZY
STATISTICKÉ HYPOTÉZY ZÁKLADNÍ POJMY Bodové/intervalové odhady Maruška řešila hodnoty parametrů (průměr, rozptyl atd.) Zde bude Maruška dělat hypotézy (předpoklady) ohledně parametrů Z.S. Výsledek nebude