ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz
5. LETNÍ ŠKOLA MATEMATICKÉ BIOLOGIE ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ II. VZORKOVÁNÍ Jiří Holčík INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
DEFINICE Vzorkováním rozumíme postup výběru podmnožiny dané množiny (signálu, populace, dat) tak, aby vlastnosti vybrané podmnožiny (dostatečně) přesně reprezentovaly vlastnosti celé množiny (signálu, populace, dat).
DEFINICE 9.99512 8.68195 7.35687 5.98145 4.88892 3.96118 3.14331 2.57416 2.0697 1.64459 1.37085 1.10779 0.895691 0.767517 0.596313 0.546875 0.689392 0.912476 1.52466 1.81915 2.88361 3.99567 4.08142 3.48328 2.7713 2.16492 1.68976 1.37268 1.0968 0.837708 0.635376 0.487366 0.379028 0.286255 0.238647 0.209656 0.171204 0.157166 0.145264 0.122375 0.121155 0.1297 0.128479 0.116577 0.101624 0.0704956 0.0476074 0.0439453 0.0259399 0.00793457 0.0131226 0.0228882 0.0244141 0.0265503 0.0476074 0.055542 0.0488281 0.0442505
DEFINICE
DEFINICE
DEFINICE
DEFINICE
DEFINICE
DEFINICE
VZORKOVÁNÍ SIGNÁLŮ s(nt)
VZORKOVÁNÍ SIGNÁLŮ Shannonův, Nyquistův, Kotělnikovův, Nyquistův-Shannonův, Shannonův- Nyquistův- Kotělnikovův vzorkovací teorém Přesná rekonstrukce spojitého, frekvenčně omezeného, signálu z jeho vzorků je možná tehdy, pokud byl vzorkován frekvencí alespoň dvakrát vyšší než je maximální frekvence rekonstruovaného signálu. f vz 2f max
CLAUDE ELWOOD SHANNON (1916-2001) inženýr elektroniky a matematik Zaměstnavatelé Bell Laboratories, Massachusetts Institute of Technology, Institute for Advanced Study University of Michigan Známý díky teorie informace, Shannonův-Fanův kód, Shannonův-Hartleyův zákon, Shannonova hra, Shannonovo číslo, Shannonův index, Shannonova věta o zdrojovém kódu, Shannonův rozvoj, Shannonův-Weaverův komunikační model, Whittakerova Shannonova interpolační formule Ocenění, co stojí za zmínku Alfred Noble Prize (1939) IEEE Medal of Honor Kyoto Prize
HARRY THEODOR NYQUIST (1889-1976) inženýr elektroniky Bydliště: USA Občanství: USA Národnost: švédská Zaměstnavatelé: Bell Laboratories, Yale University, University of North Dakota Známý díky Nyquistův-Shannonův vzorkovací teorém, Nyquistova frekvence, Johnsonův-Nyquistův šum, Nyquistovo kritérium stability, Nyquistovo interferenční kritérium, Nyquistův diagram, Nyquistův filtr, věta o rozptylu fluktuací Ocenění, co stojí za zmínku IEEE Medal of Honor
ВЛАДИМИР А. KОТЕЛЬНИКОВ (1908-2005) inženýr elektrotechniky, místopředseda RAV, předseda Nejvyššího sovětu RSFSR zaměstnavatelé: Moskevský energetický institut, Institut radiotechniky a elektroniky RAV, Známý díky: Kotělnikovův vzorkovací teorém, rozvinutí teorie Fourierovy analýzy (harmonická analýza), teorie optimální šumové imunity; radioastronomický průzkum Merkuru a Venuše Ocenění, co stojí za zmínku Leninova cena (1964) Asteroid 2726 nazván na jeho počest jeho jménem
VZORKOVÁNÍ SIGNÁLŮ
VZORKOVÁNÍ SIGNÁLŮ Shannonův, Nyquistův, Kotělnikovův, Nyquistův-Shannonův, Shannonův- Nyquistův- Kotělnikovův vzorkovací teorém Přesná rekonstrukce spojitého, frekvenčně omezeného, signálu z jeho vzorků je možná tehdy, pokud byl vzorkován frekvencí alespoň dvakrát vyšší než je maximální frekvence rekonstruovaného signálu. f vz 2f max
FREKVENČNÍ SPEKTRUM Frekvenční spektrum signálu je vyjádření rozložení amplitud a počátečních fází jednotlivých harmonických složek, ze kterých se signál skládá, v závislosti na frekvenci.! ZAPAMATOVAT NA VĚKY!
SIGNÁL L EKG A JEHO SPEKTRUM
VÝPOČET FREKVENČNÍHO SPEKTRA periodický signál Fourierova řada neperiodický signál Fourierova transformace spojitý signál diskrétní signál
FOURIEROVA ŘADA každou periodickou funkci f(t+kt)=f(t), (která vyhovuje Dirichletovým podmínkám), můžeme rozložit ve Fourierovu řadu f(t) = n= c n e jnωt Ω = 2π / T kde c n jsou komplexní Fourierovy koeficienty c n = 1 T T / 2 T / 2 f(t).e jnωt Ω úhlový kmitočet základní harmonické složky (základní harmonická); dt
FOURIEROVA TRANSFORMACE S( ω) = s(t).e jωt dt Fourierova transformace Funkci S(ω) nazveme spektrální funkcí signálu. Ta už nevyjadřuje skutečné zastoupení jednotlivých harmonických složek signálu, nýbrž jen jejich poměrné zastoupení. Fourierova transformace převádí signál (funkci) s(t) z časové domény na funkci S(ω) v kmitočtové oblasti.
DISKRÉTN TNÍ FOURIEROVA TRANSFORMACE - DFT předpokládejme, že diskrétní signál x(nt)=0 pro n< 0 a n N-1, pak DFT je definována vztahem X(kΩ) = N 1 n= 0 x(nt).e jkωnt = N 1 n= 0 x(n).e j2πkn / N
VZORKOVACÍ TEORÉM Vzorkovací frekvence: f vz 2f max = f N, kde f max je maximální kmitočet ve vzorkovaném signálu f N Nyquistův, (Shannonův, Kotelnikovův) kmitočet T N = 1/f N = 1/2f max Nyquistův interval (perioda), vzorkovací interval (perioda)
VZORKOVACÍ TEORÉM Reálné vzorkování
VZORKOVACÍ TEORÉM Aliasing překrývání spekter V případě použití nižší vzorkovací frekvence může dojít k tzv. aliasingu, kdy rekonstruovaný signál je výrazně odlišný od původního vzorkovaného signálu.
VZORKOVACÍ TEORÉM M V PRAXI V praxi se vzorkovací frekvence volí dvakrát větší plus ještě nějaká rezerva než je maximální požadovaná přenášená frekvence. V telekomunikacích je to např. 8 khz, neboť je třeba přenášet pouze signály ve standardním telefonním pásmu (od 0,3 do 3,4 khz zaokrouhleno směrem nahoru 4 khz). U záznamu na CD je to zas 44,1 khz neboť zdravé lidské ucho slyší maximálně cca do 20 khz a tudíž vzorkovací frekvence 44,1 khz byla zvolena s velkou rezervou.
VZORKOVACÍ TEORÉM M V PRAXI V praxi se vzorkovací frekvence volí dvakrát větší plus ještě nějaká rezerva než je maximální požadovaná přenášená frekvence. U medicínských signálů je rezerva větší vzorkovací frekvence se volí až 4 5 násobek maximální frekvence ve spektru.!!! PROČ TO VŠECHNO?!!!
REKONSTRUKCE SIGNÁLU
DEFINICE STATISTIKA Vzorkování je postup selekce jednotlivých pozorování s cílem získat určitou znalost o dané populaci, zejména pro účely statistické inference. inference ~ usuzování, odvozování určitých výroků z jiných; odvozování souvislostí např. ze smyslových vjemů: z vnímaného výrazu obličeje se usuzuje na pravděpodobně právě prožívaný emoční či afektivní stav pozorované osoby.
DEFINICE
DEFINICE
POPULACE BIOLOGIE Populace je soubor (navzájem se křížících) organismů určitého druhu. SOCIOLOGIE Populace je soubor lidských bytostí, které sdílí určitý rys. použití: demografie, marketing, medicína (epidemiologie) zobecnění i do neživého světa testování výrobků, vstupů do výroby Populace je soubor objektů určitého druhu.
POPULACE STATISTIKA Statistická populace je množina objektů, o nichž chceme získat určitou informaci (znalost, zobecnění), často je to náhodný vzorek dané skutečné populace. omezení v čase a prostoru: raci jen ti co jsou (případně budou) v určité lokalitě
POPULACE STATISTIKA Statistická populace je množina objektů, o nichž chceme získat určitou informaci (znalost, zobecnění), často je to náhodný vzorek dané skutečné populace. Pojmu populace se také používá pro vyjádření souboru možných měření nebo hodnot, nejen těch skutečně určených, ale i těch, které je možné určit. Předpokládejme, že nás zajímají všichni dospělí raci v České republice a chceme zjistit jejich délku. Je třeba určit délku všech výše uvedených a množinu všech těchto hodnot nazýváme populací délek.
VZORKOVÁNÍ - STATISTIKA Vzorkováním ve statistice rozumíme proces sbírání informací a z nich odvozovaných znalostí ze vzorku populace. Jak se to liší od vzorkování signálu? množina reprezentující vzorek populace není uspořádaná pro každé dva prvky neplatí relace např. předchází, je vlevo od, ; z hodnot vlastností charakterizujících prvky zpravidla neurčujeme celkovou mapu rozvrstvení hodnot, nýbrž pouze nějakou souhrnnou hodnotu.
VZORKOVÁNÍ - STATISTIKA
VZORKOVÁNÍ - STATISTIKA
VZORKOVÁNÍ - STATISTIKA
JOSEPH HOBSON JAGGER britský strojní inženýr prý vzdálený příbuzný sira Micka Jaggera (1830-1892) MUŽ, KTERÝ ROZBIL BANK V MONTE CARLU zisk celé hráčské akce (začátek analýzy1873, akce 7.7.1875) ~ 65,000 (cca 3,250,000 in 2005)
VZORKOVÁNÍ - STATISTIKA Vzorkováním ve statistice rozumíme proces sbírání informací a z nich odvozovaných znalostí ze vzorku populace. Jak ten vzorek volíme? náhodný vzorek (výběr) je takový vzorek, kde pravděpodobnost výskytu jakéhokoliv prvku ve vzorku je táž jako pravděpodobnost jeho výskytu v celé populaci. nenáhodný výběr
NÁHODNÝ VZOREK (VÝBĚR) Náhodný výběr z daného rozdělení pravděpodobnosti je množina nezávislých náhodných veličin X 1,X 2,...,X n, které mají dané rozdělení pravděpodobnosti. Číslo n, které představuje počet vzájemně nezávislých opakování náhodného pokusu, se označuje jako rozsah náhodného výběru.
NÁHODNÝ VZOREK (VÝBĚR) Výběr vzorků ve statistice, na rozdíl od vzorkování signálu, se řídí pravděpodobnostními vlastnostmi (charakteristikami) sledované množiny objektů (dějů).
NÁHODNÝ VZOREK (VÝBĚR) Výběr představuje n pozorování (pokusů), při kterých měříme tutéž veličinu (např. výška osoby a měříme n osob, X i je výška i-té osoby). Pozn.: Je potřeba rozlišovat naměřenou hodnotu od její skutečné realizace. Tedy X i je funkcí způsobu určení i-tého experimentu a x i =X i (ω) je hodnota kterou skutečně zjistíme. Koncept výběru tak zahrnuje i proces určení hodnoty dat, ten má pravděpodobnostní, ale může mít i časové charakteristiky.
VZORKOVÁNÍ VODY
VZORKOVÁNÍ VODY
PROCEDURA VZORKOVÁNÍ vzorkovací procedura sestává z několika stádií: definice populace specifikace schéma vzorkování (vzorkovací plán) (definice položek a jevů, které můžeme měřit) specifikace metody vzorkování pro výběr položek a jevů z rámce určení velikosti vzorku implementace vzorkovacího plánu vzorkování a sběr dat kontrola vzorkovacího procesu
DEFINICE POPULACE onkologičtí pacienti v ČR (výběr je zpravidla užší); výrobní dávka při hodnocení kvality výroby; celkové chování rulety; posloupnost délek srdečních cyklů při zkoumání variability srdečního rytmu; populace třásněnek na jižních svazích Vysokých Tater;
DEFINICE POPULACE definice populace často vychází ze snahy o zkoumání příčinného systému, jehož výstupem je zkoumaná populace Př. úspěšnost nasazení nového léku na testovací skupině, při snaze předpovědět efekt léčby pro celé lidstvo. někdy se mohou cílová a vzorková populace zcela lišit Př. testování léčebné procedury na laboratorních zvířatech, když chceme zjistit její vhodnost na lidské populaci
SCHÉMA VZORKOVÁNÍ výstup výroby každý výrobek lze vložit do vzorku a měřit co potřebujeme; odhad volebních preferencí;
SCHÉMA VZORKOVÁNÍ vzorkovací schéma musí správně reprezentovat populaci; musí respektovat praktické, technické, ekonomické, etické otázky a prostředí jednoduché schéma obsahuje seznam prvků populace (ideálně celou populaci) spolu potřebnými kontakty; při průzkumu veřejného mínění, např.: seznam voličů telefonní seznam plán města
SCHÉMA VZORKOVÁNÍ co když jsou populace a schéma disjunktní? to je problém predikce, např. použití údajů o mortalitě z minulosti pro predikci pravděpodobnosti předčasné smrti žijících osob pomocné informace o prvcích telefonní číslo mohlo poskytnout informaci o umístění stanice rodné číslo obsahuje informaci o datu narození a pohlaví registrační značka automobilu obsahuje informaci o místě registrace, příp. i stáří automobilu
METODY VZORKOVÁNÍ pravděpodobnostní (náhodný) výběr každý člen populace má šanci (P>0) že bude vybrán a pravděpodobnost výběru může být přesně určena lze stanovit nestranný odhad pro celou populaci, váhování členů podle pravděpodobnosti výběru náhodný výběr systematický výběr stratifikovaný výběr.
METODY VZORKOVÁNÍ nepravděpodobnostní výběr nějaký člen populaci nemůže být vybrán, resp. pravděpodobnost výběru nemůže být stanovena výsledky získané nad nepravděpodobnostním výběrem nemohou být zobecněny pro celou populaci, resp. jakákoliv generalizace musí zohledňovat znalost studovaného problému je zpravidla levnější; výsledky mají omezenou platnost příležitostný výběr rozhodující je dostupnost dat; výběr se stanovenou kvótou (je daná kvóta a může být vybrán jakýkoliv prvek, pokud je splněna kvóta); účelový výběr podle zamýšleného přínosu k výsledku (experti);
JEDNODUCHÝ NÁHODNÝ N VÝBĚR je daná velikost vybrané množiny; každý člen populace má stejnou pravděpodobnost výběru; rámec není jakkoliv členěn; minimalizuje se chyba odhadu a zjednodušuje se analýza výsledků; možné chyby výběr nereprezentuje složení populace (vliv pohlaví)
SYSTEMATICKÝ VÝBĚR výběr podle určitého předpisu (např. každý k-tý člen); randomizace tím, že začátek je stanoven náhodně; užitečné při analýze databází; náchylné na chyby způsobené periodicitou v datech, pokud je perioda v datech závislá na redukčním poměru
STRATIFIKOVANÝ VÝBĚR Pokud v populaci sledujeme několik různých vlastností (kategorií), můžeme rámec organizovat (rozdělit) podle těchto kategorií zajišťuje, že každá kategorie je přiměřeně zastoupena ve výběru; zlepšuje se možnost dohledu nad složením vzorku proměnná velikost jednotlivých podmnožin
VELIKOST VZORKU n - počet pozorování, počet prvků výběru, čím větší, tím větší přesnost odhadu je-li standardní odchylka prvků v náhodném výběru s nezávislými pozorováními σ, pak standardní chyba výběrového průměru je σ /n ½ čím větší n, tím menší variabilita odhadu, tím větší senzitivita testování hypotéz a menší intervaly spolehlivosti tím je ale i dražší sběr dat
VZORKOVÁNÍ A SBĚR R DAT Správný sběr dat zahrnuje: stálé dodržování výběrového postupu; udržování stanovené následnosti dat; zaznamenávání kontextuálních událostí; zaznamenání případů bez odezvy.
5. LETNÍ ŠKOLA MATEMATICKÉ BIOLOGIE ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ 5. letní škola Matematické biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ