Úvod do pravděpodobnosti prizmatem teorie informace 204 Tomáš Kroupa Pravděpodobnostní prostor Základním objektem teorie pravděpodobnosti je pravděpodobnostní prostor. Modeluje všechny možné elementární výsledky experimentu (množina Ω) a jejich měřitelné množiny (množinový systém A), které mají přiřazenu pravděpodobnost (pomocí pravděpodobnostní míry P ). Popišme si nejdříve přesně všechny 3 složky tohoto modelu. (i) Množina elementárních výsledků Ω je libovolná neprázdná množina. Její prvky nazýváme elementární jevy. Např. při hodu jednou kostkou máme Ω = {,..., 6}, při popisu losování ve Sportce dostáváme Ω = 6ą {,..., 49} = {,..., 49} 6, i= což je množina všech uspořádaných šestic (ω,..., ω 6 ) čísel mezi a 49. Při modelování komplikovanějších procesů, které závisejí na časovém vývoji sledovaného systému, potřebujeme i složitější množinu Ω. Např. náhodný pohyb bodu ve čtverci C = 0, 2 měřený v diskrétním čase je popsán posloupností (ω n ) n N, kde ω n C. V tomto případě množina elementárních jevů Ω obsahuje všechny takové posloupnosti: Ω = ą C. i= V teorii informace často zpracováváme dlouhé řetězce symbolů ω ω 2... nad nějakou abecedou Λ. Množinu Ω pak můžeme ztotožnit s množinou všech posloupností Λ (nekonečných řetězců) nad abecedou Λ: Λ = { (ω n ) n N ω n Λ, n N }. (ii) Množinový systém A, který uchovává možné jevy v daném experimentu, tvoří tzv. σ-algebru podmnožin Ω. To znamená:
(a) A 2 Ω, kde 2 Ω je množina všech podmnožin Ω; (b), Ω A; (c) pokud A A, potom A A; (d) pokud A, A 2,... A, potom n= A n A. Prvky A (jsou to množiny!) nazýváme jevy. Pokud je Ω konečná, obvyklou volbou σ-algebry je množina všech podmnožin Ω, tedy A = 2 Ω. Složitější situace nastává nastává pro nekonečné Ω, jako je např. prostor posloupností Λ. (iii) Pravděpodobnostní míra je zobrazení P : A 0, takové, že platí: (i) P ( ) = 0, P (Ω) = ; (ii) jsou-li množiny A, A 2,... po dvou disjunktní (A i A j =, pro i j), potom ( ) P A n = P (A n ). n= Podmínka (b) se nazývá σ-aditivita. Je nutné rozlišovat mezi pravděpodobností P (A) jevu A A a pravděpodobnostní mírou P : zatímco pravděpodobnost je číslo z intervalu 0,, pravděpodobnostní míra je funkce definovaná na celé σ-algebře A. Otázka, jak definovat míru P pro všechny jevy z A, je v teorii pravděpodobnosti klíčová. Jednoduchá je situace v případě konečné množiny elementárních jevů Ω, kterou si vždy můžeme představit jako Ω = {,..., n}. Stačí totiž zadat n čísel p(i) 0, takových, že p() + + p(n) =. Každé p(i) prohlásíme za pravděpodobnost elementárního jevu i Ω a položíme P (A) = i A n= p(i), A Ω. Snadno lze ověřit, že P je pravděpodobnostní míra. Pro množinu všech posloupností Λ však takový postup nelze použít: již v případě dvouprvkové množiny Λ totiž není Λ spočetná, a proto nelze využít σ- aditivitu k definici P (A). Řešení si ukážeme v další části textu. 2
Definice. (Kolmogorov, 933). Pravděpodobnostní prostor je trojice (Ω, A, P ), kde Ω je neprázdná množina, A je σ-algebra podmnožin Ω a P je pravděpodobnostní míra na A. Ukažme si příklady pravděpodobnostních prostorů důležitých v teorii informace. Ve všech níže uvedených příkladech chceme postihnout digitální procesy, které v diskrétním čase produkují symboly z nějaké konečné abecedy Λ. Podle druhu aplikace může být abeceda Λ např. množina {0, }, množina písmen anglické abecedy {a,..., z}, množina symbolů vyjádřitelných ve standardu Unicode (UTF-8). Dále vždy mlčky předpokládáme, že Λ je konečná abeceda obsahující alespoň dva symboly. Popíšeme pravděpodobnostní prostory používané pro modelování náhodného výskytu (i) znaku, (ii) řetězce pevné délky n, (iii) libovolně dlouhého řetězce. Příklad.. Při modelování výskytu jediného znaku z abecedy Λ položíme Ω = Λ, A = 2 Λ. Protože je Λ konečná, pravděpodobnostní míru P zadáme pomocí pravděpodobností p(ω) jednotlivých symbolů ω Λ, kde p(ω) 0, a p(ω) =. Funkci p : Ω 0, říkáme pravděpodobnostní funkce nebo také pravděpodobnostní distribuce na Ω. Schéma uvedené v příkladu. umožňuje postihnout frekvenci výskytu jednotlivých symbolů v abecedě (např. pomocí statistického odhadu na základě dlouhého textu), ovšem neporadí si s frekvencemi řetězců délky větší než. ω Λ Z hlediska statistiky textů se jednotlivé symboly nazývají také unigramy. 3
Příklad.2. Model pro studium řetězců pevně zvolené délky n N je tento: Ω = Λ n, A = 2 Ω. Jedná se o tzv. n-gramový model. Prvky Λ n jsou, přísně vzato, uspořádáné n-tice (ω,..., ω n ). Níže však preferujeme zjednodušený zápis typický pro řetězce nad nějakou abecedou a píšeme tak ω... ω n místo (ω,..., ω n ). Složitost popisu pravděpodobností všech řetězců ω... ω n Λ n roste exponenciálně s délkou n řetězce: je nutno určit všech Λ n pravděpodobností tvaru p n (ω... ω n ), abychom zadali pravděpodobnostní distribuci p n na Λ n. Např. abecedu obsahující 30 symbolů to znamená zadat 30 4 = 80 000 pravděpodobností, pokud chceme modelovat pravděpodobnostní chování řetězců délky 4. Výpočetně nejjednodušší je přijetí předpokladu nezávislosti výskytu po sobě jdoucích znaků: n-gramový model je tak možné odvodit z pravděpodobností p (ω i ) jednotlivých unigramů ω i, neboť díky předpokladu musí platit p n (ω... ω n ) = p (ω ) p (ω n ). To je zřejmě přílišné zjednodušení. Realističtější modely zahrnují závislost výskytu znaku ω i na předchozím znaku ω i. Např. v průměrném anglickém textu je po písmenu t velmi pravděpodobný výskyt písmene h [3]. Příklad.3. Libovolně dlouhý řetězec lze modelovat pomocí nekonečné posloupnosti (ω i ) i N = ω ω 2... symbolů z Λ. Budeme též používat značení ω místo (ω i ) i N. Množina elementárních jevů je prostor všech posloupností ω, tedy Ω = Λ. Jelikož je Ω je nekonečná nespočetná, nastává otázka ohledně volby vhodné σ-algebry podmnožin Λ. Vezměme libovolné a m, a m+,..., a n Λ, kde m, n N, m n, a položíme a n m := a m a m+... a n. Speciálně platí a m m = a m. Ukazuje se, že zásadní je umět změřit všechny jevy tvaru [a n m] := {ω Λ ω n m = a n m}. Množina [a n m] se nazývá válec a je tvořena všemi nekonečnými řetězci ω ω 2... ω m ω n mω n+..., které obsahují na pozicích m až n dané symboly a m, a m+,..., a n Λ. Potom definujeme σ-algebru A jako nejmenší σ-algebru, která obsahuje všechny 4
válce [a n m], kde m, n N, m n a a m, a m+,..., a n Λ. To je korektní definice a A nazýváme součinovou σ-algebrou. Tak už lze vyjádřit všechny prakticky zajímavé jevy (a mnohé další). Uveďme si některé příklady jevů patřících do A : (i) [a 3 ] jsou všechny posloupnosti znaků začínající daným řetězcem a a 2 a 3 ; (ii) n= [a 2n], kde a 2n := a Λ pro každé n N, vybere všechny posloupnosti obsahující na některé sudé pozici daný symbol a Λ; (iii) i= [an ] = [a ] [a 2 ] = {a }, kde a Λ, průnik válců tak obsahuje pouze zadaný nekonečný řetězec a. Povšimněme si, že válec [a n ] A, který tvoří nekonečné sekvence začínající řetězcem a n, lze ztotožnit se samotným řetězcem pevné délky a n Λ n. Takovým konečným řetězcům však umíme přiřadit pravděpodobnost (viz Příklad.2) pomocí pravděpodobnostní distribuce p n na Λ n. Ukazuje se, že pokud konzistentně přiřadíme pravděpodobnostní distribuce nad řetězci a n všech možných délek n N, stačí to již k zadání pravděpodobnostní míry P na A. O tom hovoří následující věta. Věta.. Nechť p, p 2,... je posloupnost pravděpodobnostních distribucí definovaných na množinách Λ, Λ 2,..., přičemž platí podmínka konzistence, tj. p n (a n ) = a n+ Λ p n+ (a n a n+ ), n N, a n Λ n. () Potom existuje jediná pravděpodobnostní míra P na A taková, že platí P ([a n ]) = p n (a n ), n N, a n Λ n. Problém specifikace pravděpodobnostní míry P pro prostor posloupností Λ je tím vyřešen. Poznamenejme, že podmínka konzistence je naprosto přirozená. Např. pro Λ = {0, } vezměme tuto pravděpodobnostní distribuci na bitových řetězcích délky 2: p 2 (00) = 0.2, p 2 (0) = 0., p 2 (0) = 0.3, p 2 () = 0.4. Jaká je pravděpodobnost pozorování jediného bitu? Zřejmě čekáme p (0) = p 2 (00) + p 2 (0) = 0.3 a p () = p 2 (0) + p 2 () = 0.7. 5
Přesně to však říká podmínka (). Podobnou úvahu lze provést i pro jiné délky řetězců. Jaké pravděpodobnostní míry P se vyskytují v aplikacích při práci s pravděpodobnostním prostorem (Λ, A, P )? Rozeberme si dva základní modely. Příklad.4 (Bernoulliho model.). Jedná se o nejjednodušší model generování řetězce a Λ. Předpokládáme, že výskyty jednotlivých symbolů v řetězci jsou nezávislé. To je velmi silný předpoklad. Jak specifikujeme Bernoulliho model pomocí Věty.? Nechť p(a) jsou pravděpodobnosti jednotlivých symbolů a Λ. Definujme pravděpodobnost řetězce a n Λ n jako Podmínka () platí: a n+ Λ p n (a n ) = p(a )p(a 2 ) p(a n ), pro každé n N. p n+ (a n a n+ ) = a n+ Λ i= n+ p(a i ) = n p(a i ) i= a n+ Λ p(a n+ ) = p n (a n ). } {{ } Podle Věty. tak máme jednoznačně zadánu míru P na σ-algebře A. Pro zajímavost určeme pravděpodobnost libovolného elementárního jevu, řetězce a Λ. Předpokládejme, že každý symbol a Λ má pravděpodobnost p(a) <. Vzpomeňme si, že jev {a } lze vyjádřit jako [a ] [a 2 ], přičemž platí [a ] [a 2 ]. Proto lze psát P ({a }) = lim n P ([a n ]) = lim n p n (a n ) = lim n n p(a i ) = 0. Všechny elementární jevy a tak mají nulovou pravděpodobnost! V tomto bodě znovu vidíme, že pravděpodobnostní míru P na A nelze specifikovat pomocí hodnot pravděpodobnosti pro a. Východisko nabízí právě věta.. Stojí za poznámku, že situace není nepodobná práci s pravděpodobnostní mírou na množině elementárních jevů Ω = 0,, neboť ani zde si nevystačíme s pravděpodobnostmi čísel x Ω. 2 Nabízí se následující analogie: nekonečně 2 Nevyjádřili bychom tak základní spojité modely, jako je např. rovnoměrné rozdělení, kterým se řídí náhodný výběr čísla z Ω. Pro něj to totiž platí P ({x}) = 0, pro každé x Ω. 6 i=
dlouhý pokus (generování náhodného řetězce a Λ ) si lze představit též jako nekonečně jemný pokus (náhodný výběr čísla x Ω ). To lze snadno ukázat pro abecedu Λ = {0, } pomocí dvojkového rozvoje čísla x Ω. Příklad.5 (Markovský model.). Studujme přirozené zobecnění Bernoulliho modelu: připustíme, že výskyt symbolu a i v řetězci na pozici i je ovlivněn výskytem předchozího symbolu a i. Pravděpodobnosti popisující závislosti mezi všemi dvojicemi symbolů a, b Λ zachytíme pomocí stochastické matice P = (p ab ) a,b Λ. Složky matice jsou podmíněné pravděpodobnosti p ab výskytu znaku b po znaku a, proto požadujeme p ab =. b Λ Podobně jako u Bernoulliho modelu musíme dále zadat (nepodmíněné) pravděpodobnosti p a symbolů a Λ. Spočtěme pravděpodobnostní distribuce p n pro řetězce délek, 2,..., n, tak, jak mohou být postupně generovány pro libovolné n N: p (a) = p a, a Λ, p 2 (a a 2 ) = p a p a a 2, a a 2 Λ 2,. p n (a n ) = p a p a a 2 p an 2 a } {{ n p an a } n, a n Λ n. p n (a n ) I nyní snadno nahlédneme, že podmínka konzistence () je splněna: p n+ (a n a n+ ) = p n (a n )p an a n+ = p n (a n ) a n+ Λ a n+ Λ a n+ Λ p an a n+ } {{ } Podle Věty. tak vidíme, že markovský model nad abecedou Λ je již zadán stochastickou maticí řádu Λ a pravděpodobnostní distribucí na Λ. 2 Náhodná veličina Pravděpodobnostní prostor (Ω, A, P ) je sice základním objektem teorie pravděpodobnosti, ovšem naše znalosti a výroky o modelovaném systému vyjadřujeme spíše pomocí náhodných veličin. Podívejme se na některé příklady: 7.
(i) Při 0 opakováních hodu symetrickou kostkou nás zajímá, jaká je pravděpodobnost, že maximum z výsledků bylo 4. Obecněji můžeme chtít stanovit pravděpodobnost, že maximum dosahuje hodnoty k =,..., 6. (ii) Náhodný generátor bitů produkuje řetězce a n délky n, kde a i {0, }. Bity jsou zapisovány nezávisle, jednotkový bit má pravděpodobnost výskytu p 0,. Jaká je pravděpodobnost, že se v takto náhodně vygenerovaném řetězci vyskytne právě k = 0,..., n jednotkových bitů? (iii) Mějme stejné zařízení jako v (ii) s tím rozdílem, že náhodně generované řetězce mohou být libovolné délky. Jelikož neexistuje omezení na délku řetězce, vhodným modelem je zde prostor všech bitových posloupností Λ, kde Λ = {0, }. Zajímá nás hodnota bitu na pozici 52. Před zodpovězením uvedených otázek si zopakujme pojem náhodné veličiny []. Podstatou tohoto pojmu je zobrazení množiny elementárních jevů Ω do množiny hodnot R, která reprezentují měření. Dále požadujeme, aby všechny množiny hodnot měření, které lze uvažovat, tvořily σ-algebru B podmnožin množiny R. Definice 2.. Nechť (Ω, A, P ) je pravděpodobnostní prostor, R je libovolná neprázdná množina a B je σ-algebra jejích podmnožin. Náhodná veličina je zobrazení X : Ω R, které je měřitelné, tj. pro každé B B platí [X B] := { ω Ω X(ω) B } A. Podmínka měřitelnosti zajišťuje, že všechny podstatné množiny hodnot náhodné veličiny X (jsou to množiny B B) odpovídají jevům ze σ-algebry A. Pro nejjednodušší pravděpodobnostní modely v teorii informace je podmínka měřitelnosti automaticky splněna: pokud je Ω konečná, R = Λ je konečná abeceda, potom klademe A = 2 Ω, B = 2 Λ, a každá funkce X : Ω Λ je tak náhodná veličina. To platí, neboť A musí obsahovat z definice všechny jevy [X B]. Měřitelnost vstupuje do našich úvah výrazně až v případě nekonečné množiny Ω nebo když je obor hodnot R náhodné veličiny množina reálných čísel R. Uvedená problematika spadá do pokročilého kursu matematické analýzy, zejména do partie známé jako teorie míry. Pro základní orientaci a seznam vhodné literatury doporučujeme čtenáři skriptum []. 8
Jak výstižně poznamenal slavný matematik G.-C. Rota, náhodná veličina není ani náhodná, ani veličina. Název zde vyjadřuje úzké sepjetí náhodné veličiny X (funkce na množině elementárních jevů) s pravděpodobnostní mírou na oboru hodnot X: každý jev B B má totiž přiřazenu pravděpodobnost P [X B] pomocí interpretace jevu [X B] v σ-algebře A, neboli P [X B] := P ({ ω Ω X(ω) B }). Používáme také ekvivalentní značení což nám umožňuje mluvit o funkci P X (B) := P [X B], (2) P X : B 0, definované skrze (2). Lze snadno ověřit, že P X je pravděpodobnostní míra na σ-algebře B. Říkáme, že P X je pravděpodobnostní rozdělení náhodné veličiny X na množině R. Pravděpodobnostní rozdělení P X specifikuje pravděpodobnost pro množiny hodnot náhodné veličiny X a umožňuje tak zkonstruovat nový pravděpodobnostní prostor, který popisuje transformaci zprostředkovanou zobrazením X. Tím jsme vlastně dokázali následující tvrzení. Tvrzení 2.. Nechť X je náhodná veličina na pravděpodobnostním prostoru (Ω, A, P ) s hodnotami v R. Potom je trojice (R, B, P X ) pravděpodobnostní prostor. Ilustrujme si obsah pojmu náhodné veličiny na řešení otázek (i) (iii) formulovaných na začátku této kapitoly. Příklad 2.. V situaci (i) je zřejmě množina elementárních jevů Ω = {,..., 6} 0 a proto uvažujeme σ-algebru A = 2 Ω. Pravděpodobnost každého elementárního jevu je, neboť Ω = 6 0. Zajímá nás maximum z (ω 6 0,..., ω 0 ) Ω, což vede na náhodnou veličinu X(ω,..., ω 0 ) := max i=,...,0 ω i s hodnotami v množině R = {,..., 6}. Jaké je pravděpodobnostní rozdělení P X náhodné veličiny X? Protože je R konečná, stačí určit pravděpodobnosti 9
P [X = k] pro k =,..., 6. K jejich stanovení je nutné pochopit povahu jevů [X = k]. Podmínku X = k je totiž možné vyjádřit ekvivalentně jako tvrzení v uspořádané 0-tici (ω,..., ω 0 ) je každé ω i menší nebo rovno než k, přičemž existuje ω j, které je rovno k. Potom už snadno stanovíme pravděpodobnostní rozdělení veličiny X: P [X = k] = k0 (k ) 0 6 0, k =,..., 6. Tím jsme určili pravděpodobnosti všech možných maxim výsledků při 0- násobném hodu kostkou. Příklad 2.2. Čtenář znalý základního kursu teorie pravděpodobnosti rozpozná v (ii) tzv. binomické rozdělení. Jak však vypadá náhodná veličina, jejíž rozdělení je binomické? Prostor elementárních jevů je nyní Ω = {0, } n, σ- algebra A je samozřejmě 2 Ω. Pravděpodobnost elementárního jevu a n Ω závisí na počtu jednotkových bitů v tomto řetězci. Pokud obsahuje a n právě k jednotkových bitů, potom zřejmě P ({a n }) = p k ( p) n k, (3) kde p je pravděpodobnost výskytu jednotkového bitu. Chceme definovat náhodnou veličinu, která bude počítat jednotkové bity v řetězci a n. To je snadné, stačí položit n X(a n ) := a i. Protože obor hodnot X je konečný, s měřitelností opět nejsou žádné problémy. Pravděpodobnostní rozdělení veličiny X (binomické rozdělení) dostaneme, pokud si uvědomíme, že jev [X = k] referuje ke všem řetězcům bitů a n obsahujícím právě k jednotkových bitů. Z (3) potom plyne ( ) n P [X = k] = p k ( p) n k, k = 0,..., n. k Příklad 2.3. Z příkladu.3 již víme, že modelem pro (iii) je pravděpodobnostní prostor (Λ, A, P ), kde Λ = {0, }, A je součinová σ-algebra a P je pravděpodobnostní míra odpovídající Bernoulliho modelu. Jak zjistíme hodnotu X 52 bitu na pozici 52 v libovolném náhodně generovaném řetězci i= 0
a Λ? Jednoduše odečteme odpovídající bit z celého vstupního řetězce a proto stačí uvažovat náhodnou veličinu X 52 (a 5 a 52 a 53) := a 52 (4) definovanou na (Λ, A, P ) s hodnotami v {0, }. Ani v této situaci nejsou s měřitelností funkce X 52 žádné problémy. Definiční obor náhodné veličiny je nyní sice nekonečná množina Λ, ale X 52 může nabývat pouze dvou různých hodnot. Stačí tedy ověřit, že jevy [X 52 = 0] a [X 52 = ] patří do součinové σ-algebry A. To je však triviálně splněno: první jev odpovídá válci [a 52 ] pro a 52 = 0, druhý válci [a 52 ] pro a 52 =, a oba jevy tak patří do A (viz příklad.3). Proto lze mluvit o pravděpodobnostech P [X 52 = 0] a P [X 52 = ]. Podobně lze odečíst hodnotu bitu na libovolné pozici k N a tím bychom dostali náhodnou veličinu X k definovanou analogicky jako v (4). Lze tak uvažovat konečné i nekonečné posloupnosti náhodných veličin spolu s jejich rozdělením. Více bude uvedeno v částech 3 a 4. Z uvedených příkladů bylo vidět, že povaha pravděpodobnostního prostoru (Ω, A, P ), na němž je náhodná veličina X definována, není rozhodující. Charakteristiky modelu jsou totiž určeny výhradně pravděpodobnostním rozdělením P X! Jelikož známe celou řadu pravděpodobnostních měr a rozdělení (binomické, Poissonovo, normální atd.), nabízí se obrácený způsob konstrukce modelu: k zadanému pravděpodobnostnímu prostoru (R, B, P ) hodnot měření nalezneme náhodnou veličinu X, pro jejíž rozdělení P X platí P X = P. To je ovšem snadné, stačí totiž uvažovat pravděpodobnostní prostor (Ω, A, P ), kde Ω = R, A = B a náhodnou veličinu X : Ω Ω definovanou jako identitu, X(ω) := ω pro každé ω Ω. Tím máme zajištěno, že v pojmech náhodných veličin a jejich rozděleních vyjádříme stejná fakta o daném modelu jako v řeči původního pravděpodobnostního prostoru. Naše vyjadřování to však velmi usnadňuje, neboť pojem měření a jeho výsledků je v inženýrské teorii i praxi bytostně spjat s pojmem veličiny, jejíž hodnoty měříme. Při modelování digitální informace bývá obvyklé uvažovat náhodnou veličinu X s hodnotami v konečné abecedě Λ. To nám usnadňuje popis pravděpodobnostního rozdělení P X, které je určeno pravděpodobnostní distribucí p X náhodné veličiny X, což je funkce Λ 0, definovaná jako p X (a) := P [X = a], a Λ.
Takový způsob popisu rozdělení náhodné veličiny X bylo možno pozorovat již v příkladech 2. 2.3. 3 Náhodný vektor Definice 3.. Náhodný vektor je n-tice náhodných veličin (X,..., X n ) definovaných na společném pravděpodobnostním prostoru (Ω, A, P ). V teorii informace budeme obvykle uvažovat konečnou abecedu Λ jako společný obor hodnot pro všechny náhodné veličinu X i, kde i =,..., n. Tím modelujeme náhodný výskyt řetězců a n Λ n pevné délky n nad abecedou Λ (viz příklad.2). Náhodný vektor tak lze chápat jako n-rozměrnou náhodnou veličinu s hodnotami v Λ n, (X,..., X n ) : Ω Λ n. Stejně jako u jedné náhodné veličiny X i : Ω Λ, ani zde nebývá problém s měřitelností (Definice 2.): Λ n je konečná, klademe B = 2 Λn, a proto stačí ověřit, že pro každé a n Λ n platí [X = a,..., X n = a n ] := { ω Ω X (ω) = a,..., X n (ω) = a n } A. (5) Příklad 3. (pokračování příkladu 2.3). Uvažujeme opět model generování libovolně dlouhých bitových řetězců. Nyní chceme zaznamenat hodnotu prvních n bitů v libovolném řetězci a Λ. Tak dostaneme n-rozměrný náhodný vektor (X,..., X n ) definovaný jako (X,..., X n )(a n a n+...) := a n, a n Λ. Podmínka (5) je splněna, protože [X = a,..., X n = a n ] = [a ] [a n ] = [a n ] A, kde A je součinová σ-algebra na Λ. V dalších odstavcích budeme používat následující zjednodušené značení. Protože náhodný vektor (X,..., X n ) si lze představit jako model pro náhodně generovaný řetězec nad abecedou Λ, budeme též psát X... X n místo 2
(X,..., X n ). Libovolný podřetězec X i X i+... X k X k vybraný z X... X n, kde i k n, budeme značit jako X k i. Např. X 5 2 = X 2 X 3 X 4 X 5, X n = X... X n, X 3 3 = X 3. Pro náhodný vektor X n definujeme podobné pojmy jako v případě jedné náhodné veličiny X. Simultánní výskyt hodnot X n popíšeme sdruženým (nrozměrným) pravděpodobnostním rozdělením, které lze v případě konečné abecedy Λ jednoznačně určit pravděpodobnostmi všech řetězců a n Λ n. Sdružená pravděpodobnostní distribuce náhodného vektoru X n je funkce definovaná takto: p X n : Λ n 0, p X n (a n ) := P [X n = a n ] = P [X = a,..., X n = a n ], a n Λ n. (6) Podobně můžeme uvažovat pravděpodobnostní distribuci libovolného náhodného vektoru X i... X ik vybraného z X n, kde i,..., i k {,..., n}: p Xi...X ik (a i,..., a ik ) := P [X i = a i,..., X ik = a ik ], a i,..., a ik Λ. (7) Pravděpodobnostní distribuce p Xi...X ik definovaná v (7) se nazývá marginální pravděpodobnostní distribuce, neboť určuje pravděpodobnostní rozdělení pouze části původního náhodného vektoru X n. Speciálně, rozdělení každé náhodné veličiny X i je určeno (-rozměrnou) marginální pravděpodobnostní distribucí p Xi na Λ. Marginální pravděpodobnostní distribuci (7) lze spočítat ze sdružené distribuce (6): p Xi...X ik (a i,..., a ik ) = p Xn (a n ), kde J = {,..., n} \ {i,..., i k }. (a j ) j J Λ J (8) Čtenář může vzorec (8) chápat tak, že součet probíhá přes všechny hodnoty náhodných veličin z X n kromě X i... X ik. Ukažme si výpočet marginálního rozdělení na příkladě. 3
X = 0 X = X 2 = 0 X 2 = X 2 = 0 X 2 = X 3 = 0 0.05 0 0.5 0.0 X 3 = 0.30 0.20 0.0 0.0 Tabulka : Hodnoty sdružené distribuce p X 3 Příklad 3.2. Náhodný vektor X 3 s hodnotami v {0, } 3 má sdružené rozdělení zachycené v tabulce. Z ní snadno vyčteme, že např. p X 3 (00) = 0.5. Jak určíme marginální rozdělení p X2 X 3? Podle vzorce (8) platí p X2 X 3 (a 2 a 3 ) = p X 3 (a a 2 a 3 ) a {0,} pro každé a 2 a 3 {0, } 2. Pro a 2 a 3 = 0 dostaneme p X2 X 3 (0) = p X 3 (00) + p X 3 (0) = 0.30 + 0.0 = 0.40. Podobně pro ostatní řetězce a 2 a 3 a tak dostaneme tabulku 2 popisující hodnoty marginální pravděpodobnostní distribuce p X2 X 3. Analogicky můžeme X 2 = 0 X 2 = X 3 = 0 0.20 0.0 X 3 = 0.40 0.30 Tabulka 2: Hodnoty marginální distribuce p X2 X 3 dopočítat zbylé marginální distribuce: dvě 2-rozměrné (p X X 2 a p X X 3 ) a tři -rozměrné (p X, p X2 a p X3 ). Sdružené rozdělení jednoznačně určuje všechna marginální rozdělení složek náhodného vektoru X n. Ovšem pozor obráceně to neplatí! Např. znalost 2-rozměrných rozdělení X X 2, X X 3 a X 2 X 3 nám v příkladě 3.2 bez dodatečných předpokladů neumožňuje jednoznačně zrekonstruovat sdružené rozdělení vektoru X X 2 X 3. 3 Předpokladem umožňujícím popsat sdružené rozdělení vektoru X n pomocí jednotlivých marginálních rozdělení veličin X i je nezávislost složek vektoru. 3 Na tento fakt lze nahlížet i pomocí geometrické analogie. Pro 2 náhodné veličiny si představme kruh v rovině a jeho průměty na obě souřadné osy. Vzniknou tak 2 úsečky, které však neurčují jednoznačně původní útvar, jehož jsou průmětem. 4
Definice 3.2. Nechť X n je náhodný vektor. Náhodné veličiny X,..., X n nazveme nezávislé, pokud platí p X n (a n ) = p X (a ) p Xn (a n ), a n Λ n. (9) Ihned vidíme, že náhodné veličiny X, X 2 a X 3 z příkladu 3.2 nejsou nezávislé, jelikož (9) neplatí: 0 = p X 3 (00) p X (0)p X2 ()p X3 (0) = 0.55 0.40 0.30 = 0.066. Náhodný vektor s nezávislými složkami odpovídá Bernoulliho modelu (příklad.4.) Podívejme se, jak vypadá model pro bitové řetězce a 3 {0, } 3 délky 3, které vzniknou náhodným generováním bitů s danou pravděpodobností jednotkového bitu p 0,. Příklad 3.3 (3-rozměrný náhodný vektor s nezávislými složkami). Uvažujme náhodné veličiny X, X 2 a X 3 s pravděpodobnostními distribucemi p Xi () = p, p Xi (0) = p, i =, 2, 3, kde p 0,. Sdruženou pravděpodobnostní distribuci p X 3 náhodného vektoru X 3 definujeme pomocí (9) pravděpodobnostní distribuce p X 3 je součinem tří -rozměrných pravděpodobnostních distribucí p Xi, p X 3 (a 3 ) = p X (a )p X2 (a 2 )p X3 (a 3 ), a 3 {0, } 3. Výsledek vidíme v tabulce 3. X = 0 X = X 2 = 0 X 2 = X 2 = 0 X 2 = X 3 = 0 ( p) 3 p( p) 2 p( p) 2 p 2 ( p) X 3 = p( p) 2 p 2 ( p) p 2 ( p) p 3 Tabulka 3: Hodnoty p X 3 pro nezávislé veličiny X, X 2 a X 3 Nezávislost nám umožňuje výraznou redukci paměťové režie při vyjádření pravděpodobnostní distribuce p X n. Již pro dvouprvkovou abecedu Λ totiž potřebujeme 2 n pravděpodobností typu p X n (a n ). Pokud jsou však veličiny nezávislé, což často předpokládáme, potom je paměťová složitost lineární v 5
počtu veličin n. V příkladu 3.3 je situace ještě jednodušší, jelikož všechny náhodné veličiny X i mají stejné rozdělení p Xi určené jedinou hodnotou pravděpodobnosti p. Z úvodního kursu pravděpodobnosti víme, že vliv hodnot veličiny X j na jinou veličiny X i vyjádříme pomocí podmíněné pravděpodobnosti. Připoměňme si tento pojem. Definice 3.3. Mějme náhodný vektor X 2, kde X a X 2 nabývá hodnot v konečné abecedě Λ. Podmíněná pravděpodobnostní distribuce veličiny X 2 za podmínky X je funkce p X2 X : Λ 2 0, definovaná jako p X2 X (a 2 a ) := p X 2 (a2 ) p X (a ), a, a 2 Λ, p X (a ) 0. (0) V případě p X (a ) = 0 hodnotu p X2 X (a 2 a ) nedefinujeme. Povšimněme si, že pro dané a Λ splňující p X (a ) > 0 je funkce jedné proměnné p X2 X (. a ) : Λ 0, vlastně pravděpodobnostní distribuce náhodné veličiny X 2, jelikož p X 2 (a a 2 ) a p X2 X (a 2 a ) = 2 Λ = p X (a ) p X (a ) p X (a ) =. a 2 Λ Vzorcem podobným (0) je možné definovat podmíněnou pravděpodobnostní distribuci libovolného náhodného vektoru (X j ) j J za podmínky dané jiným náhodným vektorem (X i ) i I, přičemž I J =. Přibližme si to na příkladě. Příklad 3.4 (pokračování příkladu 3.2). Hledejme podmíněnou pravděpodobnostní distribuci p X X 3 X 2. Pro názornost budeme všechny výsledky zaokrouhlovat pouze na 2 desetinná místa. Zřejmě p X X 3 X 2 (00 0) = p X 3 (000) p X2 (0) = 0.05 0.60. = 0.08. Podobně postupujeme pro další kombinace hodnot až dostaneme tabulku 4 podmíněných pravděpodobností. V tabulce 4 jsou oba řádkové součty rovny 6
X = 0 X = X 3 = 0 X 3 = X 3 = 0 X 3 = X 2 = 0 0.08 0.50 0.25 0.7 X 2 = 0 0.50 0.25 0.25 Tabulka 4: Hodnoty podmíněné pravděpodobnostní distribuce p X X 3 X 2 jedné, neboť první řádek obsahuje pravděpodobnostní distribuci p X X 3 X 2 (. 0) a druhý obsahuje p X X 3 X 2 (. ). Povšimněme si, že p X X 3 X 2 (. 0) p X X 3 X 2 (. ) (tabulka má různé řádky). To znamená, že výskyt prostředního bitu X 2 ovlivňuje náhodný výskyt bitů X a X 3. To jen dále dokumentuje naše dřívější pozorování, že bity v řetězci X X 2 X 3 nejsou nezávislé. Nezávislost náhodných veličin X a X 2 můžeme ekvivalentně popsat pomocí podmíněné pravděpodobnosti. Důkaz následujícího trvzení je bezprostředním důsledkem definice nezávislosti (definice 3.2) a podmíněné pravděpodobnostní distribuce (definice 3.3). Tvrzení 3.. Mějme náhodné veličiny X a X 2 takové, že p X2 (a 2 ) > 0, pro každé a 2 Λ. Veličiny X a X 2 jsou nezávislé právě tehdy, když p X2 X (a 2 a ) = p X2 (a 2 ), pro každé a, a 2 Λ. Příklad 3.5 (pokračování příkladu 3.3). Veličiny X, X 2 a X 3 jsou z definice nezávislé. Jak vypadá např. podmíněná pravděpodobnostní distribuce p X X 2? Předpokládejme 0 < p X2 () <. Platí p X X 2 (a a 2 ) = p X 2 (a2 ) p X2 (a 2 ) = p X (a )p X2 (a 2 ) p X2 (a 2 ) = p X (a ), pro každé a, a 2 {0, }. Z toho plyne, že veličiny X a X 2 jsou nezávislé, jak jsme očekávali. Podobně lze nezávislost ověřit i pro zbývající páry veličiny, X X 3 a X 2 X 3. Závěrem si uveďme užitečný vztah, který ihned plyne z definice podmíněné distribuce. Bayesův vzorec pro náhodné veličiny X a X 2 říká, že p X X 2 (a a 2 ) = p X 2 X (a 2 a )p X (a ) p X2 X (a 2 a )p X (a ), a, a 2 Λ, () a Λ 7
kdykoli jsou uvedené podmíněné pravděpodobnosti definovány. V čitateli zlomku () je zřejmě hodnota marginální pravděpodobnostní distribuce p X2 pro a 2, neboli pravděpodobnost p X2 (a 2 ). 4 Náhodný proces V teorii informace slouží pojem náhodného procesu nad danou abecedou Λ k zachycení modelu náhodného řetězce libovolné délky a Λ, se kterým jsme se setkali již v příkladě.3. Na náhodný proces lze nahlížet jako na informační zdroj, který je schopen produkovat nekonečné řetězce symbolů. V daném okamžiku n N zapíše zdroj na pozici n náhodný symbol X n, v další iteraci provede to samé na pozici n + a tento postup pokračuje do nekonečna. Nekonečné řetězce se sice prakticky nevyskytují, přesto lze tento model přijmout, neboť (i) běžně se vyskytující řetězce mají délku, kterou již považujeme za dostatečně velkou; (ii) je důležité předem neomezovat délku náhodného řetězce na pevnou hodnotu n a připustit tak prakticky libovolnou délku. Definice 4.. Náhodný proces (s diskrétním časem, nad konečnou abecedou Λ) je posloupnost náhodných veličin (X n ) n N definovaných na společném pravděpodobnostním prostoru (Ω, A, P ) a nabývajících hodnot v množině Λ. Místo (X n ) n N budeme rovněž psát X. Pro každé n N můžeme mluvit o n-rozměrném rozdělení procesu X, které definujeme jako n-rozměrné rozdělení náhodného vektoru X n. Jak víme, to lze charakterizovat pomocí pravděpodobnostní distribuce p X n na Λ n : p X n (a n ) = P [X n = a n ], a n Λ n. (2) Rozdělením procesu X nazveme posloupnost (p X n ) n N pravděpodobnostních distribucí (2). Povšimněme si, že rozdělení procesu (p X n ) n N splňuje podmínku konzistence (), neboť p X n je marginální pravděpodobnostní distribucí pro náhodný vektor X n+. To nás přivádí na obrácený postup: k zadané posloupnosti pravděpodobnostních distribucí p, p 2,... definovaných na množinách Λ, Λ 2,... 8
a splňujících konzistenci () se pokusme nalézt pravděpodobnostní prostor (Ω, A, P ) a náhodný proces ˆX na (Ω, A, P ) takový, že p ˆXn = p n, pro každé n N. (3) Podmínka (3) říká, že nově definovaný proces ˆX má rozdělení, které odpovídá zadanému konzistentnímu systému (p n ) n N. Návod ke konstrukci nám dává věta. položme Ω := Λ, A := A, P := jednoznačně určená pravděpodobnostní míra z věty.. na (Λ, A, P ) definujeme jako projekci do n-té sou- Náhodný proces ˆX řadnice: ˆX n (a ) := a n, pro každé n N a každé a Λ. (4) Každá veličina ˆX n je zřejmě měřitelná vůči součinové σ-algebře A a proces ˆX, který nazveme souřadnicovým procesem, je tak dobře definován. Ověřme, že souřadnicový proces ˆX splňuje (3). Volme a n Λ n libovolně. Potom p ˆXn (a n ) = P [ ˆX n = a n ] = P ([a n ]) = p n (a n ), kde druhá rovnost je důsledkem definice (4) a třetí plyne z věty.. Dokázali jsme vlastně následující důležitou větu. Věta 4. (Kolmogorovova reprezentace procesu). Nechť X je náhodný proces nad konečnou abecedou Λ. Potom existuje souřadnicový proces ˆX na pravděpodobnostním prostoru (Λ, A, P ), který má stejné rozdělení jako původní proces X. Kolmogorovova reprezentace umožňuje na každý proces X nahlížet jako na postupné generování náhodného řetězce z množiny Λ pomocí souřadnicového procesu ˆX. S takovou představou o náhodném procesu jsme se ostatně seznámili již na začátku části 4. Zároveň nám věta 4. dává univerzální pravděpodobnostní prostor (Λ, A, P ), v němž lze přirozeně mluvit o pravděpodobnosti P (A) různých množin řetězců A A. Podívejme se na důležité příklady náhodných procesů, se kterými se setkáváme v teorii informace. 9
Příklad 4. (Generování nezávislých bitů). Bernoulliho proces je náhodný proces X nad abecedou Λ = {0, }, přičemž náhodné veličiny X, X 2,... jsou nezávislé 4 a platí p Xn () = p 0,, pro každé n N. Na uvedený model jsme již narazili v příkladu.4. Pro každé n N vypadá n-rozměrné rozdělení Bernoulliho procesu takto: p X n (a n ) = p n i= a i ( p) n n i= a i, a n Λ n, (5) kde suma n i= a i v exponentu značí počet jednotkových bitů v řetězci a n. Představme si na okamžik, že pravděpodobnost p = p Xn () je v Bernoulliho procesu neznámá. Máme všek k dispozici dostatečně rozsáhlý náhodný výběr 5 v podobě dlouhého řetězce bitů X n. Jak odhadneme neznámou pravděpodobnost p? Čtenář znalý základů matematické statistiky prohlásí za vhodný odhad výběrový průměr pozorování X n, kde X n := X + + X n. n Intuice napovídá, že pro n by měla růst kvalita odhadu pomocí X n. Pro konkrétní pozorovaný řetězec a n tudíž očekáváme, že rozdíl mezi průměrem pozorování a + +a n a neznámou hodnotou p bude zanedbatelný, kdykoli n n bude dostatečné velké. Přesnou formulaci poskytuje následující věta, známá jako (Borelův) silný zákon velkých čísel. Silný zákon velkých čísel (Borel, 909). Nechť X je Bernoulliho proces, kde p Xn () = p 0,. Platí [ ] P lim X n = p =. (6) n Co přesně vyjadřuje rovnost (6)? Podle věty 4. si můžeme Bernoulliho proces představit jako souřadnicový proces (4) na pravděpodobnostním prostoru (Λ, A, P ), kde Λ = {0, }. Pak můžeme psát [ P lim X n = p n ] ( ) = P { a Λ lim X n (a ) = p } ({ n }) = P a Λ a + + a n lim = p =. n n 4 Nekonečná posloupnost náhodných veličin X, X 2,... je nezávislá, pokud jsou nezávislé veličiny X i,..., X ik pro každé i,..., i k N. 5 Připomínáme, že náhodný výběr je náhodný vektor, jehož složky jsou nezávislé a mají stejné rozdělení. 20
Poslední výraz, který je ekvivalentní silnému zákonu velkých čísel, říká, že následující jev má pravděpodobnost : pozorujeme řetězec a, v němž je asymptotická relativní četnost jednotkových bitů rovna pravděpodobnosti p. Množinu všech takových řetězců nazýváme v teorii informace typickou. Silný zákon velkých čísel tak můžeme formulovat jako následující tvrzení: Množina typických řetězců a {0, } má pravděpodobnost. Shrňme si naše úvahy: význam zákona velkých čísel spočívá v tom, že spojuje teorii pravděpodobnosti se statistickou úlohou odhadu neznámého parametru. Protože jevy mající pravděpodobnost považujeme za skoro jisté, neznámou pravděpodobnost p můžeme dobře odhadnout na základě jedné dostatečně dlouhé realizace a n Bernoulliho procesu jako relativní četnost a + +a n. n Veličiny X, X 2,... tvořící Bernoulliho proces jsou nezávislé. Pokusme se naopak vystihnout přirozenou závislost mezi symbolem X n+ a prefixem X n. Nejjednodušší je markovský model párové závislosti mezi znakem X n+ a X n, se kterým jsme se setkali již v příkladu.5. Příklad 4.2. Nechť P = (p ab ) a,b Λ je stochastická matice (viz příklad.5). Markovský řetězec je náhodný proces X nad konečnou abecedou Λ, který vyhoví podmínce p Xn+ X n (a n+ a n ) = p Xn+ X n (a n+ a n ) = p an a n+ pro každé n N, každé a n+ Λ a řetězec 6 a n Λ n, pro který p X n (a n ) > 0. Snadno zjistíme, že n-rozměrné rozdělení markovského řetězce splňuje p X n (a n ) = p X (a )p X2 X (a 2 a ) p Xn X n (a n a n ), a n Λ n. Uveďme si dvě důležité vlastnosti procesů nad konečnou abecedu: stacionarita a ergodicita. Jejich splnění bývá nutné pro optimální fungování kompresních algoritmů v teorii informace (např. LZ algoritmy). Definice 4.2. Nechť X je náhodný proces nad konečnou abecedou Λ. Řekneme, že X je (striktně) stacionární, pokud platí p X n m (a n m) = p X n+k (a n m), m+k pro každé k, m, n N, m n, a m, a m+,..., a n Λ. 6 Věříme, že mezi pojmy řetězec (slovo nad danou abecedou) a markovský řetězec (náhodný proces) nevznikne nedorozumění. 2
Stacionarita procesu vyjadřuje neměnnost jeho pravděpodobnostního chování na podřetězcích Xm n a X n+k m+k, které se liší pouze posunem o k pozic. S trochou nadsázky si lze stacionaritu demonstrovat na příkladě dlouhého literárního díla, např. Anny Kareninové od L. N. Tolstého. Toto dílo by bylo realizací stacionárního procesu, pokud se budou všechna slova v textu použitá vyskytovat ve všech kapitolách a odstavcích se stejnou četností! Alespoň v případě jména hlavní hrdinky Anny lze doufat, že to může být splněno. Ovšem Levinův popis sklizně v první části knihy obsahuje mnoho výskytů řetězce kosa a ten se v dalších částech příliš nevyskytuje 7. Snadno nahlédneme, že Bernoulliho proces je stacionární, neboť výpočet pravděpodobnosti (5) závisí pouze na počtu jednotkových bitů v řetězci a n. Markovský řetězec ovšem nemusí být stacionární záleží na podobě počátečního rozdělení p X. Tvrzení 4.. Nechť X je markovský řetězec s maticí přechodu P = (p ab ) a,b Λ nad konečnou abecedou Λ. Položme p X := (p X (a)) a Λ. Markovský řetězec je stacionární právě tehdy, pokud pro jeho počáteční rozdělení platí X p X P = p X. (7) Tvrzení 4. lze přímo použít ke konstrukci stacionárního markovského řetězce. Vezměme libovolnou stochastickou matici P = (p ab ) a,b Λ a hledejme vektor pravděpodobností p = (p a ) a Λ splňující (7), tedy pp = p. Vždy existuje alespoň jeden takový vektor p a nalezneme ho řešením odpovídající soustavy lineárních rovnic. Dostaneme tak markovský řetězec X s maticí přechodu P a počátečním rozdělením p X = p. Reference [] M. Navara. Pravděpodobnost a matematická statistika. Skriptum FEL ČVUT, Praha, 2007. [2] P. C. Shields. The Ergodic Theory of Discrete Sample Paths. AMS, 996. [3] http://www.math.cornell.edu/~mec/2003-2004/cryptography/ subs/hints.html 7 V běžném petrohradském salóně se zřejmě nekosí. 22