Nelineární analýza a predikce síťového provozu Jan Kacálek, Ivan Míča Email: kacalek@feec.vutbr.cz Ústav telekomunikací, FEKT, VUT v Brně Purkyňova 118, 612 00 Brno Modely a predikce síťového provozu hrají významnou roli v analýze skutečného síťového provozu a výkonnosti sítě. V případě dostatečně přesné predikce by bylo možné zlepšit využití a výkonnost sítě. Tento článek se zabývá možností predikce síťového provozu pomocí rekonstrukce fázového prostoru a Lyapunova exponentu. 1 Úvod Výzkumy[1, 2] ukazují nezávislost charakteristik síťového provozu na zvoleném rozsahu. Tato vlastnost se nazývá samopodobnost. Samopodobné časové řady je obtížné predikovat, protože vykazují chaotické chování, ale existují metody, které krátkodobou predikci takovýchto řad umožňují. Jednou z možností je využití predikce v rekonstruovaném fázovém prostoru. Popisem a aplikací této metody na síťový provoz se zabývá tento článek. 2 Samopodobnost síťového provozu Samopodobnost je pojem z fraktální geometrie. Lze říci, žesamopodobnýútvarvypadástejně,aťsenanějdíváme v jakémkoli měřítku či zvětšení. U datového toku toto znamená, že jeho časový průběh vykazuje podobné charakteristiky v různých časových měřítkách. To znamená, že časová charakteristika takového datového toku se při jeho agregaci vyhlazuje velmi pomalu nebo se nevyhladí vůbec. Na obr. 1 můžete vidět různé agregované časové intervaly síťového provozu získané ze vzorku síťového provozu 200904171400.dump[9]. Z tohoto obrázku lze vidět, že síťový provoz vykazuje velmi podobný průběh při různých agregací. Míru samopodobnoti časové řady lze určit pomocí Hurstova parametru. Pro procesy, které mají malou nezávislostnaměřítku,jehurstůvparametr H=0,5.Pro samopodobnéprocesyplatítatonerovnost0,5 < H <1. Výzkumy ukazují, že síťový provoz je samopodobný processh >0,6.VelikostiHurtovaparametruprorůzné síťové linky zobrazuje tab. 1. Hodnoty Hurstova parametry zobrazené v tabulce byly získané pomocí VTP (Variance-time plot) analýzy[6]. Obr. 1: Agregovaný síťový provoz(stupeň agregace 1 a 100) 3 Testovací data Pro testovací účely byla využita data dostupná na[9] a vytvořené pracovní skupinou MAWI(Measurement and Analysis on the WIDE Internet). Pro náš účel byl zvolen záznam síťového provozu číslo 200003161359(viz tab. 2). Data byla zpracována v jazyce JAVA pomocí knihovny jpcap a agregována do pevných časových slotů. 68 1
Tab. 1: Hodnoty Hurstova parametru pro různé síťové linky Průměrné zatížení linky H 0,534 0,771 0,993 0,843 8,47 0,694 20,32 0,863 77,41 0,736 129,41 0,719 262,98 0,747 Tyto rovnice definují body d-dimenzionálního rekonstruovaného fázového prostoru, kde d se nazývá dimenze vložení.nagrafuobr.2lzevidětatraktorzáznamusíťového provozu vloženého do dvoudimenzionálního fázového prostoru. Tab. 2: Vlastnosti záznamu síťového provozu 200003161359 Začátek záznamu 16.3. 2000 13:59:00 Konec záznamu 16.3. 2000 15:07:19 Celkový čas 4099,46 sekund Počet paketů 2095760(485.55 MB) Průměrná rychlost 993.66 Kbps 4 Rekonstrukce fázového prostoru Mezi základní možnosti modelování a predikce časových řad patří metody z klasické lineární, analýzy jako například autokorelační funkce, výkonové spektrum a různé typy ARMA(AutoRegessive, Moving Avrage) modelů. Pro určení nelineárních a obecných korelací je nutné použít metody z nelineární analýzy, které se také používají k určení chaosu v časových řadách. Většina metod nelineární analýzy vyžaduje, aby data byla zobrazena jako body v d-dimenzionálním fázového prostoru. Pro rekonstrukcí fázového prostoru se využívá metody zpoždění(meothod of delays- MOD) vycházející z Takenova teorému[7]. Po vložení dat z chaotické časové řady do fázového prostoru je možné určit chaotický atraktor. V časové doméně vykazují chaotické časové řady stochastické chování. Po vložení časové řady do fázového prostoru může být odhaleno deterministické chování této řady. Díky tomu mohou být ve fázovém prostoru chaotické časové řady analyzovány a predikovány. Takenův teorém lze formulovat následovně: Mějmečasovouřadu X= {x t : t=1,2,...,n},přičemž Njedélkačasovéřady.ZtétočasovéřadyvytvořímebodyX i fázovéhoprostoru,kde i [1; N (d 1)τ] přičemž X 1 =[x(1), x(1+τ),..., x(1+(d 1)τ)] X 2 =[x(2), x(2+τ),..., x(2+(d 1)τ)] X 3 =[x(3), x(3+τ),..., x(3+(d 1)τ)]... X i =[x(i), x(i+τ),..., x(i+(d 1)τ)] (1) Obr. 2: Atraktor síťového provozu ve dvoudimenzionálním prostoru(τ=1) 4.1 Volba vhodné velikosti dimenze vložení Zásadním parametrem určujícím vlastností fázového prostorujedimenzevložení d.pokudhodnota djedostatečně velká, je rekonstruovaná trajektorie vložením původní trajektorie. Aby taková rekonstrukce zachovávala vložení, je dokázáno, že dimenze d musí splňovat tuto podmínku: d >2m+1 (2) kde m je prostorová(fraktální) dimenze původního dynamického systému. Tato podmínka je ve většině případech postačující. V závislosti na datech může být odpovídající fázový prostor vytvořen i při d menším než 2m+1. Pro spolehlivé určení dimenze vložení d můžeme použít metodu nepravých nejbližších sousedů(false Nearest Neighbors- FNN). Metodu lze popsat následujícími kroky. 1.ProkaždýbodfázovéhoprostoruX i =[x(i), x(i+ τ),..., x(i+(d 1)τ)]vypočítáme X j X i (d),kde. je eukleidovská norma. 2.Zvětšímedimenzivloženína d+1avypočítáme X j X i (d+1). 3.ProdanouheuristickouhraniciRjebodX j označenjakonepravýnejbližšísousedbodux i,jestliže není splněna podmínka X j X i (d+1) X j X i (d) X j X i > R (3) Experimenty ukazují[5], že heuristická hranice R se pohybujemezi10a15.vtomtopřípaděbylapoužita 68 2
řad,přičemžkaždétakovéřaděsevyskytuje2 n prvků. Mějmedvěčasovéřady S a Q,přičemžřada Qje zpožděná verze řady S. Princip algoritmu spočívá v adaptivním dělení(s, Q) roviny. Rovina se postupně dělí do G 0, G 1,..., G m elementům,přičemž G 0 jecelá(s, Q)rovina.Dělení(s,q)rovinynaelementy G m jeznázorněno naobr.4. R m (K m )značíděleníelementu G m.zda-lise Obr. 3: Podíl nepravých sousedů v závislosti na dimenzi vložení hodnota R = 10. Kriterium pro určení, zda-li je dimenze vložení dostatečné velká, záleží na podílu nepravých nejbližších sousedů. Podíl musí být dostatečně malý. Experimentální výsledky ukazují[5], že maximální podíl je 0,05. Na obr. 3 můžete vidět vývoj podílu nepravých nejbližších sousedů pro záznam síťového provozu číslo 200003161359. Z grafu lze určit, že minimální dimenze vloženíje τ=6. 4.2 Volba vhodného časového zpoždění Při vytváření rekonstruovaného fázového prostoru se, mimo dimenze vložení, používá také časové zpoždění τ. Volba jeho hodnoty nemá tak významný efekt na rekonstruovaný fázový prostor jako dimenze vložení, ale jeho vhodná volba má pozitivní vliv na rekonstruovaný fázový prostor. Jestliže je hodnota zpoždění nízká, způsobuje příliš velká korelace dvou oddělených bodu redundanci. Jestliže je hodnota zpoždění naopak velká, způsobuje irelevanci oddělených bodů. Proto je nutné zvolit vhodnou hodnotu jako kompromis mezi redundancí a irelevancí. Existuje více možností jak zvolit vhodnou velikost zpoždění. Jedna z jednodušších metod vychází z poklesu autokorelační funkce časové řady. Tato metoda však nevykazuje ve všech případech dobré výsledky. Jinou metodou je určení zpoždění z průběhu velikosti vzájemné informace pro různě zpožděné časové řady. Jako kriterium pro výběr nejlepšího vhodného zpoždění se udává první lokální minimum v průběhu vzájemné informace [5].Tatometodabylapoužitaivnašempřípadě.Provýpočet vzájemné informace byl použit Fraser-Swinneyho algoritmus. 4.2.1 Fraser-Swinneyho algoritmus Pro výpočet průběhu vzájemné informace v závislosti na časovém zpoždění datové řady byl využit tzv. Fraser- Swinneyho algoritmus[4]. Princip Fraser-Swinneyho algoritmu vychází z porovnávání dvojic časově omezených Obr.4:dělení(S, Q)rovinydoelementů G m element G m budedáledělit,jeurčenopodlenásledujících kriterií χ 2 3=( 16 1 3 (a i N 9 N 4 )2 ) <1,547 (4) a kde a χ 2 15 =(256 1 225 N i=0 3 (b ij N 16 )2 ) <1,287 (5) i,j=0 a i N(R m+1 (K m, i)) (6) b ij N(R m+2 (K m, i, j)) (7) Pokud alespoň jedna podmínka není splněná, je nutné element G m dáledělitnasubelementy. N(R m (K m ))značí početbodůvyskytujícíchsevelementů R m (K m ).Samotná vzájemná informace se vypočítá z následujícího vzorce přičemž I(S, Q)=( 1 N 0 )F(R 0 (K 0 )) log(n 0 ) (8) F(R m (K m ))=N(R m (K m ))log(n(r m (K m ))) (9) pokudjsousplněnakriteria(4a5).vopačnémpřípadě F(R m (K m ))=N(R m (K m ))log(4)+ 3 F(R m+1 (K m, j) j=0 (10) 68 3
Průběh velikosti vzájemné informace pro různé zpožděné časové řady síťového vzorku 200003161359 lze vidět na obr. 5. Z grafu vyplývá, že nejvhodnější hodnota zpožděníje τ=1. Lyapunův exponent může být také využit pro určení horizontu predikce. To znamená, maximální počet budoucích bodů, který mohou být predikovány. Horizont je definován jako[8] T max = 1 λ max ln δ 0 (13) kde λ max jemaximálnílayapunůvexponent je požadovaná maximální chyba δ 0 jeneurčitostvměřenípočátečníchpodmínek 4.3.1 Výpočet Lyapunova exponentu Obr. 5: průběh vzájemné informace pro různě zpožděnou časovou řadu síťového provozu 4.3 Lyapunův exponent Lyapunův exponent je základním nástrojem pro popis dynamického systému. Jeho výpočet je poměrně obtížně numericky zvládnutelný, problémy s hledáním této charakteristiky jsou však vyváženy informacemi, které jejich nalezením získáme. Lyapunovy exponenty totiž přímo svými hodnotami říkají, jak se systém chová. Pokudjeexponentzáporný,pakdráhyvčasekonvergují a dynamický systém není citlivý vůči počátečním podmínkám. Když je ale exponent kladný, pak vzdálenosti mezi blízkými dráhami v čase exponenciálně rostou a takový systém vykazuje citlivost na počáteční podmínky. Chaotický systém musí mít alespoň jeden Lyapunůvexponentkladný,tedyalespoňvjednomsměruseod sebe musí sousední trajektorie exponenciálně vzdalovat. U formální definice Lyapunova exponentu se uvažuje jednodimenzionálnímapovánídané x n+1 = f(x n ).Rozdíl mezi dvěma blízkými počátečními stavy po n krocích můžeme napsat jako Pro malá ɛ lze napsat f n (x+ɛ) f n (x) ɛe nλ (11) λ 1 n ln(df n dx ) (12) Existují různé způsoby, jak Lyapunův exponent numericky vypočítat. Jeden způsob je zvolit si několik blízkých bodů, které necháme v čase rozvíjet a přitom sledujeme rychlost růstu jejich vzájemné vzdálenosti. Tomuto postupu se říká Wolfův algoritmus. Pro výpočet Lyapunova exponentu byla použita metoda popsaná v[5]. Pro bod rekonstruovaného fázového prostorux i najdemejehonejbližšíhosousedax near,který splňujepodmínku X near X i =min X j X i,kde (d 1)τ < j i < R(d 1)τ.Nynílzelzevypočítat Lyapunův exponent λ(i) dle: λ(i)= 1 jhδt log X near+jh X i+jh X near X i =max h { 1 h t X near+h X i+h } X near X i (14) Zde t je vzorkovací perioda časové řady. Hodnota parametru hmusísplňovat1 < h <(d 1)τ,kde1 < R <10. Konečnou hodnotu Lyapunova exponentu vypočítáme dle λ= 1 N λ(i) (15) N i=1 Výpočty ukazují ukazují, že u síťového záznamu číslo 20000316135 s časovou agregací 100ms, se hodnoty Lyapunovaexponentuměnívrozmezí0,2 0,9předevšímv závislosti na časovém zpoždění τ. 5 Predikce síťového provozu Jak bylo zmíněno v kapitole výše, bylo zjištěno, že síťový provoz má kladný Lyapunův exponent a tudíž se jedná o chaotický systém a jeho dlouhodobá předpověď není možná. Na základě poznatků z teorie chaosu můžeme provést krátkodobou předpověď. V tomto případě byla predikována hodnota o jeden krok dopředu. Samotný algoritmus predikce pomocí Lyapunova exponentu[5, 10], funguje následujícím způsobem. Nejdříve je nutné zvolit vhodné parametry d a τ a rekonstruovat fázový prostor systému tak, jak bylo popsáno v kapitole4.kposlednímubodufázovéhoprostorux N (d 1)τ jenutnénaléztbodx near,kterýjemunejblíže.vzdálenostmezitěmitobodyoznačme D 0.Potémůžebýt 68 4
odhadnutavzdálenost D 1 mezibodyfázovéhoprostoru X near+1 ax N (d 1)τ+1 pomocínásledujícíhovztahu D 1 = D 0 e kλ (16) Kde kjepočetkrokůmezi D 0 a D 1 (vtomtopřípadě1) a λjetzv.lyapunůvexponent(vizobr.6).celýprincip jednokrokové lze to shrnout do vztahu X N(d 1)τ X near+1 X N (d 1)τ X near eλ (17) PřičemžbodX N(d 1)τ+1 jetvořensouřadnicemi X i+1 ={x(n (d 1)τ+1), x(n (d 1)τ+ τ+1),..., x(n+1)} (18) Obr. 7:- výsledek predikce síťového provozu číslo 200003161359 (τ=1, d=7) Jelikož v rovnici (17) známe pozici bodů X N (d 1)τ, X near, X near+1 a Lyapunův exponent můžeme predikovat ˆx(N + 1), protože to jediná neznámá hodnota. Výsledek predikce síťového provozu číslo 200003161359 Obr. 6:- Princip predikce pomocí Lyapunova exponentu agregovaného do 100ms časových rámců je možné vidět na obr. 7. Při rekonstrukci fázového provozu byla použitahodnotazpoždění τ =1(vizobr.5)ahodnota dimenzevložení d=7(vizobr.3). Pro vyhodnocení úspěšnosti predikce byly výsledky porovnány s tzv. jednoduchým prediktorem. Při této predikci se bere jako predikovaná hodnota poslední hodnota změřená(viz obr. 8). Kritériem pro hodnocení byla brána střední kvadratická odchylka. U prediktoru založenémnalyapunovýchexponentechbylaodchylkae mse = 39741144.UjednoduchéhoprediktorubylaodchylkaE mse = 118472551. Z těchto výsledků vyplývá, že prediktor založený na Lyapunových exponentech vykazuje jednoznačně lepší výsledky. Především je schopen predikovat špičky v síťovém provozu, které pzpůsobují zahlcení frontovacích mechanizmů v přenosových zařízeních. Obr. 8:- predikce pomoci jednoduchého prediktoru 6 Závěr V tomto článku byl popsán princip predikce chaotických řad, v tomto případě síťového provozu, pomocí rekonstrukce fázového prostoru a Lyapunova exponentu. Metoda byla použita na predikci reálného síťového provozu. Výsledky ukazují tento způsob predikce je velice přesný. V případě dostatečně rychlé predikce by ho bylo možno použít pro dynamickou alokaci šířky pásma. Literatura [1] BESTAVROS A., CROVELLA M. E., Self-Similarity in World Wide Web Traffic. IEEE/ACM Transactions on Networking, IEEE/ACM Transactions on Networking,1997,vol.5,no.6,p.835-846. [2] LELAND, W. E et al., On the Self-similar Nature of Ethernet Traffic(Extended Version). ACM TransactiononNetworking.1994,vol.2,no.1,p.1-15, ISSN 0163-6804. [3] MICHAELT.etal.,Apracticalmethodforcalculating largest Lyapunov exponents from small data sets, Physica D 65, 1993, p. 117-134. 68 5
[4]FRASERA.M.,SWINNEYH.L.,Independentcoordinates for strange attractors from mutual information, Phys. Rev., A 33., 1985, p. 1134-1140. [5]LID.,JIB.,XIANGH.,TheOn-LinePredictionof Self-Similar Traffic Based on Chaos Theory, Wireless Communications, Networking and Mobile Computing, WiCOM 2006.International Conference on, 2006,p.1-4. [6] GOSPODINOV M. GOSPODINOVA E., The graphical methods for estimating Hurst parameter of self-similar network traffic, International Conference on Computer Systems and Technologies, 2005, p. III.B19-1-III.B19-6 [7] TAKENS F., Detecting strange attractors in turbulence. In Lecture Notes in Mathematics, 1981, Springer-Verlag, vol. 898, p. 366-381, ISSN 1617-9692 [8] MOHAMED, O.M.M., Variability of Predictability of the Daily Peak Load Using Lyapunov Exponent Approach: Case of Tunisian Power System, Power Tech, IEEE Lausanne, 2007, p. 1078-1083, ISBN: 978-1-4244-2189-3 [9] WIDE MAWI WorkingGroup, URL: http://tracer.csl.sony.co.jp/ [10] ZHANG J. et al., Time series prediction using Lyapunov exponents in embedding phase space, Computers and Electrical Engineering, 2004, Vol. 30, Issue 1, p. 1-15, ISSN 0045-7906 68 6