IP-verkon luotettavuuden mallintaminen ja strategiat luotettavuuden parantamiseksi Pirkko Kuusela ja Ilkka Norros VTT,Valtion Teknillinen Tutkimuskeskus etunimi.sukunimi@vtt. 1 / 28
Sisällys 1. Yleiskuva 2. Verkon vikaantumismalli 3. Luotettavuuden strategioista 4. Liityntäreitittimien vertailu 2 / 28
Yleiskuva luotettavuudesta Investointi / strategia luotettavuuden suhteen Verkon topologia ja asiakkaat Linkit: vikaantumisominaisuudet Reitittimet: vikaantumisominaisuudet VERKON VIKAANTUMISTEN MALLI (2:n komponentin vikaskenaariot) iteraatio iteraatio vikadiagnostiikka Asiakkaiden saama käytettävyys (availability) Tietoa verkon suunnitteluun ja ylläpitoon Mitä jos ajattelu SLA Operaattorin saama tuotto / tappio 3 / 28
Missä mennään? 1. Yleiskuva 2. Verkon vikaantumismalli Topologia: Viat ja vian laajuus Komponentit: on off malli Yhteisvian mallinnus Liityntäreitittimen on off malli 3. Luotettavuuden strategioista 4. Liityntäreitittimien vertailu 4 / 28
Funet Käytetään tässä esimerkkinä verkosta Julkista dataa topologia tiedetään reitityssääntö ping-dataa linkkien weather map Saadut tulokset eivät kerro Funetista vaan osoittavat, miten verkon luotettavuutta voidaan käsitellä Linkkien mallintaminen sekä luotettavuuteen vaikuttavien parametrien vaihtelu tehty hyvin karkeasti ja tavoitteena on saada helposti havainnollistettavia selkeitä eroavaisuuksia 5 / 28
Topologia ja vikojen laajuus urova3 oulu3 oulu0 uku0 komponentti = reititin tai linkki ucpori3 uwasa3 jyu3 uta3 uku3 joensuu3 reititinvika kytketyt linkit myös pois topologia (fyysinen = looginen) abo3 abo0 ficix1 tut3 ficix2 tut0 lut3 reitityssäännöt csc3 csc4 valittu rakennefunktio: Funet OK jos 1. yhtenäinen 2. linkki Ficixiin 3. linkki NorduNettiin csc0 helsinki0 shh3 helsinki3 nordunet 6 / 28
Topologia ja vikojen laajuus, esimerkki urova3 oulu3 oulu0 uku0 Tarkastellaan kahden komponentin vikaantumista samanaikaisesti = yhteisvika uwasa3 ucpori3 abo3 jyu3 uta3 tut3 uku3 joensuu3 Kerätään tieto jokaisesta yhteisviasta, jota uudelleenreititys ei korjaa abo0 ficix ficix1 ficix2 tut0 lut3 Nämä viat edellyttävät vähintään yhden komponentin korjaamista, ennen kuin verkko toimii normaalisti csc0 csc3 shh3 csc4 helsinki3 helsinki0 Kirjataan ne liityntäreitittimet, joita vika koskee nordunet1nordunet2 nordunet 7 / 28
Reitittimen on-o malli Funetin ping-dataa runkoreitittimistä ajalta 1.8.2000 31.7.2007 6 runkoreititintä 5 pingiä n. 1 min välein Jos ei vastusta yhteenkään alhaalla 310 katkoa, 55 suunniteltua 255 katkoa analyysissä Havainnot: Käytetty kvalitatiivisia menetelmiä datan havainnollistamiseen Tutkittu erikseen häntäjakaumaa ja jakauman massaa Up ja down aikojen kestot kvalitatiivisesti erilaisia Down ajan kesto paksuhäntäinen. Pareto-jakauma sopii hyvin sekä häntään että massaan Up ajan kesto ei niin paksuhäntäinen. Reitittimet keskenään erilaisia. 8 / 28
Down ajan kesto Pitkät katkot: Mean excess plot vian kesto Pareto eli paksuhäntäinen. Kaikki katkot: Hypoteesi: down ajan kesto (o-aika) Pareto-jakautunut abo csc0 helsinki0 empiricalquantiles sorted data 7.5 7.0 6.5 6.0 5.5 empiricalquantiles sorted data 9 8 7 6 empiricalquantiles sorted data 9 8 7 6 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 model quantiles 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 model quantiles 0 1 2 3 model quantiles Täydellinen yhteensopivuus = pisteet diagonaalilla 9 / 28
Up ajan kesto Pitkät up ajat: Runkoreitittimet vaihtelevat: häntä paksu tai ei Kaikki up ajat: Hypoteesi: Exponentiaali jakauma abo csc0 helsinki0 empiricalquantiles sorted data 8. 10 6 6. 10 6 4. 10 6 2. 10 6 0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 empiricalquantiles sorted data 1.5 10 7 1. 10 7 5. 10 6 0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 empiricalquantiles sorted data 1. 10 7 8. 10 6 6. 10 6 4. 10 6 2. 10 6 0 0 1 2 3 model quantiles model quantiles model quantiles 10 / 28
Reitittimien ja linkkien on-o mallit Reititin: Linkki: On-o malli ping datan perusteella On exp(λ) O Pareto(min, muoto) Estimoi datasta λ ja muoto, aseta min=60 sek. Ei dataa Käytetään samanlaista on-o mallia Skaalataan reittimen malli, idea: lyhyt linkki yhtä hyvä kuin reititin lyhyt linkki = runko liityntä tai HKI-Espoo pitkä linkki huonompi 1. vikaintensiteetti λ kertaluokkaa korkeampi, (10 ) 2. vian minimikesto kertaluokkaa pidempi, (10 ) 11 / 28
Liityntäreitittimen on-o mallin rakentaminen 1. Oleta: verkossa max 2 vikaa kerrallaan, viat riippumattomia 2. Analyysissä mukana vain yhteisviat (ei huomioitu liityntäreitittimen vikaantumista yksinään) 3. On-o mallit komponenteille 4. 2:n komponentin yhteisvika: on-o malli Laske P (yhteisvian kesto > t) Arvioi E(on-ajan kesto) Mallinna on-aika exp 5. Liityntäreitittimen on-o malli Huomioi liityntäreitittimeen vaikuttavat yhteisviat Rakenna yhteisvikojen on-o malleista liityntäreitittimen on-o malli 12 / 28
Yhteisvian keston laskeminen, idea Komponentti i, i = 1, 2: Saadaan on-aika exp(λ i ), λ i vikojen alkamisintensiteetti o-aika D i, D i Pareto-jakautunut (mikä tahansa jakauma OK) V i meneillään olevan vian keston jakauma (integroitu Pareto) p i = stat. tod.näk, että komponentti i on vikatilassa P (yhteisvian kesto > y) = P (komp 1 vika ensin yhteisvika) P (V 1 > y) P (D 2 > y) + missä P (komp 2 vika ensin yhteisvika) P (V 2 > y) P (D 1 > y), P (komp i vika ensin, sitten j yhteisvika) = p i λ j p i λ j + p j λ i 13 / 28
Yhteisvian on-o malli Meneillään olevan vian kesto: P (V i > y) = 1 E(D i ) missä F i = D i :n kertymäfunktio y (1 F i (x)) dx, Edellinen kalvo + yllä Saatu 6 parametrin malli yhteisvian kestolle (yhteisvian o-aika) Yhteisvialle: P (yhteisvika) = p 1 p 2 = josta mallinnetaan on-aika exp(1/e(on)) E(o) E(on) + E(o), 14 / 28
Liityntäreitittimen on-o malli Liityntäreitittimeen vaikuttaa k yhteisvikaa Yhteisvialla i on- ja o-aikojen kestot on i ja o i on i exp(λ i ) Saadaan liityntäreitittimelle on-o malli, jossa kestot on acc ja o acc on acc = min(on 1,..., on k ) exp( k λ i ) i=1 P (o acc > t) = 1 k i=1 λ i k λ j P (o j > t) j=i 15 / 28
Missä mennään? 1. Yleiskuva 2. Verkon vikaantumismalli 3. Luotettavuuden strategioista Perusstrategiat ja malli Strategioiden vertailua 4. Liityntäreitittimien vertailu 16 / 28
Luotettavuuden strategioita Proaktiivisuus Yritä estää viat ennakolta Esim1: Vaihda verkkokomponentti, jonka tiedetään vikaantuvan helposti (luotettavuusongelma) ennen kuin vika tapahtuu Esim2: Tee tarkistuksia kongurointiparametreille ennen niiden ottamista käyttöön On-ajat pitenevät mallissa (vikaintensiteetti pienenee) Reaktiivisuus Kun vika tapahtuu, korjaa se nopeammin Esim1: Muuta SLA sopimusta niin, että se pakottaa korjaamaan viat nopeammin Esim2: Pidä varakomponentteja nopeasti saatavilla O-ajat lyhenevät mallissa (vian kesto lyhenee) Muuta muotoparametria, vaikuttaa erit. pitkiin vikakestoihin Muuta katkon minimikestoa Muuta verkon topologiaa Yritä vähentää vikatapahtumien lukumäärää Yritä pienentää viasta kärsivien liityntäreitittimien lukumäärää 17 / 28
Muutokset komponenttien on-o malleihin R = reititin, SL= lyhyt linkki, LL = pitkä linkki, λ R = 3.18443 10 7 (on-ajan keskiarvo 872 tuntia) perus: min-kesto: muoto: on-aika: komp λ min muoto min muoto λ R,SL λ R 60 2.3 60 30 2.3 3.3 λ R λ R /10 LL 10 λ R 600 2.3 600 300 2.3 3.3 λ R λ R /10 Taulukossa muoto, min-kesto ja on-aika sarakkeissa vain muuttuva arvo merkitty, muut arvot perussarakkeen mukaisesti 18 / 28
Yhteisvian kesto ja strategiat 1.0 Durations of 2 comp. failures; ref solid, min dash vs tail dash dot, R SL or LL P duration of joint failure t 0.8 0.6 0.4 0.2 LL & LL R & LL R & R 0.0 0 200 400 600 800 1000 t, failure duration in sec R = reititin, SL= lyhyt linkki, LL = pitkä linkki On-aikojen muutos ei (käytännössä) vaikuta vikojen kestoon. 19 / 28
Down-time frequency curves, liityntäreititin (yhteisviat) Log 10 P duration of access failure t 6 8 10 12 14 Downtime frequencies in access nodes 0 20 40 60 80 abo3 cluster 1 cluster 2 tut3 uku3 cluster 3 uta3 uwasa3 t, failure duration in min cluster 1: cluster 2: cluster 3: csc3, csc4, ucpori3, lut3, urova3, jyu3 ssh3, helsinki3 oulu3 joensuu3 20 / 28
Liityntäreititin: luotettavuuden strategiat Access failures; tail darker, min dur. dashed, on time dash dot Log 10 P duration of access failure t 6 8 10 12 14 16 18 0 20 40 60 80 t, failure duration in min csc3 urova3 uwasa3 Perusparametrit kirkkaalla yhtenäisellä viivalla muutos: katko,piste-katko tai tumma viiva. 21 / 28
Havainnot kuvista Näiden parametrimuutosten valossa kannattavinta olisi: 1. Välttää vikojen syntymistä eli proaktiivinen strategia, vaikutetaan on-aikaan 2. Lyhentää vian minimikestoa eli reaktiivinen strategia 3. Pitkiin katkoihin vaikuttavat tehokkaasti vain o-ajan jakauman hännän muutokset Todellinen prosessi on iteraatio ja erilaisten vaihtoehtojen arviointi. Tässä demonstroitiin vain erittäin karkeista parametrimuutoksista saadut seuraukset. 22 / 28
Yleiskuva luotettavuudesta Investointi / strategia luotettavuuden suhteen Verkon topologia ja asiakkaat Linkit: vikaantumisominaisuudet Reitittimet: vikaantumisominaisuudet VERKON VIKAANTUMISTEN MALLI (2:n komponentin vikaskenaariot) iteraatio iteraatio vikadiagnostiikka Asiakkaiden saama käytettävyys (availability) Tietoa verkon suunnitteluun ja ylläpitoon Mitä jos ajattelu SLA Operaattorin saama tuotto / tappio 23 / 28
Missä mennään? 1. Yleiskuva 2. Verkon vikaantumismalli 3. Luotettavuuden strategioista 4. Liityntäreitittimien vertailu Luotettavuus Menetetty liikenne 24 / 28
Liityntäreitittimien vertailu: vikatodennäköisyys urova3 oulu3 oulu0 uku0 yhteisvioista aiheutuvan vikatilan todennäköisyys ucpori3 uwasa3 uta3 jyu3 uku3 joensuu3 saadaan liityntäreitittimen katkokäyristä, kun t = 0 abo3 abo0 tut3 tut0 luotettavuuden värikoodaus: vihreä = paras keltainen = keskitaso punainen = huonoin csc0 csc3 shh3 lut3 csc4 helsinki0 helsinki3 25 / 28
Liityntäreitittimien vertailu: menetetty liikenne urova3 odotusarvo menetetystä liikenteestä vuoden aikana oulu3 oulu0 uku0 liikenne arvioitu linkkikuormista tehdystä liikennematriisista ucpori3 uwasa3 uta3 jyu3 uku3 joensuu3 menetys = P(vika) T L T = vuosi L = liikennemäärä abo3 abo0 tut3 tut0 lut3 menetyksen värikoodaus: vihreä = pienin keltainen = keskitaso punainen = suurin csc0 csc3 shh3 csc4 helsinki0 helsinki3 26 / 28
Liityntäreitittimien vertailu: menetetty liikenne yli tunnin katkoista odotusarvo menetetystä liikenteestä vuoden aikana kun katko vähintään tunnin mittainen (käytä käyriä!!) menetys = P(vika kesto > tunti) T L T = vuosi L = liikennemäärä sama värikoodaus: vihreä = pienin keltainen = keskitaso punainen = suurin ucpori3 uwasa3 abo3 abo0 csc0 uta3 csc3 shh3 jyu3 tut3 csc4 helsinki3 uku0 tut0 helsinki0 Jos skaalataan asteikko erottelemaan reitittimiä, saadaan samanlainen värikuva kuin edellisellä kalvolla. oulu3 oulu0 urova3 uku3 lut3 joensuu3 27 / 28
Mitä tehtiin? Rakennettiin työkalu luotettavuuden kuvaamiseen Voidaan käsitellä mikä tahansa katkoajan kestoa kuvaava jakauma, tässä käytettiin Pareto-jakaumaa (eli paksuhäntäinen jakauma) Verkkokomponentteja käsiteltiin karkealla tasolla (2 luokkaa) Kuvattiin luotettavuuden erilaisia strategioita ja miten ne kytkeytyvät malliin Havainnollistettiin erilaisten strategioiden vaikutusta luotettavuuteen jokseenkin rajuilla muutoksilla Näytettiin liityntäreittimien keskenäinen epähomogeenisuus ja arvioitiin vikatapauksiin liittyvää menetettyä liikennettä Kaikki tehtiin analyyttisesti, ei tarvetta simuloida harvinaisia tapahtumia. 28 / 28