Wattsin ja Strogatzin satunnaisverkkomallin klusteroituneisuus Henrik Meyer Matematiikan pro gradu -tutkielma Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos Kevät 015
Tiivistelmä: Henrik Meyer, Wattsin ja Strogatzin satunnaisverkkomallin klusteroituneisuus, engl. Clustering of the Watts-Strogatz random graph model, matematiikan pro gradu -tutkielma, 8 s., Jyväskylän yliopisto, Matematiikan ja tilastotieteen laitos, kevät 015. Duncan J. Watts ja Steven H. Strogatz [10] määrittivät vuonna 1998 verkon klusterointikertoimen, joka on yleisesti käytetty tilastollinen mitta verkon klusteroituneisuuden analysointiin. Esimerkiksi sosiaalisen verkoston henkilöiden tuttavapiireillä on taipumus klusteroitua siten, että monet henkilön tuttavista ovat myös keskenään tuttavia. Verkon klusterointikerroin laskee keskiarvoisen murtoluvun henkilön tuttavapareista, jotka ovat myös keskenään tuttavia. Alain Barrat ja Martin Weigt [11] sekä Mark E. J. Newman, Duncan J. Watts ja Steven H. Strogatz [13] määrittävät verkon transitiivisuuskertoimen vaihtoehtoisena klusterointikertoimena. Sosiaalisessa verkostossa se laskee millä todennäköisyydellä kaksi henkilöä, jotka ovat saman henkilön tuttavia ovat myös keskenään tuttavia. Satunnaisverkkomalleja on pitkään käytetty isojen monimutkaisten verkostojen analysointiin. Klusterointikertoimen käyttöönotosta alkaen on ollut mahdollista osoittaa tilastollisesti, että monet sosiaaliset verkostot sekä ihmisten tekemät verkostot ovat pieni maailma -verkkoja. Esimerkiksi Facebook ja Internet ovat pieni maailma -verkkoja, eli harvoja ja hyvin klusteroituneita verkkoja, joissa verkon solmuparien keskimääräinen etäisyys on lyhyt. On osoittautunut, että pieni maailma -verkkorakennetta ei ole mahdollista mallintaa perinteisillä satunnaisverkoilla tai säännöllisillä hiloilla. D. J. Watts ja S. H. Strogatz [10] esittivät vuonna 1998 uuden satunnaisverkkomallin, jolla on mahdollista generoida pieni maailma -verkkoja. Mallillaan he tutkivat muun muassa epidemian leviämistä sekä signaalin etenemisnopeutta pieni maailma -verkoissa. Tämän tutkielman tarkoitus on laskea matemaattiset lausekkeet Wattsin ja Strogatzin verkkomallin satunnaisverkon klusterointikertoimelle ja transitiivisuuskertoimelle. Tutkielmassa määritellään matemaattisesti verkon tilastolliset klusterointi- ja transitiivisuuskertoimien eri muodot sekä esitetään lauseita niiden yhteyksistä ja eroista. Lisäksi määritellään satunnaisverkon klusterointi- ja transitiivisuuskerroin matemaattisesti tarkkaan sekä esitetään kaavoja näiden laskemiseen. Wattsin ja Strogatzin verkkomallin satunnaisverkolle lasketaan solmuparien kytkentätodennäköisyydet, joiden avulla lasketaan matemaattiset lausekkeet verkkomallin satunnaisverkon klusterointi- ja transitiivisuuskertoimelle. i
Sisältö Johdanto 1 Luku 1. Satunnaisverkkomalli 3 1.1. Yleinen verkko ja satunnaisverkko 3 1.. Harva satunnaisverkkomalli 6 1.3. Verkon solmujen asteet 7 1.4. Verkon karakteristisen polun pituus 9 Luku. Yleisen verkon klusteroituneisuus 11.1. Kytketty kolmikko ja kolmio 11.. Verkon klusterointikerroin 14.3. Verkon transitiivisuuskerroin 15.4. Klusterointi- ja transitiivisuuskertoimen yhteys 16 Luku 3. Satunnaisverkon klusteroituneisuus 18 3.1. Odotusarvo, varianssi ja ehdollinen odotusarvo 19 3.. Kytketty kolmikko ja kolmio satunnaisverkossa 4 3.3. Satunnaisverkon klusterointikerroin 8 3.4. Satunnaisverkon transitiivisuuskerroin 31 3.5. Klusterointi- ja transitiivisuuskertoimen yhteys satunnaisverkossa 3 Luku 4. Empiirisiä tutkimuksia sosiaalisista verkostoista 35 4.1. Poolin ja Kochenin tutkimus ja verkkomalli 35 4.. Milgramin empiirinen koe 37 4.3. Wattsin ja Strogatzin tilastollinen tutkimus 38 4.4. Facebookin sosiaalisen verkoston tutkimus 39 Luku 5. Wattsin ja Strogatzin pieni maailma -verkkomalli 40 5.1. Pieni maailma -verkkomallin kytkentämenetelmä 40 5.. Pieni maailma -verkkomallin satunnaisverkko 4 5.3. Pieni maailma -verkkomallin kytkentätodennäköisyydet 44 5.3.1. Kaukaisten solmujen kytkentätodennäköisyys 44 5.3.. Läheisten solmujen kytkentätodennäköisyys. 46 5.4. Solmujen asteiden jakauma pieni maailma -verkkomallissa 49 5.5. Karakteristisen polun pituus pieni maailma -verkkomallissa 51 Luku 6. Pieni maailma -verkkomallin klusteroituneisuus 5 6.1. Pieni maailma -verkkomallin satunnaisverkon transitiivisuuskerroin 5 6.1.1. Solmun kytkettyjen kolmikoiden odotusarvo 5 6.1.. Solmun kolmioiden odotusarvo 59 6.1.3. Satunnaisverkon transitiivisuuskerroin 64 ii
SISÄLTÖ iii 6.. Pieni maailma -verkkomallin satunnaisverkon klusterointikerroin 65 Luku 7. Johtopäätös 69 Liite A. Pieni maailma -verkkomallille tehty approksimaatio 70 Liite B. Linkkien ehdolliset todennäköisyydet pieni maailma -verkkomallissa 7 Liite C. Summia 77 Liite D. Käytetty koodi 79 Liite E. Merkintöjä 80 Kirjallisuutta 8
Johdanto Isojen monimutkaisten verkostojen tutkimukset ja niiden mallintaminen satunnaisverkkomalleilla voidaan karkeasti jakaa seuraaviin ryhmiin [1]: Empiiriset mittaukset verkostojen rakenteellisista ominaisuuksista, kuten solmujen asteet, karakteristisen polun pituus, klusteroituneisuus jne. Ehdotukset uusista satunnaisverkkomalleista, jotka pyrkivät kuvaamaan mitatut ominaisuudet. Uusien satunnaisverkkomallien ominaisuuksien mittaus tietokonesimuloinnin avulla. Uusien satunnaisverkkomallien heuristiset analyysit, jotka ennustavat niiden ominaisuudet. Uusien satunnaisverkkomallien tarkka matemaattinen tutkimus, jolla todistetaan lauseita mallin satunnaisverkon ominaisuuksista. Tässä tutkielmassa esitetään lyhyesti neljän ensimmäisen kohdan tärkeimmät tulokset Wattsin ja Strogatzin satunnaisverkkomalliin liittyen ja keskitytään pääasiallisesti laskemaan mallin satunnaisverkolle matemaattisia tuloksia. Valtiotieteilijä Ithiel de Sola Pool ja matemaatikko Manfred Kochen [8] yrittivät 1950-luvulla empiirisesti estimoida Yhdysvaltain väestön henkilöiden tuttavien lukumäärää ja henkilöiden tuttavapiirin klusteroituneisuutta kyselylomakkeiden avulla. 1960-luvulla yhteiskuntapsykologi Stanley Milgram [9] teki empiirisen kokeen kirjeiden avulla, joilla hän yritti estimoida lyhimmän tuttavaketjun pituutta, jolla keskimäärin voidaan yhdistää kaksi satunnaisesti valittua henkilöä Yhdysvaltain väestöstä. Tutkimukset olivat työläitä ja otokset hyvin pieniä alle 50, mutta tulokset viittasivat silti siihen, että sosiaalista verkostoa karakterisoi kolme ominaisuutta: 1. Verkosto on harva, eli henkilön tuttavien keskimääräinen lukumäärä on pieni verrattuna verkoston kokoon.. Verkoston kaksi henkilöä voidaan keskimäärin yhdistää hyvin lyhyellä tuttavaketjulla Milgram arvioi, että tuttavaketjussa oli keskimäärin 5 välikättä. 3. Verkosto on vahvasti klusteroitunut siten, että henkilön tuttavista monet ovat myös keskenään tuttavia. Milgramin tulos tuli monille yllätyksenä, mutta Pool ja Kochen [8] olivat jo osoittaneet heuristisin perusteluin perinteisellä satunnaisverkkomallilla, että ominaisuuksien 1- olemassaolo samanaikaisesti ei ole yllättävää matemaattisesta näkökulmasta. Pool ja Kochen yrittivät seuraavan kahdenkymmenen vuoden ajan keksiä satunnaisverkkomallia, jolla voitaisiin mallintaa tai laskea kaikki kolme ominaisuutta samanaikaisesti, mutta joutuivat lopulta luovuttamaan. On osoittautunut, että mikään perinteisistä satunnaisverkkomalleista ei pysty mallintamaan ominaisuuksia 1-3 samanaikaisesti. 1
JOHDANTO Fyysikko Duncan J. Watts ja matemaatikko Steven H. Strogatz [10] esittivät vuonna 1998 satunnaisverkkomallin, jolla on mahdollista generoida pieni maailma - verkkoja, eli verkkoja, joilla on samat rakenteelliset ominaisuudet kuin kohdissa 1-3. He määrittivät samalla verkon klusterointikertoimen ja verkon karakteristisen polun pituuden, joilla voidaan tilastollisesti laskea verkon klusteroituneisuus ja verkon solmuparien keskimääräinen etäisyys. Watts ja Strogatz laskivat kyseiset arvot kolmelle verkostolle, joihin heillä oli tiedossa täydelliset kytkentäkaaviot: Internet Movie Database:n elokuvanäyttelijöiden yhteistyöverkosto, läntisen Yhdysvaltain sähköverkosto ja Caenorhabditis elegans -madon hermoverkosto. Ne osoittautuivat kaikki pieni maailma -verkoiksi. Yleiselle verkolle on esitetty kaksi tunnettua tilastollista klusterointikerrointa. Ensimmäisen määrittämiseen esitetään ensin verkon solmun i klusterointikerroin [10] C i linkkien lukumäärä solmun i naapurien välillä, missä k i on linkkien lukumäärä, joka voi korkeintaan olla solmun i naapurien välillä, kun solmulla i on k i naapuria. D. J. Watts ja S. H. Strogatz [10] määrittävät verkon klusterointikertoimen C 1 n C i, n joka on keskiarvo verkon solmujen klusterointikertoimista. On esitetty eri määritelmiä klusterointikertoimelle C, kun verkossa on solmuja, joilla on vähemmän kuin kaksi naapuria. Fyysikko Mark E. J. Newman [15] määrittää solmun klusterointikertoimen C i 0, kun solmun naapurien lukumäärä k i <. Tietojenkäsittelytieteilijät Thomas Schank ja Dorothea Wagner [16] laskevat solmujen klusterointikertoimien keskiarvon ainoastaan sellaisille solmuille, joilla on vähintään kaksi naapuria. Fyysikot Alain Barrat ja Martin Weigt [11] määrittävät verkolle toisen klusterointikertoimen, josta käytetään nimitystä verkon transitiivisuuskerroin C 1 n n i1 ki i1 linkkien lukumäärä solmun i naapurien välillä. 1 n n i1 Tässä tutkielmassa määritellään yleisen verkon klusterointi- ja transitiivisuuskertoimien eri muodot matemaattisesti, jolloin saadaan todistettua lauseita niiden yhteyksistä ja eroista. Tutkielmassa määritellään myös satunnaisverkon klusterointija transitiivisuuskerroin matemaattisesti tarkasti sekä esitellään kaavoja niiden laskemiseen. Niiden avulla lasketaan matemaattiset lausekkeet Wattsin ja Strogatzin verkkomallin satunnaisverkon klusterointi- ja transitiivisuuskertoimelle. ki
LUKU 1 Satunnaisverkkomalli 1.1. Yleinen verkko ja satunnaisverkko Tutkittaessa isoa ja monimutkaista verkostoa, kuten ihmisten sosiaalista verkostoa, on usein tarpeellista tehdä satunnaisverkkomalli, jolla voidaan analysoida sitä helpommin. Satunnaisverkkomallilla voidaan satunnaisesti generoida verkkoja, jotka muodostuvat solmuista ja niitä yhdistävistä linkeistä. Sosiaalista verkostoa mallintaessa solmu edustaa ihmistä ja linkki kahta henkilöä yhdistävää sosiaalista kontaktia. Mallista riippuen sosiaalinen kontakti voi esimerkiksi olla ystävyys-, tuttavuustai yhteistyösuhde. Määritellään seuraavaksi suuntaamaton verkko. Määritelmä 1.1. Suuntaamaton verkko [4] G on järjestetty pari G V, E, missä E on joukon V järjestämättömien parien V osajoukko. Joukon V V G alkioita kutsutaan solmuiksi ja joukon E EG alkioita linkeiksi. Verkon koko on sen solmujen lukumäärä V G. Merkitään verkon solmuparia lyhyesti ij {i, j}, jolloin ij ja ji tarkoittavat samaa solmuparia. Kun ij EG sanotaan, että linkki ij kytkee solmut i ja j. Numeroilla merkittynä n-kokoisen verkon solmujen joukko on V V n {1,,..., n} ks. kuva 1.1. Merkitään solmujoukolla V n määriteltyjen verkkojen kokoelmaa 1.1 G n {V, E : V V n {1,,..., n}, E E n V n }, missä V n on solmujoukon V n järjestämättömien parien joukko. Verkkojoukko G n on äärellinen, sillä jokaisessa äärellisessä solmujoukossa V n on V n n nn 1/ järjestämätöntä solmuparia, joten G n nn 1/ [4]. Tarkastellaan jatkossa ainoastaan solmujoukolla V n määriteltyjä verkkomalleja. Sosiaalisen verkoston kontaktien muodostumisessa on jonkin verran satunnaisuutta. Mallinnetaan tällaista verkostoa solmujoukolla V n määritellyllä satunnaisverkkomallilla, missä linkkien kytkentämenetelmässä esiintyy satunnaisuutta. Satunnaisverkkomallin satunnaisesti generoitu verkko on äärellisen verkkojoukon G n alkio, joten kyseisen satunnaiskokeen todennäköisyysavaruus on diskreetti. Määritelmä 1.. Joukko Ω on numeroituva [4], jos se on äärellinen tai on olemassa bijektiokuvaus f : N Ω, jolloin se on numeroituvasti ääretön. Määritelmä 1.3. Numeroituvan joukon Ω todennäköisyysfunktio tai diskreetti todennäköisyysjakauma [4] on kuvaus P : Ω R, jolle i Pω 0 kaikilla w Ω, ii ω Ω Pω 1. Määritelmä 1.4. Kokoelma F perusjoukon Ω osajoukkoja on σ-algebra [3], jos 3
1.1. YLEINEN VERKKO JA SATUNNAISVERKKO 4 Kuva 1.1. Numeroilla merkitty verkko G V, E G 5, jonka solmujen joukko on V G V 5 {1,, 3, 4, 5} ja linkkien joukko EG {{1, 3}, {1, 4}, {1, 5}, {, 5}, {4, 5}}. i Ω F, ii A F A c F, iii A n F, n 1 n1 A n F. Määritelmä 1.5. Parille Ω, F, jossa Ω on joukko ja kokoelma sen osajoukkoja F on σ-algebra käytetään nimitystä mitallinen avaruus [3]. Määritelmä 1.6. Kuvaus P : F [0, 1] on todennäköisyysmitta [3], jos i PA 0, kaikilla A F, ii PΩ 1, iii Olkoot joukot {A n, n 1} erillisiä joukkoja A n F. Tällöin P A n P A n. n1 Määritelmä 1.7. Kolmikko Ω, F, P on diskreetti todennäköisyysavaruus [3] [4], jos i Ω on alkeistapausten muodostama numeroituva perusjoukko otosavaruus, ii Kokoelma F perusjoukon Ω osajoukkoja tapahtumia on σ-algebra, iii P : F [0, 1] on todennäköisyysmitta, joka on määritelty kaavalla n1 PA ω A Pω, kaikilla A F, missä funktio P : Ω R on joukon Ω todennäköisyysfunktio. Määritelmä 1.8. Olkoon Ω, F, P diskreetti todennäköisyysavaruus. Kokoelma joukkoja {H i : 1 i n} on perusjoukon Ω ositus [3], jos n Ω H i, missä H i H j, kun 1 i, j n, i j. i1 Määritelmä 1.9. Olkoot Ω, F ja S, S mitallisia avaruuksia. S-arvoinen satunnaismuuttuja [3] on kuvaus X : Ω S,
jolle pätee 1.1. YLEINEN VERKKO JA SATUNNAISVERKKO 5 X 1 A {ω Ω : Xω A} F, kaikilla A S. Määritelmä 1.10. Diskreetillä todennäköisyysavaruudella Ω, F, P määritellyn satunnaismuuttujan X : Ω S jakauma [4] on kuvaus P X : S R, joka määritellään kaavalla P X s P{ω Ω : Xω s} Pω, kaikilla s S, ω:xωs missä P on todennäköisyysfunktion P määräämä todennäköisyysmitta. Solmujoukolla V n määritelty satunnaisverkkomalli saadaan nyt määriteltyä diskreettisenä todennäköisyysavaruutena. Määritelmä 1.11. Satunnaisverkkomalli [6] on diskreetti todennäköisyysavaruus Ω n, F n, P n, missä i Ω n G n on jokin solmujoukolla V n määriteltyjen verkkojen perusjoukko, ii kokoelma F n perusjoukon Ω n osajoukkoja on σ-algebra, iii P n : F n [0, 1] on todennäköisyysmitta, joka on määritelty kaavalla P n A ω A P n ω, kaikilla A F n, missä funktio P n : Ω n R on joukon Ω n diskreetti todennäköisyysjakauma. Merkitään satunnaisverkkomallia lyhyesti Ω n Ω n, PΩ n, P n, missä jatkossa valitaan todennäköisyysavaruuden Ω n, F n, P n σ-algebraksi potenssijoukko [] F n PΩ n. Määritellään seuraavaksi satunnaisverkkomallin Ω n satunnaisverkko G n ja sen jakauma. Määritelmä 1.1. Satunnaisverkkomallilla Ω n, PΩ n, P n määritelty satunnaisverkko [4] on G n -arvoinen satunnaismuuttuja G n : Ω n G n. Satunnaisverkon G n jakauma [4] on verkkojoukon G n todennäköisyysfunktio P Gn g PG n g, kaikilla g G n. Käytetään jatkossa satunnaisverkkomallin Ω n satunnaisverkkona identtistä kuvausta G n : Ω n Ω n, G n ω ω kaikilla ω Ω n. Tämä määrittää satunnaisverkkomallia Ω n yksikäsitteisesti, sillä sen jakauma P Gn on sama kuin satunnaisverkkomallin Ω n diskreetti todennäköisyysjakauma P n, P Gn ω PG n ω P n {ω} P n ω kaikilla ω Ω n, missä P n on todennäköisyysfunktion P n määräämä todennäköisyysmitta. Esimerkki 1.13. Satunnaisverkkomallin G n,mn G n,mn, PG n,mn, P n,mn [6] perusjoukko G n,mn {V n, E n : V n {1,,..., n}, E n Mn} G n koostuu kaikista solmujoukolla V n määritetyistä verkoista, joiden linkkien lukumäärä parametrin n funktiona on Mn. Satunnaisverkkomallissa G n,mn jokaisen perusjoukon
1.. HARVA SATUNNAISVERKKOMALLI 6 verkolla on sama todennäköisyys, jolloin sanotaan, että satunnaisverkkomallin satunnaisverkko G n,mn on tasajakautunut, 1 n 1 P Gn,Mn g PG n,mn g G n,mn kaikilla g G n,mn, Mn missä n nn 1/ on mahdollisten linkkien lukumäärä n-kokoisessa verkossa. 1.. Harva satunnaisverkkomalli Isojen sosiaalisten verkostojen rakenteita karakterisoi, että kontakteja on suhteellisen vähän. Verkon linkkien suhteellista lukumäärää kutsutaan verkon tiheydeksi. Määritelmä 1.14. Yleisen verkon G V, E tiheys [0] on DG E n E nn 1, missä n nn 1/ verkon mahdollisten linkkien maksimimäärä, kun verkon koko on V n. Satunnaisverkon G n tiheys määritellään samalla tavalla, missä linkkien lukumäärä EG n on satunnaismuuttuja. Erityisesti sosiaalisten verkostojen kasvaessa kontaktien lukumäärä kasvaa vain hitaasti. Sanotaan, että satunnaisverkkomalli Ω n on harva, jos parametrin n kasvaessa satunnaisverkon G n linkkien lukumäärä EG n on alempaa kertaluokkaa kuin n. Ensin tulee määritellä pieni o-estimaatti. Määritelmä 1.15. Olkoot fn ja gn muuttujan n N funktioita. Funktio fn on alempaa kertaluokkaa kuin funktio gn [1], merkitään fn ogn, jos funktio gn 0 isoilla n ja fn lim n gn 0. Lause 1.16. Olkoot fn ja gn muuttujan n N funktioita, joille pätee fn ogn. Olkoon lisäksi b > 0 positiivinen vakio. Tällöin fn obgn. Todistus. Olkoon b > 0 vakio ja fn ogn, jolloin fn/gn 0, kun n. Väitteenä on, että myös fn/bgn 0, kun n. Tehdään antiteesi. Oletetaan, että fn/bgn a 0, kun n tai fn/bgn ei suppene. Jos fn/bgn 1/b fn/gn a 0, kun n, niin fn/gn b a 0, kun n. Tämä on ristiriidassa oletuksen fn ogn kanssa. Jos fn/bgn hajaantuu, niin fn/gn selvästi myös hajaantuu, kun b > 0 on vakio. Tämä on myös ristiriidassa oletuksen fn ogn, joten väite fn obgn on tosi. Määritelmä 1.17. Olkoon Ω n jono satunnaisverkkomalleja ja G n jono sitä vastaavia satunnaisverkkoja. Sanotaan, että satunnaisverkkomalli Ω n on harva [10], jos EG n on, eli jos 1. EG n n 0, kun n. Lause 1.18. Olkoon Ω n harva satunnaisverkkomalli. Tällöin satunnaisverkon G n tiheydelle pätee DG n 0, kun n.
1.3. VERKON SOLMUJEN ASTEET 7 Todistus. Määritelmän 1.14 mukaan satunnaisverkon G n tiheys on DG n EG n / n, missä linkkien lukumäärä EGn on satunnaismuuttuja. Nimittäjälle n pätee n 1 nn 1 > 1 4 n n 1 > n/, kun n >. Oletuksen mukaan harvalle satunnaisverkkomallille Ω n pätee EG n on. Lauseesta 1.16 seuraa, että EG n obn kaikilla vakiolla b > 0, jolloin satunnaisverkon G n tiheydelle pätee 0 DG n EG n / n < EGn / 1 4 n 0, kun n. Joissain satunnaisverkkomalleissa kaavan 1. varma suppeneminen voi olla liian vahva käsite. Määritellään seuraavaksi heikompia suppenemiskäsitteitä. Määritelmä 1.19. Satunnaismuuttujajono X n suppenee melkein varmasti m.v [3] kohti satunnaismuuttujaa X, jos jolloin merkitään X n m.v. X. P{ω Ω : Xω Xω kun n } 1, Määritelmä 1.0. Satunnaismuuttujajono X n suppenee stokastisesti [3] kohti satunnaismuuttujaa X, jos kaikilla ɛ > 0 pätee 1.3 P X n X > ɛ 0, kun n, jolloin merkitään X n P X. Sanotaan, että satunnaisverkkomalli Ω n on stokastisesti harva, jos satunnaisverkkomallijonon Ω n vastaavalle satunnaisverkkojonolle G n pätee 1.4 EG n n P 0, kun n. Merkitään tällöin matemaatikkojen Béla Bollobás ja Oliver Riordan [7] tapaan EG n o P n, missä pieni o P -estimaatti tarkoittaa stokastista suppenemista. Esimerkki 1.1. Olkoon G n,pn satunnaisverkkomalli [6], jonka perusjoukko koostuu kaikista solmujoukolla V n määritetyistä verkoista, joissa solmuparit on riippumattomasti kytketty kytkentätodennäköisyydellä 0 < pn < 1. Asetetaan parametri pn b/n, vakiolla b > 0. Satunnaisverkon G n,pn linkkien lukumäärä on tällöin satunnaismuuttuja EG n,pn Bin nn 1/, b/n, jolloin satunnaismuuttujajono EG n,pn /n ei suppene kohti nollaa varmasti. Markovin epäyhtälön [] mukaan kaikilla ɛ > 0 pätee P EG n,pn /n ɛ E[ EG n,pn /n ] ɛ bn 1 ɛn 0, kun n, joten määritelmästä 1.0 nähdään, että EG n,pn /n P 0, kun n. 1.3. Verkon solmujen asteet Sosiaalisen verkoston tiheys voidaan arvioida empiirisesti tutkimalla kuinka monta sosiaalista kontaktia verkoston henkilöillä on. Jos jokaisen henkilön kontaktien lukumäärä on tiedossa, voidaan tilastollisesti laskea verkoston tiheys henkilöiden kontaktien keskimääräisen lukumäärän avulla.
1.3. VERKON SOLMUJEN ASTEET 8 Määritelmä 1.. Yleisen verkon G V, E solmun i V naapurusto [4] on joukko N i {j V : ij E}, jonka alkioita kutsutaan solmun i naapureiksi. Solmun i naapuruston alkioiden lukumäärää kutsutaan solmun asteeksi. Määritelmä 1.3. Yleisen verkon G solmun i aste [5] on 1.5 k i N i, missä N i on solmun i naapuruston alkioiden lukumäärä. Verkon solmujen asteiden keskiarvo on n-kokoisessa verkossa 1 n 1.6 k kg k i. n Määritelmä 1.4. Solmu i on eristetty, jos k i 0, ja solmu i on loppusolmu, jos k i 1. Matemaatikko Leonhard Euler esitti lauseen, joka usein helpottaa yleisten verkkojen analysointia. Lause 1.5 Handshaking theorem [5]. Yleiselle verkolle G V, E pätee n 1.7 k i E, jossa n on verkon koko ja E linkkien lukumäärä verkossa. i1 Todistus. Yleisessä verkossa solmun aste k i kertoo kuinka monen linkin päätesolmu solmu i on. Yleisessä verkossa jokaisella linkillä on kaksi päätesolmua, joten summaamalla verkon solmujen asteet tulee jokainen linkki laskettua kahdesti. Verkossa G on E linkkiä, jolloin solmujen asteiden summa on n i1 k i E. Kun verkon solmujen joukon V ja linkkien joukon E alkioiden lukumäärät ovat tiedossa, saadaan laskettua verkon solmujen asteiden keskiarvo k ilman, että tiedetään verkon yksittäisten solmujen asteista mitään. Seuraus 1.6. Yleisen verkon G V, E solmujen asteiden keskiarvo k on k E V. Todistus. Verkolle, jonka koko on n pätee V n, jolloin kaavoista 1.6 ja 1.7 saadaan laskettua k 1 n n i1 k i E / V. Vastaavasti, jos verkon koko n ja solmujen asteiden keskiarvo k on tiedossa, saadaan helposti laskettua linkkien lukumäärä verkossa. Seuraus 1.7. Olkoon G V, E yleinen verkko, jonka koko on n ja solmujen asteiden keskiarvo on k. Tällöin verkon linkkien lukumäärä on E k n. i1
1.4. VERKON KARAKTERISTISEN POLUN PITUUS 9 Todistus. Verkon G solmujen joukon V alkioiden lukumäärä on V n, jolloin tulos saadaan suoraan seurauksesta 1.6. Kun n-kokoisen verkon solmujen asteiden keskiarvo k on tiedossa, voidaan ilmaista verkon tiheys myös verkon solmujen asteiden keskiarvon k avulla. Seuraus 1.8. Yleisen verkon G V, E tiheys on D k n 1, missä k on verkon solmujen asteiden keskiarvo ja n verkon koko. Todistus. Määritelmän 1.14 mukaan D E /nn 1. Seurauksesta 1.7 saadaan E k n, joten D k /n 1. 1.4. Verkon karakteristisen polun pituus Sosiaalisen verkoston rakenteellinen ominaisuus, joka monesti on vaikeampi mitata empiirisesti, on lyhimmän kontaktiketjun pituus, jota keskimäärin tarvitaan yhdistämään verkon kahta henkilöä. Kahta henkilöä yhdistävää kontaktiketjua kutsutaan verkkoteoriassa kahta solmua yhdistäväksi poluksi. Määritelmä 1.9. Yleisen verkon G V, E polku [5] solmusta u solmuun v on jono u v 0, e 1, v 1, e, v,..., e m, v m v, jossa on vuorotellen verkon solmuja v i V ja verkon linkkejä e i {v i 1, v i } E. Verkon polku on suora, jos v i v j, kun i j, ja polun pituus on jonon linkkien lukumäärä m. Kahta henkilöä yhdistäviä kontaktiketjuja voi olla useita, mutta sosiaalisten verkostojen analysoinnissa kiinnostaa erityisesti lyhin näistä. Verkkomallissa tämä vastaa kahden tietyn solmun lyhintä yhdistävää polkua, jonka pituutta kutsutaan solmujen etäisyydeksi. Määritelmä 1.30. Yleisen verkon G V, E solmujen i, j V välinen etäisyys [15], d ij, on lyhin polun pituus, joka yhdistää solmuja i ja j. Jos solmuja i ja j ei yhdistä mikään polku, määritellään etäisyys äärettömäksi, d ij. Eräs globaali mitta, joka karakterisoi sosiaalisen verkoston rakennetta on lyhimmän kontaktiketjun pituus, jota keskimäärin tarvitaan yhdistämään verkoston kahta henkilöä. Tämä kertoo verkon solmuparien keskimääräisen etäisyyden, jota D. J. Watts ja S. H. Strogatz [10] kutsuvat verkon karakteristisen polun pituudeksi. on Määritelmä 1.31. Yleisen verkon G V, E karakteristisen polun pituus [10] 1.8 L LG 1 1 d ij, nn 1 missä d ij on solmuparin {i, j} V n välinen etäisyys ja n nn 1/ on eri solmuparien lukumäärä n-kokoisessa verkossa. j>i
1.4. VERKON KARAKTERISTISEN POLUN PITUUS 10 Toinen globaali mitta on verkon halkaisija, joka ilmaisee verkon solmuparien isoimman etäisyyden. Määritelmä 1.3. Yleisen verkon G V, E halkaisija [15] on 1.9 diamg max{d ij : {i, j} V n }. Lause 1.33. Yleiselle verkolle G pätee 1.10 LG diamg. Todistus. Olkoon d max max{d ij : {i, j} V n }, jolloin d ij d max kaikilla {i, j} V n. Kaavasta 1.8 saadaan 1 1 1 LG 1 d ij 1 d max max 1 nn 1 nn 1 d max diamg. j>i j>i Verkon karakteristisen polun pituus LG ja halkaisija diamg ovat äärettömiä, jos verkossa on solmupari, jota ei yhdistä mikään polku. Seuraavaksi tarkastellaan minkä tyyppisissä verkkorakenteissa näin käy, ja kuinka se voidaan ottaa huomioon verkon karakteristisen polun pituuden ja halkaisijan laskemisessa. Määritelmä 1.34. Yleisen verkon solmupari on yhdistetty [5], jos niiden välillä on polku. Määritelmä 1.35. Yleinen verkko G on yhtenäinen [5], jos verkon jokainen solmupari on yhdistetty. Monesti verkko ei ole yhtenäinen, jolloin se on epäyhtenäinen, mutta sillä on olemassa aliverkkoja, jotka ovat yhtenäisiä. Määritelmä 1.36. Olkoot G V, E ja H W, F yleisiä verkkoja, joille W V ja F E. Silloin verkko H on verkon G aliverkko [5]. Jos lisäksi W V tai F E, niin verkko H on verkon G aito aliverkko. Määritelmä 1.37. Verkon G aliverkkoa H sanotaan verkon G maksimaaliseksi aliverkoksi [5] jonkin ominaisuuden B suhteen, jos i verkolla H on ominaisuus B ja ii aina, kun H on verkon G aliverkon F aito aliverkko, H F G, verkolla F ei ole ominaisuutta B. Määritelmä 1.38. Verkon G V, E komponentti [5] on verkon maksimaalinen yhtenäinen aliverkko H W, F. Huomautus 1.39. i Epäyhtenäisen verkon G karakteristisen polun pituus LG ja halkaisija diamg ovat äärettömiä. Tästä huolimatta voidaan kuvailla verkon rakentennetta kyseisillä mitoilla laskemalla ainoastaan verkon yhdistettyjen solmuparien etäisyydet, eli samassa komponentissa sijaitsevien solmuparien etäisyydet [15]. ii Toinen tapa välttää äärettömät etäisyydet epäyhtenäisen verkon G karakteristisen polun pituuden LG ja halkaisijan diamg laskuissa on laskea etäisyys ainoastaan solmupareille, jotka sijaitsevat verkon isoimmassa yhtenäisessä komponentissa [10].
LUKU Yleisen verkon klusteroituneisuus Verkon koon n ja solmujen asteiden keskiarvon k avulla saadaan laskettua millä todennäköisyydellä verkon kaksi satunnaisesti valittua solmua on kytketty linkillä. Harvassa verkkomallissa kyseinen todennäköisyys on hyvin pieni, jos verkko on iso. Lause.1. Olkoon G V, E yleinen verkko, jonka koko on n. Tällöin todennäköisyys, että verkon satunnaisesti valittu solmupari {i, j} on kytketty linkillä, on.1 Pij E k n 1, missä k on verkon solmujen asteiden keskiarvo. Todistus. Seurauksen 1.7 mukaan n-kokoisen verkon linkkien lukumäärä on E k n/, jossa k on solmujen asteiden keskiarvo. Verkossa on yhteensä n nn 1/ eri solmuparia, joten todennäköisyys, että satunnaisesti valittu solmupari {i, j} on kytketty linkillä, on Pij E E / n k n//nn 1/ k /n 1. Esimerkiksi sosiaaliset verkostot ovat hyvin klusteroituneita siten, että kaavan.1 todennäköisyys kasvaa huomattavasti tiedolla, että valituilla henkilöillä on yhteinen tuttava. Tämä viittaa siihen, että he todennäköisesti liikkuvat samoissa piireissä, jolloin on todennäköistä, että he ovat myös keskenään tuttavia..1. Kytketty kolmikko ja kolmio Verkossa kaksi solmua ja niiden yhteinen naapuri muodostavat kytketyn kolmikon. Kyseiset solmut muodostavat lisäksi kolmion, jos ne kaikki ovat keskenään kytkettyjä linkillä ks. kuva.1. Määritelmä.. Olkoon G V, E yleinen verkko. Kytketty kolmikko [16] on verkon kolmen eri solmun i, j, k V muodostama yhtenäinen aliverkko W, F, missä W {i, j, k} V ja F {{i, j}, {i, k}} E. Solmua i, joka on joukon F alkioiden yhteinen päätesolmu {i, j} {i, k} {i}, kutsutaan kytketyn kolmikon keskisolmuksi. Merkitään verkon G kytkettyjen kolmikkojen joukkoa ΥG { : G} ja keskisolmun i V kytkettyjen kolmikkojen joukkoa Υ i { ΥG : i W on kytketyn kolmikon keskisolmu}. 11
.1. KYTKETTY KOLMIKKO JA KOLMIO 1 Kuva.1. a: Keskisolmun i kytketty kolmikko W, F Υ i, missä W {i, j, k} ja F {{i, j}, {i, k}}. b: Keskisolmun i kytketyn kolmikon solmut muodostavat myös kolmion W, F, missä W {i, j, k} ja F {{i, j}, {i, k}, {j, k}}, jolloin kolmio kuuluu joukkoihin i, j ja k. Lause.3. Olkoon G V, E yleinen verkko, jonka koko on n. Solmun i V kytkettyjen kolmikoiden joukon lukumäärä on ki. Υ i k ik i 1, missä k i on solmun i aste. Kytkettyjen kolmikoiden lukumäärä verkossa G on n.3 ΥG Υ i. Todistus. Määritelmän. mukaan keskisolmun i muodostama kytketty kolmikko, jossa W {i, j, k} ja F {{i, j}, {i, k}}, muodostuu solmusta i ja sen naapuriparista {j, k} N i. Joukon Υ i eri kytketyt kolmikot muodostuvat solmusta i ja sen eri naapuripareista, joten joukon Υ i alkioiden lukumäärä on Υ i N i ki ki k i 1/. Määritelmän. mukaan verkon kytketyllä kolmikolla, jolle W {i, j, k} ja F {{i, j}, {i, k}}, on yksi keskisolmu, sillä {i, j} {i, k} {i}. Joukot Υ i : i V ovat siis erillisiä joukkoja, joten kytkettyjen kolmikoiden kokonaismäärä n-kokoisessa verkossa saadaan summasta Υ n i1 Υ i. Määritellään seuraavaksi kolmio, joko on verkon kolmen solmun muodostama täydellinen aliverkko, eli klikki. Määritelmä.4. Yleinen verkko G V, E on täydellinen [5], jos verkon jokainen solmupari on kytketty linkillä. Määritelmä.5. Olkoon G verkko ja H sen aliverkko. Jos H on täydellinen, niin H on verkon G klikki [5]. Määritelmä.6. Olkoon G V, E yleinen verkko. Kolmio [16] on verkon kolmen solmun i, j, k V muodostama klikki i1 W, F,
.1. KYTKETTY KOLMIKKO JA KOLMIO 13 missä W {i, j, k} V ja F {{i, j}, {i, k}, {j, k}} E. Merkitään verkon G kolmioiden joukkoa G { : G} ja solmun i sisältävien kolmioiden joukkoa i { G : i V }. Lemma.7. Olkoon G V, E yleinen verkko ja G sen kolmio. Tällöin kolmio kuuluu kolmen eri solmun kolmioiden joukkoon. Todistus. Olkoon W, F G kolmio, missä W {i, j, k} V G ja F {{i, j}, {i, k}, {j, k}} EG. Tällöin määritelmän.6 mukaan i, j ja k, sillä i, j, k V ks. kuva.1. Lause.8. Olkoon G V, E yleinen verkko, jonka koko on n. Tällöin n.4 i 3 G, i1 missä G on kolmioiden lukumäärä verkossa ja i solmun i sisältävien kolmioiden lukumäärä kaikilla i V. Todistus. Verkon G kolmio G sisältyy lemman.7 mukaan kolmen eri solmun kolmioiden joukkoon. Summaamalla jokaisen solmun i V sisältävien kolmioiden lukumäärä i tulee laskettua jokainen verkon kolmio kolme kertaa. Määritelmä.9. Olkoon G V, E yleinen verkko ja F E sen epätyhjä linkkijoukko. Tällöin H W, F, missä W V on joukon F linkkien päätesolmujen joukko, on joukon F linkki-indusoima [5] verkon G aliverkko. Määritelmä.10. Olkoon G V, E yleinen verkko ja W V sen epätyhjä solmujoukko. Tällöin H W, F on joukon W solmuindusoima [5] verkon G aliverkko, jos F E muodostuu niistä joukon E linkeistä, joiden päätesolmut kuuluvat joukkoon W. Lause.11. Olkoon G V, E yleinen verkko ja G verkon G kolmioiden joukko. Tällöin jokaisella kolmiolla G on olemassa kolme eri linkki-indusoitua kytkettyä kolmikkoa. Todistus. Olkoon G verkon kolmio. Määritelmän.6 mukaan kolmio V, E muodostuu verkon kolmesta solmusta V {i, j, k} V G ja linkkijoukosta E {{i, j}, {i, k}, {j, k}}. Olkoon F i {{i, j}, {i, k}} E linkkijoukon E epätyhjä osajoukko. Joukon F i linkkien päätesolmujen joukko on V, joten H i V, F i on joukon F i linkki-indusoima kolmion aliverkko. Määritelmän. mukaan verkko H i on kytketty kolmikko, jonka keskisolmu on {i} {i, j} {i, k}, joten H i Υ i. Samoin H j V, F j ja H k V, F k muodostavat joukkojen F j {{i, j}, {j, k}} E ja F k {{i, k}, {j, k}} E linkki-indusoimat kolmion aliverkot, jotka määritelmän. mukaan muodostavat keskisolmujen j ja k kytketyt kolmikot H j Υ j ja H k Υ k.
.. VERKON KLUSTEROINTIKERROIN 14 Kuva.. Kuvissa nähdään solmun i, j ja k naapurustot, joissa kaikissa on kolme naapurisolmua, joten Υ i Υ j Υ k 3 3. a: Yksi solmun i kytketyistä kolmikoista muodostaa myös kolmion, joten solmun i klusterointikerroin on C i i / Υ i 1/3. b: C j /3 ja c: C k 3/3 1... Verkon klusterointikerroin Fyysikko Duncan J. Watts ja matemaatikko Steven H. Strogatz [10] määrittävät vuoden 1998 julkaisussaan solmun klusterointikertoimen, joka laskee osuuden keskisolmun i kytketyistä kolmikoista, jotka muodostavat myös kolmion ks. kuva.. Määritelmä.1. Yleisessä verkossa G V, E solmun i V klusterointikerroin [10] on.5 C i i Υ i [0, 1], kun Υ i > 0, missä i on solmun i sisältävien kolmioiden lukumäärä ja Υ i on keskisolmun i kytkettyjen kolmikoiden joukon lukumäärä. Solmulle i, jonka aste on k i {0, 1}, määritellään solmun klusterointikerroin C i 0 [15]. D. J. Watts ja S. H. Strogatz [10] määrittävät myös verkon klusterointikertoimen, joka laskee verkon solmujen klusterointikertoimien keskiarvon. Määritelmä.13. Olkoon G V, E yleinen verkko, jonka koko on n. Verkon klusterointikerroin on.6 CG 1 n C i [0, 1], n i1 missä C i on solmun i V klusterointikerroin. Tietojenkäsittelytieteilijät Thomas Schank ja Dorothea Wagner [16] määrittävät vaihtoehtoisen muodon verkon klusterointikertoimelle, joka laskee keskiarvon solmujen klusterointikertoimista ainoastaan niille solmuille, joilla on vähintään kaksi naapuria. Määritelmä.14. Olkoon G V, E yleinen verkko. Määritellään joukko.7 V {i V : k i } V,
.3. VERKON TRANSITIIVISUUSKERROIN 15 joka sisältää verkon G solmut, joilla on vähintään kaksi naapuria. Verkon klusterointikerroin laskettuna joukon V solmuille on [11].8 C V G 1 C V i [0, 1], i V kun V > 0, missä C i on solmun i V klusterointikerroin. Seuraavaksi esitetään lause, millä tavoin klusterointikertoimet C ja C V eroavat toisistaan. Lause.15. Olkoon G V, E yleinen verkko ja V {i V : k i } solmujoukon V epätyhjä osajoukko. Kaavojen.6 ja.8 klusterointikertoimille pätee CG V V C V G. Todistus. Olkoon G V, E yleinen verkko ja V {i V : k i } solmujoukon epätyhjä osajoukko. Määritelmän.1 mukaan solmun i klusterointikerroin C i 0, kun k i {0, 1}, jolloin i V C i {i V :k i } C i + {i V :k i <} C i i V C i. Määritelmistä.13 ja.14 saadaan nyt CG 1 n V 1 V V i V C i V 1 V V i V C i 1 V i V C i i V C i V V C V G..3. Verkon transitiivisuuskerroin Fyysikot Alain Barrat ja Martin Weigt [11] esittävät vuoden 000 julkaisussaan vaihtoehtoisen verkon klusterointikertoimen, joka laskee suhdelukujen i / Υ i : 1 i n keskiarvon sijaan suhdeluvun keskiarvoista 1 n n i1 i ja 1 n n i1 Υ i. Määritelmä.16. A. Barratin ja M. Weigtin klusterointikerroin [11] yleiselle verkolle G on 1 n.9 CG n i1 i n i1 Υ i, 1 n kun Υ i > 0 jollakin i V, missä Υ i on solmun i kytkettyjen kolmikoiden lukumäärä ja i solmun i sisältävien kolmikoiden lukumäärä. Fyysikot Mark E. J. Newman ja Duncan J. Watts ja matemaatikko Steven H. Strogatz [13] esittävät vuoden 00 julkaisussaan toisen klusterointikertoimen verkolle, joka on yleisemmin käytetty. Tämä laskee suhdeluvun verkon kytketyistä kolmioista, jotka myös muodostavat kolmion. Käytetään sille nimitystä transitiivisuuskerroin. Määritelmä.17. Yleisen verkon G transitiivisuuskerroin [13] on.10 C G 3 G ΥG [0, 1], kun ΥG > 0, missä G on kolmioiden lukumäärä verkossa ja ΥG kytkettyjen kolmikoiden lukumäärä verkossa. Lauseen.11 mukaan kolmio G sisältää kolmen eri keskisolmun linkki-indusoidun kytketyn kolmikon, joten verkon kytkettyjen kolmikoiden lukumäärä, joiden solmut myös muodostavat kolmion on 3 G. Osoitetaan, että määritelmän.17 transitiivisuuskerroin on sama kuin A. Barratin ja M. Weigtin esittämä klusterointikerroin määritelmästä.16.
.4. KLUSTEROINTI- JA TRANSITIIVISUUSKERTOIMEN YHTEYS 16 Lause.18. Olkoon G V, E yleisen verkon, jossa Υ i > 0 jollakin i V. Tällöin CG C G. Todistus. Sievennetään kaavan.9 klusterointikerrointa muotoon CG n i1 i / n i1 Υ i. Verkon kytkettyjen kolmikoiden lukumäärä on kaavan.3 mukaan ΥG n i1 Υ i ja verkon kolmioiden lukumäärä on kaavan.4 mukaan G 1 n 3 i1 i. Verkon transitiivisuuskerroin kaavasta.10 saadaan muotoon n i1 i n i1 Υ i..11 C G 3 G ΥG.4. Klusterointi- ja transitiivisuuskertoimen yhteys Tietojenkäsittelytieteilijät Thomas Schank ja Dorothea Wagner [16] määrittävät verkon painotetun klusterointikertoimen C w painofunktiolla w : V R +, jonka avulla he osoittavat klusterointikertoimen C V ja transitiivisuuskertoimen C yhteyden. Samat tulokset todistetaan yleisemmin solmujoukon V painofunktiolla w : V R +. Määritelmä.19. Olkoon G V, E yleinen verkko ja w : V R + verkon solmujen painokerroinfunktio. Verkon painotettu klusterointikerroin [16] on 1.1 C w G i V wi wic i, kun wi > 0 jollakin i V, missä C i on solmun i V klusterointikerroin. Lemma.0. Olkoon G V, E yleinen verkko ja solmujen painokerroinfunktio w : V a > 0 vakiokuvaus. Tällöin C w G CG. Todistus. Olkoon painokerroinfunktio w : V a > 0 vakio, wi a kaikilla i V {1,,..., n}. Kaavoista.6 ja.1 saadaan laskettua C w G i V wic i/ i V wi a n i1 C i/ n i1 a 1 n n i1 C i CG. Schank ja Wagner [16] osoittavat, että verkon painotettu klusterointikerroin C w on sama kuin verkon transitiivisuuskerroin C, kun painokerroinfunktioksi w : V R + valitaan wi Υ i. Todistetaan tämä väite solmujoukolle V. Lause.1. Olkoon G V, E yleinen verkko, jossa Υ i > 0 jollakin i V. Olkoon w : V R + verkon solmujen painokerroinfunktio, jolle wi Υ i kaikilla i V. Tällöin C w G C G. Todistus. Solmun i klusterointikerroin on määritelmän.1 mukaan C i i / Υ i. Olkoon painofunktio wi : V R +, wi Υ i kaikilla i V. Kun Υ i > 0 jollakin i V saadaan kaavoista.1 ja.11 laskettua C w G i V wic i/ i V wi n i1 Υ i C i / n i1 Υ i n i1 i / n i1 Υ i C G. Schank ja Wagner [16] esittävät kaksi tilannetta, jossa verkon klusterointikerroin C V ja transitiivikerroin C ovat samoja. Todistetaan, että ne ovat kyseisissä tilanteissa myös sama kuin verkon klusterointikerroin C. Lause.. Olkoon G V, E yleisen verkon, jossa k i jollakin i V. Tällöin CG C V G C G, jos i V
.4. KLUSTEROINTI- JA TRANSITIIVISUUSKERTOIMEN YHTEYS 17 Kuva.3. Esimerkkejä klusterointikertoimien C 1 n n i1 i / Υ i, C V 1 V i V i / Υ i ja C 3 / Υ eroista, kun n, missä V {i V : k i }. a: C C V 1 n + n 1 n n 1n / ja C 3n / n 1 + n 3/n 0. b: C 1 7 0, n 3 C V 1 7 7 ja 4 3 1 C 3/5 + n 3 0. c: C 1 7 0, n 3 C V 1 7 7 ja 3 3 9 C 3. 5 1 verkon solmujen asteet ovat samoja tai verkon solmujen klusterointikertoimet ovat samoja. Todistus. 1: Olkoon k i a kaikilla i V. Kaavan. mukaan Υ i ki a a 1 kaikilla i V. Määritelmien.1 ja.13 ja kaavan.11 mukaan CG 1 n n i1 i / Υ i n i1 i /na n i1 i / n i1 Υ i C G. Joukko V {i V : k i } V, joten lauseen.15 mukaan CG C V V / V C V. : Olkoon C i b [0, 1], kaikilla i V ja k i jollakin i V. Tällöin määritelmän.13 mukaan CG 1 n n i1 C i 1 n n i1 b b. Olkoon wi Υ i kaikilla i V, jolloin lauseen.1 mukaan C w G C G. Toisaalta saadaan kaavasta.1 laskettua C w G i V wic i/ i V wi b i V Υ i / i V Υ i b CG. Määritelmän.14 mukaan C V G 1 V i V C i b V / V b CG. Matemaatikot Béla Bollobás ja Oliver M. Riordan [1] huomauttavat, että yleisessä verkossa C tai C V ja C ovat eri klusterointikertoimia, joka nähdään äärimmillään kuvassa.3a. Lemmasta.0 ja lauseesta.1 nähdään, että C tai C V painottaa solmujen klusterintikertoimia C i yhtä paljon, kun taas C painottaa enemmän sellaisia solmujen klusterointikertoimia C i, joiden aste k i on iso. Lauseesta.15 nähdään, että klusterointikertoimet C ja C V antavat eri arvot verkossa, jossa V {i V : k i } < V ks. kuva.3b,c. Lauseesta. seuraa, että verkossa, jossa solmujen asteet eroavat paljon toisistaan, C V ja C antavat samankaltaisia arvoja, jos solmujen klusterointikertoimet C i ovat lähes riippumattomia kyseisten solmujen asteista, muulloin niiden arvot saattavat erota.
LUKU 3 Satunnaisverkon klusteroituneisuus Määritellään seuraavaksi satunnaisverkon klusterointi- ja transitiivisuuskerroin sekä kaavoja niiden laskemiseen. Tätä varten tarvitaan todennäköisyysteorian käsitteitä, kuten riippumattomuus, odotusarvo, ehdollinen odotusarvo, varianssi ja Kolmogorovin vahva suurten lukujen laki. Määritelmä 3.1. Reaaliarvoiset satunnaismuuttujat X 1, X,... X m ovat riippumattomia [3], jos mielivaltaisille Borel-mitallisille joukoille A 1, A,... A m pätee m m P {X t A t } PX t A t. t1 Hieman heikompi riippumattomuuskäsite on pareittainen riippumattomuus. Määritelmä 3.. Satunnaismuuttujat X 1, X,... X m ovat pareittain riippumattomia [3], jos kaikki parit ovat riippumattomia. Satunnaisverkon analysointia usein helpottaa tieto, että satunnaisverkon solmujen asteet ovat riippumattomia. Määritellään seuraavaksi satunnaisverkon G n solmun i V n aste k i G n, joka on satunnaismuuttuja. Määritelmä 3.3. Satunnaisverkon G n solmun i V n aste on satunnaismuuttuja 3.1 k i G n missä t1 {i,j} V i X ij, 3. V i {{i, j } V n : i {i, j }} V n on solmujoukon V n järjestämättömien parien V n osajoukko, jonka kaikki alkiot sisältävät solmun i. X ij on indikaattorisatunnaismuuttuja { 1, jos solmupari {i, j} V n on kytketty linkillä, 3.3 X ij 0, muulloin. Solmun i V n aste k i G n riippuu siitä, kuinka monta solmuparia on kytketty linkillä joukossa V i, jonka koko on V i n 1. Béla Bollobás [6] huomauttaa, että joukot V i : i V n ovat melkein erillisiä osajoukkoja, sillä leikkaus V i V j {i, j}, i, j V n, i j koostuu ainoastaan yhdestä alkiosta. 18
3.1. ODOTUSARVO, VARIANSSI JA EHDOLLINEN ODOTUSARVO 19 3.1. Odotusarvo, varianssi ja ehdollinen odotusarvo Seuraavaksi määritellään satunnaismuuttujan odotusarvo ja ehdollinen odotusarvo sekä niiden laskusääntöjä. Määritelmä 3.4. Olkoon Ω, F, P diskreetti todennäköisyysavaruus. Positiivisen reaaliarvoisen satunnaismuuttujan X : Ω S R + odotusarvo [4] määritellään kaavalla joka voi olla äärellinen tai ääretön. E [X] ω Ω Xω Pω, Lause 3.5. Olkoon Ω, F, P diskreetti todennäköisyysavaruus ja X : Ω S R + sen positiivinen reaaliarvoinen satunnaismuuttuja, jonka jakauma on P X. Olkoon lisäksi f : S R + positiivinen kuvaus. Tällöin [4] i satunnaismuuttujan X odotusarvo saadaan kaavasta E [X] s S s P X s, ii satunnaismuuttujan fx odotusarvo saadaan kaavasta E [fx] s S fs P X s. Todistus. ii [4] Oletetaan, että f : S R +. Olkoon X 1 {s} {ω Ω : Xω s} tapahtuma, että X saa arvon s S. Tällöin X 1 {s} s S on numeroituva kokoelma erillisiä tapahtumia, jotka määritelmän 1.8 mukaan on avaruuden Ω ositus s S X 1 {s} Ω. Koska positiivisten termien summa ei riipu summausjärjestyksestä, havaitaan, että yhdistetyn kuvauksen h : Ω R +, h fx odotusarvolle pätee E [h] hω Pω fxω Pω fxω Pω. ω Ω ω Ω s S Koska Xω s kaikilla ω X 1 {s} saadaan fs s S ω X 1 {s} fxω Pω s S ω X 1 {s} ω X 1 {s} Pω s S fs PX 1 {s}, missä määritelmän 1.7 mukaan PA ω A Pω kaikilla A F. Määritelmän 1.10 mukaan P X s P{ω Ω : Xω s} PX 1 {s}, joten E [fx] s S fs PX 1 {s} s S fs P X s. i Väite seuraa suoraan kohdasta ii asettamalla fs s kaikilla s S. Seuraus 3.6. Olkoon Ω, F, P todennäköisyysavaruus ja 1 A indikaattori tapahtumalle A F. Tällöin indikaattorin 1 A odotusarvo on E [1 A ] P1 A 1,
jossa P1 A 1 PA. 3.1. ODOTUSARVO, VARIANSSI JA EHDOLLINEN ODOTUSARVO 0 Todistus. Indikaattori 1 on {0, 1}-arvoinen satunnaismuuttuja, joten lauseen 3.5 mukaan E [1 A ] 0 P1 A 0 + 1 P1 A 1 P1 A 1. Lause 3.7. Olkoon Ω, F, P diskreetti todennäköisyysavaruus ja X, Y : Ω R + sen positiivisia reaaliarvoisia satunnaismuuttujia. Tällöin [4] 3.4 E [ax + by ] ae [X] + be [Y ] kaikilla a, b 0. Todistus. Olkoon a, b 0 vakioita. Määritelmästä 3.4 ja positiivitermisen summan summausjärjestystä vaihtamalla saadaan [4] E [ax + by ] ω Ω axω + by ω Pω ω Ω axω Pω + ω Ω by ω Pω a ω Ω Xω Pω + b ω Ω Y ω Pω ae [X] + be [Y ] Lause 3.8. Olkoon Ω, F, P diskreetti todennäköisyysavaruus ja X, Y : Ω R + sen positiivisia reaaliarvoisia satunnaismuuttujia. Jos X ja Y ovat riippumattomia satunaismuuttujia, niin [4] E[XY ] E [X] E [Y ]. Todistus. Sivuutetaan ks. [4]. Lasketaan satunnaisverkon G n solmun asteen odotusarvo käyttämällä positiivisen satunnaismuuttujan odotusarvon lineaarisuutta lauseesta 3.7. Lause 3.9. Satunnaisverkon G n solmun i V n asteen k i G n odotusarvo on 3.5 E [k i G n ] PX ij 1, {i,j} V i missä X ij on indikaattori tapahtumalle, että solmupari {i, j} on kytketty linkillä. Todistus. Positiivisille reaaliarvoisille satunnaismuuttujille X ij : {i, j} V i saadaan lauseen 3.7 ja seurauksen 3.6 mukaan E [k i G n ] E X ij E [X ij ] PX ij 1. {i,j} V i {i,j} V i {i,j} V i Määritelmä 3.10. Olkoon Ω, F, P todennäköisyysavaruus ja X : Ω R reaaliarvoinen satunnaismuuttuja, jolle E[ X ] <. Satunnaismuuttujan X varianssi [] määritellään kaavalla VarX E [X E[X]] E[X ] E[X].
3.1. ODOTUSARVO, VARIANSSI JA EHDOLLINEN ODOTUSARVO 1 Lause 3.11. Olkoon Ω, F, P diskreetti todennäköisyysavaruus ja X, Y : Ω R + sen positiivisia reaaliarvoisia satunnaismuuttujia, joiden varianssit ovat äärellisiä. Jos X ja Y ovat riippumattomia satunnaismuuttujia, niin [3] VarX + Y VarX + VarY. Todistus. Määritelmän 3.10 mukaan VarX E[X ] E[X], joten lauseista 3.7 ja 3.8 saadaan laskettua VarX + Y E[X + Y ] E[X + Y ] E[X + XY + Y ] E[X] + E[Y ] E[X ] + E[X]E[Y ] + E[Y ] E[X] + E[X]E[Y ] + E[Y ] E[X ] E[X] + E[Y ] E[Y ] VarX + VarY. Ehdollisen odotusarvon määrittämiseen tarvitaan ehdollinen todennäköisyys ja sen laskusääntöjä. Määritelmä 3.1. Olkoot Ω, F, P diskreetti todennäköisyysavaruus ja A, B F tapahtumia, jossa PB > 0. Tapahtuman A ehdollinen todennäköisyys [4] ehdolla B on PA B PA B. PB Määritelmä 3.13. Olkoon Ω, F, P diskreetti todennäköisyysavaruus. Tapahtumat A, B F ovat riippumattomia [], jos PA B PA PB. Määritelmä 3.14. Olkoon Ω, F, P diskreetti todennäköisyysavaruus. Tapahtumat A, B F ovat ehdollisesti riippumattomia ehdolla C F, PC > 0 jos PA B C PA C PB C. Lause 3.15. Olkoot A, B F diskreetin todennäköisyysavaruuden Ω, F, P riippumattomia tapahtumia, jossa PB > 0. Tällöin PA B PA. Todistus. Olkoon PB > 0. Määritelmän 3.1 mukaan PA B PA B/ PB. Koska tapahtumat A ja B ovat riippumattomia, saadaan määritelmästä 3.13, että PA B PA B/ PB PA PB/ PB PA. Lause 3.16. Olkoot A 1,..., A n F tapahtumia ja PA 1... A n 1 > 0. Tällöin PA 1... A n PA 1 PA A 1 PA 3 A 1 A... PA n A 1... A n 1. Todistus. [] Olkoon n. Väite seuraa tällöin suoraan määritelmästä 3.1. Tehdään induktio-oletus, että väite pätee n 1 tapahtumille A 1... A n 1, jolloin PA 1... A n 1 PA 1 PA A 1 PA 3 A 1 A... PA n 1 A 1... A n.
3.1. ODOTUSARVO, VARIANSSI JA EHDOLLINEN ODOTUSARVO Seuraavaksi todistetaan, että väite pätee myös n tapahtumille. Merkitän tapahtuma B A 1... A n 1, jolloin määritelmästä 3.1 saadaan PB A n PA n B PB. Induktio-oletuksesta seuraa PA 1... A n PB A n PA n B PB PA 1 PA A 1 PA 3 A 1 A... PA n 1 A 1... A n PA n A 1... A n 1. Lause 3.17. Olkoon Ω, F, P diskreetti todennäköisyysavaruus ja {H i : 1 i n} perusjoukon Ω ositus. Tällöin kaikille A F pätee n PA PA H i PH i. i1 Todistus. [] Olkoon {H i : 1 i n} perusjoukon Ω ositus. Tapahtumalle A F pätee tällöin A A Ω A n i1h i n i1 A H i. Joukot {H i : 1 i n} ovat erillisiä joukkoja, joten sama pätee joukoille {A H i : 1 i n}. Tällöin todennäköisyysmitan määritelmän 1.6 mukaan PA P n i1 A H i n i1 PA H i n i1 PA H i PH i. Nyt voidaan määritellä diskreetin satunnaismuuttujan ehdollinen odotusarvo ja sen laskusääntöjä. Määritelmä 3.18. Olkoot X : Ω {x 1, x,...} ja Y : Ω {y 1, y,...}, Y 0, diskreettejä satunnaismuuttujia. Satunnaismuuttujan Y ehdollinen odotusarvo [] ehdolla {X x j }, kun PX x j > 0 on E [Y X x j ] y k PY y k X x j. k1 Määritellään seuraavaksi diskreetin satunnaismuuttujan Y ehdollinen odotusarvo, kun ehtona on satunnaismuuttuja X tapahtuman {X x j } sijaan. Tällöin ehdollinen odotusarvo E[Y X] on satunnaismuuttuja. Määritelmä 3.19. Olkoot X : Ω {x 1, x,...} ja Y : Ω {y 1, y,...}, Y 0, diskreettejä satunnaismuuttujia. Satunnaismuuttujan Y ehdollinen odotusarvo [] ehdolla X on E [Y X] fx, missä funktio f : {x 1, x,...} R on määritelty { E [Y X x], kun PX x > 0, 3.6 fx mielivaltainen arvo, kun PX x 0 kun satunnaismuuttuja Y on integroituva todennäköisyysmitan P X x j suhteen kaikille j, joille PX x j > 0. Lause 3.0. Olkoot X : Ω {x 1, x,...} ja Y : Ω {y 1, y,...}, Y 0, diskreettejä satunnaismuuttujia. Tällöin E [E [Y X]] E [Y ].
3.1. ODOTUSARVO, VARIANSSI JA EHDOLLINEN ODOTUSARVO 3 Todistus. Määritelmän 3.19 mukaan satunnaismuuttujan X muunnos fx E[Y X] on satunnaismuuttuja, jonka odotusarvo saadaan laskettua satunnaismuuttujan X jakauman avulla lauseesta 3.5, E [fx] j1 fx j PX x j. Kaavan 3.6 mukaan fx E[Y X x], kun PX x > 0, joten saadaan E [E [Y X]] E [fx] fx j PX x j E [Y X x j ] PX x j. j1 Määritelmästä 3.18 saadaan nyt laskettua j:pxx j >0 E [Y X x j ] PX x j j:pxx j >0 j:pxx j >0 y k PY y k X x j PX x j. Määritelmän 3.1 mukaan PY y k X x j PY y k,x x j / PX x j, joten saadaan E [E [Y X]] y k PY y k X x j PX x j j:pxx j >0 j:pxx j >0 k1 k1 j:pxx j >0 k1 k1 y k k1 PY y k, X x j y k PX x j PX x j y k PY y k, X x j j:pxx j >0 PY y k, X x j y k PY y k, X x j. k1 j1 Olkoon X 1 {x j } {ω Ω : Xω x j } {X x j } tapahtuma. Tällöin tapahtumat X 1 {x j } j1 ovat numeroituva kokoelma erillisiä tapahtumia, jotka määritelmän 1.8 mukaan muodostavat avaruuden Ω osituksen, j1 X 1 {x j } Ω. Tällöin tapahtumat {Y y k X x j } j1 ovat myös erillisiä tapahtumia, joten todennäköisyysmitan määritelmän 1.6 mukaan PY y k, X x j j1 P Y y k X x j P Y y k X x j j1 P Y y k Ω PY y k. Lauseesta 3.5 saadaan nyt laskettua E [E [Y X]] y k PY y k E [Y ]. k1 j1
3.. KYTKETTY KOLMIKKO JA KOLMIO SATUNNAISVERKOSSA 4 Lause 3.1. Olkoot X, Y ja Z diskreettejä satunnaismuuttujia, jossa X, Y 0. Tällöin E[aX + by Z] ae[x Z] + be[y Z], kaikilla a, b 0. Todistus. [3] Olkoot a, b 0 vakioita. Lauseista 3.0 ja 3.7 saadaan E[E[aX + ay Z]] E[aX + by ] ae[x] + be[y ] ae[e[x Z]] + be[e[y Z]] E[aE[X Z] + be[y Z]]. 3.. Kytketty kolmikko ja kolmio satunnaisverkossa Seuraavaksi tarkastellaan satunnaisverkon G n solmun i V n kytkettyjen kolmikoiden lukumäärä Υ i, joka on satunnaismuuttuja. Merkitään symbolilla V n 3 solmujoukon V n järjestämättömien kolmikoiden joukkoa. Määritelmä 3.. Satunnaisverkon G n solmun i kytkettyjen kolmikoiden lukumäärä on satunnaismuuttuja 3.7 Υ i G n 1 {ij,ik}, missä {i,j,k} V 3 i 3.8 V 3 i {{i, j, k } V 3 n : i {i, j, k }} V 3 n, on solmujoukon V n järjestämättömien kolmikoiden V n 3 osajoukko, jonka kaikki alkiot sisältävät solmun i V n. 1 {ij,ik} on indikaattorisatunnaismuuttuja 3.9 1 {ij,ik} { 1, jos solmuparit {i, j}, {i, k} V n 0, muulloin. on kytketty linkillä, Kaavassa 3.7 indikaattorit 1 {ij,ik} : {i, j, k} V 3 i eivät ole riippumattomia ks. kuva 3.1, mutta siitä huolimatta saadaan helposti laskettua solmun kytkettyjen kolmikoiden lukumäärän odotusarvo. Lause 3.3. Satunnaisverkon G n solmun i V n kytkettyjen kolmikoiden lukumäärän odotusarvo on 3.10 E [ Υ i G n ] P1 {ij,ik} 1, {i,j,k} V 3 i missä 1 {ij,ik} on indikaattori tapahtumalle, että solmuparit {i, j}, {i, k} V n kytketty linkillä. Todistus. Kaavoista 3.4, 3.7 ja seurauksesta 3.6 saadaan laskettua E [ Υ i G n ] E 1 {ij,ik} E [ ] 1 {ij,ik} P1 {ij,ik} 1. {i,j,k} V 3 i {i,j,k} V 3 i {i,j,k} V 3 i on