MONIMUUTTUJAMENELMÄT YHTEISÖEKOLOGIASSA Jari Oksanen 26. syyskuuta 2004 Sisältö Sisältö 1 1 Ordinaatio: perusmenetelmät 3 1.1 Pääkomponenttianalyysi................ 4 1.1.1 Lajiavaruus ja näyteala-avaruus........ 4 1.1.2 Pääkomponenttirotaatio............ 5 1.1.3 Etäisyys, varianssi ja korrelaatio........ 7 1.1.4 Ominaisarvot ja ominaisvektorit........ 8 1.1.5 Aineiston aproksimointi: singulaariarvohajotelma ja biplot................... 9 1.1.6 Pääkomponenttianalyysin tyypit........ 9 1.1.7 Tulosten esitys................. 10 1.1.8 Algoritmi.................... 12 1.2 Korrespondenssianalyysi................ 13 1.2.1 Vastinkeskiarvot ja painotetut keskiarvot.... 14 1.2.2 Geometrinen tulkinta.............. 16 1.2.3 Optimaalinen pisteytys............. 17 1.2.4 Tulosten esitys................. 18 1.2.5 Ominaisarvo.................. 20 1.3 Moniulotteinen pisteytys................ 21 1.3.1 Metrinen pisteytys ja pääkoordinaattianalyysi. 22 1.3.2 Epämetrinen pisteytys............. 22 1.3.3 Ekologinen etäisyys.............. 24 1.3.4 Tulosten esitys ja tulkinta........... 25 2 Gradienttimalli ja ordinaatio 27 2.1 Gradienttianalyysi.................... 27 2.1.1 Lajivasteen muoto............... 29 2.2 Ordinointimenetelmien oletukset............ 30 2.2.1 Pääkomponenttianalyysi ja lajiavaruus..... 30 2.2.2 Korrespondenssianalyysi ja liian optimaalinen ratkaisu..................... 30 1
2 Sisältö 2.2.3 Epämetrinen moniulotteinen pisteytys..... 31 2.3 Kaareutumisen välttäminen............... 31 2.4 Oikaistu korrespondenssianalyysi........... 33 2.4.1 Oikaisu..................... 33 2.4.2 Uudelleenskaalaus............... 34 2.4.3 Harvinaisten lajien vaimentaminen....... 35 2.4.4 Kokonaisvaikutus................ 35 2.5 Väliaskeletäisyydet................... 36 2.6 Menetelmien vertailu.................. 37 2.6.1 Simulointien tulokset.............. 38 2.6.2 Muut suositukset................ 38 3 Ympäristötekijät ja ordinointi 41
LUKU 1 ORDINAATIO: PERUSMENETELMÄT Hyvin suunnitellussa ekologisessa kokeessa tutkija on miettinyt etukäteen, mitä hän todella tutkii. Hän on harkinnut tarkoin kiinnostuksen kohdetta parhaiten kuvaavat muuttujat sekä tarvittavat kokeelliset manipulaatiot. Tällaisen kokeen analyysi on melkoisen suoraviivaista ja helppoa: koesuunnittelu on jo tehty lineaarista mallia varten ja aineisto analysoidaan etukäteen päätetyllä tavalla. Sangen usein näkee kuitenkin ekologin tutkivan huomattavasti hankalammin analysoitavia ongelmia. Joskus vaikuttaa, että tutkijalle itselleen ei ole aivan selvä mitä hän tutkii vaan hän kerää suuren joukon erilaisia muuttujia. Usein tutkimus on myös havainnoivaa, jolloin tutkijalle ei ole etukäteen selvää, mitkä ovat tärkeitä ekologisia selittäjiä. Erityisen räikeästi tämä näkyy yhteisöekologisessa tutkimuksessa, missä tutkija ei useinkaan etukäteen harkitse, mitkä ovat keskeisiä vastemuuttujia. Sen sijaan hän katsoo luonnosta, mitä muuttujia lajeja sillä on tarjottavana. Näin syntyy luonnostaan hyvin moniulotteinen aineisto, josta on tavattoman vaikea saada yleiskuvaa. Saattaa olla, että aineiston takana on suppea määrä selittäviä tekijöitä, mutta niiden löytäminen lajimassasta on hankalaa. Molekyyligeneetikolla saattaa olla suuri joukko mittauksia geeniekspressiosta, ja hän haluaa löytää tietyissä stressitilanteissa aktivoituvat geenit. Ympäristöbiologi on saattanut mitata suuren joukon kasvin responssiparametreja ja hän haluaa selvittää, mitkä niistä kuvaavat kasvin altistumista ympäristöstresseille. Kemometrikko on saattanut mitata suuren joukon kemiallisia parametreja, ja haluaa selvittää, mitkä yhdisteet ovat peräisin tietyistä lähteistä. Kaikki nämä tilanteet ovat tyypillisesti hankalia monimuuttuja-aineistoja, joiden tulkintaan on käytettävä monimuuttujamenetelmiä. Mikäli aineisto on moniulotteinen, on käytettävä monimuuttujamenetelmiä aineiston tarkasteluun. Lähtökohtana on siis aineiston luonne: jos tutkija kerää hankalasti hahmottuvan joukon muuttujia, hän joutuu turvautumaan monimuuttujamenetelmiin. Yleensä ei kannata pyrkiä monimuuttujaiseen analyysiin, sillä sen hallinta ja ymmärtäminen on usein hyvin hankalaa. Sangen usein siihen vain ajaudutaan ja tällöin on syytä yrittää ymmärtää, mitä on tekemässä. Ekologien käyttämät monimuuttujamenetelmät jaetaan kahteen pääryhmään: Ordinaatiomenetelmät, jotka pyrkivät esittämään alkujaan moniulotteisen aineiston harvempiulotteisena kuvana, jonka toivotaan jollain tapaa heijastavan vain muutamaa tärkeää aineiston rakennetta selittävää tekijää. Alkuperäisten muuttujien ja lajien sijaan kuvaus ja ymmärtäminen perustuu saadun ordinaatiodiagrammin päävaihtelusuuntiin. 3
4 Ordinaatio: perusmenetelmät Kuva 1.1: Lajiavaruudessa kukin laji on toisia lajeja kohtisuoraan oleva akseli ja näytealan sijainti määräytyy lajin runsauden mukaan näytealalla. Anome.la 0.00 0.02 0.04 0.06 0.01 0.02 0.03 0.04 0.05 Eunovene Staa.gra 0.00 0.02 0.04 0.06 0.08 0.00 0.05 0.10 0.15 0.20 Pinninte Luokittelumenetelmät, jotka ryhmittelevät aineiston vain muutamaan sisäisesti yhtenäiseen ja keskenään erilaiseen luokkaan. Alkuperäisten muuttujien ja lajien sijaan kuvaus ja ymmärtäminen perustuu näiden muutaman luokan kuvaukseen. Ordinaatiomenetelmät voidaan karkeasti jakaa kahteen ryhmään: Ominaisvektorimenetelmät, joista suosituimmat ovat pääkomponenttianalyysi (PCA) ja korrespondenssianalyysi (CA) variantteineen. Ne ovat geometrisia menetelmiä, jotka vain ja ainoastaan kiertävät alkuperäisen aineiston keskipisteensä varassa siten, että katsoja näkee sen rakenteesta mahdollisimman suuren osan. Kartoitusmenetelmät, joista suosituin on moniulotteinen skaalaus (MDS). Kartoitusmenetelmät pyrkivät graafiseen esitykseen, joissa pisteiden välimatkat kuvaavat mahdollisimman hyvin niiden samanlaisuutta tai erilaisuutta. 1.1 Pääkomponenttianalyysi 1.1.1 Lajiavaruus ja näyteala-avaruus Yhteisöekologinen aineisto muodostuu yleensä matriisista, jonka riveinä ( havaintoina ) ovat näytealat ja sarakkeina ( muuttujina ) lajit. Tämä matriisi on mahdollista esittää graafisesti siten, että kutakin lajia käytetään akselina ja lajin runsaus näytealalla määrittää näytealan sijainnin kyseisellä akselilla. Täydellistä esitystä varten kukin laji on esitettävä kaikkia muita kohtisuoraan olevana akselina. Matriisi määrittää moniulotteisen hyperavaruuden, jota kutsutaan lajiavaruudeksi. Vaihtoehtoisesti voimme esittää kaikki lajit pisteinä avaruudessa, jonka akseleina ovat näytealat eli näyteala-avaruuden. Ominaisvektorimenetelmät, kuten pääkomponenttianalyysi, operoivat juuri tällaisilla laji- tai näyteala-avaruuksilla. Lajiavaruus on liian moniulotteinen, jotta sitä pystyisi normaali ihminen edes tajuamaan saati sitten piirtämään. Käytännössä on mahdollista piirtää akselit eli lajit pareittain kaksiulotteisiksi diagrammeiksi (kuva 1.1). Tuloksena on luonnollisestikin suuri määrä diagrammeja, joista valtaosa on melko epäinformatiivisina. Jos akseleina käytetään kahta harvinaista lajia, suurin osa näytealoista sijaitsee pakkautuneena origoon ja vain jokunen näyteala erottuu massasta. Toiset lajit taas näyttävät informatiivisilta: ne erottelevat näytealat hyvin toisistaan. Pääkomponenttianalyysi on menetelmä, joka pyrkii löytämään sellaisen katseen kulman, josta näytealapisteet erottuvat toisistaan mah-
1.1. Pääkomponenttianalyysi 5 dollisimman hyvin. Se pyrkii valitsemaan sellaisen suunnan, josta informatiivisten lajien akselit näkyvät mahdollisimman pitkinä ja epäinformatiivisten lyhyempinä eli antamaan informatiivisille lajisuunnille suuremman painon kuin epäinformatiivisille. Pääkomponenttianalyysi ei enää käytä yksittäisiä lajeja akseleina. Sen sijaan se käyttää synteettisiä, lajeista johdettuja akseleita, jotka on laadittu siten, että näytealat toisistaan hyvin erottelevilla lajeilla on suuri vaikutus näiden synteettisten akselien muodostumiseen. Pääkomponenttianalyysin synteettisiä akseleita sanotaan pääkomponenteiksi. Pääkomponenttianalyysin tavoitteet voidaan ilmaista kahdella vaihtoehtoisella tavalla: 1. Ensimmäinen pääkomponentti selittää suurimman mahdollisen osan aineiston vaihtelusta. Toinen ja sitä seuraavat pääkomponentit selittävät suurimman mahdollisen osan aineiston vielä selittämättömästä vaihtelusta ja lisäksi ne ovat kohtisuorassa kaikkia edellisiä pääkomponentteja vastaan. 2. Pääkomponenttianalyysi pyrkii sijoittamaan alkuperäiseen lajiavaruuteen (tai vaihtoehtoisesti näyteala-avaruuteen) aliavaruuden, kuten suoran tai tason, joka on mahdollisimman lähellä kaikkia avaruuden pisteitä. Nämä kaksi tavoitetta johtavat samaan tulokseen, sillä aliavaruus joka on mahdollisimman lähellä kaikkia pisteitä selittää suurimman mahdollisen osan pisteiden vaihtelusta. Pääkomponenttianalyysi on vain aineiston rotaatio. Sen ulottuvuuksien lukumäärä on sama kuin alkuperäisen aineiston, eli esimerkiksi sama kuin lajien lukumäärä. Kaikki pääkomponentit yhdessä esittävät alkuperäisen aineiston tarkkaan ja jäännöksettä. Pääkomponentit on kuitenkin järjestetty siten, että ensimmäiset pääkomponentit ovat tärkeimpiä eli toistavat lajien sijainnin alkuperäisessä lajiavaruudessa mahdollisimman tarkkaan. Viimeisillä pääkomponenteilla on vain vähäinen vaikutus pisteisiin. Näin ollen voimme rajoittua vain ensimmäisten pääkomponenttien esittämiseen ja jättää myöhemmät pääkomponentit huomiotta. Ordinoinnin ideana on pelkistää alkuperäinen, moniulotteinen aineisto niukempiulotteisiksi. Katsomissuunnan valitsmella pääkomponenttianalyysi löytää tärkeimmät vaihtelusuunnat. Voimme siis keskittyä vain pariin ensimmäiseen pääkomponenttiin ja yrittää tulkita niiden esittämä aineiston rakenne. Sen tulisi olla suuri osa aineiston koko rakenteesta. Jälkimmäiset pääkomponentit esittävät mahdollisesti vain aineiston satunnaisvaihtelua, ns. hälyä, ja ne voidaan jättää huomiotta. 1.1.2 Pääkomponenttirotaatio Edellisessä luvussa näimme, että pääkomponenttianalyysi vain rotatoi aineistoa ja etsii sen suunnan, josta katsottuna aineisto näyttäytyy meille mahdollisimman aitona ja alkuperäisenä. Tässä luvussa katsomme lapsellista pikkuesimerkkiä, joka näyttää kuinka tämä käytännössä tapahtuu. Esimerkkiaineistoimme on vain kaksiulotteinen: [ ] 1 4 5 6 6 7 7 8 8 9 5 6 3 3 4 4 5 2 3 1 Tällaista leikkiaineistoa ei tietenkään oikeasti kannata analysoida pääkomponettianalyysilla, sillä senhän pystyy jo alkujaan esittämään kaksiulotteisessa kuvassa (kuva 1.2). Sen avulla on kuitenkin helppo nähdä, miten pääkomponenttianalyysi itse asiassa toimii.
6 Ordinaatio: perusmenetelmät A B Kuva 1.2: A. Pääkomponenttianalyysissa siirretään aluksi origo havaintojen painopisteeseen ja sitten kierretään origon varassa akselistoa niin että ensimmäinen akseli selittää mahdollisimman paljon aineiston vaihtelusta. B. Automaattisesti laskettu pääkomponenttianalyysi saattaa esittää akselit alkuperäiseen aineistoon nähden peilikuvina. 0 2 4 6 2 4 6 8 4 2 0 2 4 2 0 2 4 Pääkomponenttianalyysi rotatoi eli kiertää akselistoa aineiston painopisteen varassa. Meidän on siis ensin keskitettävä aineisto tuohon pisteeseen. Toinen pääkomponenttianalyysin tavoitteista oli sijoittaa alkuperäiseen avaruuteen aliavaruus, joka on mahdollisimman lähellä kaikkia pisteitä. Pienin tällainen aliavaruus on piste, ja kaikkia pisteitä lähinnä oleva piste on keskipiste. Kummallakin ajattelutavalla päädymme siihen, että meidän on keskistettävä havainnot ennen seuraavaa askelta. Rivien keskiarvot ovat 6.1 ja 3.6, joten keskistämisen jälkeen esimerkkimme on [ 5.1 2.1 1.1 0.1 0.1 0.9 0.9 1.9 1.9 2.9 1.4 2.4 0.6 0.6 0.4 0.4 1.4 1.6 0.6 2.6 Olemme puhuneet vaihtelun selittämisestä pääkomponenttianalyysissa kertomatta, mitä oikein tarkoitamme tuolla vaihtelulla. Pääkomponenttianalyysi laskee vaihtelun pisteiden neliöityjen etäisyyksien summana painopisteestä. Keskistämisen jälkeen pystymme arvioimaan tuon vaihtelun, joka ensimmäiselle rivlle on 48.9 ja toiselle 20.4. Kokonaisvaihtelu on näiden summa eli 69.3. Kokonaisvaihtelun laskeminen yksinkertaisesti neliösummana perustuu jo muinaisten kreikkalaisten tuntemiin suorakulmaisiin kolmioihin: akselit ovat kateetteja ja pisteen etäisyys keskipisteestä on hypotenuusa. Ensimmäinen pääkomponetti pyrkii selittämään suurimman mahdolllisen osan kokonaisvaihtelusta. Tämä tarkoittaa, että se rotatoi aineiston siten, että ensimmäiselle akselille laskettu koordinaattien neliöiden summa on suurin mahdollinen. Tässä tapauksessa paras ratkaisu saadaan kiertämällä akselistoa 28.3 myötäpäivään (kuva 1.2). Tällöin uusiksi koordinaateiksi tulee: [ 5.15 2.99 0.68 0.20 0.28 0.60 0.13 2.43 1.96 3.79 1.18 1.12 1.05 0.58 0.30 0.78 1.66 0.51 0.37 0.91 Akseleitten neliöiden summat ovat nyt 60.53 ja 8.77. Näiden lukujen summa on sama 69.3 kuin alkujaankin, mutta nyt ensimmäinen summa on paljon suurempi kuin toinen. Itse asiassa ensimmäisen summan osuus on 87.3 % koko aineiston vaihtelusta. Emme menetä paljonkaan informaatiota, jos tarkastelemme ainoastaan ensimmäistä pääkomponenttia. Usein sanotaan, että ensimmäinen pääkomponentti selittää 87.3 % aineiston vaihtelusta. Käytimme esimerkissämme suoria neliösummia. Olisimme aivan yhtä hyvin voineet jakaa neliösummat havaintojen lukumäärällä (tai lukumäärällä miinus yksi), jolloin olisimme käyttäneet variansseja. Tämä olisi vaikuttanut tulosten suhteelliseen skaalaukseen, mutta se ei olisi vaikuttanut mitenkään lopulliseen konfiguraation ja selitysasteisiin. ] ]
1.1. Pääkomponenttianalyysi 7 Vaihtelun selittämisen sijaan voimme yhtä hyvin puhua varianssin selittämisestä pääkomponenttianalyysissa. Nyt pitäisi olla myös ilmeistä, että pääkomponenttianalyysin kaksi tavoitetta (sivu 5) ovat identtisiä: kun maksimoimme vaihtelun ensimmäisellä akselilla, minimoimme akselin ja pisteiden etäisyyden. Tämä seuraa suoraan siitä, että kokonaisvaihtelu on vakio ja pisteen projektio pääkomponentille on suorakulmainen, eli jälleen sovellamme suorakulmaisten kolmioiden sivujen suhdetta. 1.1.3 Etäisyys, varianssi ja korrelaatio Tarkastelimme edellä pääkomponenttianalyysia puhtaasti graafisena menetelmänä; tällaisena se on usein paras nähdäkin. Emme puuttuneet mitenkään laskutekniikkaan, eli siihen, kuinka tiesimme että akselistoa on käännettävä juuri 28.3. Tässä oppaassa emme juurikaan puutu algoritmeihin, vaan tämän jätämme numeerisen matematiikan oppikirjoihin (huomattakoon että matriisimatematiikan oppikirjojen esittämät algoritmit näyttävät kauniilta kirjoitettuina, mutta ovat usein erittäin huonoja ohjelmoinnin malleja). Tarkastelemme kuitenkin hieman sitä perustaa, millä tietokoneohjelmat pääkomponenttianalyysin ratkaisevat. Tietokone (sen paremmin kuin Mac) ei luonnollisestikaan hahmota pääkomponenttianalyysia graafisena tehtävänä, vaan se ratkaisee ongelman numeerisesti. Tätä varten meidän on jollain tapaa kerrottava ohjelmalle, mikä on pisteiden alkuperäinen graafinen konfiguraatio, jotta ohjelma osaisi etsiä sopivan rotaation. Lähtöaineistona on matriisi, jossa x i j on lajin i runsaus paikassa j. Luontainen tapa kertoa koneelle pisteiden konfiguraatio on antaa pisteiden väliset etäisyydet alkuperäisten koordinaattien sijaan. S ulotteisessa lajiavaruudessa näytealojen j ja k välinen neliöity etäisyys d 2 on (kuva 1.3): Näin laskettu etäisyys d on lyhyin eli suora etäisyys kahden pisteen välillä eukleidisessa avaruudessa eli siinä avaruudessa, joka muistuttaa meidän arkiavaruuttamme. Tämän takia d 2 on nimeltään neliöity eukleidinen etäisyys, mutta neliöity etäisyys on suunnilleen yhtä yksiselitteinen nimi. Erotus x i j x ik lajiakselilla i on jälleen suorakulmaisen kolmion kateetin pituus, joten d 2 jk on vastaava hypotenuusa (joskin sivuja i voi tällä kertaa olla enemmän kuin kaksi). Vaihtoehtoinen tapa kuvata pisteiden sijaintia painopisteen (origon) suhteen on käyttää kahta mittaa: origosta pisteeseen j piirretyn janan pituutta s j sekä kahteen pisteeseen ( j ja k) piirrettyjen janojen välistä kulmaa θ jk (kuva 1.3. Mikäli kaksi pistettä on samassa suunnassa, kulma θ on kapea, ja mikäli pisteet ovat lisäksi lähes yhtä kaukana, d 2 jk = S i=1(x i j x ik ) 2 (1.1) θ jk s j j Kuva 1.3: Pisteiden konfiguraation pystyy esittämään numeerisesti käyttämällä joko pisteiden välisiä etäisyyksiä d jk tai pisteiden etäisyyttä origosta s j,s k sekä pisteiden välistä kulmaa θ jk origosta katsottuna. ovat pisteet lähellä toisiaan. Tarvittavat suureet ovat: Jälkimmäisen yh- tälön (kaava 1.3) tulisi näyttää tutulta: keskistetyillä luvuilla se on tavallisen (eli Pearsonin) korrelaatiokertoimen kaava. Nyt olemme siis löytäneet graafisen tulkinnan korrelaatiokertoimelle: se on lajiavaruudessa olevien pisteiden katsomiskulman kosini. Myös edellinen kaava (1.2) on tuttu: yksinkertainen neliösumma. Mainitsimme jo edellä, että neliösummien sijaan voimme käyttää variansseja, joten voimme antaa pääkomponenttianalyysin laskevalle ohjelmille varianssseja sisältävän matriisin, jolloin ohjelma osaa laskea kokonaisvaihtelun ja kunkin pisteen painon analyysissa. Lisäksi meidän on annettava tieto pisteiden katsomiskulmien eroista eli parametrista θ. Itse asiassa kulma θ sisältyy kovarianssiin s jk = s j s k cosθ jk Jos siis annamme ohjelmalle matriisin, jossa lävistäjäelementteinä ovat varianssit ja muina elementteinä kovarianssit, pääkomponenttianalyysi saa tarvitsemansa tiedot pisteiden konfiguraatiosta. s 2 j = cosθ jk = S i=1 d jk s k x 2 i j (1.2) i x i j x ik i x 2 i j i x 2 ik k (1.3)
8 Ordinaatio: perusmenetelmät Usein mainitaan myös, että pääkomponenttianalyysin voi tehdä korrelaatiomatriisista. Myös tälle on graafinen tulkinta: alkuperäisen lajiavaruuden sijaan käytetään sellaista avaruutta, jossa kunkin lajin varianssi on skaalattu yksikön mittaisiksi. Näytealajanojen välinen kulma (kaava 1.3) on tietystikin korrelaatiokerroin ja kaikki varianssit (kaava 1.2) ovat 1. Tällöin kovarianssi varianssimatriisi korvautuu korrelaatiomatriisilla, jonka lävistäjinä on muuttujan korrelaatio itsensä kanssa eli itse asiassa normitetun muuttujan varianssi, joka määritelmän mukaan on 1. Tietokoneohjelmien kuvauksessa painotetaan usein teknistä puolta eli analyysin tekemistä korrelaatioiden tai kovarianssien kautta. Tällöin menetelmä mystifioituu salaperäiseksi matriisialgebraksi (jollei suorastaan matriisihepreaksi). Kyseessä on kuitenkin vain tapa välittää sokealle koneelle graafinen informaatio: pääkomponentti on perimmiltään graafinen menetelmä, missä akselistoa kierretään siten, että mahdollisimman paljon aineiston rakenteesta näkyy ensimmäisiä pääkomponentteja katsottaessa. 1.1.4 Ominaisarvot ja ominaisvektorit Pääkomponenttianalyysi ratkaistaan usein yksinkertaisena ominaisarvotehtävänä. Tätä varten lasketaan alkuperäisestä matriisista symmetrinen ristitulomatriisi, useimmiten kovarianssi varianssi- tai korrelaatiomatriisi. Tästä matriisista lasketaan ominaisarvot ja vastaavat ominaisvektorit. Leikkiesimerkissämme käytämme pientä 2 10 matriisia josta laskemme 2 2 ristitulomatriisin [ ] 48.9 21.6 21.6 20.4 Olisimme tietysti voineet käyttää myös variansseja, kuten tietokoneohjelmat yleensä tekevät. Tämä olisi kuitenkin vaikuttanut vain tulostemme skaalaan ja suoria ristituloja käytettäessä säilytimme alkuperäisen asteikon tuloksissa. Koska pienempi dimensioluku on 2, saamme kaksi ominaisarvoa: λ 1 = 60.53 ja λ 2 = 8.77. Näiden summa on sama kuin ristitulomatriisin lävistäjien summa: 60.53 + 8.77 = 48.9 + 20.4 = 69.3. Kaikkien ominaisarvojen summa on sama kuin ristitulomatriisin lävistäjäelementtien summa. Kovarianssimatriisia käytettäessä summa on aineiston kokonaisvarianssi ja korrelaatiomatriisia käytettäessä havaintojen lukumäärä. Akselin selitysaste saadaan jakamalla kyseinen ominaisarvo kaikkien ominaisarvojen summalla. Näihin ominaisarvoihin liittyvät ominaisvektorit ovat: [ ] 0.881 0.474 0.474 0.881 Näitä sanotaan latauksiksi. Tällä kertaa lataukset on skaalattu siten, että niiden neliöiden summa riveittäin on 1. Itse asiassa matriisimme on ns. ortogonaalinen rotaatiomatriisi: kun sillä kerrotaan alkuperäinen havaintomatriisi, se itse asiassa vain rotatoituu. Rotaatiokulman saamme selville tästä matriisista: cos 1 0.881 = sin 1 0.474 = 28.3. Tarkkaavainen lukija lienee huomannut, että ensimmäisessä termissä vaihdoin kertoimen etumerkin: taulukossa kerroin oli 0.881 mikä merkitsee rotaatiota 180 28.3 eli hieman pitemmälle. Pääkomponenttianalyysi ei näet tiedä mitään akselien alkuperäisestä suunnasta, ja akselit saattavat yhtä hyvin olla peilikuvia (kuva 1.2). Akselien etumerkit voivat vaihdella jopa samalla ohjelmalla eri analyysikerroilla ja ainakin eri ohjelmien
1.1. Pääkomponenttianalyysi 9 välillä. Analyysitulosten etumerkkeihin ei todellakaan kannata kiinnitä mitään huomiota, sillä niillä ei ole merkitystä vaan akseli = akseli. Lopulliset pääkomponenttipisteet saadaan kertomalla keskistetyllä havaintomatriisilla rotaatiotmatriisimme, jolloin saamme halutun lopputuloksen (matriisi sivulla 6) tosin tällä kertaa vastakkaismerkkisenä. Nämä pääkomponenttipisteet on tällä kertaa skaalattu niin, että niiden neliöiden summa on ominaisarvo. Tällöin ne esittävät suoraan pisteiden alkuperäisen konfiguraation. 1.1.5 Aineiston aproksimointi: singulaariarvohajotelma ja biplot Pääkomponenttianalyysin avulla on mahdollista saada ordinointipisteet sekä näytealoille että lajeille yhtaikaa. Toinen näistä pisteryhmistä on skaalattu yleensä akselin ominaisarvon mukaan, toisen ryhmän skaalaukseen taas ominaisarvot eivät vaikuta, vaan yleensä arvojen neliöiden summa on sama (1) kaikilla akseleilla. Tällaisella kahtalaisella skaalauksella on näet mahdollista saada pienimmän neliösumman aproksimaatio alkuperäiselle havaintoaineistolle pääkomponenttianalyysin tulosten perusteella. Olettakaamme että akselilla m raakapisteet sekä sarakkeille (v jm ) että riveille (u im ) on skaalattu yksikön mittaisiksi eli j v 2 jm = 1 ja i u 2 im = 1 ja akselin ominaisarvo on λ m. Tällöin saamme ensimmäisen M akselin perusteella alkuperäisen havainnon x i j pienimmän neliösumman M asteisen likiarvon x (M) i j kaavalla 1.4 Lauseke määrittelee singulaariarvo- hajotelman, jossa tosin usein käytetään singulaariarvoja η ominaisarvojen sijaan, mutta näiden suhde on yksinkertaisesti η 2 m = λ m. Voimme aproksimoida lineaarisesti aineistoamme esittämällä tuloksissa normitetut näyteala ja lajiskoorit sekä vastaavat ominaisarvot tai singulaariarvot. Tavallisesti ominaisarvot yhdistetään joko laji- tai näytealapisteisiin. Voimme esittää tulokset seuraavilla vaihtoehtoisilla tavoilla: Ominaisarvon vaikutuksen pystyy yhdistämään joko lajeihin tai näytealoihin. Jos se yhdistetään lajipisteisiin, lajien konfiguraatio on oikea, eli lajiakselien pituus diagrammissa vastaa akselin pituutta. Vastaavasti näytealakonfiguraatio on oikea jos ominaisarvot yhdistetään näytealapisteisiin. Vastaavasti toinen pistejoukko on normitettu eli pisteiden neliöity etäisyys origosta on riippumaton ominaisarvosta. Näin ne eivät kuvaa akselien tärkeyttä. Yhdessä ominaisarvolla painotettujen ordinointipisteiden kanssa ne kuitenkin antavat pienimmänneliösumman estimaatin alkuperäisistä havainnoista (kaava 1.4). Joskus tutkija haluaa suhteuttaa sekä näytealat että lajit ominaisarvoihin, mutta silloin tulokset eivät enää aproksimoi alkuperäistä havaintoaineistoa. Biplot on alkuperäisen aineiston graafinen aproksimaatio: sekä lajipisteet että näytealapisteet esitetään yhtaikaa samassa diagrammissa. Jompi kumpi pisteistä suhteutetaan ominaisarvoon, jolloin sille esitetään oikea konfiguraatio. Tutkija joutuu harkitsemaan, haluaako hän esittää lajit vai näytealat oikein. Tämä riippuu tavoitteista. Sangen tavallista on suuremman huomion keskittäminen näytealojen ordinointiin, jolloin ominaisarvoilla painotus tehdään näytealoille. 1.1.6 Pääkomponenttianalyysin tyypit Comp.2 0.8 0.6 0.4 0.2 0.0 0.2 0.4 x (M) i j = x i + 5VALKE M m=1 u im λ 1/2 m v jm λm 1/2 u im v jm u im λ 1/2 m v jm (1.4) 0.15 0.10 0.05 0.00 0.05 0.10 AU010B 3KATTIL Meld.lac 93KANKT Anome.la Cymbgrac Peroheri 49AHVEN Cymbamce Navimedi Steninte Tabefloc Navr.ten Surideli EunolunaMeld.lir Staa.gra Neia.amp Navihoef Tabequad AU010A Eunovene 581MAKI 14ILEHM 0.8 0.6 0.4 0.2 0.0 0.2 0.4 Comp.1 11MYLLY Fragvire 39IKIVI 26YLIMM 37HANKA Anoms.br 25MVALK Frr.saxo 35ISOH Frusrho 0.15 0.10 0.05 0.00 0.05 0.10 Olemme esittäneet pääkomponenttianalyysin alkuperäisen aineiston rotaationa. Akseleiden numeeriset arvot määräytyvät siis alkuperäisten lukujen asteikosta. Hyvin monet ohjelmat tekevät kuitenkin pääkomponenttianalyysin ristitulomatriisin kautta, jolloin yhteys alkuperäisten muuttujien asteikon ja pääkomponenttien välillä saattaa hämärtyä. Geo- Kuva 1.4: Biplot on graafinen aproksimaatio alkuperäiselle havaintoaineistolle: sekä lajit että näytealat esitetään samassa diagrammissa (ja usein aika vaikealukuinen).
10 Ordinaatio: perusmenetelmät metrinen suhde kuitenkin säilyy, mutta meidän on muunnettava lajiavaruutta ennen analyysia. Joitain kirjallisuudessa usein esiintyviä pääkomponenttianalyysin tyyppejä ovat: Keskistämätön: Origon siirto jätetään tekemättä ja rotaatio tehdään alkuperäisen origon varassa. Alkuperäisessä origossa kaikkien lajien runsaus on nolla eli analyysin origo on tyhjä näyteala. Ensimmäinen pääkomponentti tulee todennäköisesti kulkemaan tyhjästä näytealasta sentroidiin eli ensimmäinen pääkomponentti yrittää toteuttaa keskistämisen. Toinen keskistämätön pääkomponentti muistuttaa usein hyvin paljon keskistetyn analyysin ensimmäistä pääkomponenttia. Keskistämätöntä analyysia näkee silloin tällöin käytettävän ja sille esitettävän erilaisia perusteita. Yleensä kyse on kuitenkin harhautuneen mielen sekavista unelmista. Standardisoitu pääkomponenttianalyysi tehdään korrelaatiomatriisista. Geometrisesti siirretään origo keskustaan ja sen jälkeen siirretään kaikki pisteet yksikön päähän origosta eli hyperpallon pinnalle. Pisteiden katsomiskulmat θ jk (kaava 1.3) säilyvät muuttumattomina eli pisteet sijaitsevat origosta katsoen samalla nuolella. Niitä siirretään kuitenkin nuolta pitkin siten, että kaikki ovat samalla etäisyydellä origosta. Huomattakoon, että keskistäminen ja standardisointi on tehtävä aina lajeille. Ekologit käyttävät yleensä keskistettyä ja standardisoimatonta pääkomponenttianalyysia. Tämä on mahdollista yhteisöaineistossa, sillä kaikkien lajien runsaudet on mitattu vertailukelpoisella asteikolla. Muunlaisissa aineistoissa standardisointi eli korrelaatioden käyttö on usein välttämätöntä, sillä muuttujat on mitattu eri asteikolla. Yksikkömuutokset vaikuttavat silloin sekä kovariansseihin että variansseihin ja näin ollen myös analyysin tuloksiin. Esimerkiksi kemiallisia mittauksia analysoitaessa korrelaatioiden käyttö on välttämätöntä. 1.1.7 Tulosten esitys Pääkomponenttianalyysin tulokset antava pienimmän neliösumman estimaatin analyysissä käytetylle aineistolle. Esimerkissämme aineiston kokonaisvaihtelu on 0.209. Kahden ensimmäisen pääkomponentin ominaisarvot ovat λ 1 = 0.0686,λ 2 = 0.0555 eli 32.8 % ja 26.5 % aineiston kokonaisvaihtelusta. Seuraavan akselin ominaisarvo on jo selvästi alhaisempi (λ 3 = 0.0264) ja kaksi ensimmäistä akselia selittää jo 59.3 % kokonaisvaihtelusta, mikä on ekologisessa aineistossa melko suuri selitysosuus. Näytealojen ordinointipisteet ensimmäisille komponenteille ja ensimmäisille näytealoille ovat: Comp.1 Comp.2 Comp.3 Comp.4 14ILEHM 0.003600458-0.05787075 0.01417791 0.019200501 581MAKI 0.048573814-0.04567157 0.12390306 0.012111457 35ISOHA 0.121605970-0.13782598-0.06513644-0.001091002 95VALKE -0.207719420-0.09135796-0.01914652 0.013748538 11MYLLY 0.009604907 0.10509896-0.02036629 0.115906103 Nämä pisteet on tällä kertaa skaalattu ominaisarvoilla, joten ne esittävät pisteiden oikean konfiguraation (kuva 1.5). Yksi järvistä, kirkasvetinen 95VALKE näyttää poikkeavan kaikista muista. Järvet näyttävät asettuvan
1.1. Pääkomponenttianalyysi 11 ph Väri 0.15 0.05 0.05 5.76 5.8 6.59 6.03 6.37 6.24 6 5.64 5.86 4.8 5 4.62 0.15 0.05 0.05 10 60 90 150 15 31 15 80 60 25 60 250 0.20 0.10 0.00 0.10 0.20 0.10 0.00 0.10 Kuva 1.5: Järvien pääkompononttiordinaatio. Osakuvissa on esitetty järvien happamuus sekä väri (Pt). kaarelle. 95VALKE on yksin vasemmassa sakarassa. Lähes yhtä äärimmäinen on hapan ja tummavetinen järvi oikeass sakarassa. Akseleja sinällään ei kannattane tarkastella, vaan näyttää, että on parempi seurata kaarta eli hevosenkenkää. Vastaavasti muutaman ensimmäisen lajin ordinointipisteet ovat: Comp.1 Comp.2 Comp.3 Comp.4 Anome.la -0.15531912 0.004954253-0.037757664 0.002928109 Anoms.br 0.06087619 0.161913600 0.003792275 0.617213795 Cymbamce -0.05630433-0.031028952-0.001163902 0.022770319 Cymbgrac -0.20401755-0.022228773-0.088777567 0.092870640 Eunoluna 0.09946682-0.056776353 0.395429189 0.102008436 Lajipisteitä ei ole tällä kertaa skaalattu ominaisarvojen mukaan, vaan kaikkien komponenttien latausten neliöiden summa on 1. Lajipisteet eivät siis ole suhteessa akselien tärkeyteen eikä niiden perusteella piirretty kuva esitä lajien oikeata konfiguraatiota. Yhdessä näytealapisteiden kanssa ne kuitenkin esittävät aineiston graafisen aproksimaation eli biplotin (kuva 1.4). Näytealojen ja lajien ordinointipisteiden avulla voimme laskea myös pienimmän neliösumman estimaatin alkuperäisestä havaintoaineistosta. Ensimmäisen järven ensimmäiset lajit ovat: Anome.la Anoms.br Cymbamce Cymbgrac Eunoluna 14ILEHM 0.01201201 0.03903904 0 0.01501502 0.01501502 Näistä voimme ottaa tarkastelun kohteeksi ensimmäisen lajin, jonka runsaus on x 11 = 0.0120. Ilman pääkomponenttianalyysia sen runsauden voi olettaa olevan sama kuin koko aineiston keskiarvo lajille, eli tässä tapauksessa x 1 = 0.0234. Lajimme on siis keskimääräistä niukempi ensimmäisessä järvessä. Kaava 1.4 avulla voimme laskea sen odotetun runsauden ensimmäisen pääkomponentin perusteella: x (1) 11 = 0.0234 + 0.0036 ( 0.1553) = 0.0229 Ominaisarvot sisältyivät jo näytealapisteisiin, joten niitä ei tarvinnut kirjoittaa näkyviin. Ensimmäinen pääkomponentti korjasi odotettua runsautta havaittuun suuntaan, muttei kovin paljon. Ero havaitun ja ennustetun runsauden välillä on vielä melko suuri. Itse asiassa neljän ensimmäisen pääkomponentin mukaan ennustetut arvot eivät muutu kovin = 0.0221. Vasta yhdeksännel- paljon: x (2) 11 = 0.226, x(3) 11 = 0.0221, x(4) 11 lä komponentilla tapahtuu ratkaiseva paraneminen ( x (9) 11 = 0.0121). Kyseistä havaintoarvoa ei siis pysty kovin hyvin ennustamaan parin ensimmäisen pääkomponentin perusteella. Koska kaksi ensimmäistä pääkomponenttia kuitenkin selittää yli puolet aineiston vaihtelusta, monia
12 Ordinaatio: perusmenetelmät muita havaintoarvoja pystytään ilmeisestikin esittämään paljon paremmin. Pääkomponenttianalyysi on rotaatio keskipisteen varassa, joten keskipiste eli origo on syytä aina piirtää kuvaan. Origolla on erityinen merkitys: se on oletustilanne, johon kaikkia paikkoja ja lajeja verrataan. Keskistäminen tehdään lajeittain, joten kullekin lajille origo esittää lajin keskimääräistä runsautta. Paitsi pisteinä, ordinoinnin tulokset esitetään usein myös nuolina (kuva 1.4). Nuolen pituus osoittaa, kuinka voimakkaasti laji lisääntyy keskirunsaudestaan eli origosta ja nuolen suunta osoittaa, sen suunnan ordinointiavaruudessa, johon lajin runsastuminen on voimakkainta. Biplotissa voimme arvioida lajin runsauden näytealalla projisoimalla näytealapisteen lajinuolelle: mitä lähempänä origoa projektio on, sitä lähempänä yleiskeskiarvoaaan arvioimme lajin runsauden näytealalla olevan. Tämä projektio on tietenkin vain pienimmän neliösumman estimaatti: lajin runsaus voi poiketa paljonkin projektiosta. Näytealoille origo osoittaa tilanteen, missä kukin laji esiintyy keskimääräisellä runsaudellaan. Mitä kauempana näytealapiste on origosta, sitä enemmän näytealan arvioidaan poikkeavan keskimääräisestä. Tämän takia myös näytealat voidaan esittää nuolina origosta. Origossa siis kaikki lajit esiintyvät, mutta useimmat lajit hyvin niukkina. Tämä on tietystikin luonnonvastainen tilanne, sillä on hyvin epätodennäköistä että tällainen näyteala on olemassa. Origon ympäristön voi siis olettaa olevan tyhjä: kaikki näytealat poikkeavat mielettömästä oletuksesta. Mikäli origon lähellä on näyteala, se tietysti saattaa olla keskimääräinen. Koska keskimääräisyys pääkomponenttianalyysin mielessä on melko epätodennäköinen tila, on todennäköisempää, että origon lähellä oleva näyteala on vain huonosti ordinoitu ja sen esittäminen vaatisi useamman pääkomponentin käyttöä. Näytealapisteisiin pätee siis sama kuin lajipisteisiin: etäisyys origosta kuvaa, kuinka voimakkaasti tämän ordinoinnin perusteella näyteala poikkeaa keskimääräisestä ja suunta osoittaa voimakkainta gradienttia ordinointikuvassa. Nämä tulkinnat tulevat vielä selkeämmiksi jos käytämme korrelaatioita kovarienssien sijaan. Tällöin kaikkien lajien varianssit ovat alkujaan yhtä pitkät. Pisteet sijaitsevat siis alkujaan yksikkösäteisen hyperpallon pinnalla. Pääkomponenttianalyysi projisoi tämän hyperpallon niukkaulotteiseen ordinointikuvaan. Mikäli tämä projektio onnistui eli kaikki pisteet on selitetty hyvin ja selitysaste on korkea, kaikki pisteet ovat lähellä yksikkösäteistä ympyrää. Origo on siis täysin tyhjä. Standardisoimattomassa eli kovariansseja ja variansseja käyttävässä pääkomponenttianalyysissa pisteiden alkuperäinen etäisyys origosta vaihtelee, joten onnistuneessakaan analyysissa ei ole selkeää ympyrää vaikka origon lähistö yleensä onkin tyhjä. Origon lähellä on tällöin sellaisia pisteitä, joiden alkuperäinen etäisyys origosta oli lyhyt, sekä niiden seassa mahdollisesti huonosti selitettyjä pisteitä. Origokeskeisyytensä takia pääkomponenttianalyysia ei tulisi tarkastella akseleittain vaan pikemminkin pitäisi katsoa suuntia ja etäisyyksiä origosta. Pisteiden välistä samanlaisuutta kuvaa pikemminkin pisteiden välinen katsomiskulma kuin pisteiden välimatka. Pisteen etäisyys origosta taas kertoo, kuinka poikkeava piste on keskimääräisestä tilanteesta. Jos etäisyys origosta on liki yhtä pitkä kuin alkuperäisessä lajiavaruudessa, piste on myös hyvin selitetty. 1.1.8 Algoritmi Vaikka lupasinkin jättää algoritmit numeerisen matematiikan kirjoihin, esittelen kuitenkin yksinkertaisen mutta numeerisesti surkean ta-
1.2. Korrespondenssianalyysi 13 van laskea singulaariarvohajotelma eli yhtaikainen pääkomponenttianalyysi sekä lajeille että näytealoille. Tätä algoritmia ei todellakaan pidä käyttää edes omissa testiohjelmissa, mutta esitän sen, koska se on niin yksinkertainen, että mystiikka pääkomponenttianalyysin ympäriltä saattaa hieman karista. Yksinkertaisin algoritmi tunnetaan nimellä potenssimenetelmä. 1. Aloitamme mielivaltaisella vektorilla u 2. Normitamme vektoron u siten että i u 2 i = 1. 3. Laskemme kullekin sarakkeelle vektorin v painotettuna summana v j = i u i x i j. 4. Jos vektori v on samanlainen kuin edellisellä kierroksella, lopetamme: olemme löytäneet ensimmäiset ominaisvektorit u ja v. 5. Muuten laskemme työvektorista u uuden vektorin v jälleen lajimatriisin riveillä painotettuna summana u i = j v j x i j. 6. Jatkamme askelesta 2 eli normitamme vektorin v. Painotetut summat pystyy esittämään myös matriisin ja vektorin toistuvana kertolaskuna. Menetelmän nimi johtuu siitä, että itse asiassa kerromme aloitusvektorimme matriisin korkeahkolla potenssilla. Teorian mukaan tällöin saamme tulosvektoriksi aina ensimmäisen ominaisvektorin. Tästä johtuu myös, että siirtymämatriisit johtavat aina vakaaseen tilajakaumaan, joka voidaan arvioida siirtymämatriisin ensimmäisenä ominaisvektorina. Menetelmä on näin helppo vain ensimmäiselle ominaisvektorille. Myöhempiä ominaisvektoreita arvioidassamme, joudumme ortogonalisoimaan ne edellisiin nähden. Katsokaamme leikkiesimerkkiämme, ja siinä nimenomaan 10 saraketta, joille olemme jo laskeneet tuloksen. Aluksi meidän on keskistettävä matriisi eli vähennettävä siitä keskiarvot. Sen jälkeen annamme kahdelle rivillemme mielivaltaiset kertoimet 1, 1, joista normituksen jälkeen tulee 0.707,0.707. Sitten tulokset kertolaskuista: 4.60 3.18 0.35 0.35 0.35 0.35 0.35 2.47 1.77 3.89 5.10 3.03 0.64 0.22 0.29 0.57 0.06 2.45 1.94 3.82 5.15 2.99 0.68 0.20 0.28 0.60 0.12 2.43 1.96 3.79 5.15 2.99 0.68 0.20 0.28 0.60 0.13 2.43 1.96 3.79 Konvergenssi on hyvin nopea ja viimeistään tässä vaiheessa voimme olla tyytyväisiä, kahden desimaalin tarkkuudella. Normituksen jälkeen rivivektorin alkiot ovat 0.881, 0.474 eli samat kuin pääkomponenttianalyysin lataukset aiemmin. Sen sijaan sarakapisteitä ei ole normitettu ja niiden neliöiden summa antaa ensimmäisen ominaisarvon λ 1 = c 2 i = 60.53. Kaikki tämä tapahtui laskemalla vain painotettuja summia. Voisiko mikään ordinointimenetelmä olla helpompi laskea käsin kuin pääkomponenttianalyysi? 1.2 Korrespondenssianalyysi Korrespondenssianalyysi johdannaisineen on varmaankin suosituin ordinointimenetelmä. Korrespondenssianalyysi on ominaisvektorimenetelmä, aivan kuten pääkomponenttianalyysi. Se käyttää kuitenkin toisenlaista metriikkaa eli tapaa mitata pisteiden etäisyys. Tämä pieni ero on usein ratkaiseva kasvillisuusaineistojen analyysissa, ja niinpä korrespondenssianalyysi on yleensä paljon pääkomponenttianalyysia parempi vaihtoehto.
14 Ordinaatio: perusmenetelmät Korrespondenssianalyysi on keksitty itsenäisesti lukuisia kertoja ja niinpä se myös tunnetaan lukuisilla nimillä. Kasvillisuusekologiassa se keksittiin itsenäisesti nimellä vastinkeskiarvo-ordinointi vuonna 1973. Korrespondenssianalyysin tavoitteet voidaan määritellä ainakin kolmella eri tavalla, jotka kaikki johtavat samaan lopulliseen malliin: 1. Vastinkeskiarvo-ordinointi: Näytealojen ordinointipisteet ovat lajipisteiden painotettuja keskiarvoja ja samanaikaisesti lajipisteet ovat näytealapisteiden painotettuja keskiarvoja. 2. Korrespondenssianalyysi: Painotettu pääkomponenttianalyysi χ 2 metriikalla. 3. Optimaalinen skaalaus: Näytealalla esiintyvien lajien ordinointipisteiden painotettu varianssi on minimoitu ja samalla niiden näytealojen ordinointipisteiden painotettu varianssi, joilla laji esiintyy on minimoitu. Nämä eivät itse asiassa ole vaihtoehtoisia vaan toisiaan täydentäviä määritelmiä: kukin painottaa voimakkaammin jotain korrespondenssianalyysin ominaisuutta, mutta muiden tavoitteiden painotukset eivät häviä. Vaikka haluaisimme keskittyä vastinkeskiarvo-ominaisuuksiin, säilyvät myös pääkomponenttianalyysin ominaisuudet. Lajin runsaus 0.0 0.4 0.8 4.5 5.0 5.5 6.0 6.5 Gradientti Kuva 1.6: Ideaalimallissa lajeilla on yksihuippuiset, symmetriset vasteet ekologisella gradientilla. dienttipisteissä j (kaava 1.5). Jos lajivasteet todellakin ovat symmetri- siä ja havaintopisteitä on tasaisesti huipun kummallakin puolella, näin saadut estimaatit ũ voivat olla hyvin lähellä todellisia optimeita u. Lajin painotettu keskiarvo on lajioptimin estimaatti. Voimme toki käyttää kaavaa 1.5 myös käänteisesti: jos tunnemme lajioptimit u, voimme laskea gradienttiarvon estimaatin g lajioptimien runsauksilla painotettuna keskiarvona. Painotettuja keskiarvoja laskettiin aluksi molempiin suuntiin: sekä lajeille että näytealoille. Pian kuitenkin huomattiin, että jos aloitamme mistä tahansa gradienttiarvoista g ja sovellamme toistuvasti kaavoja ũ g, g ũ, sovellamme itse asiassa potenssimenetelmää (luku 1.1.8) korrespondenssianalyysin laskemiseksi. Aiemmin pääkomponenttianalyysin yhteydessä esittämämme algoritmi tarvitsee vain pari muutosta: ũ = N j=1 x i jg j N j=1 x i j 1.2.1 Vastinkeskiarvot ja painotetut keskiarvot (1.5) Ekologit olettavat yleensä, että lajien vaste ympäristötekijään on unimodaalinen: lajin vastekäyrässä ekologisella gradientilla on yksi huippu ja tästä huipusta kumpaankiin suuntaan laji niukkenee (kuva 1.6). Sitä gradienttiarvoa, missä huippu sijaitsee, sanotaan lajin optimiksi gradientilla. Mikäli lajien vasteet ovat yksihuippuisia, tavalliset lineaariset menetelmät, kuten lineaarinen regressio, eivät sovi lajivasteiden analysointiin. Sen sijaan tavattoman yksinkertainen painotettu keskiarvo on usein hyvin käyttökelpoinen. Painotetussa keskiarvossa arvioidaan optimin u sijainti gradientilla g käyttämällä painoina lajien runsausarvoja x gra- 1. Myöhempiä laskuja helpottamaan laskemme alukis rivisummat x i+ = j x i j sekä sarakesummat x + j = i x i j ; nämä ovat itse asiassa painotettujen keskiarvojen jakajia eli painojen summia. 2. Aloitamme mielivaltaisella vektorilla u 3. Normitamme vektorin u siten että painotettu summa i x i+ u 2 i = 1. 4. Laskemme kullekin sarakkeelle vektorin v painotettuna keskiarvona v j = i u i x i j /x + j.
1.2. Korrespondenssianalyysi 15 ph 5.0 5.5 6.0 6.5 Väri 50 150 250 2 1 0 1 2 3 1. vastinkeskiarvo 2 1 0 1 2 3 1. vastinkeskiarvo Kuva 1.7: Ensimmäinen vastinkeskiarvoakseli ja tärkeäksi arvellut ympäristämuuttujat piileväaineistossa 5. Jos vektori v on samanlainen kuin edellisellä kierroksella, lopetamme: olemme löytäneet ensimmäiset ominaisvektorit u ja v. 6. Muuten laskemme työvektorista v uuden vektorin u jälleen lajimatriisin riveillä painotettuna keskiarvona u i = j v j x i j /x i+. 7. Jatkamme askelesta 3 eli normitamme vektorin u. Tärkein muutos oli, että painotettujen summien sijaan käytimme painotettuja keskiarvoja. Myös normitus oli hieman toisenlainen olisimme kuitenkin voineet käyttää myös alkuperäistä normitusta ilman painoja, mutta silloin emme olisi saaneet ominaisarvoa yhtä helposti: nyt λ 1 = c j v 2 j. Normitus tehdään sen takia, että toistettaessa iterointisyklejä, vektorien skaala muuttuu. Korrespondenssianalyysin tapauksessa vaihteluväli supistuu joka askelella ja normitus palauttaa alkuperäisen vaihteluvälin. Pääkomponenttianalyysissa vaihteluväli myös muuttuu, mutta se voi myös laajeta supistumisen sijaan. Tämä johtaisi ennen pitkään numeerisiin ongelmiin ja joka tapauksessa ongelmiin esitystekniikassa, joten jonkinlainen normitus on tehtävä. Yleensä keskiarvojen vaihteluväli on paljon suppeampi kuin niiden lukujen vaihteluväli, joista ne on laskettu. Niinpä myös painotetut keskiarvot supistuvat tekijöihinsä verrattuna. Akselin ominaisarvo mittaa painotettujen keskiarvojen vaihteluvälin supistumista. Korrespondenssinalyysi voidaan siis tehdä laskemalla toistuvasti painotettuja keskiarvoja. Koska painotetut keskiarvot voivat aproksimoida lajien optimien sijaintia tai toisaalta gradienttiarvoja, korrespondenssianalyysi ihannetilanteessa estimoi samoja parametria. Voidaan ajatella, että Korrespondenssianalyysin akselit ovat aineistosta löydettyjä gradientteja. Näytealapisteet ovat arvioita näytealojen sijainnista näillä gradienteilla. Lajipisteet ovat arvioita lajien optimeista näillä gradienteilla. Jos vielä onnistumme tulkitsemaan nämä gradientit, voimme selittää aineiston rakenteen ja päävaihtelusuunnat muutaman gradientin perusteella. Piileväaineistossamme konvergenssi on tällä kertaa hyvin hidasta ja tarvitaan ainakin 20 iteraatiokierrosta, jotta päästään stabiiliin lopputulokseen. Näyttää kuitenkin, että ensimmäinen ordinointiakseli tuntuu yllättävän hyvin löytävän tärkeiksi arvellut ympäristömuuttujat vaikka sillä ei ollutkaan niistä mitään tietoa, vaan ordinointi pohjautui vain lajistoon (kuva 1.7).
16 Ordinaatio: perusmenetelmät 1.2.2 Geometrinen tulkinta Geometrisena menetelmänä korrespondenssianalyysi on χ 2 metriikkaa käyttävä painotettu pääkomponenttianalyysi. χ 2 metriikka tarkoittaa, että reunasummien perusteella arvioidaan kunkin lajin odotusarvo näytealalla, ja havaittua runsautta verrataan tähän odotusarvoon χ 2 tapaan. Kullekin näytealalle lasketaan odotettu lajiprofiili, joka kertoo mikä on kunkin lajin osuus näytealan kokonaisrunsaudesta. Tämä profiili lasketaan lajien runsausarvojen summista koko aineistossa. Vastaavasti kullekin lajille lasketaan odotettu näytealaprofiili eli lajin runsausarvojen odotetaan jakautuvan näytealoilla samassa suhteissa kuin näytealojen runsausarvojen summat. Nämäkin saadaan reunasummina. Näiden reunasummien perusteella lasketaan odotusrunsaudet: jos lajin suhteellinen osuus on kaikista lajeista on r i ja paikan suhteellinen osuus kaikista paikoista on c j niin odotettu runsaus on ˆx i j = r i c j. Tämä antaa meille odotusarvon, jota voimme käyttää χ 2 laskemisessa. Korrespondenssianalyysi ei kuitenkaan ole yksioikoinen pääkomponenttianalyysi erikoisesti muunnetulle lajiavaruudelle vaan se on painotettu pääkomponenttianalyysi. Reunasummia r i ja c j käytetään myös suoraan painottamaan pisteitä. Tämän perusteella saamme yksinkertaisen algoritmin korrespondenssianalyysille: 1. Alkuvalmisteluna jaa matriisin kaikki alkiot matriisin kokonaissummalla: A i j = x i j / i j x i j. Laske tämän jälkeen reunasummat x i+ ja x + j muunnetusta matriisista. Tällöin kaikki luvut ovat suhteellisia eli i x i+ = j x + j = i j A i j = 1. 2. Laske alkioiden poikkeama reunasummien mukaisesta odotusarvosta ja jaa se odotusarvon neliöjuurella χ i j = A i j x i+ x + j xi+ x + j (1.6) Tämä on itse asiassa χ 2 kaaavan yksittäisen elementin neliöjuuri eli tästä matriisista laskettu ristitulomatriisi antaisi meille χ 2 matriisin. 3. Tee matriisille χ singulaariarvohajotelma χ (M) i j = m u im λm 1/2 v jm. Tästä saadaan tulokseksi ominaisarvot λ sekä normitetut ominaisvektorit riveille ja sarakkeille u ja v. 4. Painota ominaisvektorit reunasummilla, jolloin tulokseksi saadaan korrespodenssianalyysin ordinointipisteet f i = u i 1/xi+ ja g j = v j 1/x+ j. Korrespondenssianalyysin ytimessä on siis sama singulaariarvohajotelma kuin pääkomponenttianalyysissa, mutta sekä sitä ennen että sen jälkeen aineistolle tehdään muunnoksia. Esimuunnokset takaavat χ 2 metriikan, jälkimuunnokset painotetun pääkomponenttianalyysin. Yhdessä ne takaavat saman tuloksen kuin painotetut keskiarvot. Painotetut keskiarvot tuottivat saman tuloksen huomattavasti helpommin. Pääkomponenttianalyysin yhteydessä näimme, että singulaariarvohajotelman pystyy arvioimaan painotettuina summina. Korrespondenssianalyysi taas pystytään suoraan arvioimaan painotettuina keskiarvoina: singulaariarvohajotelman esi- ja jälkistandardointi sisältyvät keskiarvojen laskemiseen. Tässä esitetty algoritmi on numeerisesti luotettavampi kuin painotetut keskiarvot. Singulaariarvohajotelmaa ei kuitenkaan pidä mennä laskemaan painotettuina summina, vaan juuri sitä varten on olemassa erittäin luotettavia ja tarkkoja algoritmeja. Niitä ei pidä
1.2. Korrespondenssianalyysi 17 mennä kirjoittamaan itse uudelleen vaan ne löytyvät lukuisista luotettavista numeerisista aliohjelmakirjastoista läpeensä testattuina ja erittäin vakaina versioina. Koska laskenta pohjautuu singulaariarvohajotelmaan, ensimmäiset m korrespondenssianalyysia antavat alkuperäisen havaintomatriisin X m asteisen aproksimaation. Tällä kertaa se ei kuitenkaan ole pienimmän neliösumman aproksimaatio kuten pääkomponenttianalyysisä vaan χ 2 kriteerin minimoima aproksimaatio. Toistaiseksi säästän teidät kuitenkin laskukaavalta... Singulaariarvohajotelman laskemat ominaisvektorit ovat normitettuja siten että i u 2 i = j v 2 j = 1 ja lisäksi i u i = j v j = 0. Painotetuille korrespondenssianalyysin pisteille f i ja g i tämä ei enää suoraan päde, vaan niissä on myös painot r i ja c j otettava huomioon. Korrespondenssianalyysin pisteet eivät kuitenkaan suoraan ota huomioon akselin tärkeyttä eli ominaisarvoa. Voimme jälleen yhdistää ominaisarvon jompaan kumpaan pisteryhmään. Tavallisessa korrespondenssianalyysissa on ollut tavallista, että näytealoista halutaan esittää todellinen konfiguraatio, eli akselit halutaan skaalata ominaisarvoilla. Tällöin lajit esitetään skaalamattomina. Tuloksissa esitetään siis pisteet λ 1/2 m g im ja f im. Näinkin laadittu kuva on eräänlainen biplot, mutta tällä kertaa χ 2 biplot pienimmän neliösumman biplotin sijaan. Etenkin ekologian ulkopuolella käytetään myös symmetristä biplottia, missä sekä muuttujat että havainnot on skaalattu kertoimella λ 1/4 m (kuva 1.8). Geometrisesta tulkinnasta tuo ilmi erään kiusallisen seikan: harvinaiset lajit näyttävät usein äärimmäisiltä korrespondenssianalyysissa. Tämä johtuu siitä, että lajin havaittua runsautta verrataan sen odotettuun runsauteen eli profiiliin joka lasketaan reunasummasta. Vaikka lajin reunasumma koostuisi vain yhdestä ainoasta esiintymästä, profiili olettaa että summa on jakautunut näytealoille niiden kokonaissummien perusteella. Harvinaisen lajin oletetaan siis esiintyvän niukkana joka ruudulla. χ 2 laskuissa taas jakajana on odotusprofiili eli pieni runsaus. Siinä ruudussa, missä laji todella esiintyy ero havaitun runsauden ja vähäisen odotusarvon välillä on suuri ja lisäksi jakajana on vähäinen odotusarvo. Jos tällaisen laji ordinointi onnistuu, se on kaukana origosta eli näyttää äärimmäiseltä. Toisaalta tällaisella lajilla ei välttämättä ole kovin suurta painoa ordinoinnissa: korrespondenssianalyysi on toki painotettu pääkomponenttianalyysi. Harvinaiset lajit ovat siis usein äärimmäisiä mutteivät välttämättä vaikuttavia. 1.5 1.0 0.5 0.0 0.5 1.0 Bar.lyc Bet.pub Hyl.spl Vac.myr Pti.cil Led.pal Dic.pol Pol.com Des.fle Cla.bot Ple.sch Dic.sp Nep.arc Pol.jun Dic.fus Cla.unc Cet.isl Cla.chl Poh.nut Pin.syl Cla.sp Emp.nig Vac.vit Pel.aph Cla.cor Cla.fim Cla.gra Cla.def Cla.cri Cla.coc Cet.eri Dip.mon Cla.ran Pol.pil Cla.arb Cla.ama Cal.vul Vac.uli Ich.eri Ste.sp Cla.cer Cla.phy Cla.ste Cet.niv 1.5 1.0 0.5 0.0 0.5 1.0 Kuva 1.8: Lajit ja näytealat esitettynä samassa korrespondenssianalyysin biplotissa, tällä kertaa symmetrisesti skaalattuina. 1.2.3 Optimaalinen pisteytys Optimaalisessa pisteytyksessä kaikkia tietyllä näytealalla esiintyvät lajit ovat toistensa kaltaisia. Niiden ordinointipisteiden pitäisi olla mahdollisimman lähellä toisiaan ja myös paikan ordinointpisteitä. Tämän likeisyyden pitäisi myös olla painotettua: mitä runsaampi laji paikalla on, sitä tärkeämpää on, että sen ordinointipisteet ovat lähellä muita lajeja ja lähellä paikan ordinointipistettä. Samanaikaisesti vaaditaan myös, että kaikkien niiden paikkojen, joissa laji esiintyy, on oltava ordinointipisteiltään mahdollisimman likeisiä. Myös tämä vaatimus on painotettu: niiden paikkojen pisteet ovat tärkeämpiä, joissa laji on runsaimmillaan. Optimaalista pisteytystä haetaan varianssianalyysin kautta. Paitsi painotettu keskiarvo, kullekin paikalle voidaan laskea painotettu varianssi. Paikan sisäinen painotettu varianssi kuvaa paikan sisävaihtelua. Vastaavasti reunasummista laskettu painotettu varianssi kuvaa kaikkien paikkojen kokonaisvaihtelua. Näiden erotus kuvaa paikkojen välivaihtelua.