Paikkatiedon käsittely 11. Suuren mittakaavan

HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Paikkatiedon käsittely 11. Suuren mittakaavan ilmiöt Antti Leino antti.leino@cs.helsinki.fi 19.2.2007 Tietojenkäsittelytieteen laitos

Suuren mittakaavan ilmiöt Tässä kolmenlaisia Pistekohteiden 1. kertaluvun vaihtelu pisteiden intensiteetin alueellinen vaihtelu Aluekohteiden 1. kertaluvun vaihtelu yhden alueellisesti esitetyn ilmiön vaihtelu Suuren muuttujajoukon kokonaiskuva varsinaisesti aluekohteille pistekohteet muunnettava alueittaiseksi

Pistekuvion 1. kertaluvun vaihtelu Kuvattavissa intensiteettifunktiona E ( Y(ds) ) λ(s) = lim ds 0 ds Y(ds) ds pisteiden tiheys s:n ympäristössä Intensiteetti on tämän odotusarvon raja-arvo, kun ympäristön pinta-ala 0

Tiheyden estimointi Jaetaan tutkittava alue tasakokoisiin ruutuihin Lasketaan pisteiden määrä kussakin ruudussa > library(spatstat) > data(swedishpines) > plot(swedishpines$window, + Lukumäärät ruuduittain, + cex.main=2, xlim=c(-30,100)) > xbreaks=seq(0, 96, length=5) > ybreaks=seq(0, 100, length=5) > counts=table(cut(swedishpines$x, + breaks=xbreaks), cut(swedishpines$y, + breaks=ybreaks)) > image(xbreaks, ybreaks, counts, + col=gray((8:1)/8), zlim=c(0,7), + add=t) > plot(swedishpines, add=t, pch=16, col=2) > plot(swedishpines$window, add=t) > legend(-30, 100, 0:7, fill=gray((8:1)/8))

Ruuduittaiset lukumäärät Tässä muunnetaan pisteaineisto alueittaiseksi Jatkokäsittely alueaineiston tapaan Osa paikkatiedosta hävitetään Resoluutio valittavissa ruudun kokoa säätämällä Ruutukoon pienentäminen lisää kohinaa

Ydinestimaatti Kunkin pisteen ympärille ydinfunktio: kaksiulotteinen normaalijakauma (tai muu tiheysfunktio) Estimoidaan intensiteetti pisteiden välillä näiden summana ˆλ τ (s) = 1 n 1 ( s δ τ (s) τ 2 k si ) τ i=1 s 1,...,s n pisteiden paikat k ydinfunktio τ > 0 siloitusparametri δ τ (s) reunakorjaus

Ydinestimaatin siloitusparametri Vaikuttaa tarkastelumittakaavaan > plot(swedishpines, pch=16, col=2) > plot(swedishpines$window, add=t) > library(splancs) > poly=as.points(swedishpines$window$xrange[c(1,2,2,1)], + swedishpines$window$yrange[c(2,2,1,1)]) > plot(swedishpines$window, ) > image(kernel2d(as.points(swedishpines), poly, 5, 200, 200), + col=gray(10:3/10), add=t) > plot(swedishpines$window, add=t) > image(kernel2d(as.points(swedishpines), poly, 10, 200, + 200), col=gray(10:3/10), add=t) > image(kernel2d(as.points(swedishpines), poly, 15, 200, + 200), col=gray(10:3/10), add=t)

Alueittaisen aineiston 1. kertaluvun vaihtelu Muutama erilainen menetelmä Liukuva keskiarvo Esitetään kukin alue naapureidensa keskiarvona Ydinestimointi Muunnetaan alueaineisto pistekuvioksi Median Polish Muodoltaan säännöllisille alueille

Liukuva keskiarvo Käytetään alueen oman arvon sijasta sen naapurien (etäisyydellä painotettua) keskiarvoa n j=1 w ijy j ˆµ i = n j=1 w ij Lähtökohtana läheisyysmatriisi, kuten I- ja C- mitoissa Jos läheisyysmatriisina on normalisoitu vierusmatriisi, jakaja = 1 Yksinkertainen laskea, jo tietokantaoperaatioilla

Alueaineiston ydinestimointi Ydinestimointi sinänsä pistemuotoisen datan analysointimenetelmä Siispä muutetaan alueet pisteiksi Esitetään kukin alue keskipisteenään Lasketaan tälle aineistolle ydinestimaatti Vaihtoehtoisesti myös muut pisteaineiston käsittelymenetelmät käytössä

Median Polish»mediaanin kiillotus» Soveltuu säännölliselle ruudukolle Sietää kohinaa paremmin kuin liukuva keskiarvo Esitetään kukin ruutu hajotelmana y ij = µ +r i +c j + ε ij µ globaali keskiarvo r i, c j rivi- ja saraketrendit ε ij satunnaisvirhe

Laajan muuttujajoukon yleiskuva Tähänastiset menetelmät tarkastelleet vain yhtä aineistoa (ominaisuustietoa) kerrallaan Tiedon louhinnassa usein suuri joskus hyvinkin suuri määrä muuttujia

Dimensionaalisuuden kirous Satojen tai tuhansien teemakarttojen tarkastelu ylivoimaisen työlästä Tehtävä: tiivistä olennainen muutamaan karttaan

Yleiskuvan laatiminen Aluekohteille suhteellisen suoraviivaista Käytetään tilastollisia monimuuttujamenetelmiä Tässä vaiheessa sijaintitieto ei käytössä Esitetään tulokset kartalla Pisteaineistot muutettava alueellisiksi Olemassa oleva aluejako Säännöllinen hila Kunkin joukon pisteiden esiintymät alueilla

Pisteaineiston muuntaminen alueiksi Valmis aluejako vai hila? Hila on säännöllinen koko ei vaikuta Valmis aluejako ehkä merkityksellinen ei hävitä tietoa ehkä yhtä paljon kuin hila Mitä pisteistä otetaan mukaan? Pisteiden merkit tyypillisesti luokittelevia Erityyppisten pisteiden lukumäärä kullakin alueella? Erityyppisten pisteiden esiintymisfrekvenssi? Binäärinen esiintyy / ei -tieto kustakin tyypistä? Valinta riippuu sovelluksesta

Dimensioiden karsiminen Lähtökohta: esitetään data matriisina alueet muuttujat Tavoite: matriisi alueet taustatekijät Taustatekijöitä olennaisesti vähemmän kuin alkuperäisiä muuttujia Kertovat jotakin mielenkiintoista Tyypillinen menetelmä: lineaarimuunnos Kussakin taustatekijässä on mukana jokainen alkuperäinen muuttuja omalla painokertoimellaan Lukuisa määrä erilaisia vaihtoehtoja

Pääkomponenttianalyysi Principal Component Analysis (PCA) Lähtökohta: matriisi, jossa n muuttujaa ja m havaintoa Tässä tapauksessa esim. n eri pistejoukkoa ja pisteiden esiintymät m ruudussa Tavoite: lineaarimuunnoksella n komponenttia Komponentit keskenään korreloimattomia 1. komponentti sisältää mahdollisimman suuren osan kokonaisvarianssista Kukin seuraava sisältää mahdollisimman suuren osan jäljellä olevasta varianssista

Pääkomponenttianalyysi Lineaarimuunnos: kukin komponentti muotoa c i = a i1 x 1 + +a in x n Tehtävänä siis määrittää kaikki n n painokerrointa a ij Komponentit eivät korreloi keskenään Havainnot voidaan tulkita pisteiksi n-ulotteisessa avaruudessa Pääkomponenttianalyysi tämän tulkinnan mukaan koordinaatiston kierto

Pääkomponenttianalyysi havaintoavaruudessa Tulkitaan kukin muuttuja n-ulotteisen havaintoavaruuden ulottuvuudeksi Koordinaatiston kierto 1. komponentti / akseli se suunta, jossa ääripisteet kauimpana kukin myöhemmistä se aiempien kanssa kohtisuora suunta, jossa jäljellä pisin vaihteluväli

Pääkomponenttianalyysin rajoituksia Jokainen komponentti esittää vaihtelun kahden ääripään välillä Ei siis välttämättä vain yhden tekijän vaikutusta Aiempiin komponentteihin eristettyä vaihtelua ei toisteta Komponentit eivät korreloi keskenään Todelliset taustalla vaikuttavat ilmiöt voivat korreloida Oletus, että havainnot jatkuva-arvoisia Käytännössä myös 1/0-esiintymäaineiston analysointi onnistuu

1. komponentti kunnan keruuaste, loput murrevaihtelua Melko pian komponenteille ei enää luontevaa tulkintaa Pääkomponenttianalyysi: esimerkki Aineisto: 9 000 murresanan esiintymät eri kunnissa

Ei-negatiivinen matriisin faktorointi Non-negative Matrix Factorisation (NMF) Lähtökohta edelleen n m havaintomatriisi Tavoite: k komponenttia, missä k n Rajoite: kaikki matriisit ei-negatiivisia Tämä erotuksena perinteiseen faktorianalyysiin Pätee monelle ominaisuustiedolle, erityisesti binääriselle esiintymätiedolle

Ei-negatiivinen matriisin faktorointi Aineisto: Suomen paikannimet, n. 360 000 eri nimeä, 40 40km ruudut Faktorit helpommin tulkittavissa kuin pääkomponentit Lukumäärä tiedettävä / arvattava ennalta

Klusterointi Ryvästys Jaetaan aineisto rypäisiin niin, että Samaan rypääseen kuuluvat alkiot mahdollisimman samanlaisia Eri rypäisiin kuuluvat mahdollisimman erilaisia Lukuisa määrä erilaisia tekniikoita Tässä lähtökohtana jälleen alueet ilmiöt -matriisi

Klusterointi: K-means Lähtötietoina havaintomatriisi ja haluttu ryväslukumäärä k Rypäiden keskipisteiksi arvotaan k satunnaista havaintoavaruuden pistettä Sijoitetaan kukin havainto siihen rypääseen, jonka keskipiste lähimpänä Lasketaan ryväskeskipisteet uudelleen rypään pisteiden perusteella Toistetaan kahta edellistä askelta, kunnes ryvästys ei muutu

Esimerkki: K-means Lähtökohta: murresanojen esiintymät Esiprosessointi: pääkomponenttianalyysi 1. komponentti häiriötekijä pois Loppupään komponentit kohinaa pois Nyrkkisääntö: yhtä paljon komponentteja kuin rypäitä

Muutakin voi tehdä Tässä oli joukko työkaluja Paljon lisääkin on tarjolla Erilaisia variantteja näistä Vielä muuta Tämmöisillä pääsee alkuun Tulosten visualisointi tärkeää Analyysin tulokset (takaisin) paikkatietojärjestelmään