HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Paikkatiedon käsittely 11. Suuren mittakaavan ilmiöt Antti Leino antti.leino@cs.helsinki.fi 19.2.2007 Tietojenkäsittelytieteen laitos
Suuren mittakaavan ilmiöt Tässä kolmenlaisia Pistekohteiden 1. kertaluvun vaihtelu pisteiden intensiteetin alueellinen vaihtelu Aluekohteiden 1. kertaluvun vaihtelu yhden alueellisesti esitetyn ilmiön vaihtelu Suuren muuttujajoukon kokonaiskuva varsinaisesti aluekohteille pistekohteet muunnettava alueittaiseksi
Pistekuvion 1. kertaluvun vaihtelu Kuvattavissa intensiteettifunktiona E ( Y(ds) ) λ(s) = lim ds 0 ds Y(ds) ds pisteiden tiheys s:n ympäristössä Intensiteetti on tämän odotusarvon raja-arvo, kun ympäristön pinta-ala 0
Tiheyden estimointi Jaetaan tutkittava alue tasakokoisiin ruutuihin Lasketaan pisteiden määrä kussakin ruudussa > library(spatstat) > data(swedishpines) > plot(swedishpines$window, + Lukumäärät ruuduittain, + cex.main=2, xlim=c(-30,100)) > xbreaks=seq(0, 96, length=5) > ybreaks=seq(0, 100, length=5) > counts=table(cut(swedishpines$x, + breaks=xbreaks), cut(swedishpines$y, + breaks=ybreaks)) > image(xbreaks, ybreaks, counts, + col=gray((8:1)/8), zlim=c(0,7), + add=t) > plot(swedishpines, add=t, pch=16, col=2) > plot(swedishpines$window, add=t) > legend(-30, 100, 0:7, fill=gray((8:1)/8))
Ruuduittaiset lukumäärät Tässä muunnetaan pisteaineisto alueittaiseksi Jatkokäsittely alueaineiston tapaan Osa paikkatiedosta hävitetään Resoluutio valittavissa ruudun kokoa säätämällä Ruutukoon pienentäminen lisää kohinaa
Ydinestimaatti Kunkin pisteen ympärille ydinfunktio: kaksiulotteinen normaalijakauma (tai muu tiheysfunktio) Estimoidaan intensiteetti pisteiden välillä näiden summana ˆλ τ (s) = 1 n 1 ( s δ τ (s) τ 2 k si ) τ i=1 s 1,...,s n pisteiden paikat k ydinfunktio τ > 0 siloitusparametri δ τ (s) reunakorjaus
Ydinestimaatin siloitusparametri Vaikuttaa tarkastelumittakaavaan > plot(swedishpines, pch=16, col=2) > plot(swedishpines$window, add=t) > library(splancs) > poly=as.points(swedishpines$window$xrange[c(1,2,2,1)], + swedishpines$window$yrange[c(2,2,1,1)]) > plot(swedishpines$window, ) > image(kernel2d(as.points(swedishpines), poly, 5, 200, 200), + col=gray(10:3/10), add=t) > plot(swedishpines$window, add=t) > image(kernel2d(as.points(swedishpines), poly, 10, 200, + 200), col=gray(10:3/10), add=t) > image(kernel2d(as.points(swedishpines), poly, 15, 200, + 200), col=gray(10:3/10), add=t)
Alueittaisen aineiston 1. kertaluvun vaihtelu Muutama erilainen menetelmä Liukuva keskiarvo Esitetään kukin alue naapureidensa keskiarvona Ydinestimointi Muunnetaan alueaineisto pistekuvioksi Median Polish Muodoltaan säännöllisille alueille
Liukuva keskiarvo Käytetään alueen oman arvon sijasta sen naapurien (etäisyydellä painotettua) keskiarvoa n j=1 w ijy j ˆµ i = n j=1 w ij Lähtökohtana läheisyysmatriisi, kuten I- ja C- mitoissa Jos läheisyysmatriisina on normalisoitu vierusmatriisi, jakaja = 1 Yksinkertainen laskea, jo tietokantaoperaatioilla
Alueaineiston ydinestimointi Ydinestimointi sinänsä pistemuotoisen datan analysointimenetelmä Siispä muutetaan alueet pisteiksi Esitetään kukin alue keskipisteenään Lasketaan tälle aineistolle ydinestimaatti Vaihtoehtoisesti myös muut pisteaineiston käsittelymenetelmät käytössä
Median Polish»mediaanin kiillotus» Soveltuu säännölliselle ruudukolle Sietää kohinaa paremmin kuin liukuva keskiarvo Esitetään kukin ruutu hajotelmana y ij = µ +r i +c j + ε ij µ globaali keskiarvo r i, c j rivi- ja saraketrendit ε ij satunnaisvirhe
Laajan muuttujajoukon yleiskuva Tähänastiset menetelmät tarkastelleet vain yhtä aineistoa (ominaisuustietoa) kerrallaan Tiedon louhinnassa usein suuri joskus hyvinkin suuri määrä muuttujia
Dimensionaalisuuden kirous Satojen tai tuhansien teemakarttojen tarkastelu ylivoimaisen työlästä Tehtävä: tiivistä olennainen muutamaan karttaan
Yleiskuvan laatiminen Aluekohteille suhteellisen suoraviivaista Käytetään tilastollisia monimuuttujamenetelmiä Tässä vaiheessa sijaintitieto ei käytössä Esitetään tulokset kartalla Pisteaineistot muutettava alueellisiksi Olemassa oleva aluejako Säännöllinen hila Kunkin joukon pisteiden esiintymät alueilla
Pisteaineiston muuntaminen alueiksi Valmis aluejako vai hila? Hila on säännöllinen koko ei vaikuta Valmis aluejako ehkä merkityksellinen ei hävitä tietoa ehkä yhtä paljon kuin hila Mitä pisteistä otetaan mukaan? Pisteiden merkit tyypillisesti luokittelevia Erityyppisten pisteiden lukumäärä kullakin alueella? Erityyppisten pisteiden esiintymisfrekvenssi? Binäärinen esiintyy / ei -tieto kustakin tyypistä? Valinta riippuu sovelluksesta
Dimensioiden karsiminen Lähtökohta: esitetään data matriisina alueet muuttujat Tavoite: matriisi alueet taustatekijät Taustatekijöitä olennaisesti vähemmän kuin alkuperäisiä muuttujia Kertovat jotakin mielenkiintoista Tyypillinen menetelmä: lineaarimuunnos Kussakin taustatekijässä on mukana jokainen alkuperäinen muuttuja omalla painokertoimellaan Lukuisa määrä erilaisia vaihtoehtoja
Pääkomponenttianalyysi Principal Component Analysis (PCA) Lähtökohta: matriisi, jossa n muuttujaa ja m havaintoa Tässä tapauksessa esim. n eri pistejoukkoa ja pisteiden esiintymät m ruudussa Tavoite: lineaarimuunnoksella n komponenttia Komponentit keskenään korreloimattomia 1. komponentti sisältää mahdollisimman suuren osan kokonaisvarianssista Kukin seuraava sisältää mahdollisimman suuren osan jäljellä olevasta varianssista
Pääkomponenttianalyysi Lineaarimuunnos: kukin komponentti muotoa c i = a i1 x 1 + +a in x n Tehtävänä siis määrittää kaikki n n painokerrointa a ij Komponentit eivät korreloi keskenään Havainnot voidaan tulkita pisteiksi n-ulotteisessa avaruudessa Pääkomponenttianalyysi tämän tulkinnan mukaan koordinaatiston kierto
Pääkomponenttianalyysi havaintoavaruudessa Tulkitaan kukin muuttuja n-ulotteisen havaintoavaruuden ulottuvuudeksi Koordinaatiston kierto 1. komponentti / akseli se suunta, jossa ääripisteet kauimpana kukin myöhemmistä se aiempien kanssa kohtisuora suunta, jossa jäljellä pisin vaihteluväli
Pääkomponenttianalyysin rajoituksia Jokainen komponentti esittää vaihtelun kahden ääripään välillä Ei siis välttämättä vain yhden tekijän vaikutusta Aiempiin komponentteihin eristettyä vaihtelua ei toisteta Komponentit eivät korreloi keskenään Todelliset taustalla vaikuttavat ilmiöt voivat korreloida Oletus, että havainnot jatkuva-arvoisia Käytännössä myös 1/0-esiintymäaineiston analysointi onnistuu
1. komponentti kunnan keruuaste, loput murrevaihtelua Melko pian komponenteille ei enää luontevaa tulkintaa Pääkomponenttianalyysi: esimerkki Aineisto: 9 000 murresanan esiintymät eri kunnissa
Ei-negatiivinen matriisin faktorointi Non-negative Matrix Factorisation (NMF) Lähtökohta edelleen n m havaintomatriisi Tavoite: k komponenttia, missä k n Rajoite: kaikki matriisit ei-negatiivisia Tämä erotuksena perinteiseen faktorianalyysiin Pätee monelle ominaisuustiedolle, erityisesti binääriselle esiintymätiedolle
Ei-negatiivinen matriisin faktorointi Aineisto: Suomen paikannimet, n. 360 000 eri nimeä, 40 40km ruudut Faktorit helpommin tulkittavissa kuin pääkomponentit Lukumäärä tiedettävä / arvattava ennalta
Klusterointi Ryvästys Jaetaan aineisto rypäisiin niin, että Samaan rypääseen kuuluvat alkiot mahdollisimman samanlaisia Eri rypäisiin kuuluvat mahdollisimman erilaisia Lukuisa määrä erilaisia tekniikoita Tässä lähtökohtana jälleen alueet ilmiöt -matriisi
Klusterointi: K-means Lähtötietoina havaintomatriisi ja haluttu ryväslukumäärä k Rypäiden keskipisteiksi arvotaan k satunnaista havaintoavaruuden pistettä Sijoitetaan kukin havainto siihen rypääseen, jonka keskipiste lähimpänä Lasketaan ryväskeskipisteet uudelleen rypään pisteiden perusteella Toistetaan kahta edellistä askelta, kunnes ryvästys ei muutu
Esimerkki: K-means Lähtökohta: murresanojen esiintymät Esiprosessointi: pääkomponenttianalyysi 1. komponentti häiriötekijä pois Loppupään komponentit kohinaa pois Nyrkkisääntö: yhtä paljon komponentteja kuin rypäitä
Muutakin voi tehdä Tässä oli joukko työkaluja Paljon lisääkin on tarjolla Erilaisia variantteja näistä Vielä muuta Tämmöisillä pääsee alkuun Tulosten visualisointi tärkeää Analyysin tulokset (takaisin) paikkatietojärjestelmään