Mainituimmat sanat paikkatietojulkaisujen tiivistelmissä 2007-2012 Historia- ja maantieteiden laitos, Itä-Suomen yliopisto
Tiivistelmien ryhmittely R:n tm-kirjastolla
Geoinformatiikan menetelmät esittäytyvät: Aineistoja ja työkaluja Geoinformatiikan tutkimuspäivät 2013 R ja spatiaalisia analyysimenetelmiä yhteiskuntatieteellinen näkökulma Olli Lehtonen MTT Taloustutkimus/ Historia- ja maantieteiden laitos, Itä-Suomen yliopisto
Lähtökohtana paikkatiedon erityispiirre Yksilötaso Yksilöt toisistaan riippumattomia -> perinteinen tilastotiede Ryvästaso Mallintamisessa huomioitava, että ryhmät eivät välttämättä ole riippumattomia toisistaan -> monitasomallit Aluetaso Mallintamisessa huomioitava, että alueet eivät välttämättä ole riippumattomia toisistaan -> spatiaalinen tilastotiede Spatiaalinen autokorrelaatio jäsentää tietämystämme havaintoarvojen jakautumisesta maantieteellisessä tilassa (Odland 1988: 9), ja se voidaan ymmärtää muuttujan korrelaationa itsensä kanssa maantieteellisessä tilassa (Griffith 2003). Monet yhteiskuntatieteelliset muuttujat ovat spatiaalisesti autokorreloituneita
Spatiaalisen autokorrelaation asettama haaste (yhteiskuntatieteellisessä tutkimuksessa) Havaintoyksiköt eivät ole toisistaan riippumattomia, joten ilmiöitä kuvaavien perinteisten tilastollisten mallien estimaattorit joko harhaisia tai tehottomia (ks. Anselin & Bera 1998) R:n tarjoamia mahdollisuuksia mallintamisessa: 1. hyväksytään spatiaalisen autokorrelaation olemassa olo 2. mallinnetaan vain osaa aineistosta (otos) 3. käytetään epäparametrisiä malleja 4. Käytetään malleja, jotka huomioivat spatiaalisen autokorrelaation
Käytetään epäparametrisia malleja R tarjoaa mm. seuraavia kirjastoja: stats (local nonparametric regressions) gam (generalized additive models) mgcv (generalized additive model, generalized additive mixed models) sm (Smoothing methods for nonparametric regression and density estimation) crs (nonparametric regression (and quantile) splines in the presence of both continuous and categorical predictors. np (nonparametric and semiparametric kernel-based estimators) Menetelmät soveltuvat eksploratiiviseen analyysiin, jossa tulokset esitetään visuaalisesti
Paikalliset lokaalit polynomimallit (stats) Esimerkissä kuvataan, miten postinumeroalueiden asumis- ja liikkumiskustannukset muuttuvat keskusetäisyyden suhteen # Datan luku excel-tiedostosta > mun=read.csv("c:/olli/helsinki.csv", header=true, sep=";") > attach(mun) # Mallien sovitus > as=lowess(et_km,as_kust,f=0.5) > la=lowess(et_km,liik_kust,f=0.5) # Mallin visualisointi > par(mar=c(8, 6, 3, 2.1), xpd=true) > plot(et,askust, main="helsinki region", xlab="", ylab=",col="white",ylim=c(0,45000),xlim=c(0,80), yaxt="n",axes=false) > axis(2, at=c(0,5000,10000,15000,20000,25000, 30000,35000,40000,45000),labels=TRUE, col.axis="black", las=2) > axis(1, at=c(0,10,20,30,40,50,60,70,80),labels=true, col.axis="black", las=1) > mtext("distance from centre",side=1,line=2) > mtext("costs ( )",side=2,line=4)
Yleistetty additiivinen malli (gam) Yksi esimerkki on yleistetty additiivinen malli, joka on tavanomaisia parametrisia malleja joustavampi kuvaamaan erilaisia monimutkaisia useiden muuttujien välisiä riippuvuuksia. Siinä muuttujien suhteet voivat vaihdella paikallisesti ja epämonotonisesti. Esimerkissä kuvattu, miten etäisyys erikokoluokan keskuksiin on yhteydessä työpaikkojen lukumäärän kasvuun?
Kahden muuttujan epäparametriset pinnat (sm) Nämä menetelmät voidaan yhdistää R- ympäristössä simulointeihin, jolloin voidaan tutkia erilaisia kehityksen reunaehtoja ### MALLIAJO > kertoimetglm=list() > for (k in 1:500) { > h=sample(x[,1],151,replace=false,prob=estimaatit_s) > nollat=rep(0,309) # nollia tarvitaan x kpl > h_combine=as.matrix(c(h,nollat)) # yhdista simulointia varten > sarake=list() > for (j in 1:460){ + estimates=numeric() + for (i in 1:460) { + vali=ifelse(x[j,1]-h_combine[i,1]==0,1,0) + estimates[i]=vali + } + sarake[[as.character(j)]]=sum(estimates) + } > unl=unlist(sarake,recursive=f,use.names=f) > simuloi=cbind(x,c(unl)) > sum=sum(simuloi[,54]) # binary-malli > koksuglm=glm(simuloi[,54]~scale_s[,"nuoret"]+ scale_s[,"yritp"],family=binomial) > kertoimetglm[[as.character(k)]]=koksuglm$coef > }
Käytetään malleja, jotka huomioivat spatiaalisen autokorrelaation R sisältää useita kirjastoja spatiaaliseen analyysiin: Spatiaaliset pisteprosessit: spatial (Functions for kriging and point pattern analysis) spatstat (A package for analysing spatial data, mainly Spatial Point Patterns) Aluedata: Spdep (spatiaalisen autokorrelaation testit, spatiaalinen klusterointi, SAR, CAR mallit Spgwr (maantieteellisesti painotettu regressioanalyysi)
Spatiaalinen klusterointi (spdep) (Spatial 'K'luster Analysis by Tree Edge Removal) Lokaali ryhmittelymenetelmä, joka huomioi havaintoyksikön sijainnin. R- ympäristö mahdollistaa ryhmittelyn stabiliteetin tarkastelun toistamalla ryhmittelyä eri parametreillä yksinkertaisilla loopeilla. for(i in values){... do something... } yhdistävyysmatriisi klusterointitulos
Hierarkinen regressioanalyysi (party) R tarjoaa myös monipuolisen kokoelman globaaliin ryhmittelyanalyysiin Ydinalueet Perifeeriset alueet
Hierarkinen regressioanalyysi (gplots) kuin myös ryhmittelyanalyysien tulosten esittämiseen sekä ryhmien lukumäärän tarkasteluun
Clusplot (cluster) ja useita ryhmittelyalgoritmejä: Pam (Partitioning Around Medoids), Clara (Clustering large applications), Fanny (Fuzzy analysis clustering) Cluster of low probability and low impact China invest to Europe for environmental reasons nanoscience On-line info will dominate a new source of energy is developed by 2030 Clusters of high impact and low probability uncontrollable damage for forest ecosystem Carbon dioxide emission payment prices of commodities will rocket again land use competition Cluster of high probability
Spatiaalinen viive- ja virhemalli (spdep) Viivemalli Virhemalli Voidaan hyödyntää mallinnettaessa esim. työpaikkakehitystä, koska usein esimerkiksi yritysten sijaintiin vaikuttavat tekijät eivät rajoitu hallinnollisten rajojen sisäpuolelle. -> Tämä tuottaa realistisempia malleja. Elintasogradientti Kuvassa: Miten mediaanitulot muuttuvat suhteessa keskusetäisyyteen?
Spatiaalinen viive- ja virhemalli (spdep) R:n etuna on, että myös spatiaalisiin regressioanalyyseihin voidaan yhdistää simulointia ja muita menetelmiä. Tällöin voidaan kysyä esimerkiksi, että missä kohtaa spatiaalisten mallien residuaalien ja selitettävänä olevan muuttujan estimoidut pinnat poikkeavat satunnaisista?
Maantieteellisesti painotettu regressioanalyysi (spgwr) Lokaali menetelmä kuvaamaan spatiaalista vaihtelua selittävissä tekijöissä Huomioi sosiaalisen ympäristön vaikutusta Perustuu oletukseen epästationaarisuudesta eli regressiokertoimet eivät ole vakioita Estimointi pohjautuu maantieteen ensimmäiseen lakiin: everything is related with everything else, but closer things are more related Useita estimointimenetelmiä
Johtopäätöksiä R tarjoaa erittäin monipuolisin paketin spatiaalisten aineistojen analysointiin Spatiaalisten menetelmien lisäksi äärimmäisen laajasti myös muita analyysimenetelmiä Yksi etu R:n käytössä syntyy R-ympäristön tarjoamista eduista (aineiston käsittely, eispatiaalinen mallinnus, omat funktiot, grafiikka) Tuottaa valmiuden analysoida erilaista dataa R:n heikkous on interaktiivisen käyttöliittymän puute (korostuu erityisesti karttojen visualisoinnissa), ja käyttämiskynnyksen korkeus
KIITOS! R:n grafiikka on myös hyvin monipuolista! Genetiikasta peräisin olevalla koodilla voidaan kuvata yhdessä kuvassa 41 kysymyksen histogrammit.