Mainituimmat sanat paikkatietojulkaisujen tiivistelmissä Historia- ja maantieteiden laitos, Itä-Suomen yliopisto

Samankaltaiset tiedostot
Johdatus geospatiaaliseen tutkimukseen

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Tautikartoitus CAR- ja partitiomalleilla

Harjoitus 9: Excel - Tilastollinen analyysi

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Identifiointiprosessi

Yleistetyistä lineaarisista malleista

Johdatus regressioanalyysiin. Heliövaara 1

Spatiaalinen metsää kuvaava malli ja sen soveltaminen metsäninventointiin

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Sovellettu todennäköisyyslaskenta B

Monitasomallit koulututkimuksessa

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset

Avoimet paikkatiedot ja tulevaisuuden tietolähteet liikkumisen tutkimuksessa. Tuuli Toivonen Helsingin yliopisto Accessibility Research Group

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Epävarmuuden hallinta bootstrap-menetelmillä

4.2 Useampi selittävä muuttuja (kertausta)

805306A Johdatus monimuuttujamenetelmiin, 5 op

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Datan analysointi ja visualisointi Teollisen internetin työpaja

Maantieteellisen alueen huomioiminen vahinkovakuutustuotteiden hinnoittelussa

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

GIS-jatkokurssi. Viikko 4: Spatiaalinen statistiikka. Harri Antikainen

Land-Use Model for the Helsinki Metropolitan Area

Tilastotieteen aihehakemisto

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

R intensiivisesti. Erkki Räsänen Ecitec Oy

Paikkatiedon käsittely 8. Spatiaalinen riippuvuus

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

EKOSYSTEEMIPALVELUIDEN KARTOITTAMINEN EUROOPASSA: esimerkkinä ruuan tuotanto ja kysyntä

Paikkatietotutkimus täsmäviljelyssä

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

Mat Tilastollisen analyysin perusteet, kevät 2007

HARJOITUS- PAKETTI A

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mitä IHMEttä on MIXTURE -mallintaminen?

Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Mat Tilastollisen analyysin perusteet, kevät 2007

Osa 2: Otokset, otosjakaumat ja estimointi

Makrojen mystinen maailma lyhyt oppimäärä

Research plan for masters thesis in forest sciences. The PELLETime 2009 Symposium Mervi Juntunen

Rakoverkkomallinnus. Laine & Markovaara-Koivisto KYT2018 seminaari : Kallioperän rikkonaisuuden mallinnus Suomessa

Heisingin kaupungin tietokeskus Helsingfors stads faktacentral City of Helsinki Urban Facts 0N THE EFFECTS 0F URBAN NATURAL AMENITIES, ARCHITECTURAL

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1 Johdanto 2. 2 Työkansion asettaminen 3. 3 Aineistojen lukeminen DAT-tiedosto SPSS-tiedosto Excel... 3

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Milloin. kannattaa paaluttaa? Väitöstutkimus. Turun perustustenvahvistuksesta

Olosuhdetieto. Metsäntutkimuksen ja päätöksenteon apuna. Metsäteho Timo Tokola. UEF // University of Eastern Finland

Mat Tilastollisen analyysin perusteet, kevät 2007

Dynaamiset regressiomallit

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastotieteellisiä malleja välimatka- ja suhdeasteikollisten preferenssien mittaamiseen. Pekka Leskinen ja Tuomo Kainulainen Metla

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

Ryhmät & uudet mahdollisuudet

Avoin paikkatieto tutkimuksessa ja opetuksessa

Rahastosalkun faktorimallin rakentaminen

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Social Network Analysis Centrality And Prestige

Hirviaineistojen visualisointia

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

KONEOPPIMINEN SISÄLLÖNTUOTANNOSSA CASE NESTE

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Visualisoinnin aamu 16.4 Tiedon visualisointi. Ari Suominen Tuote- ja ratkaisupäällikkö Microsoft

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Harjoitus 3: Regressiomallit (Matlab)

PRO GRADU -TUTKIELMA. Ilkka Valjus. Lasten BMI- käyrien muutos vuosien 1974 ja 2001 välillä

Copernicus, Sentinels, Finland. Erja Ämmälahti Tekes,

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Tenttikysymykset. + UML- kaavioiden mallintamistehtävät

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Automaattinen regressiotestaus ilman testitapauksia. Pekka Aho, VTT Matias Suarez, F-Secure

Harjoitus 3: Regressiomallit (Matlab)

Kaikkiin kysymyksiin vastataan kysymys paperille pyri pitämään vastaukset lyhyinä, voit jatkaa paperien kääntöpuolille tarvittaessa.

FROM VISION TO CRITERIA: PLANNING SUSTAINABLE TOURISM DESTINATIONS Case Ylläs Lapland

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

Pääkaupunkiseudun työmatkavirtojen analyysi ja visualisointi HSY paikkatietoseminaari

805306A Johdatus monimuuttujamenetelmiin, 5 op

A YHTEISET OPINNOT. Sisältö OPETUSOHJELMA MAANTIETEET JA YMPÄRISTÖPOLITIIKKA

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Sijainnin merkitys Itellassa GIS. Jakelun kehittämisen ajankohtaispäivä

Transkriptio:

Mainituimmat sanat paikkatietojulkaisujen tiivistelmissä 2007-2012 Historia- ja maantieteiden laitos, Itä-Suomen yliopisto

Tiivistelmien ryhmittely R:n tm-kirjastolla

Geoinformatiikan menetelmät esittäytyvät: Aineistoja ja työkaluja Geoinformatiikan tutkimuspäivät 2013 R ja spatiaalisia analyysimenetelmiä yhteiskuntatieteellinen näkökulma Olli Lehtonen MTT Taloustutkimus/ Historia- ja maantieteiden laitos, Itä-Suomen yliopisto

Lähtökohtana paikkatiedon erityispiirre Yksilötaso Yksilöt toisistaan riippumattomia -> perinteinen tilastotiede Ryvästaso Mallintamisessa huomioitava, että ryhmät eivät välttämättä ole riippumattomia toisistaan -> monitasomallit Aluetaso Mallintamisessa huomioitava, että alueet eivät välttämättä ole riippumattomia toisistaan -> spatiaalinen tilastotiede Spatiaalinen autokorrelaatio jäsentää tietämystämme havaintoarvojen jakautumisesta maantieteellisessä tilassa (Odland 1988: 9), ja se voidaan ymmärtää muuttujan korrelaationa itsensä kanssa maantieteellisessä tilassa (Griffith 2003). Monet yhteiskuntatieteelliset muuttujat ovat spatiaalisesti autokorreloituneita

Spatiaalisen autokorrelaation asettama haaste (yhteiskuntatieteellisessä tutkimuksessa) Havaintoyksiköt eivät ole toisistaan riippumattomia, joten ilmiöitä kuvaavien perinteisten tilastollisten mallien estimaattorit joko harhaisia tai tehottomia (ks. Anselin & Bera 1998) R:n tarjoamia mahdollisuuksia mallintamisessa: 1. hyväksytään spatiaalisen autokorrelaation olemassa olo 2. mallinnetaan vain osaa aineistosta (otos) 3. käytetään epäparametrisiä malleja 4. Käytetään malleja, jotka huomioivat spatiaalisen autokorrelaation

Käytetään epäparametrisia malleja R tarjoaa mm. seuraavia kirjastoja: stats (local nonparametric regressions) gam (generalized additive models) mgcv (generalized additive model, generalized additive mixed models) sm (Smoothing methods for nonparametric regression and density estimation) crs (nonparametric regression (and quantile) splines in the presence of both continuous and categorical predictors. np (nonparametric and semiparametric kernel-based estimators) Menetelmät soveltuvat eksploratiiviseen analyysiin, jossa tulokset esitetään visuaalisesti

Paikalliset lokaalit polynomimallit (stats) Esimerkissä kuvataan, miten postinumeroalueiden asumis- ja liikkumiskustannukset muuttuvat keskusetäisyyden suhteen # Datan luku excel-tiedostosta > mun=read.csv("c:/olli/helsinki.csv", header=true, sep=";") > attach(mun) # Mallien sovitus > as=lowess(et_km,as_kust,f=0.5) > la=lowess(et_km,liik_kust,f=0.5) # Mallin visualisointi > par(mar=c(8, 6, 3, 2.1), xpd=true) > plot(et,askust, main="helsinki region", xlab="", ylab=",col="white",ylim=c(0,45000),xlim=c(0,80), yaxt="n",axes=false) > axis(2, at=c(0,5000,10000,15000,20000,25000, 30000,35000,40000,45000),labels=TRUE, col.axis="black", las=2) > axis(1, at=c(0,10,20,30,40,50,60,70,80),labels=true, col.axis="black", las=1) > mtext("distance from centre",side=1,line=2) > mtext("costs ( )",side=2,line=4)

Yleistetty additiivinen malli (gam) Yksi esimerkki on yleistetty additiivinen malli, joka on tavanomaisia parametrisia malleja joustavampi kuvaamaan erilaisia monimutkaisia useiden muuttujien välisiä riippuvuuksia. Siinä muuttujien suhteet voivat vaihdella paikallisesti ja epämonotonisesti. Esimerkissä kuvattu, miten etäisyys erikokoluokan keskuksiin on yhteydessä työpaikkojen lukumäärän kasvuun?

Kahden muuttujan epäparametriset pinnat (sm) Nämä menetelmät voidaan yhdistää R- ympäristössä simulointeihin, jolloin voidaan tutkia erilaisia kehityksen reunaehtoja ### MALLIAJO > kertoimetglm=list() > for (k in 1:500) { > h=sample(x[,1],151,replace=false,prob=estimaatit_s) > nollat=rep(0,309) # nollia tarvitaan x kpl > h_combine=as.matrix(c(h,nollat)) # yhdista simulointia varten > sarake=list() > for (j in 1:460){ + estimates=numeric() + for (i in 1:460) { + vali=ifelse(x[j,1]-h_combine[i,1]==0,1,0) + estimates[i]=vali + } + sarake[[as.character(j)]]=sum(estimates) + } > unl=unlist(sarake,recursive=f,use.names=f) > simuloi=cbind(x,c(unl)) > sum=sum(simuloi[,54]) # binary-malli > koksuglm=glm(simuloi[,54]~scale_s[,"nuoret"]+ scale_s[,"yritp"],family=binomial) > kertoimetglm[[as.character(k)]]=koksuglm$coef > }

Käytetään malleja, jotka huomioivat spatiaalisen autokorrelaation R sisältää useita kirjastoja spatiaaliseen analyysiin: Spatiaaliset pisteprosessit: spatial (Functions for kriging and point pattern analysis) spatstat (A package for analysing spatial data, mainly Spatial Point Patterns) Aluedata: Spdep (spatiaalisen autokorrelaation testit, spatiaalinen klusterointi, SAR, CAR mallit Spgwr (maantieteellisesti painotettu regressioanalyysi)

Spatiaalinen klusterointi (spdep) (Spatial 'K'luster Analysis by Tree Edge Removal) Lokaali ryhmittelymenetelmä, joka huomioi havaintoyksikön sijainnin. R- ympäristö mahdollistaa ryhmittelyn stabiliteetin tarkastelun toistamalla ryhmittelyä eri parametreillä yksinkertaisilla loopeilla. for(i in values){... do something... } yhdistävyysmatriisi klusterointitulos

Hierarkinen regressioanalyysi (party) R tarjoaa myös monipuolisen kokoelman globaaliin ryhmittelyanalyysiin Ydinalueet Perifeeriset alueet

Hierarkinen regressioanalyysi (gplots) kuin myös ryhmittelyanalyysien tulosten esittämiseen sekä ryhmien lukumäärän tarkasteluun

Clusplot (cluster) ja useita ryhmittelyalgoritmejä: Pam (Partitioning Around Medoids), Clara (Clustering large applications), Fanny (Fuzzy analysis clustering) Cluster of low probability and low impact China invest to Europe for environmental reasons nanoscience On-line info will dominate a new source of energy is developed by 2030 Clusters of high impact and low probability uncontrollable damage for forest ecosystem Carbon dioxide emission payment prices of commodities will rocket again land use competition Cluster of high probability

Spatiaalinen viive- ja virhemalli (spdep) Viivemalli Virhemalli Voidaan hyödyntää mallinnettaessa esim. työpaikkakehitystä, koska usein esimerkiksi yritysten sijaintiin vaikuttavat tekijät eivät rajoitu hallinnollisten rajojen sisäpuolelle. -> Tämä tuottaa realistisempia malleja. Elintasogradientti Kuvassa: Miten mediaanitulot muuttuvat suhteessa keskusetäisyyteen?

Spatiaalinen viive- ja virhemalli (spdep) R:n etuna on, että myös spatiaalisiin regressioanalyyseihin voidaan yhdistää simulointia ja muita menetelmiä. Tällöin voidaan kysyä esimerkiksi, että missä kohtaa spatiaalisten mallien residuaalien ja selitettävänä olevan muuttujan estimoidut pinnat poikkeavat satunnaisista?

Maantieteellisesti painotettu regressioanalyysi (spgwr) Lokaali menetelmä kuvaamaan spatiaalista vaihtelua selittävissä tekijöissä Huomioi sosiaalisen ympäristön vaikutusta Perustuu oletukseen epästationaarisuudesta eli regressiokertoimet eivät ole vakioita Estimointi pohjautuu maantieteen ensimmäiseen lakiin: everything is related with everything else, but closer things are more related Useita estimointimenetelmiä

Johtopäätöksiä R tarjoaa erittäin monipuolisin paketin spatiaalisten aineistojen analysointiin Spatiaalisten menetelmien lisäksi äärimmäisen laajasti myös muita analyysimenetelmiä Yksi etu R:n käytössä syntyy R-ympäristön tarjoamista eduista (aineiston käsittely, eispatiaalinen mallinnus, omat funktiot, grafiikka) Tuottaa valmiuden analysoida erilaista dataa R:n heikkous on interaktiivisen käyttöliittymän puute (korostuu erityisesti karttojen visualisoinnissa), ja käyttämiskynnyksen korkeus

KIITOS! R:n grafiikka on myös hyvin monipuolista! Genetiikasta peräisin olevalla koodilla voidaan kuvata yhdessä kuvassa 41 kysymyksen histogrammit.