Pistekuvioiden analyysi Kirsi Virrantaus Maa-123.3510 GIS Analysis and Modelling
Analysis of point patterns Kirsi Virrantaus GIS Analysis and Modelling Maa-123.3510
1. Example in fire and rescue a so-called risk-level model is used for resource allocation in Finland risk-level model is used in each municipality the variables in the model are: population density floor area intensity of traffic accidents based on these data, risk level is calculated in each grid cell (size 250 m x 250 m)
2. Esimerkki pelastustoimessa käytetään ns. riskitasomallia, jonka avulla voidaan sijoitella resurssit oletetun tarpeen mukaan riskitasomalli lasketaan Suomessa kaikkiin kuntiin mallissa käytetään riskiä ennustavina muuttujina asukastiheyttä kerrospinta-alaa liikenneonnettomuustiheyttä -näiden muuttujien avulla lasketaan onnettomuuksien riskitaso ja saadaan riskitasokartta, resoluutiolla 250 m x 250 m (tilastoruudun koko)
Tulos: Riskitasokartta onnettomuuksien todennäköisyysluokat alueella laskettuna valittujen muuttujien perusteella Tämän avulla voidaan mm. sijoittaa resurssit oikeisiin paikkoihin alueella. Palokalustoa sinne, missä näyttää olevan suurin onnettomuustodennäköisyys. Red - high Yellow - medium Green - low sivu 5
Halutaan tutkia onnettomuuksien syitä. Tarkastellaan ensin onnettomuusaineistoa kartalla
Example: We want to study the incidents (domestic fires) in Helsinki City Centre and identify possible causes The first task is just to analyse the events as a map Spatenkova, 2009
Kartat osoittavat, että onnettomuustiheys ja asukastiheys Helsingissä eivät korreloi; Maps show that there is no correlation between incidents and population density a. Onnettomuustiheys b. Asukastiheys osoitteen mukaan
Lasketaan onnettomuustiheydet ns. Kernel tiheyspintana: erikseen päivä- ja yöaikaan; The incident density is then computed separately by the day data and the night time data Päivä Yö
Tulos: asukastiheys ja yöajan onnettomuustiheys korreloivat spatiotemporaalisesti; The result: Population density and imcedent density correlate spatio-temporally a. Onnettomuustiheys yöaikaan b. Asukastiheys osoitteiden mukaan = asukastiheys yöaikaan
Onnettomuustiheyden analyysi Kernel tiheyspinnalla yöonnettomuudet pe-la Karttaesitys, hot spotit Spatenkova,O., 2009 Kernel tiheyspinnan tuottaminen
Ĝ functio: rakennuspalot ja asukastiheys analyysin perustana niiden välinen etäisyys Ĝ functio (yhtenäinen viiva): kumulatiivinen frekvenssikäyrä, joka kuvaa rakennuspalojen ja asukastiheyden (kummatkin tiheyspinnasta gridin solujen keskipisteisiin muunnettuna ja asukastiheys kolmeen luokkaan luokiteltuna) välisten etäisyyksien määrän aineistossa kumulatiivisesti Teoreettiset satunnaisen jakauman pisteet (katkoviiva line), simuloidut arvot (piste line) (Spatenkova, O,. 2009)
Sosio-ekonomiset ominaisuudet maantieteellisesti painotetussa regressiomallissa (GWR); Geographically Weighted regression GWR mallissa parametrit ovat spatiaalisesti vaihtelevia; eri alueilla eri muuttujat ennustavat onnettomuuksia parhaiten. Tässä muuttujan. spatiaalisesti vaihtelevaa selitysastetta kuvataan värisävyllä. sivu 13
SOM itseorganisoituva kartta, korrelaatiot onnetto- Itseorganisoituvan kartan (SOM) käyttö riippuvuuksien muuksien paljastamiseen/self-organizing ja sosio-ekonomisten ominaisuuksien map revals dependencies välillä SOM analysoi objektien välistä samanlaisuutta ja organisoi kohteet kartaksi, syntyy klustereita, joilla ei ole mitään tekemistä maantieteellisen sijainnin kanssa. Menetelmä paljastaa korrelaatioita, mutta menetelmän käyttäminen ja tulosten tulkinta vaatii harjoittelua.
Onko viikonpäivien välillä eroja onnettomuusmäärissä? SOM karttojen tulkinta vaatii harjoittelua.
Tulos: Riskitasokartta onnettomuuksien todennäköisyysluokat alueella laskettuna valittujen muuttujien perusteella Tämän avulla voidaan mm. sijoittaa resurssit oikeisiin paikkoihin alueella. Palokalustoa sinne, missä näyttää olevat suurin todennäköisyys. sivu 16
2. Pistekuvioiden analyysistä Mitä pistekuvioista voidaan tutkia? Mita pistekuvioista voidaan mitata? Millaisia menetelmiä voidaan käyttää pistekuvioille?
2. About analysis of point patterns What we can study by analysing point patterns? Which measures we can use? Which methods/approaches we can apply?
Kaksi erilaista analysointitehtävää 1) sijaintitieto on analysoitava asia esimerkiksi ympäristöilmiön jakautuminen, esim. taudin maantieteellinen levinneisyys tarkastellaan yhtä pistekuviota kerrallaan ja sen mahdollista klusteroitumista 2) tai sijaintitieto analyysin apuväline esimerkiksi ympäristön saastumisen ja taudin ilmenemisen spatiaalinen korrelaatio tarkastellaan kahden aineiston klusteroitumisen keskinäistä suhdetta
Two different analysis tasks 1) spatial data/location is of major interest distribution of environmental or other phenomenon, for example spatial distribution of a disease one point pattern and it s clustering is analysed at a time 2) or spatial information is a tool for example the spatial correlation between pollution and a specified disease two point patterns and their clustering is analysed together
Esimerkkejä sovellusalueista seismologit keräävät tietoa maanjäristysten alueellisesta jakaumasta ennustettavuus? epidemiologit keräävät tietoa sairauksien ilmenemisestä yhteydet ympäristösaasteisiin, tartunta? poliisi kerää tietoja murroista onko yhteyttä sosio-ekonomiseen tilaan? geologit, pohjavesitutkijat, vähittäiskauppiaat
Example of applications of spatial data analysis seismologists study regional distribution of earthquakes - predictability? epidemiologists study distributions of diseases - associations to other phenomena? police invstigate spatial patterns of distributions of burglaries do the rates of burglaries correlate with socio-economic characteristics? geologists, hydrologists, retailers
Pistekuvio yksinkertaisimmillaan pisteillä/tapahtumilla on vain sijaintitieto, (x,y) voi olla myös laatua kuvaava tieto analyysin peruskysymys onko pisteistö klusteroitunut vai tasaisesti jakautunut? tapahtumat muodostavat pistekuvion, jos: tapahtumat on kuvattu tasolle, (x,y) koordinaatit tutkimusalue on määritelty objektiivisesti pistekuvio kuvaa kaikki pisteet, ei otosta todellisten tapahtumien ja tapahtuminen välillä 1:1 tapahtumien sijainnin tulee olla todellinen, ei esim. alueen painopiste
Point pattern in the simplest case the only data are event locations, (x,y) events can also have quality the fundamental question are the points clustered or evenly distributed? conditions of a point pattern: the events should ne mapped on the plane, (x,y) the study area should be determined objectively the pattern should be an enumeration or census of the entities in question, not a sample a one-to-one correspondence between objects in the study area and events in the pattern event locations should be proper, not for example centroids of areal units
Pistekuvion kuvaaminen pisteiden absoluuttinen sijainti ensimmäisen asteen efekti pistetiheys, intensiteetti pisteiden keskinäinen sijainti toisen asteen efekti etäisyyteen perustuva interaktio pisteiden välillä joskus on vaikea erottaa näitä toisistaan
Describing a point pattern the absolute location first order effects point density, intensity the relative location the second order effects interaction between points based on the distance measure in stationary process the intensity does not change over space (1st order stationarity) there is not interaction between entities (2nd order stationarity) the independent random process is both 1st and 2nd order stationary these effects are sometimes difficult to separate (see Fig 4.1 in the textbook) anisotropic process has directional effects isotropic process has not directional effects
Standardiparametrien soveltaminen pistedataan keskiarvopiste piste, jonka koordinaatit ovat pistejoukon vastaavien koordinaattien keskiarvot keskietäisyys kuvaa pisteiden hajontaa keskiarvopisteen ympärillä (s. 80) vrt. keskihajonta
Applying the regular parameters the mean center to point data is the point whose coordinates are the mean of the corresponding coordinates of all the events of the pattern the standard distance shows how dispersed the points are around the mean center (p.80) compare to standard deviation
Analyysimenetelmät Ilmiötä voidaan tarkastella 1. Kuvailevin data-analyysin menetelmin 2. Tilastollisesti testaamalla, vertailu matemaattiseen malliin Käytetyt menetelmät (kummassakin lähestymistavassa) voivat perustua joko 1. Tiheyteen tai 2. Etäisyyksiin
Analysis methods the spatial process can be approached by Desrciptive, exploratory methods Statistical tests, comparing the spatial process to a mathematical model/process the methods used in both approaches are: based on intensity of the observations/events based on the distances between the observations/events
Tiheys ja etäisyys ensimmäisen asteen efektiä kuvaa pistetiheys pisteiden määrä per alueyksikkö toisen asteen efektejä mitataan perustuen pisteiden keskinäisiin etäisyyksiin etäisyys Pythagoraan teoreema etäisyys voidaan laskea lähimpään naapuriin, tai esim. kaikkiin muihin pisteisiin
Intensity and distance first order effects are measured by intensity amount of events per area unit second order effects are measured by distance Pythagoras s theorem the distance can be to the nearest neighbor or for example to all other points
Tiheyteen perustuvat pistekuvion mittarit Tiheyden estimointi Tutkimusalamenetelmät
Density based point pattern measures Density estimation methods Quadrat count methods
Tiheyden estimointi: yksinkertainen Kernel menetelmä perusajatus on että pistekuviolla on tiheys jokaisessa sijainnissa tutkimusalueella, ei ainoastaan tapahtumapisteissä yksinkertaisin menetelmä jokaisessa tason sijainnisssa (esim. gridin pisteessä) lasketaan ympyrän sisälle jäävien pisteiden määrästä tiheyttä kuvaava arvo vrt FocalMean (Kartta-algebrassa) vrt. edellinen liukuvan keskiarvon tutkimusalamenetelmä
Density estimation: the naive Kernel method basic idea is that the point pattern has intensity in each location, not only in the event point by the naive method in each location of the study region the intensity is calculated inside for example a circle the amount of points inside kernel gives the value at each point compare Focal mean (in Map Algebra) compare the previously mentioned floating average quadrat method
Kernel-density estimoinnin variaatioita yleensä käytetään jotain funktiota painotukseen valitaan k, 2-ulotteinen tiheysfunktio (kernel), jonka avulla pisteet painotetaan, keskipisteessä paino max, reunalla 0; kuljetaan jokaisen pisteen kautta ja summataan pisteen arvoksi bandwidth määrittää alueen, jolle funktio ulottuu; haettava sopiva leveys, kun b kasvaa tulos on litteä, kun b on pieni paljon detaljeja syntyy tummia alueita kun pisteet klusteroituu
Variations of Kernel estimation a mathematical function can be used for weighting according to the inverse distance a suitable bivariate function is selected (kernel), for weighting every known value location, max weight in the center, on the edge 0; every cell is then visited and the weighted values are summed up to the location bandwidth defines the region for the function; suitable width is important, if b is too big the result is flat, it is is too small too many details dark areas when points are clustering
Kernel-menetelmän käyttö (Krisp) Kernel menetelmä yksittäisistä havainnoista tiheyspinnaksi yksittäiset havainnot tiheyspinta
Valittava oikea pikselikoko (Krisp) Laskennan solukoon päättäminen pieni solukoko vaatii paljon laskentaa mutta tulos on visuaalisesti parempi a. Solukoko 250 pikseliä b. Solukoko 25 pikseliä
Kernel-säteen valinta (Krisp) Mitä suurempi säde sitä yleistetympi esitys Pieni säde näyttää enemmän yksityiskohtia Kernel-mentelmä on yksinkertainen ja helppo käyttää, mutta oikea käyttö vaatii menetelmän käyttäytymisen ymmärtämistä
Visualisointi: aikasarjat Hirvitiheysaineistoja vuosilta 2001, 2002, 2003 kaksidimensioisina tiheyskarttoina Väriskaala punaisesta (korkea tiheys), oranssi, keltainen, vihreään (alhainen tiheys); hirvitiheys = hirveä neliökilometrille Tiheyskartat tuottanut Jukka Krisp (TKK) väitöskirjatutkimuksessaan Moose per km 2
Muita visualisointimahdollisuuksia Hirvitiheys Korkeuskäyräesitys TIN-mallin avulla tuotettu 3d-kuva
Tutkimusalamenetelmä tutkimusalamenetelmät (quadrats) jaetaan alue samankokoisiin osiin (neliö,monikulmio) lasketaan havainnot osa-alueittain osat voivat täyttää alueen kokokaan (gridi) osat voidaan valita satunnaisesti voidaan laskea tutkimusalakohtaiset pistesummat frekvenssijakauma miten pisteiden sijoittuminen jakautuu osa-alueiden kesken liukuvan keskiarvon menetelmä; lasketaan ka liukuvassa ikkunassa
Quadrat method so-called quadrat methods the region is divided into subareas amount of events in each quadrat are recorded the quadrats can fill the study region with no overlaps the quadrats can be randomly placed we can compute quadrat counts number of events in each quadrat frequency distribution moving average method the mean is calculated in the window
Tutkimusalatulosten analyysi pistekuvion jakauman mallintamiseen voidaan käyttää binomijakaumaa tai sen approksimaatiota Poisson jakaumaa (IRP) yksinkertaisin testi siitä kuinka hyvin aineisto noudattaa tätä jakaumaa; varianssi/keskiarvo(vmr)=1 jakauma on Poisson jos suhde > 1 aineisto klusteroituneempaa jos suhde < 1 aineisto tasaisemmin jakautuvaa jakauman analysointiin voidaan myös esim. Khi 2 -testiä ks. esimerkki s. 98 nämä menetelmän käsittelevät aineistoa kokonaisuutena
Analysis of the quadrat counts binomial distribution or the more practical Poisson distribution is the null hypothesis of the point pattern (showing the IRP) if variance/mean(vmr) = 1, distribution is Poisson if the ratio > 1, the point pattern is more clustered if the ratio < 1, the point pattern is more evenly distributed In analysis Khi 2 test can also be applied, see example on page 98 these methods process the entire data set
Etäisyyksiin perustuvat klusteroinnin analyysimenetelmät Lähin naapuri Etäisyysfunktiot F-funktio G-funktio K-funktio
Cluster analysis by using distances Nearest neighbour Distance functions F-function G-function K-function
Lähimmät naapurit, G-, F- ja K- funktiot ilmiöiden tutkiminen datapisteiden keskinäisten etäisyyksien avulla 1) w = etäisyys datapisteen ja sen lähimmän naapurin välillä, lasketaan kumulatiivinen, empiirinen tiheysfunktio G(w), visuaalinen tarkastelu ja tulkinta satunnaisen sijainnin ja datapisteen etäisyyksien avulla 2) x = etäisyys satunnaisen pisteen ja sen lähimmän naapurin (datapisteen) välillä, tiheysfunktio F(x), visuaalinen tarkastelu ja tulkinta
Clustering: nearest neighbours, G-,Fand K-functions analysis of the phenomenon by the distances between events 1) w = distance between a datapoint and the nearest neighbour (another datapoint) of it, cumulative, empirical distribution function G(w), visual analysis and interpretation distances between events and random locations 2) x = distance between a randomly selected location and the nearest datapoint, distribution function F(x), visual analysis and interpretation
empiirisiä tiheysfunktioita havainnollistamalla sopivalla tavalla, voidaan tulkita klusteroitumista tai tasaista jakautumista jos funktio nousee hyvin jyrkkänä ja sitten tasoittuu on aineistossa paljon lyhyitä etäisyyksiä naapuriin => klusteroituminen vertaaminen hypoteesiin: IRP/CSR -käyrään s. 89-91 (Bailey&Gatrell) O Sullivan&Unwin, 88 95
by describing the distribution functions in a suitable way clustering or regular/random distribution can be analysed visually if the function climbs very steeply in the early part before flattening out; high probability to short nearest neighbour distances that would suggest clustering comparison with the hypothesis: IRS/CSR -curve pp. 89-91 (Bailey&Gatrell) O Sullivan&Unwin, pp. 88 95
Examples from reserach work by Ms. Olga Spatenkova analysis of fire and resecue incident data and some socio economical explanatory variables the goal of the research is to find good variables to the model risk of incidents
Point pattern analysis First order effects variation of number of fires over the study area Intensity - kernel density Smoothed spatial histograms depending of bandwidth Second order effects dependency relationships Nearest neighbour function G-function Empirical cumulative probability distribution function R spatstat package Špatenková and Stein (2008)
Intensity Weekday Evening (x10-7 ) Daytime (x10-7 ) Night-time (x10-8 ) Monday Tuesday 1.09 1.12 1.35 1.28 2.24 5.13 Wednesday 0.96 1.25 1.92 Thursday 0.74 1.25 4.49 Friday 1.57 0.74 2.24 Saturday Sunday 1.35 1.09 1.22 1.06 2.56 5.45
Ĝ function for building fires and population density Ĝ function (solid line) Theoretical values for random distribution (dashed line) Simulation envelopes (dotted line)
Ĝ function for building fires and stage of life in households Ĝ function (solid line) Theoretical values for random distribution (dashed line) Simulation envelopes (dotted line)
Ĝ function for building fires and building type Ĝ function (solid line) Theoretical values for random distribution (dashed line) Simulation envelopes (dotted line)
K-funktio lähimmän naapurin menetelmän ongelma tutkitaan vain lähimpiä K-funktio ilmaisee spatiaalisen riippuvuuden laajemmalla alueella K-funktiolla estimoidaan tietyllä alueella (etäisyydellä h ) kaikkien kohteiden välisten etäisyyksien kumulatiivista jakaumaa kuljetaan kaikkien pisteiden kautta ja lasketaan empiirinen K K:n arvo kertoo klusteroituneen tai säännöllisen tapauksen Ks. kuva O Sullivan&Unwin, s. 94
K-function the problem in the nearest neighbour methods: analysis only deals with the nearest neighbours K-function shows the spatial dependency in a wider area by the K-function the estimation is inside the distance h and shows the distribution of the distances of all events in that area every location is visited and K function is calculated by the observed data set the value of K reveals clustering or regular/random distribution
Kahden ilmiön kahden pistekuvion vertailu (Bailey, ss. 116...)(O Sullivan, Unwin, pp. 123 ) esim. sairaustapaukset ja ympäristöhaitat tutkitaan kahden pistejoukon pisteiden välisiä etäisyyksiä K-funktion avulla tutkitaan ovatko etäisyydet satunnaisia yksinkertaisin testi: lasketaan K-funktio kummallekin aineistolle ja tulkitaan
Comparing two phenomena two point patterns (Bailey, ss. 116...)(O Sullivan, Unwin, pp. 123 ) for example pollution and diseases the distances of points in two point sets are analysed by using K-function randomness of the distances the simple test: calculate K-function for both point patterns and interpret the result
Yhteenvetoa Tässä luennossa on esitelty pistekuvioiden analyysiä, sekä kuvailevilla/tutkivilla menetelmillä että tilastolliseen testaukseen perustuvilla menetelmillä On syytä havaita kunkin menetelmän yhteydessä sen käyttötapa: visuaalinen/tutkiva tai matemaattisesti testaava
Summary In this lecture we have discussed on analysis of point patterns by using both dscriptive/visual/explorative methods and methods based on statistical testing When using various methods it is important to realize the way how each methods can be used: as an exlorative/visual tool and as a statistical tool
Pistekuvioiden analyysiprosessi (O Sullivan&Unwin, kpl 4; Bailey, ss. 75...) aineistona diskreetit, pistemäisenä kuvatut kohteet tavoitteena analysoida onko aineistolla taipumusta klusteroitumiseen, satunnaiseen vai säännölliseen käyttäytymiseen (positiivinen, 0-, negatiivinen autokorrelaatio) voidaan myös tutkia kahden erityyppisen prosessin keskinäistä suhdetta käsitellään koko pisteaineistoa, otos voisi olla hyvin harhaanjohtava
Analysis process of point patterns (O Sullivan&Unwin, kpl 4; Bailey, ss. 75...) data are discrete events, point patterns analysis focuses on identifying whether the data set is regularly, randomly distributed or clustered (negative, 0- or positive autocorrelation) analysis can also be on association between two point patterns the entire data set is analysed, a sample could lead to completely wrong results
Analyysin vaiheet (vrt. kirjan kuva 4.16) 1) visualisointi pistekarttana (dot map) tai ns. transformoituna tiheyskarttana (density equalized); Kernel - tiheyskarttaja 2) pistekuvion ominaisuuksien mittaaminen intensiteetin/tiheyden estimointi, globaali ilmiö; stationääriselle prosessille vakio ensimmäisen asteen efekti koealamenetelmä, tiheyspinnat pisteiden väliset suhteet, spatiaalinen korrelaatio, toisen asteen efekti lähin naapuri, G,F,K-funktiot
Analysis of point patterns 1) visualisation dot map or for example density equalized map; Kernel density map 2) exploration of point data set, measures intensity/density estimation, global; constant for stationary process first order effect qaudrat counts, density surfaces relationships between events, spatial autocorrelation second order effect nearest neighbours, G-, F-, K-funktion
3) ilmiön teoreettinen mallinnus matemaattinen malli, kuten IRP; analyyttinen tarkastelu simuloiden saadaan odotusarvot, jakaumat hypoteesit 4) mallin ja aineiston vertaaminen analysoidun aineiston käytöstä verrataan malliin tilastolliset testit testi vastaa kysymykseen: onko havaittu pistekuvio mahdollinen hypoteettisen prosessin realisaatio (kuva 4.16 kirjassa)
3) the process can be modeled as a mathematical analytical model or then simulated expected values and distributions 4) the model and the observed pattern can be compared the analysed data set is compared to the model by using statistical tests this process gives answer to the question: whether the observed data set is a likely realization of the hypothesized process (see Fig. 4.16 in text book)
Kirjallisuus O Sullivan & Unwin: Geographic Information Analysis, Kappaleet:4,5,7 Kalvoilla viittaukset vuoden 2003 painoksen kuvanumeroin
Literature O Sullivan & Unwin: Geographic Information Analysis, Chapters:4,5,7 References made in the slides to the 2003 edition of the book