Spatio-statistical approaches and tools Analysis of point patterns. Kirsi Virrantaus GIS-E1060 Spatial Analytics

Samankaltaiset tiedostot
Pistekuvioiden analyysi. Kirsi Virrantaus Maa GIS Analysis and Modelling

Efficiency change over time

Capacity Utilization

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Introduction to spatio-statistical methods

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Use of spatial data in the new production environment and in a data warehouse

Gap-filling methods for CH 4 data

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Other approaches to restrict multipliers

Information on preparing Presentation

The CCR Model and Production Correspondence

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

Statistical design. Tuomas Selander

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

16. Allocation Models

Land-Use Model for the Helsinki Metropolitan Area

Research plan for masters thesis in forest sciences. The PELLETime 2009 Symposium Mervi Juntunen

Alternative DEA Models

UEF Statistics Teaching Bulletin, Fall 2017

Metsälamminkankaan tuulivoimapuiston osayleiskaava

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

Results on the new polydrug use questions in the Finnish TDI data

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Miksi Suomi on Suomi (Finnish Edition)

The Viking Battle - Part Version: Finnish

AYYE 9/ HOUSING POLICY

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Oma sininen meresi (Finnish Edition)

1. Liikkuvat määreet

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Valuation of Asian Quanto- Basket Options

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

7.4 Variability management

Heisingin kaupungin tietokeskus Helsingfors stads faktacentral City of Helsinki Urban Facts 0N THE EFFECTS 0F URBAN NATURAL AMENITIES, ARCHITECTURAL

S Sähkön jakelu ja markkinat S Electricity Distribution and Markets

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Data Quality Master Data Management

TM ETRS-TM35FIN-ETRS89 WTG

anna minun kertoa let me tell you

,0 Yes ,0 120, ,8

( ,5 1 1,5 2 km

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

TM ETRS-TM35FIN-ETRS89 WTG

I. Principles of Pointer Year Analysis

LYTH-CONS CONSISTENCY TRANSMITTER

Bounds on non-surjective cellular automata

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Characterization of clay using x-ray and neutron scattering at the University of Helsinki and ILL

The role of 3dr sector in rural -community based- tourism - potentials, challenges

Co-Design Yhteissuunnittelu

Basic Flute Technique

812336A C++ -kielen perusteet,

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

Operatioanalyysi 2011, Harjoitus 3, viikko 39

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Small Number Counts to 100. Story transcript: English and Blackfoot

Jyrki Kontio, Ph.D

Rakennukset Varjostus "real case" h/a 0,5 1,5

7. Product-line architectures

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Huom. tämä kulma on yhtä suuri kuin ohjauskulman muutos. lasketaan ajoneuvon keskipisteen ympyräkaaren jänteen pituus

MEETING PEOPLE COMMUNICATIVE QUESTIONS

Choose Finland-Helsinki Valitse Finland-Helsinki

Travel Getting Around

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

Exercise 1. (session: )

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

Innovative and responsible public procurement Urban Agenda kumppanuusryhmä. public-procurement

Data quality points. ICAR, Berlin,

SIMULINK S-funktiot. SIMULINK S-funktiot

LX 70. Ominaisuuksien mittaustulokset 1-kerroksinen 2-kerroksinen. Fyysiset ominaisuudet, nimellisarvot. Kalvon ominaisuudet

Analysis of polygon maps. Kirsi Virrantaus GIS-E1060 Spatial Analytics

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) ( (Finnish Edition)

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

C++11 seminaari, kevät Johannes Koskinen

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

Vertaispalaute. Vertaispalaute, /9

Geoinformation in Environmental Modelling

Counting quantities 1-3

EUROOPAN PARLAMENTTI

MUSEOT KULTTUURIPALVELUINA

Tutkimustiedonhallinnan peruskurssi

Hankkeen toiminnot työsuunnitelman laatiminen

Windows Phone. Module Descriptions. Opiframe Oy puh Espoo

Hankkeiden vaikuttavuus: Työkaluja hankesuunnittelun tueksi

Transkriptio:

Spatio-statistical approaches and tools Analysis of point patterns Kirsi Virrantaus GIS-E1060 Spatial Analytics 1.11.2016

Spatiotilastollisia lähestymistapoja ja työkaluja Pistekuvioiden analyysi Kirsi Virrantaus GIS-E1060 Spatial Analytics 1.11.2016

1. Scientific method to analysis of phenomena statistical view When researchers study the world and phenomena related to it they apply scientific method Scientific method starts with analysis of contents and concept definition The data available is described in order to get understanding about possible dependencies Hypotheses are suggested and a model is built in order to test the hypothesis If the hypothesis gets support the model can be developed into laws and even theory

1. Tieteellinen lähestymistapa ongelmiin - tilastotieteen näkökulma Kun tutkijat lähestyvät todellisuuden ilmiöitä ja ongelmia, he käyttävät tieteellistä lähestymistapaa Tieteellinen lähestymistapa lähtee kontekstin ja käsitteiden määrittelystä Käytettävissä olevaa dataa kuvaillaan, jotta saataisiin käsitys vallitsevista riippuvuuksista asioiden välillä Luodaan hypoteeseja ja kehitetään malleja hypoteesien testaamiseksi Jos hypoteesit saavat vahvistusta niistä voidaan kehittää lakeja(sääntöjä) ja jopa teorioita

(Rogerson, 2015)

Exploratory and confirmatory methods Exploratory methods suggest hypotheses Confirmatory methods help in confirming hypotheses The use of exploratory methods is growing Hypotheses can not always be completely confirmed Exploratory methods cover the fields of descriptive statistics and data mining Confirmatory methods include inferential statistical analysis methods

Eksploratoriset ja konfirmatoriset menetelmät Tutkivat menetelmät ehdottavat hypoteeseja Vahvistavat menetelmät vahvistavat niitä Eksploratiivisten menetelmien käyttö on nousussa Hypoteeseja ei aina voida käysin vahvistaa Kuvaileva tilastotiede on eksploratiivista Tilastollinen päättely on vahvistavaa

Statistical thinking in solving spatial problems Statistical thinking (according to American Statistical Association, 1993) is: the appreciation of uncertainty and data variability, and their impact on decision making, and the use of scientific method in approaching issues and problems. Special considerations for spatial data (in statistical analysis) (Fotheringham&Rogerson,1993) The modifiable areal unit problem Boundary prolems Spatial sampling problem Spatial autocorrelation or spatial dependence

Tieteellinen ajattelu spatiaalisten ongelmien ratkaisussa Tilastollinen ajattelu (Amerikan tilastollisen yhdistyksen mukaan, 1993: Epävarmuuden ja tiedon vaihtelun ja näiden vaikutuksen päätöksentekoon huomioon ottamista Tieteellisen lähestymistavan soveltamista Erityisen spatiaalista dataa koskevat lisäykset Muuttuvan perusalueeen ongelma Rajaviivapongelma Spatiaalisen otannan ongelma Spatiaalisen autokorrelaation ja spatiaalistaen riippuvuuksien ongelma

Modifiable areal unit problem (MAUP) The results of statistical analysis are sensitive to the zoning system used to report the data Placement of zonal boundaries when the zones are of specific size If grid squares are used the orientation and cell size are relevant As solution to this Fotheringham&Rogerson suggest to use alternative zoning systems as routine

Muuttuvan perusalueen ongelma Jos data organisoidaan erilaisiin aluejakoihin, analyysin tulokset muuttuvat Aluejakojen hierarkia Gridin suuntaus ja resoluutio Ratkaisuna tähän Fotheringham & Rogerson ehdottavat että tulisi systemaattisesti käyttää useita aluejakoja analyysissä

Boundary/edge problem Always when we analyse a bounded region or a sample of spatial data we come to situation that there is no data behind the boundary However in reality the data continues This problems needs to be solved in spatial methods

Rajaongelma Spatiaalisissa analyysitehtävissä on kyseessä useinkin rajattu alue tai otos Todellisuudessa data jatkuu myös rajan ulkopuolelle Rajaviivaongelma tulee ratkaista jollain tapaa menetelmässä

Spatial sampling Sampling is an importand step in analysis of phenomena Whenever we can not collect the complete data set we have to take samples Because of spatial autocorrelation and other spatial structures in the reality we can not use straightforwardly non-spatial sampling methods We can not assume randomness and independency of spatial objects

Spatiaalinen otanta Otanta on olennainen vaihe tilastollisessa analyysissä Useinkaan ei voida kerätä koko datapopulaatiota vaan täytyy turvautua otokseen Johtuen spatiaalisesta autokorrelaatiosta ja muista spatiaalisen järjestyksen piirteistä, emme voi ooettaa satunnaista järjestystä, ja siksi emme voi käyttää suoraviivaisesti tavanomaisia, ei-spatiaalisia otantamenetelmiä

Statistical methods Statistical methods can be used in describing the phenomenon Descriptive statistics Sample of population Methods describe the characteristics like: mean, variance, standard deviation Inferential methods Based on hypothesis on the behaviour of the phenomenon A model is used to represent the entire population Attempt to be able to predict how the phenomenon behaves in future Statistical tools ce be used in both approaches

Tilastolliset menetelmät Kuvaileva tilastotiede Kuvailevat menetelmät Otosaineiston käsittely Menetelmillä kuvaillaan datan piirteitä: keskiarvo, varianssi, keskihajonta, mediaani Tilastollinen päättely Perustuu hypoteesiin ilmiön käyttäytymisestä Käytetään jotain mallia jonka oletetaan kuvaavan koko populaatiota Pyrkimys voida ennustaa ilmiön käyttäytymistä tulevaisuudessa Tilastollisia työkaluja hyödynnetään kummassakin

Data analytics for decision support (according to Gartner) Descriptive What happened? examination of data, to answer the question What happened?, characterized by traditional business intelligence (BI) and visualizations such as pie charts, bar charts, line graphs, tables, or generated narratives Diagnostics Why did it happen? examines data to answer the question Why did it happen?, and is characterized by techniques such as drill-down, data discovery, data mining and correlations. Predictive What will happen? any approach to data mining emphasis on prediction (rather than description, classification or clustering), rapid analysis measured in hours or days (rather than the stereotypical months of traditional data mining), an emphasis on the business relevance of the insights, an emphasis on ease of use Prescriptive How can we make it happen? techniques such as graph analysis, simulation, complex event processing, neural networks, recommendation engines, heuristics, and machine learning

Päätöksenteon data-analytiikka (Gartner) Kuvaileva kuvailevat tilastolliset menetelmät Mitä tapahtui? Diagnostinen tiedon louhinta Miksi näin tapahtui? Ennustava hypoteesit, mallinnus Mitä tulee tapahtumaan? Ohjaava optimointi, päätösanalyysi Miten voimme edistää tapahtumia?

Spatiostatistical tools GIS users typically use descriptive spatiostatistical tools Researchers also apply statistical inference Spatial (spatio-temporal) data is indexed in space (and time), spatial dependencies/relationships are created Distances, directions, topological relationships Spatial data includes autocorrelation and also is constrained by physical obstacles and structures; spatial methods attempt tpo take tme into account Spatio-statistical tools are based on Intensity and distances (spatial interaction)

Spatiotilastolliset työkalut GIS-käyttäjät käyttävät usein kuvailevia menetelmiä Tutkijat käyttävät tutkimuksissaan tilastollista päättelyä Spatiaalinen data on indeksoitu paikassa ja ajassa, syntyvät spatiotemporaaliset riippuvuudet Etäisyys, suunta, topologiset relaatiot Autokorrelaatio ja fyysiset esteet ja rakenteet vaikuttavat spatiaalisen datan järjestykseen, spatiaalisilla menetelmillä pyritään huomioimaan nämä Spatiotilastollisten menetelmien ydinkäsitteet ovat Tiheys ja etäisyys

Intensity and distance first order effects are measured by intensity amount of events per area unit second order effects are measured by distance Pythagoras s theorem the distance can be to the nearest neighbor or for example to all other points

Tiheys ja etäisyys ensimmäisen asteen efektiä kuvaa pistetiheys pisteiden määrä per alueyksikkö toisen asteen efektejä mitataan perustuen pisteiden keskinäisiin etäisyyksiin etäisyys Pythagoraan teoreema etäisyys voidaan laskea lähimpään naapuriin, tai esim. kaikkiin muihin pisteisiin

Example of applications of spatial data analysis seismologists study regional distribution of earthquakes - predictability? epidemiologists study distributions of diseases - associations to other phenomena? police invstigate spatial patterns of distributions of burglaries do the rates of burglaries correlate with socio-economic characteristics? geologists, hydrologists, retailers

Esimerkkejä sovellusalueista seismologit keräävät tietoa maanjäristysten alueellisesta jakaumasta ennustettavuus? epidemiologit keräävät tietoa sairauksien ilmenemisestä yhteydet ympäristösaasteisiin, tartunta? poliisi kerää tietoja murroista onko yhteyttä sosio-ekonomiseen tilaan? geologit, pohjavesitutkijat, vähittäiskauppiaat

2. Introduction by an Example in fire and rescue a so-called risk-level model is used for resource allocation in Finland risk-level model is used in each municipality the variables in the model are: population density floor area intensity of traffic accidents based on these data, risk level is calculated in each grid cell (size 250 m x 250 m)

2. Johdatteleva esimerkki pelastustoimessa käytetään ns. riskitasomallia, jonka avulla voidaan sijoitella resurssit oletetun tarpeen mukaan onnettomuuksien riskitaso lasketaan Suomessa kaikkiin kuntiin mallissa käytetään riskiä ennustavina muuttujina asukastiheyttä kerrospinta-alaa liikenneonnettomuustiheyttä näiden muuttujien avulla lasketaan onnettomuuksien riskitaso ja saadaan riskitasokartta, resoluutiolla 250 m x 250 m (tilastoruudun koko)

Tulos: Riskitasokartta onnettomuuksien todennäköisyysluokat alueella laskettuna valittujen muuttujien perusteella Risk map, prorbability classes of indicents Tämän avulla voidaan mm. sijoittaa resurssit oikeisiin paikkoihin alueella. Palokalustoa sinne, missä näyttää olevan suurin onnettomuustodennäköisyys. Red - high Yellow - medium Green - low sivu 28

Problem: we know the incidents, but we want to know the potential causes of them The first task is just to analyse the events as a map. Incidents are taken from Pronto-database. (Spatenkova, 2009)

Kartat osoittavat, että onnettomuustiheys ja asukastiheys Helsingissä eivät korreloi; Maps show that there is no correlation between incidents and population density b. Asukastiheys osoitteen mukaan/ a. Onnettomuustiheys/Incident density Population density, according to address

Lasketaan onnettomuustiheydet ns. Kernel tiheyspintana: erikseen päivä- ja yöaikaan; The incident density is then computed separately by the day data and the night time data Päivä/Daytime Yö/Nighttime

Tulos: asukastiheys ja yöajan onnettomuustiheys korreloivat spatiotemporaalisesti; The result: Population density and imcedent density correlate spatio-temporally a. Onnettomuustiheys yöaikaan b. Asukastiheys osoitteiden mukaan = asukastiheys yöaikaan

Onnettomuustiheyden analyysi Kernel tiheyspinnalla yöonnettomuudet pe-la Nighttime weekend incident density by Kernel Karttaesitys, hot spotit Spatenkova,O., 2009 Kernel tiheyspinnan tuottaminen Kernel-density surface

Ĝ functio: rakennuspalot ja asukastiheys analyysin perustana niiden välinen etäisyys Ĝ funktio (yhtenäinen viiva): kumulatiivinen frekvenssikäyrä, joka kuvaa rakennuspalojen ja asukastiheyden (kummatkin tiheyspinnasta gridin solujen keskipisteisiin muunnettuna ja asukastiheys kolmeen luokkaan luokiteltuna) välisten etäisyyksien määrän aineistossa kumulatiivisesti Teoreettiset satunnaisen jakauman pisteet (katkoviiva line), simuloidut arvot (pisteviiva) (Spatenkova, O,. 2009)

Sosio-ekonomiset ominaisuudet maantieteellisesti painotetussa regressiomallissa (GWR); Geographically Weighted regression GWR mallissa parametrit ovat spatiaalisesti vaihtelevia; eri alueilla eri muuttujat ennustavat onnettomuuksia parhaiten. Tässä muuttujan. spatiaalisesti vaihtelevaa selitysastetta kuvataan värisävyllä. sivu 35

SOM itseorganisoituva kartta, korrelaatiot onnetto- Itseorganisoituvan kartan (SOM) käyttö riippuvuuksien paljastamiseen/self-organizing muuksien ja sosio-ekonomisten map ominaisuuksien revals dependencies välillä SOM analysoi objektien välistä samanlaisuutta ja organisoi kohteet kartaksi, syntyy klustereita, joilla ei ole mitään tekemistä maantieteellisen sijainnin kanssa. Menetelmä paljastaa korrelaatioita, mutta menetelmän käyttäminen ja tulosten tulkinta vaatii harjoittelua.

Onko viikonpäivien välillä eroja onnettomuusmäärissä? SOM karttojen tulkinta vaatii harjoittelua.

Tulos: Riskitasokartta onnettomuuksien todennäköisyysluokat alueella laskettuna valittujen muuttujien perusteella Tämän avulla voidaan mm. sijoittaa resurssit oikeisiin paikkoihin alueella. Palokalustoa sinne, missä näyttää olevat suurin todennäköisyys. Resource allocation: resources in right places. sivu 38

Which methods were used Mitä menetelmiä käytettiin? Kernel-density/Kernel-tiheysmenetelmä Visual interpretation of result/visuaalinen tulkinta G-function/G-funktio These methods you were introduced to already in the previous course, now you learn more about them and also exercise them ------------------------------------------------------------------------------ Geometrically weighted regression/geometrisesti painotettu regressio Self-organizing map/itseorganisoitu kartta These methods do not belong to this course, you will learn them in Advanced spatial analytics

Millaisia menetelmiä? What kind of methods? Kernel density estimation is a descriptive method that required visual interpretation made by the user Kernel tiheysestimointi on kuvaileva menetelmä, joka vaatii käyttäjän visuaalisen tulkinnan G-function can be used both as descriptive and as inferential method, including a hypothesis of random distribution G-funktiota voidaan käyttää sekä kuvailevana että on tilastollisena päättelymenetelmänä, jossa hypoteesina satunnainen jakauma GWR is regression model that can be used in analysis of dependencies between variables, it is a model for prediction SOM is a data mining method, an explorative method

3. What is a point pattern? in the simplest case the only data are event locations, (x,y) events can also have quality and quantity the fundamental question are the points clustered, randomly or evenly distributed? conditions of a point pattern: the events should ne mapped on the plane, (x,y) the study area should be determined objectively the pattern should be an enumeration or census of the entities in question, not a sample a one-to-one correspondence between objects in the study area and events in the pattern event locations should be proper, not for example centroids of areal units

3. Pistekuvio mikä se on? yksinkertaisimmillaan pisteillä/tapahtumilla on vain sijaintitieto, (x,y) voi olla myös laatua tai määrää kuvaava tieto analyysin peruskysymys onko pisteistö klusteroitunut, satunnaisesti vai tasaisesti jakautunut? tapahtumat muodostavat pistekuvion, jos: tapahtumat on kuvattu tasolle, (x,y) koordinaatit tutkimusalue on määritelty objektiivisesti pistekuvio kuvaa kaikki pisteet, ei otosta todellisten tapahtumien ja tapahtuminen välillä 1:1 tapahtumien sijainnin tulee olla todellinen, ei esim. alueen painopiste

Characteristics of a point pattern the absolute location first order effects: point density, intensity; number of points per unit area the relative location the second order effects: interaction between points based on the distance measure in stationary process the intensity does not change over space (1st order stationarity) there is no interaction between entities (2nd order stationarity) the independent random process is both 1st and 2nd order stationary anisotropic process has directional effects isotropic process has no directional effects

Pistekuvion ominaisuuksia pisteiden absoluuttinen sijainti ensimmäisen asteen efekti: pistetiheys, intensiteetti pisteiden suhteellinen sijainti toisen asteen efekti: etäisyyteen perustuva interaktio pisteiden välillä Stationäärinen prosessi Tiheys ei muutu alueella (1st order stationarity) Ei ole interaktiota pisteiden välillä (2nd order stationarity) Riippumaton satunnaisprosessi on sekä 1. että 2. asteen stationäärinen Anisotrooppisessa prosessissa on suuntausta Isotrooppisessa prosessissa ei ole suuntausta

Descriptive statistics of point pattern distance globally great circle distance (taking into accound the shape of E) in larger scales: assumption that the world is flat: Euclidian distance mean center is the point whose coordinates are the mean of the corresponding coordinates of all the events of the pattern; average x, average y; median center is the location to which the sum of traveled distances from points is shortest; shortest total distance to all other features in the study area standard distance shows how dispersed the points are around the mean center intensity amount of objects per unit area

Pistedatan kuvaileva tilastoanalyysi etäisyys tavallisesti Euklidinen etäisyys keskiarvopiste piste, jonka koordinaatit ovat pistejoukon vastaavien koordinaattien keskiarvot mediaanipiste piste, josta etäisyyksien summa toisiin pisteisiin tutkimusalueella on pienin keskietäisyys kuvaa pisteiden hajontaa keskiarvopisteen ympärillä tiheys kohteiden lukumäärä alueyksikössä

Visual desciptive methods from histogram to Kernel density method Histogram is a visual descriptive method to show the distribution of a numerical data set Histogram can also be seen as an estimate of probability distribution of a continuous function A histogram can also be seen as a simple kernel density estimation of the function behind the data The so-called naive estimator based on histogram is actually the idea of our GIS-tool, naive Kernel density method

Visuaaliset kuvailevat menetelmät histogrammista Kernel menetelmään Histogrammi on visuaalinen kuvaileva menetelmä numeerisen datasetin jakauman tarkasteluun Histogrammi voidaan nähdä myös tietyn jakaumafunktion yksinkertaisena estimaattina Yksinkertainen Kernel (ydin) tiheysestimaatti, ns. naiivi esitmaattori Geoinformatiikassa käytetty yksinkertainen Kernel-estimaatti on tämän 2d-muoto

Density estimation Naive Kernel method basic idea is that the point pattern has intensity in each location, not only in the event point by the naive method in each location of the study region the intensity is calculated inside for example a circle the amount of points inside kernel gives the value at each point directly compare Focal mean (in Map Algebra) (comes later) compare the floating average quadrat method (comes later)

Tiheyden estimointi yksinkertainen Kernel menetelmä perusajatus on että pistekuviolla on tiheys jokaisessa sijainnissa tutkimusalueella, ei ainoastaan tapahtumapisteissä yksinkertaisin menetelmä jokaisessa tason sijainnisssa (esim. gridin pisteessä) lasketaan ympyrän sisälle jäävien pisteiden määrästä tiheyttä kuvaava arvo, pikselille tulee suoraan tämä tiheysarvo vrt FocalMean (Kartta-algebrassa) vrt. liukuvan keskiarvon tutkimusalamenetelmä

Variations of Kernel estimation a mathematical function can be used for weighting according to the inverse distance a suitable bivariate function is selected (kernel), for weighting every known value location, max weight in the center, on the edge 0; every cell is then visited and the weighted values are summed up to the location bandwidth defines the region for the function; suitable width is important, if b is too big the result is flat, it is is too small too many details dark areas when points are clustering

Kernel-tiheysestimointi käytetään matemaattista funktiota painotukseen valitaan k, 2-ulotteinen tiheysfunktio (kernel, ydin), jonka avulla pisteet painotetaan, keskipisteessä paino max, reunalla 0; kuljetaan jokaisen pisteen kautta ja summataan pisteen arvoksi bandwidth (ytimen leveys) määrittää alueen, jolle funktio ulottuu; haettava sopiva leveys, kun b kasvaa tulos on litteä, kun b on pieni paljon detaljeja syntyy tummia alueita kun pisteet klusteroituu

Kernel-menetelmän käyttö (Krisp) Kernel menetelmä yksittäisistä havainnoista tiheyspinnaksi yksittäiset havainnot tiheyspinta

Valittava oikea pikselikoko Selecting the pixel size Laskennan solukoon päättäminen pieni solukoko vaatii paljon laskentaa mutta tulos on visuaalisesti parempi Decision on the pixel size small pixels require a lot of computation but result is visually better (Krisp,2006) a. Solukoko 250 pikseliä b. Solukoko 25 pikseliä

Kernel-säteen valinta (Krisp) Mitä suurempi säde sitä yleistetympi esitys Pieni säde näyttää enemmän yksityiskohtia Kernel-mentelmä on yksinkertainen ja helppo käyttää, mutta oikea käyttö vaatii menetelmän käyttäytymisen ymmärtämistä The bigger the radius the more generalized the presentation is Small radius shows more details Method is easy to use but interpretation needs expertice

Visualisointi: aikasarjat Hirvitiheysaineistoja vuosilta 2001, 2002, 2003 kaksidimensioisina tiheyskarttoina Väriskaala punaisesta (korkea tiheys), oranssi, keltainen, vihreään (alhainen tiheys); hirvitiheys = hirveä neliökilometrille Tiheyskartat tuottanut Jukka Krisp (TKK) väitöskirjatutkimuksessaan Moose per km 2

Muita visualisointimahdollisuuksia Hirvitiheys Korkeuskäyräesitys TIN-mallin avulla tuotettu 3d-kuva

Mathematics behind Kernel density estimation is a non-parametric method to estimate probability density based on a data sample Kernel density estimation is a smoothing method, can be compared to histogram method Histogram can be developed into naive estimator and by using Kernel function we come to Kernel estimator The function used as kernel is often Gaussian In our spatial case Kernel density estimation is applied in 2d form Softwares offer Kernel density estimation function for points and lines; you can find Kernel in R and in ArcGIS You will exercise this method

Kernel menetelmän matematiikka Käyttämämme Kernel tiheysmenetelmä perustuu tilastomatemaattiseen Kernel estimointimenetelmään Ei-parametrinen tiheysfunktion estimointimenetelmä Pehmennysmenetelmä, joka perustuu otokseen Voidaan verrata histogrammimenetelmään Meidän spatiaalisissa sovelluksissamme Kernel-menetelmää käytetään 2d muodossa, pistemäisille ja viivamaisille kohteille Kernel menetelmä löytyy mm. R-ohjelmistosta ja ArcGIS ohjelmistosta Harjoitus tästä

More descriptive spatial statistic tools Cluster analysis by using distances Nearest neighbor Distance functions G-function F-function K-function

Muita kuvailevia spatiotilaston työkaluja Etäisyyksiin perustuvat klusteroinnin analyysimenetelmät Lähin naapuri Etäisyysfunktiot G-funktio F-funktio K-funktio

Clustering: nearest neighbours, G-,F- and K-functions analysis of the phenomenon by the distances between events 1) w = distance between a datapoint and the nearest neighbour (another datapoint) of it, cumulative, empirical distribution function G(w), visual analysis and interpretation distances between events and random locations 2) x = distance between a randomly selected location and the nearest datapoint, distribution function F(x), visual analysis and interpretation

Lähimmät naapurit, G-, F- ja K- funktiot ilmiöiden tutkiminen datapisteiden keskinäisten etäisyyksien avulla 1) w = etäisyys datapisteen ja sen lähimmän naapurin välillä, lasketaan kumulatiivinen, empiirinen tiheysfunktio G(w), visuaalinen tarkastelu ja tulkinta satunnaisen sijainnin ja datapisteen etäisyyksien avulla 2) x = etäisyys satunnaisen pisteen ja sen lähimmän naapurin (datapisteen) välillä, tiheysfunktio F(x), visuaalinen tarkastelu ja tulkinta

by describing the distribution functions in a suitable way clustering or regular/random distribution can be analysed visually if the function climbs very steeply in the early part before flattening out; high probability to short nearest neighbour distances that would suggest clustering

empiirisiä tiheysfunktioita havainnollistamalla sopivalla tavalla, voidaan tulkita klusteroitumista tai tasaista jakautumista jos funktio nousee hyvin jyrkkänä ja sitten tasoittuu on aineistossa paljon lyhyitä etäisyyksiä naapuriin => klusteroituminen

Comparing G-function and F-function In G-function the cumulative frequency graph is calculated by making a graph based on the empirical data Distances to nearest neighbour are calculated from each point and the function gets value per each shortest distance; the value tells for each d what fraction of all nearest neighbour distancea are less than d (see the formula on page 89; O Sullivan&Unwin) In F-function the principle is the same but the nearest neighbour distances are calculated from random points in the study area (p. 91) G-function tells howclose together points are F-function tells how far from arbitrary location points are

G-funktion ja F-funktion vertailua G-funktio kertoo kaikille etäisyyksille d, kuinka monta sellaista lähintä pisteparia aineistossa on, joiden etäisyys on pienempi kuin d; määrä ilmaistaan suhteessa koko pisteparimäärään (ks. Kaava sivulla 89, O Sullivan&Unwin) F-funktio toimii samalla tavalla, mutta etäisyydet lasketaan jokaiseen pisteeseen satunnaisista pisteistä (s. 91) G-funktio kertoo kuinka lähellä toisiaan pisteet ovat F-funktio kertoo kuinka kaukana pisteet ovat satunnaisesta sijainnista

K-function the problem in the nearest neighbour methods: analysis only deals with the nearest neighbours K-function shows the spatial dependency in a wider area by the K-function the estimation is inside the distance h and shows the distribution of the distances of all events in that area every location is visited and K function is calculated by the observed data set the value of K reveals clustering or regular/random distribution

K-funktio lähimmän naapurin menetelmän ongelma tutkitaan vain lähimpiä K-funktio ilmaisee spatiaalisen riippuvuuden laajemmalla alueella K-funktiolla estimoidaan tietyllä alueella (etäisyydellä h ) kaikkien kohteiden välisten etäisyyksien kumulatiivista jakaumaa kuljetaan kaikkien pisteiden kautta ja lasketaan empiirinen K K:n arvo kertoo klusteroituneen tai säännöllisen tapauksen Ks. kuva O Sullivan&Unwin, s. 94

Comparing two phenomena two point patterns (O Sullivan, Unwin, pp. 123 ) for example pollution and diseases the distances of points in two point sets are analysed by using K- function randomness of the distances the simple test: calculate K-function for both point patterns and interpret the result

Kahden ilmiön kahden pistekuvion vertailu (O Sullivan, Unwin, pp. 123 ) esim. sairaustapaukset ja ympäristöhaitat tutkitaan kahden pistejoukon pisteiden välisiä etäisyyksiä K- funktion avulla tutkitaan ovatko etäisyydet satunnaisia yksinkertaisin testi: lasketaan K-funktio kummallekin aineistolle ja tulkitaan

Applying G-function for spatial dependency of two datasets G-function can be applied for two datasets The distances are calculated from each point on layer 1 to the nearest point on layer 2 Otherwise the methods is used as for one data set Spatenkova used this in her doctoral thesis work

G-funktio kahden datasetin välisen riippuvuuden tutkimiseen Lasketaan etäisyydet jokaisesta tason 1 pisteestä lähimpään naapuriin tasolla 2 Muutoin käytetään G-funktiota kuten yhdelle aineistolle Spatenkova käytti tätä väitöskirjatutkimuksessaan

4. Statistical inference with spatial point patterns In spatiostatistical inference we study and model random variables in 2-,3- or even 4 dimensions methods are most often related with Point patterns and point processes Geostatistics, interpolation In the methods Empirical data is compared with the CRP/IRP First aim is to identify the spatial autocorrelation The goal is to develope a model that can show the characteristics of the found autocorrelation

Tilastollinen päättely spatiaalisessa analyysissä Spatiaalisessa tilastollisessa päättelyssä mallinnetaan satunnaismuuttujan arvojen vaihtelua kaksi-tai kolmiulotteisessa avaruudessa(myos neljä, jos mukana aika) Menetelmät liittyvät useimmiten pistejoukkojen tarkasteluun eli pisteprosesseihin tai sitten interpolointiin eli geostatistiikkaan Menetelmissä Dataa verrataan täydellisen satunnaisuuden malliin Pyritään tunnistamaan autokorrelaatio ja sen vahvuus Tavoitteena malli, joka huomioi autokorrelaation ominaisuudet

(O Sullivan,D.,& Unwin,D., 2003)

How to model point patterns? Points are stochastic variables produced by a process When the variables are indexed by spatial points a spatial random field is created Variables in spatial random field are geometrically dependent Spatial random field is a spatial stochastic process Mathematical and statistical methods can be applied under some restrictions In inferential statistics empirical data is compared to mathematical model In spatial statistics Poisson process is often used as the model of complete randomness Various methods are used in showing whether the data set fits with the model or not See on pages 58 64 the theory behind Poisson; actually Poisson is a simplification of binomial distribution which is laborous to calculate; however by a simple example you can understand the formula and the idea

Pistekuvion mallintamisen perusteita Pisteet ovat tulosta jostain reaalimaailman prosessista; kuten esimerkiksi onnettomuudet Reaalimaailman prosessia voidaan yrittää kuvata matemaattisella prosessilla Koska reaalimaailman prosesseihin liittyy aina sattumanvaraisuutta, niitä kuvataan satunnaisprosesseilla, stokastisilla prosesseilla Tapahtumia, esim. onnettomuuksia, kuvataan prosessin satunnaismuuttujina Kun satunnaismuuttujat indeksoidaan avaruuden pisteille syntyy spatiaalinen stokastinen prosessi, spatiaalinen satunnaiskenttä Satunnaiskentässä muuttujat ovat sidoksissa geometrisesti Tilastollisessa päättelyssä empiiristä dataa verrataan matemaattiseen malliin, pistedataa usein Poisson prosessiin Poisson prosessi on täydellisen satunnaisuuden malli, johon empiiristä dataa verrataan ja todetaan kuinka hyvin data sopii malliin Ks. sivut 58-64 kirjassa; siinä esitellään binomijakauma esimerkillä

Poisson process Stochastic process that models independent events in space and time, stationarity is assumed Poisson distribution is a probability distribution of discrete events, that shows the amount of events in a fixed time slot when the probability of the events is fixed and not dependent on other events Poisson distribution is produced by Poisson process Poisson distriobution has one paremeter, intensity, lambda, that is the expected value in a time unit The variance of Poisson distribution is the expected value We use spatial dimension instead of time Poisson distribution tells the probability of a given amount of events in a given space slot on different lambda values

Poisson prosessi Stokastinen prosessi, joka mallintaa toisistaan riippumattomia tapahtumia paikassa ja ajassa, stationaarisuusehto Poisson jakauma on diskreetin satunnaismuuttujan todennäköisyysjakauma, joka ilmaisee tapahtumien lukumäärän kiinteällä (aika)välillä kun tapahtumien todennäköisyys (ajassa) on vakio ja riippumaton edellisestä tapahtumasta Poisson prosessi on prosessi, joka tuottaa Poisson jakauman Poisson jakaumassa on yksi parametri, Poisson prosessin intensiteetti lambda, joka on tapahtumien odotusarvo aika(paikka)yksikössä Poisson jakauman varianssi = odotusarvo Poisson jakauma kertoo todennäköisyyden tietylle tapahtumamäärälle tietyssä aika(paikka)alueessa eri lambdaarvoilla

Quadrat method so-called quadrat methods the region is divided into subareas amount of events in each quadrat are recorded the quadrats can fill the study region with no overlaps the quadrats can be randomly placed we can compute quadrat counts number of events in each quadrat frequency distribution moving average method the mean is calculated in the window

Tutkimusalamenetelmä tutkimusalamenetelmät (quadrats) jaetaan alue samankokoisiin osiin (neliö,monikulmio) lasketaan havainnot osa-alueittain osat voivat täyttää alueen kokokaan (gridi) osat voidaan valita satunnaisesti voidaan laskea tutkimusalakohtaiset pistesummat frekvenssijakauma miten pisteiden sijoittuminen jakautuu osa-alueiden kesken liukuvan keskiarvon menetelmä; lasketaan ka liukuvassa ikkunassa

Analysis of the quadrat counts Poisson distribution is the null hypothesis of the point pattern (showing the IRP,CRP) if variance/mean(vmr) = 1, distribution is Poisson if the ratio > 1, the point pattern is more clustered if the ratio < 1, the point pattern is more evenly distributed In analysis Khi 2 test can also be applied

Tutkimusalatulosten analyysi pistekuvion jakauman mallintamiseen voidaan käyttää binomijakaumaa tai sen approksimaatiota Poisson jakaumaa (IRP) yksinkertaisin testi siitä kuinka hyvin aineisto noudattaa tätä jakaumaa; varianssi/keskiarvo(vmr)=1 jakauma on Poisson jos suhde > 1 aineisto klusteroituneempaa jos suhde < 1 aineisto tasaisemmin jakautuvaa jakauman analysointiin voidaan myös esim. Khi 2 -testiä ks. esimerkki s. 98 nämä menetelmän käsittelevät aineistoa kokonaisuutena

More examples of using statistical methods in inference Methods that we have lerarned to know as summary statistics can also be used in statistical inference from reserach work by Ms. Olga Spatenkova analysis of fire and resecue incident data and some socio economical explanatory variables the goal of the research is to find good variables to the model risk of incidents K- function was used were used and the statistics were compared to simulated Poisson process; G-function was used in finding the best model for modeling the potential explanatory variables, statistical sigficance was calculated and conclusions were made; see the thesis Chapter 6

Lisää esimerkkejä tilastollisesta päättelystä Menetelmiä, joita on käytetty kuvailemaan dataa, voidaan myös käyttää päättelyyn Olga Spatenkovan väitöskirja Analysoidaan rakennuspalotapahtumadataa ja verrataan sitä joihinkin mahdollisesti selittäviin muuttujiin Tavoitteena on löytää mahdollisia rakennuspaloja selittäviä tekijöitä ja parantaa riskitasomallia K-funktiota käytetään rakennuspalojen satunnaisuuden analysointiin; G-funktiota käytetään mahdollisten selittävien muuttujien löytämiseen; tilastollisen merkittävyyden testaus ja johtopäätösten teko, kappale 6

Ĝ function for building fires and population density Ĝ function (solid line) Theoretical values for random distribution (dashed line) Simulation envelopes (dotted line)

Ĝ function for building fires and stage of life in households Ĝ function (solid line) Theoretical values for random distribution (dashed line) Simulation envelopes (dotted line)

Ĝ function for building fires and building type Ĝ function (solid line) Theoretical values for random distribution (dashed line) Simulation envelopes (dotted line)

Analysis steps Analysis of Kernel density; findings about differencies from random distribution; two clear hotspots Anaysis of domestic fires distance statistics; plot of K-function of the empirical data and the theoretical values of CSR model; CSR model with the same intensity simulated 90 times, envelope created; clustering found Analyses with domestic fires, socio-economic variables and building types by using G-function; simulated process for comparison Statistical significance testing Special features Edge problem solved by buffer Temporal aspect taken into account by dividing fires into day, evening and night fires

Analyysin vaiheet Kernel tiheys analyysi; havaintoja poikkeamasta satunnaiseen jakaumaan; kaksi selkeää hotspottia rakennuspalojen etäisyysanalyysi; K-funktiolla plotataan empiirinen aineisto ja teoreettinen satunnaisuuden malli; satunnaisuuden mallilla simuloidaan samaa tapahtumatiheyttä ja saadaan kuvaajaan min ja max alue; löytyy klusteroituneisuutta Analyysi rakennuspalojen, sosio-ekonomisten muuttujien ja rakennustyyppien välisistä riippuvaisuuksista G-funktiolla, satunnaisuutta mallinnetaan kuten edellä Erityisiä piirteitä Edge problem ratkaistaan puskurialueella Ajallinen dimensio otettu huomioon jakamalla rakennuspalot päivä, ilta ja yö - onnettomuuksiin

Literature O Sullivan & Unwin: Geographic Information Analysis, Chapters:2,3,4 References made in the slides to the 2003 edition of the book Spatenkova,O., Discovering spatio-temporal relationships: A case study of risk modelling of domestic fires. Doctoral thesis, Helsinki University of Technology, 2009. Chapter 6. Rogerson,P., Statistical methods for geography. A students guide. 2015. This book can be used as background reading material, if you need to know some details. Brundson,C., Comber,L.,An introduction to R for spatial analysis & mapping, Chapter 6 (6.1-6.6)