GIS-jatkokurssi. Viikko 4: Spatiaalinen statistiikka. Harri Antikainen

Samankaltaiset tiedostot
Johdatus geospatiaaliseen tutkimukseen

Harjoitus 7: NCSS - Tilastollinen analyysi

Yleistetyistä lineaarisista malleista

1. Tilastollinen malli??

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

pitkittäisaineistoissa

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

pitkittäisaineistoissa

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Harjoitus 9: Excel - Tilastollinen analyysi

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Sovellettu todennäköisyyslaskenta B

Harjoitus 2: Matlab - Statistical Toolbox

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Vastepintamenetelmä. Kuusinen/Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

ABHELSINKI UNIVERSITY OF TECHNOLOGY

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Tekijä Pitkä matematiikka Pisteen (x, y) etäisyys pisteestä (0, 2) on ( x 0) Pisteen (x, y) etäisyys x-akselista, eli suorasta y = 0 on y.

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Identifiointiprosessi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

tilastotieteen kertaus

4. Funktion arvioimisesta eli approksimoimisesta

MONISTE 2 Kirjoittanut Elina Katainen

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Regressioanalyysi. Kuusinen/Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Matemaatikot ja tilastotieteilijät

Esimerkki 1: auringonkukan kasvun kuvailu

Tampereen yliopisto Tietokonegrafiikka 2013 Tietojenkäsittelytiede Harjoitus

5.6.3 Matematiikan lyhyt oppimäärä

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Väliestimointi (jatkoa) Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tutkimustiedonhallinnan peruskurssi

2 Pistejoukko koordinaatistossa

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

4. Tietokoneharjoitukset

GIS-jatkokurssi. Syksy 2016

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tekijä Pitkä matematiikka

Sovellettu todennäköisyyslaskenta B

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

2. TILASTOLLINEN TESTAAMINEN...

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

HAVAITUT JA ODOTETUT FREKVENSSIT

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

Mat Tilastollisen analyysin perusteet, kevät 2007

4. Tietokoneharjoitukset

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

SUOJAVYÖHYKKEET. Raakaversio

Hämeenlinna Jari Lindblad Jukka Antikainen

Preliminäärikoe Tehtävät A-osio Pitkä matematiikka kevät 2016 Sivu 1 / 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

MAB3 - Harjoitustehtävien ratkaisut:

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

GIS-jatkokurssi. Syksy 2016

Matematiikan tukikurssi

Transkriptio:

GIS-jatkokurssi Viikko 4: Spatiaalinen statistiikka Harri Antikainen

Spatiaalinen statistiikka Spatiaalinen tilastotiede (spatial statistics) Maantieteessä ollaan usein kiinnostuttu siitä, onko jossain ilmiössä spatiaalista (alueellista) vaihtelua Spatiaalisella statistiikalla voidaan esimerkiksi pyrkiä: tunnistamaan jonkin ilmiön alueellisia tihentymiä tai ilmiön puuttumista jostakin ennustamaan ilmiön alueellista jakautumista (geostatistinen interpolointi) 2

Spatiaalinen statistiikka Tarkastellaan pelkästään kohteiden sijaintia toisiinsa nähden Pistejoukkojen tarkastelu Average Nearest Neighbor Multi-Distance Spatial Cluster Analysis (Ripleys K Function) Tarkastellaan kohteiden ominaisuustietoa sekä sitä miten tämä muuttuu etäisyyden funktiona Spatiaalinen autokorrelaatio Spatial Autocorrelation (Morans I) Incremental Spatial Autocorrelation Klusteroitumisen tutkiminen Hot Spot Analysis (Getis-Ord Gi*) Cluster and Outlier Analysis (Anselin Local Morans I) 3

Pistejoukkojen tarkastelu visuaalisesti Pistejoukon jakautumisen visuaalinen tarkastelu auttaa havaitsemaan mahdollisia tihentymiä (tiheyspinnat, ks. tarkemmin 2. viikon luento!) Pelkkä visuaalinen tarkastelu voi kuitenkin olla epävarmaa 4

Pistejoukkojen tarkastelu tilastollisesti Pyritään selvittämään, sijaitsevatko pisteet satunnaisesti (random), klustereina (clustered) vai toisistaan erillään (dispersed) dispersed - inhibition - repulsion - regular pattern complete spatial randomness (CSR) clustered - aggregated - attraction 5

Average Nearest Neighbor (ANN) Lasketaan pistejoukon jokaiselle pisteelle etäisyys lähimpään naapuriin Lasketaan etäisyyksistä keskiarvo Verrataan tätä odotettuun keskiarvoon, jos pisteet olisivat jakautuneet satunnaisesti Havaittu keskimääräinen etäisyys kohteen ja sen lähimmän naapurin välillä Odotettu keskimääräinen etäisyys kohteen ja sen lähimmän naapurin välillä, olettaen että pisteet jakautuneet alueelle satunnaisesti 6 ANN = 1 satunnainen jakauma ANN < 1 klusteroitumista todettavissa ANN > 1 jakauma on hajautunut

Average Nearest Neighbor Esimerkiksi viereiset 3 pistettä kehyksen alueella (1000 1000 m): D O = (250 + 100 + 100) / 3 = 150 D E = 0.5 / 3/1000000 = 288.6836 ANN = 150 / 288.6836 = 0.5196 Päätelmä: indeksin arvon perusteella pisteet osoittavat klusteroitumista tosin pisteitä on niin vähän ettei tilastollisia johtopäätöksiä pysty tekemään 7 1000 m

Average Nearest Neighbor Sen sijaan jos samojen pisteiden sijaintia tutkitaan suppeammalla, 300 300 m kokoisella alueella: D O = (250 + 100 + 100) / 3 = 150 D E = 0.5 / 3/90000 = 86.603 ANN = 150 / 86.603 = 1.732 Päätelmä: nyt pistejoukko näyttäytyykin hajautuneena tosin tilastolliset päätelmät eivät edelleenkään ole mahdollisia 300 m 8

Pistejoukkojen tarkastelu Sama pistejoukko voi siis näyttäytyä klusteroituneena, satunnaisena tai hajautuneena riippuen siitä, minkä kokoista aluetta vasten sitä tarkastellaan! - Alueen muodolla ei tosin ole sinällään mitään väliä. Satunnainen / hajautunut Klusteroitunut 9

Average Nearest Neighbor Spatial Statistics Tools Analyzing Patterns Average Nearest Neighbor Tarkasteltava pistejoukko Etäisyyden tarkastelutapa Euclidean: suora viiva Manhattan: x- ja y-akseleita pitkin Tuotetaan raportti Tarkasteltavan alueen laajuus Oletuksena pisteet sisälleen sulkeva suorakaide 10

Average Nearest Neighbor Tulokset saa parhaiten näkyviin tuplaklikkaamalla Report File kohtaa Results-näkymässä Jos Results-näkymää ei näy, valitse valikoista Geoprocessing Results Raportti avautuu nettiselaimessa 11

Tulosraportti Esittää z-scoren arvon sijainnin standardinormaalijakaumalla Tässä tapauksessa tulos sijoittuu jakauman vasempaan häntään viitaten merkittävään klusteroitumiseen Average Nearest Neighbor analyysin perusluvut nähtävissä kuvion alla Havaittu keskietäisyys Odotettu keskietäisyys Laskettu ANN-indeksiluku 12

Tulosraportin tulkinnasta tarkemmin... Jos pistejoukolle arvottaisiin sattumanvaraisesti ääretön määrä erilaisia sijainteja ja laskettaisiin niille ANN-indeksi, niin indeksin pitäisi periaatteessa noudattaa normaalijakaumaa Tutkittavalle pistejoukolle laskettua ANNindeksiä verrataan tähän jakaumaan Näin selviää, kuinka todennäköistä on että pisteiden havaittu jakautuminen olisi pelkän sattuman tulosta 1 13 Esim. tässä olisi vain muutaman prosentin todennäköisyys sille että havaittu jakauma olisi syntynyt pelkän sattuman tuloksena

http://www.spatialanalysisonline.com/html/index.html?pairwise_distances.htm Multi-Distance Spatial Cluster Analysis (Ripleys K Function) Voidaan tarkastella pisteiden klusteroitumisen skaalaa ANN:sta poiketen ei katsota vain etäisyyttä lähimpään pisteeseen, vaan muodostetaan sarja vyöhykkeitä joilta lasketaan muiden pisteiden määrä Verrataan eri etäisyysvyöhykkeillä havaittua pistetiheyttä CRS:n mukaiseen odotettuun tiheyteen 14

Multi-Distance Spatial Cluster Analysis (Ripleys K Function) Spatial Statistics Tools Analyzing Patterns Multi-Distance Spatial... Etäisyysvyöhykkeiden määrä Näytä tulos graafisesti Ensimmäisen etäisyysvyöhykkeen mitta Loppujen etäisyysvyöhykkeiden mitta Reunakorjausmenetelmä: Method to use to correct for underestimates in the number of neighbors for features near the edges of the study area. 15

Multi-Distance Spatial Cluster Analysis (Ripleys K Function) Plotataan havaittu (observed) ja odotettu (expected) K-indeksiluku etäisyyden mukaan Esim. kuva oikealla: n. 8000 metrin etäisyyteen asti klusteroitumista, sen jälkeen hajautumista 16

Spatiaalinen autokorrelaatio Toblerin laki ( Maantieteen ensimmäinen laki ): "everything is related to everything else, but near things are more related than distant things (Waldo Tobler 1970) auto-korrelaatio = itsensä kanssa korreloiminen Spatiaalinen autokorrelaatio siis kuvaa sitä, kuinka jokin mitattavissa oleva ilmiö korreloi itsensä kanssa tilassa, etäisyyden funktiona 17

Voimakas autokorrelaatio Autokorrelaation voimakkuus Spatiaalinen autokorrelaatio Esimerkkinä alue, jolla on sademittausasemia ja niiltä mittaustuloksia Tyypillisesti toisiaan lähellä olevilla asemilla mittaustulokset samansuuntaisia 29 mm 33 mm 23 mm 30 mm Korrelogrammi 14 mm 10 mm 8 mm Heikko autokorrelaatio Etäisyys pisteiden välillä 18 Lyhyt etäisyys Pitkä etäisyys

Spatiaalinen autokorrelaatio Positiivinen SA on silloin, kun keskenään samankaltaiset mittausarvot esiintyvät lähellä toisiaan Negatiivinen SA on silloin, kun samankaltaiset arvot ovat kaukana toisistaan (tästä on tosin vaikea keksiä reaalimaailman esimerkkiä) Nolla SA on silloin kun mittausarvot eivät mitenkään riipu sijainnista 19 Positiivinen SA Ei spatiaalista autokorrelaatiota Negatiivinen SA

Spatiaalinen autokorrelaatio Voi olla ongelmallinen tai kertoa ongelmasta Klassiset tilastotieteen menetelmät edellyttävät havaintoyksiköiltä keskinäistä riippumattomuutta Korkea SA voi indikoida tutkittavan ilmiön kannalta virheellisesti valittuja alueyksiköitä Toisaalta toimii perustana mallinnuksille Spatiaalinen interpolointi Alueiden pilkkominen tuo lisää havaintoyksiköitä ja siten näennäisesti lisää tilastollista selitysvoimaa, mutta tosiallisesti yksi ja sama ilmiö vain hajotetaan keskenään samankaltaisiin palasiin. Tilanne ilmenee voimakkaana SA:na. Ilman spatiaalista autokorrelaatiota ei olisi maantiedettä! 20

Spatiaalisen autokorrelaation testaaminen Nollahypoteesi: Ilmiö on jakautunut satunnaisesti Havaintoarvo jossakin pisteessä ei riipu havaintoarvoista läheisissä pisteissä Havaittu arvojen jakautuminen on yhtä todennäköinen kuin mikä tahansa muu jakautuminen Spatiaalista autokorrelaatiota testataan jotta tiedetään ovatko lähellä toisiaan olevat kohteet keskenään samanlaisia: tämän vuoksi on ensin päätettävä, mitä lähellä tarkoittaa Määritetään joku läheisyyskriteeri (esim. tietty etäisyyssäde tai toisiaan koskettavat alueet) sekä mahdollinen etäisyyspainotus 21

painotus painotus painotus Tapoja määrittää naapurusto/etäisyys Fixed distance band Kiinteä etäisyys jonka sisällä kaikki kohteet saavat saman painotuksen etäisyys Inverse distance Kohteen painotus laskee etäisyyden kasvaessa Zone of indifference Yhdistelmä edellisistä. Määritetään kriittinen etäisyys (sisempi ympyrä) jonka ulkopuolella painotus vähenee etäisyys 22 etäisyys

Menetelmiä SA:n testaamiseen (ArcGIS) Morans I Moranin I-indeksi on perinteinen menetelmä, antaa arvon välillä -1 ja 1 Incremental Spatial Autocorrelation Sama kuin yllä, mutta testi tehdään sarjalle kasvavia (incremental) etäisyyksiä Tavoitteena löytää SA:n vaikutusetäisyys High/Low Clustering (Getis-Ord General G) Testataan, ovatko pienet tai suuret havaintoarvot keskittyneet lähelle toisiaan aineistossa 23

Esimerkki Kunnittainen sairastavuusindeksi Visuaalisen tarkastelun perusteella voidaan odottaa, että tarkasteltavassa ilmiössä on spatiaalista autokorreloitumista: korkean indeksin kunnat ovat usein naapureita keskenään ja samoin myös matalan indeksin kunnat Testataan seuraavaksi sairastavuusindeksiä eri menetelmillä 24

Morans I Spatial Statistics Tools Analyzing Patterns Spatial Autocorrelation (Morans I) Aineisto Tarkasteltava muuttuja Tuotetaan raportti Etäisyyspainotuksen tapa Standardointi, suositellaan tekemään polygoniaineistoille Etäisyys, jolla SA:ta testataan. HUOM: kuten aina, etäisyys on annettava koordinaattijärjestelmän mukaisissa yksiköissä! Eli tässä 100 000 tarkoittaa metriä, vastaten siis 100 km. 25

Morans I - tulos Tulos saadaan siis auki Results-näkymän kautta Indeksin arvo 0,645398 eli vahvasti positiivinen SA Z-score sijoittuneena jakauman oikeaan häntään joten SA on tilastollisesti merkitsevää 26

Morans I - tulos HUOM: Esimerkissä saatu tulos on siis vastaus kysymykseen: Onko sairastavuusindeksi spatiaalisesti autokorreloitunut 100 km etäisyydellä kun kohteita (kuntia) painotetaan etäisyyden suhteen käänteisesti? Tässä tapauksessa 100 km etäisyys valittu siksi että jokaisella kunnalla olisi kyseisellä etäisyydellä vähintään yksi naapuri (matka kunnan keskipisteestä toiseen) Analyysi voidaan lisäksi tehdä sarjana, jossa testataan SA:ta erilaisilla etäisyyksillä Incremental Spatial Autocorrelation 27

Incremental Spatial Autocorrelation Spatial Statistics Tools Analyzing Patterns Incremental Spatial Autocorrelation Aineisto Tarkasteltava muuttuja Montako vyöhykettä? Sisimmän vyöhykkeen säde Inkrementtien mitta HUOM! Tässä EI OLE valittavissa etäisyyspainotuksen (Conceptualization of Spatial Relationships) tapaa, vaan käytössä on aina FIXED_DISTANCE_BAND 28 Aiemmasta poiketen raportti tulee tässä pdf:nä, jonka nimen ja paikan voi määrittää itse

Incremental Spatial Autocorrelation - tulos Testataan Moranin indeksin tilastollinen merkitsevyys eri etäisyyksillä Huippukohdan tulisi ArcGISdokumentaation mukaan osoittaa SA:n vaikutusetäisyyttä 29

Incremental Spatial Autocorrelation omaa tulkintaa Jos plotataan Moranin I-indeksin arvot sellaisenaan, käyrä laskee tasaisesti etäisyyden mukaan Laajempi säde kattaa aina enemmän alueita ja siten testin tulos on herkemmin merkittävä Onko tilastolliseen merkitsevyyteen perustuva arviointi järkevää? Vai olisiko parempi katsoa pelkkiä indeksin arvoja sellaisenaan? 30

Moranin I:n rajoitteet Moranin I on globaali mittari, eli kertoo vain sen, kuinka voimakasta SA on aineistossa keskimäärin SA:n voimakkuus ja muoto voi kuitenkin vaihdella tarkasteltavan alueen eri osissa Ylipäätään Moranin I ei kerro, missä päin aluetta korkeat tai matalat arvot ovat keskittyneet Klusterien etsimiseen on ArcGIS:ssä omat menetelmänsä: Hot Spot Analysis (Getis-Ord Gi*) Cluster and Outlier Analysis (Anselin Local Morans I) 31

Hot Spot Analysis (Getis-Ord Gi*) Spatial Statistics Tools Mapping Clusters Hot Spot Analysis (Getis-Ord Gi*) Etsitään korkeiden ( hot ) ja matalien ( cold ) havaintoarvojen keskittymiä Valinnat pääosin vastaavia kuin edellä Self Potential Field: kohteen etäisyys itseensä. Jos tätä ei ole määritetty, käytetään jokaisella kohteella oletuksena arvoa 1 32

Hot Spot - tulos Korkeiden arvot tilastollisesti merkitsevät spotit punaisella Matalien arvojen vastaavat sinisellä Tässäkin tulos riippuu vahvasti valitusta tarkasteluetäisyydestä sekä etäisyys-painotuksesta! 33

Hot Spot kartta vs. ilmiö sellaisenaan 34

Optimized Hot Spot Analysis Automatisoitu hot spot analyysi, jossa ArcGIS määrittää parametrit objektiivisesti aineiston perusteella Esimerkiksi tarkasteluetäisyyden määrittämiseen Optimized Hot Spot Analysis käyttää Incremental Spatial Autocorrelation proseduuria Muiden määrittelyjen osalta ks. ArcGIS:n dokumentaatio: How Optimized Hot Spot Analysis Works 35

Cluster and Outlier Analysis Spatial Statistics Tools Mapping Clusters Cluster and Outlier Analysis (Anselin Local Morans I) Periaatteessa vastaava kuin hotspotanalyysi, mutta osoittaa myös outlierit Analyysin tulos tulee uudelle tasolle, ei siis tule raporttia Permutaatioiden määrä. Permutaatiossa dataa sekoitetaan, eli tässä tuotetaan erilaisia satunnaisia versioita datasta. Tämän perusteella voidaan mitata, kuinka todennäköisesti datassa esiintyvä klusteroituminen voi olla puhtaasti satunnaista. Mitä enemän permutaatioita, sitä luotettavampi tämä arvio on, mutta samalla laskenta-aika kasvaa. 36

Cluster and Outlier Analysis tulos High-High Cluster: Korkeiden havaintoarvojen keskittymä Low-Low Cluster: Pienien havaintoarvojen keskittymä High-Low Outlier: Yksittäinen korkea arvo matalien arvojen keskittymässä Low-High Outlier: Yksittäinen matala arvo korkeiden arvojen keskitytmässä Not Significant: Ei klusteroitumista HUOM: Saatu tulos riippuu voimakkaasti siitä, mikä tarkasteluetäisyys on valittu (tässä 100 km). Etäisyyden vaikutusta tuloksiin voidaan kokeilla harjoituksissa. 37

Geostatistiikka Spatiaalinen ennustamismenetelmä, jossa hyödynnetään tietoa SA:sta Spatiaalinen ennustaminen spatiaalinen interpolointi Spatiaalinen interpolointi: yhtenäisen karttapinnan muodostaminen havaintopisteiden perusteella, eli estimoidaan arvo niihin kohtiin mistä mitattua arvoa ei ole Käsittelee spatiaalisesti jatkuvia prosesseja, eli muuttujia, joiden arvo on ainakin periaatteessa määritettävissä missä tahansa tutkimusalueen pisteessä esim. lämpötila, lumen syvyys, topografia 38

painotukset Geostatistinen vs. tavallinen interpolointi Tyypillisimmin interpolointi toteutetaan inverse distance weighting (IDW) menetelmällä, missä arvo estimoidaan lähimpien tunnettujen mittauspisteiden perusteella painottaen niitä etäisyyden mukaan Etäisyyspainotus valitaan yleensä ilman sen kummempia perusteluja 39

Geostatistinen vs. tavallinen interpolointi Geostatistisen interpoloinnin tavoitteena on määrittää painotusfunktio empiirisesti, jotta interpolointi vastaisi paremmin mallinnettavaa ilmiötä Painotusfunktion muodon määrittäminen perustuu SA:n analysoimiseen Geostatistiseen mallinnukseen liittyy tosin muutakin, siitä kohta lisää... Perus -IDW:ssä painotusfunktio voisi olla esim. tällainen...kun taas empiirisesti (geostatistisesti) mallinnettuna painotus voi olla tällainen 40

Geostatistiikan historiaa Taustat geologiassa ja kaivosteollisuudessa Perusajatuksen takana Daniel G. Krige, idean jatkokehittäjiä monia muitakin, erityisesti Georges Matheron Geostatistiikkaan perustuva interpolointi = kriging Alueellistettujen muuttujien teoria (Regionalized Variable Theory) Kiinnitetään huomiota muuttujan kolmeen ominaispiirteeseen: Muuttujasta yritetään selvittää mahdollisimman paljon 1) rakenteellisen piirteen ominaisuuksia Sitten yritetään löytää muuttujan arvojen riippuvuuksia 2) autokorrelaation muodossa ja erottaa siitä puhdas satunnainen elementti eli ns. 3) kohina 41

Muuttujan arvo, esim. maaston korkeus Muuttujan peruskomponenttien tunnistaminen Rakenteellinen komponentti (trendi) Spatiaalisesti autokorreloitunut komponentti Sijainti Autokorreloimattoman satunnaisvaihtelun komponentti (kohina) 42

Rakenteellinen komponentti (trendi) Mallinnetaan yleensä polynomifunktion avulla suositeltavaa on käyttää mahdollisimman alhaisen asteen polynomia Rakenteellisen komponentin mallinnus ei ole itsetarkoitus, vaan se mallinnetaan vain mikäli sellainen on datassa nähtävissä (aina ei suinkaan ole) Mallinnuksen tarkoituksena on eristää muuttujasta pois rakenteellinen komponentti, jotta spatiaalinen autokorrelaatio voidaan mallintaa ilman rakenteellisen komponentin häiritsevää vaikutusta 43

Spatiaalinen autokorrelaatio / semivariogrammi Spatiaalisen autokorrelaation funktio pyritään löytämään semivariogrammi-tekniikalla Lähtökohtana havaintoaineiston kaikkien pisteiden yhdistäminen pistepareiksi: Muodostuu n(n-1) / 2 kpl pistepareja (n = havaintopisteiden lukumäärä) Jokaisen pisteparin osalta lasketaan: Pisteiden välinen maantieteellinen etäisyys Ero tarkasteltavan muuttujan suhteen 44

Spatiaalinen autokorrelaatio / semivariogrammi Semivarianssi (tai vaihtoehtoisesti kovarianssi) esitetään koordinaatistossa etäisyyden suhteen hajontakuviona Hajontakuvioon sovitetaan siihen parhaiten sopiva matemaattinen funktio, jonka siten katsotaan olevan SA:ta kuvaava funktio Semivarianssi (vaihtelun voimakkuus) Sill Range = etäisyys jolla kuvaaja tasoittuu = etäisyys jolla SA:n katsotaan loppuvan vaikuttamasta Nugget 45 29.9.2017 Etäisyysluokka (Lag)

Spatiaalinen autokorrelaatio / semivariogrammi Erilaisia teoreettisia funktioita: 46 http://gisgeography.com/kriging-interpolation-prediction/

Spatiaalinen autokorrelaatio / semivariogrammi Esimerkkejä erilaisista semivariogrammeista: nugget Ei spatiaalista autokorrelaatiota (pelkkä nugget-efekti) Spatiaalista autokorrelaatiota sekä satunnaisvaihtelua Vahva spatiaalinen autokorrelaatio ilman satunnaisvaihtelua 47 http://ceadserv1.nku.edu/longa//modules/geostats/lec.html

Kriging Krigingin perusmallina on Z(s) = µ(s) + ε(s), missä Z on tarkasteltava muuttuja, koostuen trendistä µ ja spatiaalisesti autokorreloituneista virhetermeistä ε (s viittaa sijaintiin) On erilaisia kriging-variaatioita, jotka soveltuvat eri tilanteisiin, mm.: 48 Kriging-menetelmä Simple kriging Ordinary kriging Universal kriging Cokriging Tilanne jossa käytetään Trendi on tunnettu vakio. Trendi on tuntematon vakio. Trendi on jokin deterministinen funktio. Kriging-interpolointi tehdään yhden tai useamman muun muuttujan avustuksella. Hyödyllinen silloin jos varsinaisesta interpoloitavasta muuttujasta on vähän mittauspisteitä, mutta se korreloi jonkin toisen muuttujan kanssa, josta on saatavilla paremmin mittaustietoa.

Geostatistical Analyst Customize Toolbars Geostatistical Analyst Työkalupalkki, jonka avulla on mahdollista suorittaa spatiaalinen interpolointi sekä geostatistiikalla että perinteisin (deterministisin) menetelmin 49

Geostatistical Analyst esimerkki Interpoloidaan mittauspisteistä koostuva lumensyvyys-aineisto käyttäen Geostatistical Analystiä 50

Geostatistical Analyst Aluksi on syytä suorittaa aineiston eksploratiivinen tarkastelu Onko muuttuja normaalijakautunut? Onko muuttuja alueellista rakennetekijää (trendiä)? Semivarianssin/kovarianssin tarkastelu etäisyyden mukaan 51

Trend Analysis Kolmiulotteinen hajontakuvio tarkasteltavasta muuttujasta Data-arvot projisoitu x- ja y- akselien suuntaisesti ja niihin kumpaankin on istutettu kuvaaja Nämä kuvaajat osoittavat rakenteellisen komponentin muotoa kummankin sijaintikoordinaatin suunnassa 52

Geostatistical Wizard Valitaan Geostatistical Analyst palkista Geostatistical Wizard Tällöin avautuu wizardtyyppinen näkymä Valitaan menetelmäksi Kriging/CoKriging Varmistetaan myös että valittuna on oikea data (Source Dataset) sekä muuttuja (Data Field) 53

Geostatistical Wizard Transformation type: mahdollisuus tehdä muuttujamuunnoksia Order of trend removal: jos datassa on trendi, määritetään se huomioitavaksi tässä HUOM: Muuttujamuunnos tai trendin poisto on aiheellista tehdä vain jos sille on oikea tarve! 54

Geostatistical Wizard Jos edellisessä vaiheessa valittiin trendin poisto, näkyy poistettava trendi tässä näkymässä Trendin voisi sovittaa paikallisemmaksikin (Exploratory Trend Surface Analysis liukupalkki), mutta pääsääntöisesti trendikomponentti kannattaa mallintaa mahdollisimman yksinkertaisena Jotta ei vahingossa mallinneta samalla pois SA-komponettia 55

Geostatistical Wizard Kovarianssikuvio Tästä kovarianssikuvion tilalle voi vaihtaa semivariogrammin (ei sinänsä muuta homman ideaa) Hajontakuvioon asetettava funktio Liittyy anisotropian eli SA:n suuntautuneisuuden tarkasteluun Etäisyysluokkien koko ja lukumäärä 56

Geostatistical Wizard Tässä näkymässä voi säätää interpolaation asetuksia Kun klikkaa mihin tahansa kohtaan kartalla, näkee, minkä pisteiden perusteella kyseisen kohdan interpolointi tapahtuisi ja millä painotuksilla 57

Geostatistical Wizard Mallin hyvyyden arviointi Hajontakuviossa mitatut vs. mallin ennustamat arvot Ihannetilanteessa sininen viiva ja harmaa 1:1- referenssiviivan päällekkäin Katso myös tunnusluvut kuvion alapuolelta (Prediction Errors) 58

Geostatistical Wizard Lopputuloksena on ennustekartta (Prediction Map), siis interpoloitu kartta Tässä tapauksessa kartta rajattu Suomen rajojen mukaan: View Data Frame Properties Data Frame Clip To Shape Specify Shape Outline of Features suomi Toisaalta täytetty koko Suomen alue: Prediction Map Layer Properties Extent Set the extent to: the rectangular extent of suomi 59

Geostatistical Wizard mitä sitten? Yleensä kannattaa tehdä useita malleja ja verrata mallien Prediction Error parametreja toisiinsa Geostatistista mallia on mahdollista säätää monin eri tavoin, erilaisia kombinaatioita on valtavasti! Kannattaa ainakin haarukoida tietyillä perusparametreilla (trendin poisto, SA:n funktio, lagien määrä ja koko) Anisotropia syytä mallintaa mikäli tarkasteltava muuttuja on selvästi suuntautunut (esim. topografia siellä missä on harjumuodostelmia) 60