Paikkatiedon käsittely 10. Aluekohteiden yhteisesiintymät

Samankaltaiset tiedostot
Paikkatiedon käsittely 11. Suuren mittakaavan

Paikkatiedon käsittely 12. Yhteenveto

Mitä murteita Suomessa onkaan?

Datatähti 2019 loppu

Luku 7. Verkkoalgoritmit. 7.1 Määritelmiä

Paikkatiedon käsittely 6. Kyselyn käsittely

! 7! = N! x 8. x x 4 x + 1 = 6.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

isomeerejä yhteensä yhdeksän kappaletta.

Tietorakenteet ja algoritmit - syksy

1 Kannat ja kannanvaihto

Kandidaatintutkielman aineistonhankinta ja analyysi

Paikkatiedon hallinta ja analyysi

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

= = = 1 3.

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

30A02000 Tilastotieteen perusteet

MS-A0305 Differentiaali- ja integraalilaskenta 3 Luento 1: Moniulotteiset integraalit

1. Lineaarialgebraa A := Matriisin osia voidaan muutella päivittämällä riviä, saraketta tai osamatriisia (Matlabmaisesti): B :=

Testejä suhdeasteikollisille muuttujille

Algoritmit 2. Luento 6 Ke Timo Männikkö

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Kurssikoe on maanantaina Muista ilmoittautua kokeeseen viimeistään 10 päivää ennen koetta! Ilmoittautumisohjeet löytyvät kurssin kotisivuilla.

Testit järjestysasteikollisille muuttujille

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

A TIETORAKENTEET JA ALGORITMIT

näkökulma lähekkäisten vedenkokoumien nimeämiseen

Ympyrä 1/6 Sisältö ESITIEDOT: käyrä, kulma, piste, suora

y=-3x+2 y=2x-3 y=3x+2 x = = 6

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ahvenlammen lähellä on yleensä Haukilampi

pisteet Frekvenssi frekvenssi Yhteensä

Algoritmit 1. Luento 10 Ke Timo Männikkö

Matemaattinen Analyysi, k2012, L1

KJR-C1001 Statiikka ja dynamiikka. Luento Susanna Hurme

T : Max-flow / min-cut -ongelmat

Algoritmit 1. Luento 1 Ti Timo Männikkö

Esimerkkejä vaativuusluokista

Paikkatiedon käsittely 8. Spatiaalinen riippuvuus

Kenguru 2019 Student lukio

Määrätty integraali. Markus Helén. Mäntän lukio

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Paikkatieto ja assosiaatiosäännöt

Paikkatieto ja assosiaatiosäännöt. Referenssipiirre. Spatiaaliset assosiaatiosäännöt

Diskriminanttianalyysi I

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

Joukot. Georg Cantor ( )

V. V. Vazirani: Approximation Algorithms, luvut 3-4 Matti Kääriäinen

Malliratkaisut Demot

Til.yks. x y z

Äärellisten mallien teoria

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Algoritmit 1. Luento 9 Ti Timo Männikkö

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

ENY-C2005 Geoinformation in Environmental Modelling Suomenkielistä terminologiaa liittyen luentoihin 3 ja 6-8

Johdatus verkkoteoriaan 4. luento

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Matematiikka B2 - TUDI

j(j 1) = n(n2 1) 3 + (k + 1)k = (k + 1)(k2 k + 3k) 3 = (k + 1)(k2 + 2k + 1 1)

Testit laatueroasteikollisille muuttujille

Insinöörimatematiikka D

MS-A0305 Differentiaali- ja integraalilaskenta 3 Luento 1: Moniulotteiset integraalit

Äärellisten mallien teoria

Todennäköisyyden ominaisuuksia

Johdatus graafiteoriaan

Väliestimointi (jatkoa) Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

2 Pistejoukko koordinaatistossa

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Yleistetyistä lineaarisista malleista

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Valitsemalla sopivat alkiot joudutaan tämän määritelmän kanssa vaikeuksiin, jotka voidaan välttää rakentamalla joukko oppi aksiomaattisesti.

Parametrin estimointi ja bootstrap-otanta

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Algoritmit 1. Luento 2 Ke Timo Männikkö

1 Rajoittamaton optimointi

Lineaarialgebra ja matriisilaskenta I

Graafit ja verkot. Joukko solmuja ja joukko järjestämättömiä solmupareja. eli haaroja. Joukko solmuja ja joukko järjestettyjä solmupareja eli kaaria

Algoritmit 2. Luento 11 Ti Timo Männikkö

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Numeeriset menetelmät

Latinalaiset neliöt ja taikaneliöt

Algoritmit 2. Luento 6 To Timo Männikkö

Harjoitus 3 ( )

y z = (x, y) Kuva 1: Euklidinen taso R 2

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Transkriptio:

HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Paikkatiedon käsittely 10. Aluekohteiden yhteisesiintymät Antti Leino antti.leino@cs.helsinki.fi 15.2.2007 Tietojenkäsittelytieteen laitos

Alueittaisen aineiston louhinta Mitä louhitaan? Spatiaalisen riippuvuuden voimakkuutta Yhden / muutaman ilmiön vaihtelu Autokorrelaatio Yhteisesiintymiä Usean ilmiön välisiä riippuvuuksia Assosiaatio- ja kollokaatiosääntöjä

Alueaineiston spatiaalinen rakenne Mahdollista mallintaa verkkona Solmuina alueet Kaaret naapurialueiden välillä Kaariin mahdollista liittää paino Kaaren yhdistämien alueiden välinen etäisyys Ei välttämättä euklidinen etäisyys Vesistöt, vuoristot, tiestö Hallinnolliset rajat

Alueiden läheisyys Ilmeinen vaihtoehto: alueiden keskipisteiden välinen etäisyys Ei aina paras mahdollinen Joskus tarpeen tietää, mitkä alueet naapureita Myös etäisyys voi olla tärkeä

Läheisyysmatriisi Matriisi W, jossa alueet sekä riveinä että sarakkeina kukin alkio osoittaa kahden alueen läheisyyttä Yksinkertainen ratkaisu: binäärinen vierusmatriisi { 1 jos alueilla i ja j yhteinen raja w ij = 0 muulloin A B C D E F A 0 1 0 1 1 0 B 1 0 1 0 1 1 C 0 1 0 0 0 1 D 1 0 0 0 1 1 E 1 1 0 1 0 1 F 0 1 1 1 1 0

Lisää läheisyysmatriisia Läheisyysmatriisin ei tarvitse olla symmetrinen Mahdollista esim. valita W ij = l ij l i, missä l ij on yhteisen rajan pituus ja l i alueen i reunan pituus Binäärisen vierusmatriisin sijasta voi olla kätevä käyttää riveittäin normalisoitua A B C D E F A 0 1/3 0 1/3 1/3 0 B 1/4 0 1/4 0 1/4 1/4 C 0 1/2 0 0 0 1/2 D 1/3 0 0 0 1/3 1/3 E 1/4 1/4 0 1/4 0 1/4 F 0 1/4 1/4 1/4 1/4 0

Vielä lisää Läheisyysmatriisi voidaan yleistää naapuruutta kauemmas Etäisyydellä k läheisyysmatriisi W (k) Esimerkiksi { 1 jos i:llä ja j:llä yhteinen naapuri W (2) = ij 0 muulloin Näin päästään tarkastelemaan ilmiöitä, jotka ovat kylläkin paikallisia mutta silti hiukan suuremmassa mittakaavassa

Spatiaalinen autokorrelaatio Tulkitaan ominaisuustiedon arvo satunnaismuuttujaksi Y y 1,...,y n arvo alueilla 1,...,n Autokorrelaatiota kuvaa Moranin I-mitta I = n n i=1 n j=1 w ij(y i ȳ)(y j ȳ) ( ni=1 (y i ȳ) 2)( i j w ij ) Normalisoidulla läheisyysmatriisilla lyhyemmin I = zwzt, missä z zz T = (y 1 ȳ,...,y n ȳ)

I Vaihtelee välillä 1... +1 Ei autokorrelaatiota: I = 0 Esimerkki: A-veriryhmän osuus Irlannissa Kartta tämän viikon harjoitustehtävänä > library(spdep) > data(eire) > moran(eire.df$a, + nb2listw(eire.nb), + length(eire.df$a), + Szero(nb2listw(eire.nb))) $I [1] 0.5541238 $K [1] 2.977336

Autokorrelaation havainnollistusta Hajontakuvio X-akselilla arvo alueella Y-akselilla alueelle sen naapuruston perusteella ennustettu arvo > moran.plot(spnamedvec("a", eire.df), nb2listw(eire.nb), + labels=rownames(eire.df), + xlab= A-veriryhmän osuus, + ylab= Osuus lähialueella ) I-mitta hajontakuvioon sovitetun suoran kulmakerroin

Lisää I:stä Läheisyysmatriisin valinnalla on merkitystä Vierusmatriisi ei välttämättä paras valinta Mahdollista ottaa mukaan alueiden (keskipisteiden) etäisyys (tai pikemminkin sen käänteisluku) Myös mahdollista laskea I-mitta etäisyydellä k: n n n I (k) i=1 j=1 w(k) (y ij i ȳ)(y j ȳ) = ( ni=1 (y i ȳ) 2)( ) i j w (k) ij

Lisää autokorrelaatiota Gearyn C-mitta Mittaa naapuriarvojen erotuksen varianssia (n 1) n n i=1 j=1 C w ij(y i y j ) 2 = 2 ( ni=1 (y i ȳ) 2)( ) i j w ij Vaihtelee välillä 0...2 Positiivinen korrelaatio: C < 1 Negatiivinen korrelaatio: C > 1 > geary(eire.df$a, nb2listw(eire.nb), length(eire.df$a), + length(eire.df$a)-1, Szero(nb2listw(eire.nb))) $C [1] 0.3801197 $K [1] 2.977336

Mutta merkitseekö se mitään? I- ja C-mittojen merkitsevyyttä voi arvioida vertaamalla niitä vastaavaan normaalijakaumaan Z(C) = C E(C) D(C) Monte Carlo -testaus myös käyttökelpoinen > geary.mc(spnamedvec("a", eire.df), nb2listw(eire.nb), 100) Monte-Carlo simulation of Geary s C data: spnamedvec("a", eire.df) weights: nb2listw(eire.nb) number of simulations + 1: 101 statistic = 0.3801, observed rank = 1, p-value = 0.009901 alternative hypothesis: less

Aluekohteiden assosiaatiot Transaktiopohjainen assosiaation käsite yleistettävissä spatiaaliseen aluedataan Edellyttää muutamaa apukäsitettä: assosiaatiosäännön A B luotettavuus (confidence): P(B A) kattavuus (support): P(A B) Transaktioille määriteltävissä tapausjoukkojen {A}, {B} ja {A, B} frekvenssien avulla Määriteltävissä myös aluedatalle

Lisää assosiaatioista Säännön tulkinnan kannalta olennainen mitta sen luotettavuus Osoittaa, kuinka»varmasti» ehto pätee Säännön kattavuus tärkeä lähinnä algoritmisesti Sen tai tarkkaan ottaen säännön määrittelyyn käytettyjen joukkojen yleisyyksien perusteella karsitaan hakuavaruutta Toisaalta vaarallinen: luotettavat, mutta harvinaiset säännöt jäävät huomaamatta Ei tarpeellinen kahden ilmiön välisten sääntöjen tarkastelussa

Aluekohteiden assosiaatiot leikkausten pinta-aloina Tarkastelualueella R kohteet A ja B sekä niiden leikkaus Assosiaatiosäännölle A B support = area(intersection(a, B)) / area(r) confidence = area(intersection(a, B)) / area(a) Vastaavasti myös säännöille A 1,...,A n B

Aluekohteiden yhteisesiintymät Alueiden leikkausten pinta-aloja voi käyttää myös yhteisesiintymäsääntöjen louhintaan Tässäkin perusajatus on sama Käytetään leikkauksen pinta-alaa mittana Muuten sovelletaan transaktiodatan louhinnasta tuttuja menetelmiä (kuten Apriori)

Alueiden leikkausten käyttö louhinnassa Leikkausten pinta-alojen käyttö melko suoraviivaista Toteutettavissa suoraan tietokantahakuina Tarvittavat operaatiot leikkaus ja pinta-ala olemassa Louhinta-algoritmi kirjoitettava vielä lisäksi Tehokkuus riippuu olennaisesti paikkaoperaatioiden toteutuksesta

Aluekohteiden assosiaatiot Esimerkki: sääntö Lounaismurteet Varsinais-Suomi Lähtöaineisto: maakunnat ja murrealueet Luotettavuus: select area(intersection(paamurteet.geometry, maakunta.geometry)) / area(paamurteet.geometry) from paamurteet, maakunta where paamurteet.murrealue= Lounaismurteet and maakunta.nro = 2;?column? ------------------- 0.772159513285472 (1 row) Kattavuus: select area(intersection(a.geometry, maakunta.geometry)) / area(geomunion(b.geometry)) from paamurteet as a, paamurteet as b, maakunta where a.murrealue= Lounaismurteet and maakunta.nro = 2 group by a.geometry, maakunta.geometry;?column? -------------------- 0.0164776623589566 (1 row)

Aluekohteiden assosiaatiot Lounaismurteet Varsinais-Suomi Luotettavuus 0.77 Kattavuus 0.02

Alueiden leikkaukset louhinnassa Etsitään alueiden välisiä yhteisesiintymiä Kukin ilmiö oma kohteensa Vrt. merkkiset pistekuviot Vrt. spaghettimalli vs. verkkomalli Riippuu aineistosta ja tavoitteista, onko tällainen järkevää

Aluejakoon perustuva aineisto Jos alueet ovat erillisiä ja kattavat tarkasteltavan maailman, on toinenkin vaihtoehto Keskitetään huomio eri ominaisuustietojen välisiin assoiaatioihin Yleensä oletus luokka-asteikosta Tulkitaan kukin alue transaktioksi Nyt mahdollista käyttää suoraan perinteisiä louhinta-algoritmeja

Pistekohteet alueina Molempia aluekohteiden louhintatapoja voi soveltaa myös pistekohteisiin Tässä lähinnä 1. kertaluvun ilmiöt Vaihtoehto 1: muunnetaan pistekuviot alueiksi Nyt mahdollista käyttää alueiden leikkauksia ja pinta-aloja

Pistekohteet ja aluejako Vaihtoehto 2: jaetaan tarkasteltava maailma alueiksi Tasavälinen ruudukko Hallinnollinen tms. epäsäännöllinen jako Tulkitaan alueet transaktioiksi Matriisi: riveinä alueet, sarakkeina eri pistekuviot Kussakin alkiossa tieto siitä, esiintyykö kuvion pisteitä alueella A B 1 1 0 2 1 1 3 1 1 4 1 0 5 1 1 6 0 1

1. vai 2. kertaluvun ilmiöitä? Menetelmät sopivat sekä pienen että suuren mittakaavan yhteisesiintymäsääntöjen etsintään Pisteiden levikkien samankaltaisuus Lähekkäisten esiintymien vaikutus toisiinsa Yleensä pienen mittakaavan säännöt mielenkiintoisempia Suuren mittakaavan ilmiöissä usein kiinnostavampaa yleiskuvan muodostaminen koko aineistosta