HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Paikkatiedon käsittely 12. Yhteenveto Antti Leino antti.leino@cs.helsinki.fi 22.2.2007 Tietojenkäsittelytieteen laitos
Kurssin sisältö Tiedonhallinnan ja data-analyysin erityiskysymyksiä, kun käsiteltävä aineisto sisältää paikkaan liittyvää tietoa Paikkatiedon käsittely relaatiotietokannassa Relaatiomallin ja SQL-kielen laajennokset Paikkatiedon indeksointi tietokannassa Assosiaatio- ja yhteisesiintymäsääntöjen etsintä Suuren mittakaavan ilmiöt
Mitä paikkatieto on? Kaksi komponenttia Sijaintitieto Ominaisuustieto Erilaiset asteikot Erilaisia työkaluja Paikkatietojärjestelmä Paikkatietokanta
Paikkatiedon esittäminen Tilapohjainen esitys Ominaisuustieto liitetty suoraan (rasteri)avaruuden pisteisiin Maantieteellisesti jatkuva ominaisuustieto Erityisesti paikkatietojärjestelmien rasteritasoissa Oliopohjainen esitys Itsenäisiä olioita, joilla muoto, sijainti ja ominaisuuksia Operaatiot kohdistuvat olioihin Tietokantahenkinen lähestymistapa
Olioiden väliset suhteet Suuntasuhteet likimääräisiä laskennallisesti helppoja Etäisyyssuhteet tarkka etäisyys työläs laskea indeksirakenteet
Olioiden väliset suhteet Topologiset suhteet Määriteltävissä monikulmioiden reunan ( A, B) ja sisustan (A,B ) leikkausten avulla Erilliset Sivuavat Samat disjoint (A, B) touches (A, B) equals (A, B) Peittää Sisältää Leikkaavat contains (A, B) overlaps (A, B) within (B, A)
Tietokantasuunnittelun abstraktiotasot Käsitetaso Tietokannan käyttäjän näkökulma Tietokannan sisältö Rakennetaso Tietokannan ohjelmoijan näkökulma Tietokannan muoto Tallennustaso TKHJ:n ohjelmoijan näkökulma Tietokannan tehokas tallennus massamuistiin
Relaatiomalli Tieto esitetään relaatioina / tauluina sarakkeet / attribuutit rivit / monikot Relaatioalgebra yhdiste R S erotus R S ristitulo R S projektio π A1,...,A n (R) valinta σ ehto (R) leikkaus R S liitos R ehto S
Paikkatieto relaatiotietokannassa Paikkatieto-oliot Funktiot niiden käsittelyyn
Paikkafunktioita Perusasioita ulottuvuus / minimisuorakulmio / reuna tyhjä? / yksinkertainen? Topologiset suhteet Etäisyys Geometriset operaatiot leikkaus / yhdiste / erotus / symmetrinen erotus puskuri / konveksi verho Luokkakohtaiset ominaisuudet pisteen x- ja y-koordinaatti viivan pisteet, pituus alueen pinta-ala, keskipiste, reunat
SQL Kieli relaatiotietokannan tietosisällön määrittelyyn tietojen päivitykseen tietojen hakuun käyttäjien ja käyttöoikeuksien määrittelyyn Paikkatiedon käsittely suoraviivaista perus-sql:n lisäksi joukko funktioita, kuten edellä
Diskreettiä geometriaa: maailma Koko tarkasteltavan geometrian kuvaus äärellisresoluutioisen hilan avulla Laskennallisesti näppärä Suojaa laskentatarkkuuden rajallisuudelta Tietokantoihin vasta tulossa
Paikkatieto maailmassa Tietotyyppien toteuttaminen maailma-approksimaatiolla: tarvitaan 1. Hila ja sen geometriset primitiivit piste, jana 2. Hilaan määritelty maailma vaatimuksia: janojen päätepisteet maailman pisteitä, ei janojen sisäpisteitä, janat koskettavat korkeintaan päätepisteissään 3. Maailmaperusteiset rakenteet 2-ulotteiset kohteet: syklit, tahkot 1-ulotteiset: lohkot 4. Paikkatietotyypit määritellään pisteiden, lohkojen ja tahkojen avulla
Janan kuori Ongelma: sovitettava yhteen hilan äärellinen resoluutio ja janojen leikkauspisteet janan lähellä / janalla olevat pisteet Janan kuori: janalla sekä sitä lähinnä (ylä- tai alapuolella) olevat hilapisteet Aito kuori: kuori päätepisteet
Janan uudelleenpiirtäminen Jana voidaan piirtää uudelleen murtoviivaksi, mutta vain kuorensa sisällä Janojen leikkauspisteeksi valitaan lähin hilapiste janat piirretään uudelleen tämän kautta kulkeviksi murtoviivoiksi Janan kuoressa oleva maailman piste on janalla jana muutetaan tämän kautta kulkevaksi murtoviivaksi
Paikkatiedon indeksointi Päämäärä: tietokantahaun nopeuttaminen Tavanomaisen tietokannan ratkaisu: B-puu B-puun edellytyksenä täysin järjestetty arvoalue: on olemassa relaatio Paikkatiedolla näin ei ole
Paikkatiedon indeksointi Kaksi vaihtoehtoa Laaditaan paikkatiedolle 1-ulotteinen järjestys, joka voidaan indeksoida B-puuhun Tilan täyttävä käyrä: jatkuva käyrä, joka täyttää koko avaruuden Yleistetään B-puu sellaisen aineiston indeksointiin, joka ei ole täysin järjestetty R-puu, GiST-puu Tämä tyypillinen ratkaisu
Tilan täyttävät käyrät Hilbertin käyrä Z-käyrä Säilyttää etäisyyden melko hyvin Muunnos 2-ulotteisiin koordinaatteihin vaikea Muunnos 1- ja 2-ulotteisten koordinaattien välillä helppo Peräkkäiset käyrän pisteet voivat olla kaukana
R-puu
R-puu Tavoite: minimoitava todennäköisyys, että hakutilanteessa pitäisi tutkia molemmat alipuut Siksi minimoitava toisaalta solmujen suorakulmioiden yhteenlaskettu ala ja toisaalta niiden leikkauksen ala Tämän optimointi tärkeää solmujen halkaisussa Lisäysjärjestys vaikuttaa
R*-puu Erilainen halkaisualgoritmi Pakotettu uudelleenlisäys: ennen halkaisua poistetaan solmusta keskipisteestä kauimpana oleva 1 3 kohteista lisätään ne uudelleen puuhun Molemmat muutokset parantavat lopputuloksena saatavaa puuta Käytännössä vaikutus ei ole dramaattisen suuri, jos puuhun tehdään jatkuvasti muutoksia
GiST-puu Yleiskäyttöinen hakupuu: mm. B-puun toiminnallisuus R-puun toiminnallisuus Puun alemmalla tasolla ei tarvitse toistaa ylempänä olevia ehtoja Riittää, että ehto erottaa samasta solmusta haarautuvat alipuut toisistaan
Kyselyt indeksin avulla Indeksissä sijaintitiedon approksimaatio Indeksin osumista yleensä tarkistettava, täyttävätkö tarkan hakuehdon Topologiset kyselyt Etsitään indeksistä leikkaavat suorakulmiot Mahdollisesti käytettävä puskuria Suuntakyselyt Haetaan puusta solmut, joissa osumia voi olla Käydään läpi niiden alkiot Näissä askelissa voi olla hiukan eri ehdot
Naapuruuskyselyt Tehtävä: etsi kohteen k lähintä naapuria Hyödyllisiä mittoja: mindist(p, R): lyhin etäisyys pisteestä p suorakulmioon R minmaxdist(p, R): etäisyys, joka vähintään on p:stä kaukaisimpaan R:n sisältämän kohteen pisteeseen Näiden avulla mahdollista karsia tarkasteltavien alipuiden joukkoa
Paikkaliitokset Liitosoperaatio, jossa ehto liittyy sijaintitietoon Tyypillisesti leikkausehto R Rsijainti S sijainti S Ongelma: geometrisen leikkauksen epätyhjyys on vaikeampi testata kuin atomisten arvojen yhtäsuuruus Kaksiosainen operaatio Suodatus minimisuorakulmion perusteella Lopullinen valinta todellisen sijaintitiedon perusteella
Paikkatiedon louhinta Tiedon louhintaa Mielenkiintoisen uuden tiedon etsintää suurista tietoaineistoista Paikkatietoa Mukana sijaintitieto Nämä yhdessä Yhteisesiintymä- ja assosiaatiosääntöjä Autokorrelaatiota Suuren mittakaavan ilmiöitä
Erilaisia aineistoja Erilaisia tekniikoita erilaisille aineistoille Pisteaineistot Yksittäiset kohteet tarkastelumittakaavassa pieniä Kohteiden sijaintisuhteet kiinnostavia Jatkuvat aineistot Ilmiö jatkuva-arvoinen paikan suhteen Havainnot pistemäisiä Alueittaiset aineistot Ominaisuustieto joko liittyy suoraan alueeseen tai on luokiteltu alueellisesti
Spatiaalinen riippuvuus Lähekkäisten paikkojen havainnot yleensä samanlaisempia kuin kaukaisten paikkojen Tämmöinen spatiaalinen riippuvuus oikeastaan approksimaatio jostain ihan muusta Paljon taustamuuttujia, joita ei tunneta Monet näistä spatiaalisesti jatkuvia
Jako kahtia Ensimmäisen kertaluvun vaikutus: suuren mittakaavan ilmiöt Toisen kertaluvun vaikutus: läheisten paikkojen väliset riippuvuudet Näiden välinen raja on tutkijan päässä Eronteko analyysin jäsentämistä varten Rajan paikka riippuu tutkimuksen tavoitteista ja tarkastelumittakaavasta
R Tilasto-ohjelmisto Open Source Käytettävissä TKTL:n Linux-ympäristössä Kohtuullisen kattava valikoima kirjastopaketteja paikkatiedon tilastolliseen analyysiin Muitakin vaihtoehtoja silti tietysti on
Pistekohteet pienessä mittakaavassa Vertailukohta: Poisson-prosessi Vakiointensiteetti, tapahtumat riippumattomia Malli sille, miten käy jos ei spatiaalista korrelaatiota Kaksi peruslähestymistapaa Tarkastellaan kunkin kohteen etäisyyttä lähimpään naapuriinsa Tarkastellaan, mitä tapahtuu rajaetäisyyttä lähempänä kutakin pistettä
Lähimmän naapurin etäisyys F(h): tn, että etäisyys satunnaisesta paikasta lähimpään kuvion pisteeseen h G(h): tn, että etäisyys satunnaisesta kuvion pisteestä lähimpään naapuriin h Jos tapahtumat toisistaan riippumattomia, F(h) G(h)
K-funktio λk(h) = odotusarvo niiden pisteiden lukumäärälle, jotka ovat h-säteisen ympyrän sisällä satunnaisesti valitusta pisteestä Ryvästyminen etäisyydellä h: K(h) > πh 2
Naapurustoon osuvat pisteet Joukon B pisteiden frekvenssi säteellä r joukon A pisteestä koko alueella Assosiaatiosääntö A r B
Aluekohteet pienessä mittakaavassa Autokorrelaatio Moranin I-mitta Gearyn C-mitta Läheisyysmatriisi A B C D E F A 0 1 0 1 1 0 B 1 0 1 0 1 1 C 0 1 0 0 0 1 D 1 0 0 0 1 1 E 1 1 0 1 0 1 F 0 1 1 1 1 0
Aluekohteiden yhteisesiintymät Transaktiopohjaisesta tiedon louhinnasta tuttuja menetelmiä Ilmiön frekvenssin sijasta sen esiintymisalueen pinta-ala suhteessa koko alueeseen Säännöllinen aluejako mahdollista tulkita suoraan transaktioiksi Yhteisesiintymäsääntöjä {A,B} esiintyy n % alueesta Assosiaatiosääntöjä A B varmuudella m %
Pistekohteet suuressa mittakaavassa Intensiteetti: pisteiden tiheyden raja-arvo paikan naapurustossa, jonka pinta-ala 0 Pisteiden lukumäärä tasakokoisissa ruuduissa Ydinestimaatti
Aluekohteet suuressa mittakaavassa Liukuva keskiarvo Esitetään kukin alue naapureidensa keskiarvona Ydinestimointi Muunnetaan alueaineisto pistekuvioksi Median Polish Muodoltaan säännöllisille alueille
Laajan muuttujajoukon yleiskuva Satoja / tuhansia teemakarttoja? Ei kiitos
Dimensioiden karsiminen Pääkomponenttianalyysi Ei-negatiivinen matriisin faktorointi Ryvästys
Kiitos