Paikkatiedon käsittely 11. Suuren mittakaavan

Samankaltaiset tiedostot
Paikkatiedon käsittely 10. Aluekohteiden yhteisesiintymät

Mitä murteita Suomessa onkaan?

Paikkatiedon käsittely 12. Yhteenveto

Laskennallinen data-analyysi II

805306A Johdatus monimuuttujamenetelmiin, 5 op

Visualisointi kansanedustajista neljässä eri ulottuvuudessa

805306A Johdatus monimuuttujamenetelmiin, 5 op

Osa 2: Otokset, otosjakaumat ja estimointi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

9. Tila-avaruusmallit

Sovellusohjelmointi Matlab-ympäristössä: Vertaisverkon koneiden klusterointi

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

Sovellettu todennäköisyyslaskenta B

Katsaus suomalaisen henkilönimistön maantieteelliseen vaihteluun

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Paikkatiedon käsittely 6. Kyselyn käsittely

pitkittäisaineistoissa

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Yleistetyistä lineaarisista malleista

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

3 Suorat ja tasot. 3.1 Suora. Tässä luvussa käsitellään avaruuksien R 2 ja R 3 suoria ja tasoja vektoreiden näkökulmasta.

Otannasta ja mittaamisesta

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Vastepintamenetelmä. Kuusinen/Heliövaara 1

MS-A0305 Differentiaali- ja integraalilaskenta 3 Luento 1: Moniulotteiset integraalit

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollinen aineisto Luottamusväli

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

pitkittäisaineistoissa

Batch means -menetelmä

Kandidaatintutkielman aineistonhankinta ja analyysi

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Esimerkki: Tietoliikennekytkin

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

Paikkatiedon käsittely 4. Diskreettiä geometriaa

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Dynaamiset regressiomallit

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Mallipohjainen klusterointi

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Jäsenyysverkostot Kytkökset ja limittyneet aliryhmät sosiaalisten verkostojen analyysissä

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Datatähti 2019 loppu

Paikkatiedon käsittely 8. Spatiaalinen riippuvuus

Harjoitus 2: Matlab - Statistical Toolbox

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Paretoratkaisujen visualisointi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Johdatus verkkoteoriaan 4. luento

tilastotieteen kertaus

Luku 4. Vektoridatan tiivistäminen

Paikkatiedon hallinta ja analyysi

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

1 Määrittelyjä ja aputuloksia

Testejä suhdeasteikollisille muuttujille

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Kuva 3.1: Näyte Gaussisesta valkoisest kohinasta ε t N(0, 1) Aika t

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Yhteenlaskun ja skalaarilla kertomisen ominaisuuksia

1. Tilastollinen malli??

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Mat Tilastollisen analyysin perusteet, kevät 2007

30A02000 Tilastotieteen perusteet

5.7 Uskottavuusfunktioon perustuvia testejä II

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Lineaarialgebra ja matriisilaskenta II Syksy 2009 Laskuharjoitus 1 ( ) Ratkaisuehdotuksia Vesa Ala-Mattila

Määrätty integraali. Markus Helén. Mäntän lukio

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Regressioanalyysi. Kuusinen/Heliövaara 1

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 4 / vko 47

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0305 Differentiaali- ja integraalilaskenta 3 Luento 1: Moniulotteiset integraalit

Transkriptio:

HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Paikkatiedon käsittely 11. Suuren mittakaavan ilmiöt Antti Leino antti.leino@cs.helsinki.fi 19.2.2007 Tietojenkäsittelytieteen laitos

Suuren mittakaavan ilmiöt Tässä kolmenlaisia Pistekohteiden 1. kertaluvun vaihtelu pisteiden intensiteetin alueellinen vaihtelu Aluekohteiden 1. kertaluvun vaihtelu yhden alueellisesti esitetyn ilmiön vaihtelu Suuren muuttujajoukon kokonaiskuva varsinaisesti aluekohteille pistekohteet muunnettava alueittaiseksi

Pistekuvion 1. kertaluvun vaihtelu Kuvattavissa intensiteettifunktiona E ( Y(ds) ) λ(s) = lim ds 0 ds Y(ds) ds pisteiden tiheys s:n ympäristössä Intensiteetti on tämän odotusarvon raja-arvo, kun ympäristön pinta-ala 0

Tiheyden estimointi Jaetaan tutkittava alue tasakokoisiin ruutuihin Lasketaan pisteiden määrä kussakin ruudussa > library(spatstat) > data(swedishpines) > plot(swedishpines$window, + Lukumäärät ruuduittain, + cex.main=2, xlim=c(-30,100)) > xbreaks=seq(0, 96, length=5) > ybreaks=seq(0, 100, length=5) > counts=table(cut(swedishpines$x, + breaks=xbreaks), cut(swedishpines$y, + breaks=ybreaks)) > image(xbreaks, ybreaks, counts, + col=gray((8:1)/8), zlim=c(0,7), + add=t) > plot(swedishpines, add=t, pch=16, col=2) > plot(swedishpines$window, add=t) > legend(-30, 100, 0:7, fill=gray((8:1)/8))

Ruuduittaiset lukumäärät Tässä muunnetaan pisteaineisto alueittaiseksi Jatkokäsittely alueaineiston tapaan Osa paikkatiedosta hävitetään Resoluutio valittavissa ruudun kokoa säätämällä Ruutukoon pienentäminen lisää kohinaa

Ydinestimaatti Kunkin pisteen ympärille ydinfunktio: kaksiulotteinen normaalijakauma (tai muu tiheysfunktio) Estimoidaan intensiteetti pisteiden välillä näiden summana ˆλ τ (s) = 1 n 1 ( s δ τ (s) τ 2 k si ) τ i=1 s 1,...,s n pisteiden paikat k ydinfunktio τ > 0 siloitusparametri δ τ (s) reunakorjaus

Ydinestimaatin siloitusparametri Vaikuttaa tarkastelumittakaavaan > plot(swedishpines, pch=16, col=2) > plot(swedishpines$window, add=t) > library(splancs) > poly=as.points(swedishpines$window$xrange[c(1,2,2,1)], + swedishpines$window$yrange[c(2,2,1,1)]) > plot(swedishpines$window, ) > image(kernel2d(as.points(swedishpines), poly, 5, 200, 200), + col=gray(10:3/10), add=t) > plot(swedishpines$window, add=t) > image(kernel2d(as.points(swedishpines), poly, 10, 200, + 200), col=gray(10:3/10), add=t) > image(kernel2d(as.points(swedishpines), poly, 15, 200, + 200), col=gray(10:3/10), add=t)

Alueittaisen aineiston 1. kertaluvun vaihtelu Muutama erilainen menetelmä Liukuva keskiarvo Esitetään kukin alue naapureidensa keskiarvona Ydinestimointi Muunnetaan alueaineisto pistekuvioksi Median Polish Muodoltaan säännöllisille alueille

Liukuva keskiarvo Käytetään alueen oman arvon sijasta sen naapurien (etäisyydellä painotettua) keskiarvoa n j=1 w ijy j ˆµ i = n j=1 w ij Lähtökohtana läheisyysmatriisi, kuten I- ja C- mitoissa Jos läheisyysmatriisina on normalisoitu vierusmatriisi, jakaja = 1 Yksinkertainen laskea, jo tietokantaoperaatioilla

Alueaineiston ydinestimointi Ydinestimointi sinänsä pistemuotoisen datan analysointimenetelmä Siispä muutetaan alueet pisteiksi Esitetään kukin alue keskipisteenään Lasketaan tälle aineistolle ydinestimaatti Vaihtoehtoisesti myös muut pisteaineiston käsittelymenetelmät käytössä

Median Polish»mediaanin kiillotus» Soveltuu säännölliselle ruudukolle Sietää kohinaa paremmin kuin liukuva keskiarvo Esitetään kukin ruutu hajotelmana y ij = µ +r i +c j + ε ij µ globaali keskiarvo r i, c j rivi- ja saraketrendit ε ij satunnaisvirhe

Laajan muuttujajoukon yleiskuva Tähänastiset menetelmät tarkastelleet vain yhtä aineistoa (ominaisuustietoa) kerrallaan Tiedon louhinnassa usein suuri joskus hyvinkin suuri määrä muuttujia

Dimensionaalisuuden kirous Satojen tai tuhansien teemakarttojen tarkastelu ylivoimaisen työlästä Tehtävä: tiivistä olennainen muutamaan karttaan

Yleiskuvan laatiminen Aluekohteille suhteellisen suoraviivaista Käytetään tilastollisia monimuuttujamenetelmiä Tässä vaiheessa sijaintitieto ei käytössä Esitetään tulokset kartalla Pisteaineistot muutettava alueellisiksi Olemassa oleva aluejako Säännöllinen hila Kunkin joukon pisteiden esiintymät alueilla

Pisteaineiston muuntaminen alueiksi Valmis aluejako vai hila? Hila on säännöllinen koko ei vaikuta Valmis aluejako ehkä merkityksellinen ei hävitä tietoa ehkä yhtä paljon kuin hila Mitä pisteistä otetaan mukaan? Pisteiden merkit tyypillisesti luokittelevia Erityyppisten pisteiden lukumäärä kullakin alueella? Erityyppisten pisteiden esiintymisfrekvenssi? Binäärinen esiintyy / ei -tieto kustakin tyypistä? Valinta riippuu sovelluksesta

Dimensioiden karsiminen Lähtökohta: esitetään data matriisina alueet muuttujat Tavoite: matriisi alueet taustatekijät Taustatekijöitä olennaisesti vähemmän kuin alkuperäisiä muuttujia Kertovat jotakin mielenkiintoista Tyypillinen menetelmä: lineaarimuunnos Kussakin taustatekijässä on mukana jokainen alkuperäinen muuttuja omalla painokertoimellaan Lukuisa määrä erilaisia vaihtoehtoja

Pääkomponenttianalyysi Principal Component Analysis (PCA) Lähtökohta: matriisi, jossa n muuttujaa ja m havaintoa Tässä tapauksessa esim. n eri pistejoukkoa ja pisteiden esiintymät m ruudussa Tavoite: lineaarimuunnoksella n komponenttia Komponentit keskenään korreloimattomia 1. komponentti sisältää mahdollisimman suuren osan kokonaisvarianssista Kukin seuraava sisältää mahdollisimman suuren osan jäljellä olevasta varianssista

Pääkomponenttianalyysi Lineaarimuunnos: kukin komponentti muotoa c i = a i1 x 1 + +a in x n Tehtävänä siis määrittää kaikki n n painokerrointa a ij Komponentit eivät korreloi keskenään Havainnot voidaan tulkita pisteiksi n-ulotteisessa avaruudessa Pääkomponenttianalyysi tämän tulkinnan mukaan koordinaatiston kierto

Pääkomponenttianalyysi havaintoavaruudessa Tulkitaan kukin muuttuja n-ulotteisen havaintoavaruuden ulottuvuudeksi Koordinaatiston kierto 1. komponentti / akseli se suunta, jossa ääripisteet kauimpana kukin myöhemmistä se aiempien kanssa kohtisuora suunta, jossa jäljellä pisin vaihteluväli

Pääkomponenttianalyysin rajoituksia Jokainen komponentti esittää vaihtelun kahden ääripään välillä Ei siis välttämättä vain yhden tekijän vaikutusta Aiempiin komponentteihin eristettyä vaihtelua ei toisteta Komponentit eivät korreloi keskenään Todelliset taustalla vaikuttavat ilmiöt voivat korreloida Oletus, että havainnot jatkuva-arvoisia Käytännössä myös 1/0-esiintymäaineiston analysointi onnistuu

1. komponentti kunnan keruuaste, loput murrevaihtelua Melko pian komponenteille ei enää luontevaa tulkintaa Pääkomponenttianalyysi: esimerkki Aineisto: 9 000 murresanan esiintymät eri kunnissa

Ei-negatiivinen matriisin faktorointi Non-negative Matrix Factorisation (NMF) Lähtökohta edelleen n m havaintomatriisi Tavoite: k komponenttia, missä k n Rajoite: kaikki matriisit ei-negatiivisia Tämä erotuksena perinteiseen faktorianalyysiin Pätee monelle ominaisuustiedolle, erityisesti binääriselle esiintymätiedolle

Ei-negatiivinen matriisin faktorointi Aineisto: Suomen paikannimet, n. 360 000 eri nimeä, 40 40km ruudut Faktorit helpommin tulkittavissa kuin pääkomponentit Lukumäärä tiedettävä / arvattava ennalta

Klusterointi Ryvästys Jaetaan aineisto rypäisiin niin, että Samaan rypääseen kuuluvat alkiot mahdollisimman samanlaisia Eri rypäisiin kuuluvat mahdollisimman erilaisia Lukuisa määrä erilaisia tekniikoita Tässä lähtökohtana jälleen alueet ilmiöt -matriisi

Klusterointi: K-means Lähtötietoina havaintomatriisi ja haluttu ryväslukumäärä k Rypäiden keskipisteiksi arvotaan k satunnaista havaintoavaruuden pistettä Sijoitetaan kukin havainto siihen rypääseen, jonka keskipiste lähimpänä Lasketaan ryväskeskipisteet uudelleen rypään pisteiden perusteella Toistetaan kahta edellistä askelta, kunnes ryvästys ei muutu

Esimerkki: K-means Lähtökohta: murresanojen esiintymät Esiprosessointi: pääkomponenttianalyysi 1. komponentti häiriötekijä pois Loppupään komponentit kohinaa pois Nyrkkisääntö: yhtä paljon komponentteja kuin rypäitä

Muutakin voi tehdä Tässä oli joukko työkaluja Paljon lisääkin on tarjolla Erilaisia variantteja näistä Vielä muuta Tämmöisillä pääsee alkuun Tulosten visualisointi tärkeää Analyysin tulokset (takaisin) paikkatietojärjestelmään