Spatiaalinen autokorrelaatio maantieteellisessä mallintamisessa
|
|
- Vilho Jurkka
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 Spatiaalinen autokorrelaatio maantieteellisessä mallintamisessa Juha Oksanen Kandidaatintyö Oulun Yliopisto Maantiede Oulu, 25. huhtikuuta 2016
2 Sisältö 1 Johdanto 1 2 Spatiaalinen autokorrelaatio Miten spatiaalista autokorrelaatiota mitataan Spatiaalinen autokorrelaatio ja regressiomallinnus 9 4 Kriging ja interpolaatio 11 5 Esimerkkitapaus: G(i) statistiikka ja metsäpalojen laajuuden sekä voimakkuuden arviointi kaukokartoitusaineistosta 13 6 Yhteenveto ja pohdinta 15 7 Lähteet 19 i
3 1 Johdanto Spatiaalisen autokorrelaation ongelman ja samalla sen hyötyjen ymmärtäminen vaatii tilastotieteen perustekäsitteiden ja menetelmien tuntemusta. Tilastolllsen korrelaation eli riippuvuuden muuttujien väillä ja autokorrelaation, eli muuttujien riippuvuuden itsestään ero on tärkeä esimerkki. Pearsonin tulomomenttikorrelaatiokerroin kertoo selittävän ja selitettävän muuttujan välisen korrelaation voimakkuuden, autokorrelaatio tilastotieteessä taas viittaa aikasarjan havaintojen rippuvuuteen edeltävistä havainnoista. Spatiaalinen autokorrelaatio on siis havainnon muuttujasta x i riippuvuus ympäröivistä x j, j i havainnoista jonkin tilallisen prosessin kautta jollakin välimatkalla (Fotheringham 2009: 399.) Spatiaalinen autokorrelaatio on ongelma perinteiselle tilastotieteelle. Etenkin lineaariselle regressiomallinnuksen tapauksessa koska se perustuu identtisen ja samoin jakautumisen (i.i.d, identical and independent distribution) oletukselle (Griffith 2009: 399.) Tämä tarkoittaa sitä että jokainen havainto x i on satunnainen realisaatio samasta taustajakaumasta ja riippumaton muista havainnoista. Spatiaalisissa aineistoissa tämä ei yleensä päde, sillä niissä etenkin riippumattomuuus muista lähellä olevista havainnoista on kyseenalaista. Spatiaalisen autokorrelaation tuominen maantieteilijöiden käyttöön on ollut pitkä ja kivinen tie. Griffith (1992: 266) antaa kunnian spatiaalisen autokorrelaation tunnistamisesta William Seeley Gossetille, joka käytti kirjailijanimeä Student. Samalla hän tuo esille sen, että spatiaalinen autokorrelaatio ei ole helposti selitettävissä maantieteilijälle, joka ei ole perehtynyt tilastotieteeseen. Goodchild, Griffith ja Odland yrittivät 1980-luvun lopulla tätä aukkoa, mutta saivat osakseen kritiikkiä. (Griffith 1992: 266) Cliff ja Ord (1973: 1981) tekivät töitä sen eteen, että maantieteilijöillä olisi keinoja tunnistaa spatiaalinen autokorrelaatio, ja laskea sen tilastollinen merkitsevyys. Heidän julkaisunsa ova hyvin matemaattisia ja jäävät helposti ymmärtämättä jos lukija ei omaa vahvaa tilastollista pohjaa. Spatiaalinen autokorrelaatio tarkoittaa eri taustalta tuleville tutkijoille eri asioita, ja niiden yhteen nivominen ei ole helppo tehtävä. 1
4 Tilastollinen mallintaminen on monelle tieteenalalle yhteistä, ja monet niistä käyttävät paikkaan sidottuja aineistoja. Esimerkiksi ekologia ja taloustiede,ja taloustieteen alalla erityisesti ekonometria, ovat hyötyneet menetelmistä joita on kehitetty spatiaalisen autokorrelaation huomioonottamiseksi. Tämän tutkielman tarkoitus on avata spatiaalisen autokorrelaation käsitettä sekä sen tutkimusta ja hyväksikäyttöä monitieteellisestä ja tilastotieteellisestä näkökulmasta. Käsitteen määrittelyn ja historian lisäksi pyrin avaamaan sen tilastotieteellistä merkitystä ja sen luomia mahdollisuuksia spatiaalisen aineiston esittämisessä ja erilaisten mallien luomisessa. Ensin luon katsauksen spatiaalisen autokorrelaation määritelmään ja historiaan ja toiseksi avaan erilaisia tapoja kvantifioida spatiaalista autokorrelaatiota. Seuraavaksi perehdyn spatiaalisen autokorrelaation ja regressiomallien ongelmaan ja Kriging-interpolointiin. Lisäksi käyn läpi erästä tutkimusta jossa spatiaalista aukorrelaatiota on käytetty parantamaan arvioita metsäpalojen vaikutuksista käyttäen kaukokartoitusaineistoa. 2
5 2 Spatiaalinen autokorrelaatio Maantieteessä kaikki on riippuvaista kaikesta, mutta lähellä olevat asiat ovat riippuvaisempia toisistaan kuin kauempana olevat, on Waldo Toblerin kuuluisa Maantieteen ensimmäinen laki, josta myöhemmin käytettiin nimeä Tobler s First Law (TFL) (Miller 2004: 284). Tästä ilmiöstä on käytetty erilaisia termejä, kuten esimerkiksi spatiaalinen riippuvuus, spatiaalinen assosiaatio ja viimein spatiaalinen autokorrelaatio. Spatiaalinen autokorrelaatio on sanana tullut käyttöön vasta kvantitatiivisen vallankumouksen myötä mutta sen olemassaolo on tunnistettu jo luvun lopulla. Cliff ja Ord (1983: 8) viittaavat Charles Darwinin veljenpoikaan Francis Galtoniin, eräänä ensimmäisistä tutkijoista, joka puhui maantietellisten painokertoimien käytöstä spatiaalisen riippuvuden huomiomiseksi Sana spatiaalinen autokorrelaatio vakiintui kuitenkin tiedeyhteisön käyttöön 1970-luvulla etenkin sellaisten tutkijoiden kuin Andrew Cliff ja Keith Ord julkaisujen myötä. Heidän vuonna 1969 julkaisemansa artikkeli "The Problem of Spatial Autocorrelation"oli läpimurto maailmaan, jossa maantietellisen riippuvuuden tutkimus oli tilastotieteellisesti vielä hyvin alkeellista, koska tilastotieteeseen perehtyneitä maantieteilijöitä ja spatiaalisen datan käsittelystä kiinnostuneita tilastotieteilijöitä ei ollut kovin montaa (Miller 2004: ). Spatiaalinen autokorrelaatio määrittyy sekä sijainnin samankaltaisuudesta että havaintojen samankaltaisuudesta. Se on erittäin riippuvaista siitä millä tiheydellä otos on tehty tai kaukokartoituksessa sen resoluutiosta eli erottelutarkkuudesta. Suuren tiheyden käyttäminen saattaa aiheuttaa sen, että spatiaalista autokorrelaatiota havaitaan aineistossa, jossa sitä ei ole, koska lähekkäiset havainnot eivät tuo uutta informaatiosisältöä. Toisaalta taas liian harva otos piilottaa hienojakoisemman spatiaalisen rakenteen. Sama pätee rasteriaineistoihin, joissa pikselikoko voi olla niin suuri että se peittää alleen spatiaalisen rakenteen, tai niin pieni että se luo illuusion sellaisen olemassaolosta (Longley ym. 2005: 89-90). Athur Getis (2008: 298) määrittelee spatiaalisen autokorrelaation ja perinteisten tilastollisten korrelaatiokertoimien välisen eron hyvin tyhjentävästi: 3
6 h* Kuva 1: Spatiaalisen autokorrelaation ilmenemismuodot. Spatiaalinen autokorrelaatio on muuttujan sisäisen vaihtelun korreloitumista sen sijainnin kanssa, kun taas perinteiset tilastolliset korrelaatiokertoimet mittaavat muuttujien välisen vaihtelun korrelaatiota. Spatiaalinen autokorrelaatio voi ilmentyä kahdella tasolla, globaalilla ja paikallisella, eivätkä ne ole toisiaan poissulkevia. Globaalit spatiaalisen autokorrelaation mittarit, kuten Moranin I ja Gearyn C -statistiikat, ovat paikallisten autokorrelaation mittareiden summia. (Anselin 1995: 95) Paikallisen spatiaalisen autokorrelaation esittämiseen on kehitetty erikseen työkaluja, kuten Getis-Ordin G(i) ja G*(i). Spatiaalisen autokorrelaation havaittu voimakkuus on myös datapisteiden tiheydestä riippuvainen, ja sen takia samalta alueelta tehdyt lisähavainnot eivät välttämättä paranna tulosten tarkkuutta(viladomat & Mazumder, McInturff, McCauley, Hastie 2014: 410). Kuvassa 1. esitetään miten positiivinen spatiaalinen autokorrelaatio ilmenee ryvästymisenä, negatiivinen tasaisena hajontana ja spatiaalista autokorrelaation puute satunnaisena jakautumisena. Satunnainen jakauma on siis nollahypoteesi, jota vasten spatiaalisen autokorrelaation olemassaoloa lähdetään tutkimaan. Kuvasarjan ensimmäinen positiivista autokorrelaatiota kuvaava esimerkki ei välttämättä näy positiivisena autokorrelaationa globaaleille testeille, koska se on spatiaalisesti heterogeeninen. Globaalit spatiaalisen autokorrelaation mittarit olettavat taustalla olevan prosessin olevan stationaarinen eli toimivan samalla tavalla koko aineistossa ja kaikkiin suuntiin 4
7 yhtä voimakkaana. Negatiivinen spatiaalinen autokorrelaatio näkyy kuvassa hilarakenteena, jossa havainnot ovat yhtä kaukana naapurihavainnoista. Aikasarja-analyysistä poiketen spatiaalisten aineistojen riippuvuusuhteet ovat monisuuntaisia, joten niiden matemaattinen esittäminen on huomattavasti monimutkaisempaa (Longley & Goodchild, Maguire, Rhind 2005: 87). Se tarkoittaa samalla sitä, että niiden laskenta etenkin suurilla aineistoilla vaatii paljon tietokonekapasiteettia, jota ei ennen 1990-luvun puoliväliä ollut juurikaan käytössä. Siispä luvun aikana ja vielä 1980-luvulla laskenta kesti tunteja, suurilla aineistoilla jopa vuorokauden (Bivand 2009: 285). Spatiaalinen autokorrelaatio auttaa representaatioiden luomisessa, mutta merkittävästi vaikeuttaa analyysia ja tilastollista ennustamista. Kun esittämisen ja laskennan vaikeuksiin lisätään se, että spatiaalinen autokorrelaatio on hyvin skaalariippuvaista on oikean skaalan löytäminen ja oikeiden asioiden esittäminen on hyvin haastavaa (Longley ym. 2005: 87). 2.1 Miten spatiaalista autokorrelaatiota mitataan Yksinkertaisin esimerkki spatiaalisesta aineistosta on ruudukko, josta ilmenee binäärisen tai luokitellun vasteen tila, esimerkiksi esiintyykö jossakin ruudussa laji X, jos esiintyy, niin ruutu saa arvon 1, jos ei, ruutu saa arvon 0. Jos ruuduilla on yhteistä rajaa, lasketaan ne naapureiksi. Naapuruus voi syntyä kahden 1 ruudun, 1 ja 0 ruudun tai kahden 0 ruudun välille. (Cliff & Ord 1981: 11). Positiivisen spatiaalisen autokorrelaation tilanteessa 1,1 naapuruuksia on enemmän kuin tilanteessa, jossa spatiaalista autokorrelaatiota ei ole havaittu, ja negatiivisen spatiaalisen autokorrelaation tapauksessa 1,0 naapuruuksia on enemmän kuin jos ruudukko olisi satunnaisen prosessin tulos (Cliff & Ord 1981: 11-13). Naapurusluku (join count statistic) on tällaiselle aineistolle luonnollinen tapa selvittää globaalin spatiaalisen autokorrelaation olemassa olo. Lasketaan jokaisen ruudun naapuruudet, ja verrataan niiden suhteita tilanteeseen jossa ruudukko on täysin satunnainen. Satunnainen ruudukko on asymptoottisesti normaalisti jakautunut, kun ruutujen määrä on riittävän suuri. (Cliff & Ord 1973: 5). Tällaisessa aineistossa normaalijakauma on 5
8 nähtävissä naapuruusparien jakautumisessa. Naapurusluvusta edelleen kehittyneempiä ja monikäyttöisempiä globaalin autokorrelaation mittareita ovat Moranin I ja Gearyn C, jotka perustuvat Pearsonin tulomomenttikorrelaatiokertoimeen ja painokerroinmatriisin luontiin jolla jokaisen ruudun tai pisteen vaikutus kaikkiin muihin pisteisiin ilmaistaan (Wong & Lee 2005: 367). Moranin I lasketaan kaavalla I = n n i=1 nj=1 w ij (x i x)(x j x) W n i=1 (x i x) 2 Jossa W on painokerroinmatriisin alkioiden summa, w ij on painokerroin kyseisten yksiköiden välillä ja x i on yksikön i arvo. Moranin I:n arvot vaihtelevat välillä [-1,1], ja nollahypoteesin mukainen odotusarvo on E ( I) = 1 n 1 (Wong & Lee 2005: 367). Gearyn C lasketaan puolestaan kaavalla: C = (n 1) n i=1 nj=1 w ij (x i x j ) 2 2W n i=1 (x i x) 2 Gearyn C:n vaihteluväli on [0,2], jossa 0 on täydellinen spatiaalinen autokorrelaatio, 2 on täydellinen negatiivinen autokorrelaatio ja 1 on odotusarvo kaikilla n. (Wong & Lee 2005: ). Edellä kuvatut menetelmät mittaavat vain koko alueen eli globaalia spatiaalista autokorrelaatiota. Nämä menetelmät eivät kerro mitään ryvästymisestä tai spatiaalisesta heterogeenisyydestä, vaan olettavat spatiaalisten prosessien olevan stationäärisiä (Fotheringham 2009: 401) Globaalit mittarit avasivat kuitenkin tien spatiaalisten riippuvussuhteiden mittaamiselle ja saivat aikaan kehityskaaren, joka edelleen tuo uusia näkökulmia tähän aiheeseen (Fotheringham 2009: 402) Globaalien mittareiden mukanaan tuomat oletukset spatiaalisesta stationäärisyydestä ovat useimmiten epärealistisia, varsinkin jos otoskoko kasvaa suureksi (Anselin 1995: 94-95) Spatiaalisesta autokorrelaatiosta on tullut tärkeä työkalu mallinnukselle, ja sen käyttökohteet vain laajenevat sitä mukaa kun tietokoneiden laskentateho kasvaa. Sen myötä suurempia datamääriä voidaan käsitellä lyhyemmässä ajassa, ja kehittyneet työkalut tulevat käyttöön yhä kasvavalle 6
9 joukolle maantieteilijöitä. Mielestäni on tärkeää perehtyä käytettyjen menetelmien mahdollisiin heikkouksiin, siten analyysistä saadaan tarkempaa. Painokerroinmatriisin rakentuminen vaikuttaa vahvasti siihen, millaisia tuloksia nämä mittarit antavat. Matriisi W voidaan rakentaa hyvin monella tavalla, joista seuraavaksi muutama esimerkki. Yksinkertaisin tapa matriisin luontiin on binäärinen matriisi, jossa naapuriksi lasketaan kaikki ne joilla on yhteistä rajaa havaintoalueen x i kanssa, kaikki muut yksiköt saavat arvon 0. Muita vaihtoehtoja ovat esimerkiksi keskipiste-etäisyyden mukaan tehtävä rajaus jonkin hyvin perustellun vaikutusetäisyyden mukaan, etäisyyden mukaan pienenevä painotus eli (inverse distance weights, IDW), tehtyjen havaintojen pohjalta luotu vaikutusaluematriisi ja monia muita tapoja. Lisäksi näitä tapoja voidaan yhdistellä ja standardisoida, Row-standardised IDW on yksi hyvin suosittu tapa luoda painokerroinmatriisi, jossa rivin alkiot jaetaan niiden summalla. Tutkijat huomasivat pian että niin hyödyllisiä kuin globaalin spatiaalisen autokorrelaation mittarit olivatkin, ne peittivät usein spatiaalista vaihtelua ja antoivat virheellisen kuvan tutkittavan ilmiön käyttäytymisestä. Getis ja Ord tekivät uraauurtavaa työtä paikallisen järjestymisen ja etäisyyden mukaan heikkenevän järjestäytymisen saralla (Anselin 1995: 94). Tarvittiin uusia menetelmiä ja mittareita näiden ilmiöiden voimakkuuden mittaamiseksi. Tähän kutsuun vastasivat Getis ja Ord kehittämällä G*(i) ja G(i) indeksit, lisäksi Anselin popularisoi Moran hajontakuvion ja termin LISA:n (Local Indicator of Spatial Autocorrelation) (Anselin 1995: 94-95). LISA on mikä tahansa mittari joka täyttää kaksi ehtoa: 1. Jokaisen havainnon LISA:n tulee antaa kuva siitä, miten voimakasta ryvästyminen on havainnon ympärillä 2. LISA:n summa yli koko aineiston on suhteessa globaaliin spatiaalisen autokorrelaation mittariin, Parantaakseen laskennan luotettavuutta Anselin (1995: 95) ehdottaa että raakojen arvojen sijasta käytettään jotain stardardisoivaa menetelmää, 7
10 esimerkiksi kunkin havainnon erotusta keskiarvosta. G(i) indeksin laskeminen: G i (d) = ni=1 w ij (d)x j W i (d) x(i) s i [((n 1)S 1i ) W 2 i ]/(n 2) Jossa w i j(d) on matriisin W alkio joka on etäisyyden d funktio tai mahdollisesti 1/0-matriisi jossa 1 on linkki etäisyyden d sisällä x i :stä pois lukien x i (Ord & Getis 1995: 289). Spatiaalisen painokerroinmatriisin W rakentamisesta on tehty lukuisia tutkimuksia, ja sen luomiseen on useita eri mahdollisuuksia, useimmin käytetään euklidista etäisyyttä, eli lineaarista etäisyyttä pisteiden väillä, mutta pienimmän hinnan (hinta on tässä tapauksessa mikä tahansa mittari jolla etäisyyden voittamiseen käytettävää energiaa, työtä tai aikaa voidaan esittää luotettavasti) etäisyys on myös paljon käytetty metodi. Edelleen s(i) on otoskeskipoikkeama ja S 1i = j w 2 ij, (j i) (Ord & Getis 1995: 289). G i (d):n tulkinta on huomattavasti Moranin I:n tulkintaa haastavampaa mutta siitä saadaan huomattavasti enemmän informaatiota. G i (d):n tulkintaa varten se on hyödyllistä esittää tutkittavan muuttujan funktiona hajontakuviossa, jolloin nähdään miten G i (d):n arvot käyttäytyvät aineiston jakauman mukaan ja niille voidaan laskea korrelaatio. Tämän kuvion avulla voidaan nähdä mitkä G i (d):n arvot ovat suhteellisesti pieniä ja mitkä suuria. Suuret arvot kertovat kuumista pisteistä jossa suuret x i arvot ovat ryvästyneet, ja pienet G i arvot siitä mihin pienet x i arvot ryvästyvät. Moranin I indeksissä pienet arvot tarkoittavat negatiivista spatiaalista autokorrelaatiota. (Lanorte & Danese, Lasaponara, Murgante 2013: 45). G i (d) antaa meille siis huomattavasti enemmän informaatiota X:n käyttäytymisestä kuin globaalin autokorrelaation indeksit C ja I. Se kertoo positiivisen spatiaalisen autokorrelaation laajuuden ja voimakkuuden, ja sen onko kyseessä suurten vai pienten arvojen ryvästymisestä. G i (d) on erittäin hyödyllinen esimerkiksi kaukokartoitusaineiston analyysissä josta enemmän esimerkkitapauksessa. G i (d):n lisäksi on monia muita paikallisen spatiaalisen autokorrelaation mittareita, mutta niiden toimintaperiaate ja tilastollinen 8
11 perusta on hyvin samantapainen. 3 Spatiaalinen autokorrelaatio ja regressiomallinnus Regressiomallinnus perustuu jonkin muuttujan Y keskimääräisen käyttäytymisen populaatiossa tai havaintojoukossa arvioinnista muuttujista X 1...X n. Perinteiseen lineaariseen regressiomallinnukseen liittyy monia rajoitteita ja oletuksia. Esimerkiksi virhetermien tulee olla riippumattomia toisistaan sekä havaintojen muuttujista x i, ja vasteiden y i oletetaan olevan riippumattomia ja samoin jakautuneita (independent, identically distributed, i.i.d.). Regressioyhtälön yleinen muoto Y = β X + ε, jossa Y on mallinnettava muuttuja, X on kovariaatti jonka, tai joiden perusteella Y :n arvoja ennustetaan, β on kerroin ja ε on virhetermi. Lineaarinen regressio perustuu pienimmän neliösumman menetelmään, jolla estimoidaan β:n arvot minimoimalla virhetermin neliösumma. Regressiomallinnuksen ongelmana maantieteessä on se, että data on kerätty paikoista ja paikat eivät ole riippumattomia ympärillä olevista paikoista. On kolme erilaista tapaa miten spatiaalinen autokorrelaatio ilmenee residuaaleissa: Etäisyyteen perustuva riippuvuus muuttujien välillä, kuten esimerkiksi eliön dispersaalikyky jätetään huomioimatta. Epälineaariset yhteydet ympäristön ja muuttujien välillä mallinnetaan lineaarisesti. Mallissa ei oteta huomioon jotakin ympäristömuuttujaa, mikä johtaa residuaalien spatiaaliseen järjestyneisyyteen. (Dormann & McPherson, Araujo, Bivand, Bolliger, Carl, Davies, Hirzel, Jetz, Kissling, Kühn, Ohlemüller, Peres-Neto, Reineking, Schröder, Schurr ja Wilson 2007: 610). 9
12 Spatiaalinen epästationaarisuus ja spatiaalinen riippuvuus voidaan ottaa huomioon estimoimalla β i jokaiselle x i erikseen jolloin kaava näyttää seuraavalta Y = α + β i x i + ɛ Jolloin jokainen piste tai ruutu saa oman regressiokertoimensa. Globaalin regressiomallin virhetermien spatiaalista riippuvuussuhdetta voidaan näin tarkastella helposti. Jos ˆβ estimaattia verrataan ˆβ i estimaatteihin havaitaan, että virhetermit ovat positiivisia niissä yksiköissä y i joissa ˆβ on suurempi kuin ˆβ i ja negatiivisia kun ˆβ < ˆβ i, ja jos ˆβ i on spatiaalisesti riippuvainen, ovat residuaalit myös spatiaalisesti riippuvaisia. (Fotheringham 2009: 402). Spatiaalisten aineistojen analysointiin regressiomenetelmillä on kehitetty useita eri lähestymistapoja. Monet niistä keskittyvät spatiaalisen autokorrelaation vaikutuksen poistoon mallin toiminnassa, eivät niinkään sen hyväksikäyttämiseen osana mallin parametreja (Dormann ym. 2007: 610). Autokovariaattimalli on muunnelma perinteisestä OLS-regressiomallista, jossa jokaiselle havainnolle lasketaan niiden painotettu riippuvuus ympäröivistä arvoista, ja sille oma regressiokerroin. Autokovariaattimallit toimivat paremmin, jos naapurusto voidaan määrittää esimerkiksi jonkin ekologisen taustatiedon perusteella, esimerkiksi lajin disperisaalin eli leviämiskyvyn kautta (Dormann ym. 2007: 611). CAR (Conditional Autoregression) ja SAR (Simultaneous Autoregression) puolestaan hyödyntävät naapuruusmatriisia W, joka on spatiaalinen painokerroinmatriisi jokaisen havainnon x i suhteesta ympäröiviin havaintoihin x j. CAR mallit pyrkivät ottamaan spatiaalisen autokorrelaation huomioon vasteen arvoissa lisäämällä termin ρw (Y Xβ) regressiomalliin (Dormann ym. 2007: ). Tässä lisätermissä ρ on regressiokerroin, W on spatiaalinen painokerroinmatriisi ja Y Xβ on mallin residuaalit. Regressiomallinnuksen taustalla oleva lineaarialgebra ja sen lainalaisuudet saavat aikaan sen että sovitteiden βx ja vasteen Y erotus eli residuaalivektorit ovat ortogonaalisia, eli kohtisuorassa malliavaruuteen nähden. Siksi niiden perusteella voidaan tehdä päätelmiä mallin toiminnasta ja hyvyydestä. Kun tämä viedään maantieteelliseen kontekstiin, ja erityisesti spatiaalisen autokor- 10
13 relaation maailmaan, residuaalit käyttäytyvät eri tavoin sen mukaan miten voimakasta spatiaalinen autokorrelaatio on. Jos residuaalit ovat spatiaalisesti ryhmittyneitä on todennäköistä että spatiaalinen autokorrelaatio joissakin mallin muuttujista on vastuussa tästä, ja mallia tulee muokata vastaavasti. (Dormann ym. 2007: 610). 4 Kriging ja interpolaatio Kriging on nimetty Eteläafrikkalaisen kaivosinsinöörin, Daniel Krigen, mukaan. Se perustuu osittain hänen pyrkimykselleen yleistää koekairausten tuloksia saadakseen selville kuinka suuri ja rikas jokin mineraaliesiintymä on. Optimaalisten lineaaristen prediktorien yhdistäminen spatiaaliseen aineistoon on kuitenkin laajemman tutkijajoukon työtä, esimerkiksi Matheron, Gandin ja Kolmogorov olivat metodin kehittämisessä etualalla (Cressie 1993: 106). Kriging-menetelmiä on useita, mutta niiden taustalla on pyrkimys sovittaa optimaalinen prediktori datapisteiden välisen vaihtelun selittämiseksi ja käyttää tätä mallia mittauspisteiden välisen alueen tai tilan arvojen estimointiin mahdollisimman tarkasti (Cressie 1993: 106.) Kriging-menetelmillä on paljon yhteistä regressiomallien kanssa, mutta menetelmien käyttökohteet ovat hyvin erilaisia. Kriging tähtää estimointiin, ei ennustamiseen, koska pyrkimyksenä on selvittää jonkin pysyvän, mutta tuntemattoman parametrin arvo.(chiles & Delfiner 1999: 151.) Niiden kytkökset spatiaaliseen autokorrelaatioon eivät ole niin selkeitä kuin regressiomalleissa, mutta aivan yhtä tärkeitä. (Semi)variogrammi kuvaa vaihtelua datapisteparien välillä yhdellä akselilla ja datapisteparin välistä etäisyyttä toisella (Longley ym. 2005: 336.). Semi viittaa tässä yhteydessa varianssin puolittamiseen, jolloin saadusta kuvasta tulee helpommin luettava. Siitä voidaan havaita miten kauas spatiaalinen autokorrelaatio vaikuttaa (etäisyys), ja miten paljon vaihtelua aineistossa on suurimmillaan (kynnys). Etäisyyttä ja kynnysarvoja käytetään naapuruusetäisyyden määrittämiseen, jolloin mukaan saadaan kaikki ne havainnot, joilla on merkitystä.(chiles & Delfiner 1999: 11
14 157). Hippuvaikutus (nugget effect) taas on se vaihtelun osa joka ei häviä vaikka etäisyys mittauspisteiden välillä supistuu lähes nollaan, se on siis etäisyydestä rippumatonta vaihtelua, joka on olennainen osa tutkittavaa ilmiötä ja sen jakaumaa (Longley ym. 2005: 336). Semivariogrammeja voidaan myös luoda anisotrooppisesti, eli ottamalla huomioon suunnan merkitys siinä miten käsiteltävä ilmiö käyttäytyy. Tällöin pisteistä lasketaan esimerkiksi 90 o lohkoissa varianssit muihin pisteisiin ja tarkastellaan suunnan vaikutusta varianssin käyttäytymiseen (Longley ym. 2005: 336). Näemme tästä, että Kriging perustuu suoraan ajatuksella kahden pisteen välisen etäisyyden vaikutuksesta niiden arvojen samankaltaisuuteen, mutta esittää saman asian toisin päin, eli etäisyyden kasvaessa erot pisteiden arvoissa kasvavat. Kriging vaatii käyttäjältä huomattavasti enemmän perehtymistä käsisteltävän ilmiön käyttäytymiseen kuin esimerkiksi IWD-interpolointi, mutta antaa huomattavasti tarkempia tuloksia. Krigin-menetelmillä tehdyt interpolaatiot pyrkivät suurimpaan mahdolliseen tarkkuuteen, joten ne eivät ole sileitä, koska tavoitteena ei ole tasainen käyrä kuten splini-menetelmissä vaan raaka lukujoukko, joka kuvaa ilmiön käyttäytymistä tilassa(chiles & Delfiner 1999: 160). 12
15 5 Esimerkkitapaus: G(i) statistiikka ja metsäpalojen laajuuden sekä voimakkuuden arviointi kaukokartoitusaineistosta Esimerkkiartikkeli käsittelee metsäpalalojen voimakkuuden ja laajuuden arviointia kaukokartoitusaineistosta automaattisesti, ilman kallista kenttätutkimusta (Lanorte ym. 2013). Tutkimuksen aineistona oli kahden eri kaukokartoitusmoduulin kuvaama aineisto. Molemmat anturit ovat Terra satelliitissa. Terra kuvaa saman alueen aina 16 vuorokauden välein, joten se soveltuu erinomaisesti kasvillisuuden muutoksen seurantaan. MODIS (Moderate Resolution Imaging Spectroradiometer) toimii 36 eri aallonpituusalueella joista tässä tutkimuksessa käytettiin 7 ensimmäistä infrapuna aluetta ja niiden erottelutarkkuus on 250 metriä ja 500 metriä. ASTER (Advanced Spaceborne Thermal Emission and Reflection Radiometer) taas kuvaa 15 metrin resoluutiolla infrapunasäteilyn eri aallonpituuksia VNIR(Visible/Near Infrared), SWIR(Short Wave Infrared) ja TIR(Thermal Infrared). Näistä aallonpituuskaistoista voidaan laskea erilaisia kasvillisuusindeksejä ja muutosindeksejä, kuten NBR (Normalized Burn Difference) ja NDVI (Normalized Vegetation Difference Index). NIR SW IR NBR voidaan laskea helposti kaavalla NBR =, ASTER ainestosta ja NBR = MODIS 2 MODIS 7 NIR+SW IR MODIS 2 +MODIS 7 MODIS ainestosta, sillä näiden radiometrinen kuva on suoraan infrapunasäteilyn heijastuvuusmatriisi kyseisillä aallonpituusalueilla. NBR saadaan vähentämällä ennen paloa lasketusta NBR-indeksistä palon jälkeinen NBR. Tällä tavalla paloalue saadaan helposti määritettyä, mutta kuten kaikessa satelliittiaineistossa, tähän voi jäädä virheitä esimerkiksi ihmistoiminnan, pilvien ja tiedonsiirtohävikin takia. NBR ja sen suhteellistettua RdNBR (Relative delta Normalized Burn Difference) arvoa voidaan käyttää, jos halutaan arvioida palon intensiteettiä, sen vapauttaman hiilidioksidin määrää ja muita vaikutuksia. (Miller & Thode 2007: 70). Lanorten ja kumppaneiden tutkimus keskittyy kuitenkin määrittelemään 13
16 paloalueen laajuutta ja palon intensiteettiä. Jos paloaluetta pyrittäisiin määrittämään pelkästään NBR indeksin avulla suoraan kaukokartoitusaineistosta riski yliarviointiin on suuri, ja paloalue näyttää helposti hyvin pirstaleiselta, mikä ei todennäköisesti vastaa todellisuutta. G i (d) indeksin käyttäminen apuvälineenä parantaa arvioinnin luotettavuutta, koska se poistaa hajahavaintoja ja virhepikseleitä, jotka johtuvat esimerkiksi ihmisen toiminnasta. Kun G i (d):n laskennassa käytetään intensiteettinä dnbr-arvoa ja tarkastellaan korrelaatiota G i (d):n ja dnbr:n välillä, voidaan G i (d) luokitella ja esittää kartalla. Tämän kartan avulla voidaan tehdä arviointia siitä miten laaja palo on oikeasti ollut, koska se poistaa hajanaisuutta ja selventää alueen rajoja. Tutkimuksessa käytettiin Moranin I indeksin laskua erilaisilla välimatkoilla, jotta saatiin selville mikä välimatka olisi kaikkein hyödyllisin G i (d):n laskemiseen. Tämän jälkeen saadulla naapurustolla laskettiin paikalliset autokorrelaatioindeksit. Kuvassa 2. on dnbr-indeksin arvot yläpuolella ja siitä näkee hyvin, miten paljon havaintoja on ympäri kuvaa, joiden mukaan paloalue olisi hyvin pirstaleinen ja paljon todellista laajempi. Alemmassa osassa on RdNBRindeksin perusteella laskettu G i (d) jossa naapuruusetäisyys on 2 pikseliä. Tulokset puhuvat puolestaan, kuva on huomattavan tarkkarajainen ja antaa erinomaisen kuvan palon intensiteetistä ja levinneisyydestä. Kuvassa on myös esitetty G i (d)-indeksin lähes lineaarinen suhde δnbr-indeksin arvoihin. Lisäksi kuvasta ilmenee se millä tavalla luokittelu on tehty, jotta esitys olisi mahdollisimman selkeä. Kun tutkimuksen tuloksia verrattiin maastossa tehtyihin mittauksiin, olivat tulokset erittäin tyydyttäviä. Paikallisen spatiaalisen autokorrelaation mittareiden käyttäminen työkaluna pelkkien indeksien lisäksi paransi analyysin tarkkuutta ja luotettavuutta. Tutkimuksen tuloksia voi suoraan hyödyntää myös muualla maailmassa, sillä molempien antureiden aineisto kattaa koko maailman, ja niiden antamaa informaatiota voidaan käyttää suoraan kuvailluilla metodeilla. 14
17 Kuva 2: G(i)-indeksin käyttö metsäpaloalueen määrittämiseksi (Lanorte ym. 2013). 6 Yhteenveto ja pohdinta Spatiaalisen autokorrelaation käsite ei siis ole aivan yksikertainen, eikä sen mittareiden käyttö ole aivan ongelmatonta. Tilastollisten analyysien tarkkuus paranee ja tutkittavasta ilmiön käyttäytymisestä tilassa saadaan paljon parempi kuva. Nykypäivän tilanteessa, jossa paikkatieto on läsnä jokapäiväisessä elämässä ja laskentakapasiteetti on halvempaa kuin koskaan ennen, ei ole mitään syytä jättää spatiaalista autokorrelaatiota huomiotta mallien suunnittelussa. Spatiaalisten mallien suunnitteluun ja käyttöön on saatavissa 15
18 hyvää referenssimateriaalia (esim. Wong & Lee 2005). Mallit, jotka ottavat tilalliset riippuvuudet huomioon ja käyttävät niitä hyväksi mallin suunnittelussa ja osana sen rakennetta ovat todennäköisesti tarkempia ja vähemmän virhealttiita kuin perinteiset tilastolliset mallit (Dormann ym. 2007: 619.) Spatiaalisen autokorrelaation käsite on tarpeellinen niin luonnonmaantieteessä kuin kulttuurimaantieteessäkin, mutta näiden lisäksi sitä käytetään ekologiassa, biomaantieteessä, epidemiologiassa ja ekonometriassa(griffith 2009: 344). Se on eräs tärkeimpiä maantieteilijöiden metodologisia saavutuksia, mutta se on jäänyt vähälle huomiolle monen maantieteilijän tutkimuksissa todennäköisesti sen matemaattisen ja tilastollisen luonteen vuoksi. Mallit jotka onnistuneesti ottavat huomioon spatiaalisen autokorrelaation, ovat usein laskennallisesti intensiivisiä ja vaativat syvempää tilastollista osaamista (Dormann ym. 2007: 617). Legendre (1993: 1671) tarjoaa ekologeille ja ekologisen maantieteen tutkijoille työkaluja spatiaalisen autokorrelaation huomiomiseksi tutkimuksissa, painottaen spatiaalisen rakenteen huomioonottamista kaikissa analyyseissä. Vaikka artikkeli on julkaistu jo vuonna 1993, eivät kaikki biografian ja ekologian tutkijat vieläkään käytä spatiaalisen autokorrelaation huomioonottavia tilastollisia menetelmiä, koska niitä ei aina tunneta. Kuten voidaan huomata Dormann ym. (2007: 609) tutkimuksesta joka perehtyi juuri tähän kysymykseen 14 vuotta myöhemmin. 16
19 Kuten aiemmin todettiin spatiaalinen autokorrelaatio on erinomainen työkalu kun halutaan luoda esityksiä ja amalysoida rasteriaineistoja, mutta se on eräs suurimmista kompastuskivistä kun tarkoituksena on mallintaa ja ennustaa ilmiöiden käyttäytymistä tilassa (Longley ym. 2005: 87). Aineiston keräysvaiheessa on syytä perehtyä sen mahdollisiin autokorrelaatio-ominaisuuksiin, jotta otanta on mahdollisimman tehokasta. Spatiaalisen autokorrelaation ongelmaa voidaan lähestyä kahdesta suunnasta. Induktiivinen lähestymistapa perustuu aineiston pohjalta tehtyihin päätelmiin ilmiön luonteesta esimerkiksi autokorrelaatioindeksien laskentaa hyväksi käyttäen. Toinen vaihtoehto ilmenee hyvin regressiomallien kohdalla, jossa teoriaa ja tietämystä ilmiöstä käytetään mallin ja siihen mukaan otettavien parametrien valinnassa ennen analyysiä. (Longley ym. 2005: 95). Tutkielman tarkoitus oli perehtyä spatiaalisen autokorrelaation käsitteeseen, ja avata sen monimuotoista taustaa. Lisäksi pyrin avaamaan sen aiheuttamia ongelmia sekä siitä koituvia hyötyjä maantieteellisessä ja muussa spatiaalisiin aineistoihin perustuvassa mallintamisessa. Terminä spatiaalinen autokorrelaatio kiteytyy hyvin Toblerin ensimmäiseen lakiin: kaikki on riippuvaista kaikesta, mutta lähellä olevat asiat ovat riippuvaisempia toisistaan kuin kauempana olevat. Spatiaalinen rakenne ilmiöiden taustalla vaikuttaa niiden ilmenemismuotoihin ja niiden esittämiseen kartalla ja matemaattisesti. Spatiaalinen autokorrelaatio on myös riippuvainen siitä, millä skaalalla ja tarkkuudella aineisto on kerätty, onko sen rakenne itseään toistava, miten otos on rakentunut ja millä menetelmillä sitä halutaan tutkia. Tutkielmani keskittyi etenkin mallinnuksen osalta hyvin kapeaan siivuun lähinnä pienimmän neliösumman menetelmällä estimoituja malleja. Jos jatkan tämän aiheen parissa pro gradu tutkielman myötä voisi olla hyvä perehtyä probabilistisiin eli bayesiläisen tilastotieteen metodeihin. Esimerkiksi Monte Carlo - Markov Chain menetelmiin perustuviin malleihin, agenttipohjaiseen mallinnukseen ja niin edelleen. Agenttipohjainen mallinnus on eräs simulaatiomentelmä, jossa luodaan joukko itsenäisiä malleja jotka toimivat vuorovaikutuksessa toistensa kannsa. Agenttipohjaiset menetelmät perustuvat myös 17
20 yleensä probabilistiseen tilastolliseen traditioon. Tämän tutkielman puitteissa ei ole resursseja perehtyä täysin toisenlaisesta perusajattelusta lähtevään tilastollisen tradition tuomiin mahdollisuuksiin, joten pitäydyin frekventistisessä tilastollisessa lähtökohdassa. Bayesläinen tilastotiede on huomattavasti laskennallisesti intensiivisempää, mutta tarjoaa samalla enemmän tilaa tutkijan omille ennakkokäsityksille ja on monesti taipuvaisempi ottamaan huomioon taustalla olevia näkymättömiä rakenteita. Spatiaalisten riippuvuuksien ja suhteiden tutkiminen on minusta se ydin, se mitä maantiede minulle tarkoittaa ja mihin haluan keskittyä. Tilastollisen osaamisen kehittäminen ja algoritmien ja mallien rakenteen ymmärtäminen ovat seuraavia kehityspolkuja minun tielläni kohti omaa siivuani tästä tieteenalasta. Kandidaatin tutkielman teko on avannut minulle uusia näkökulmia maantieteelliseen tutkimukseen ja antoi minulle varmistuksen siitä että olen oikealla koulutusalalla. 18
21 7 Lähteet Anselin, L. (1995), Local Indicators of Spatial Association-LISA Geograp hical Analysis, 27 (2) Ohio State University Press, s Anselin, L. (2002), Under the hood Issues in the specification and interpretation of spatial regression models Agricultural Economics 27, Elsevier ss Bivand, R. (2009) Applying Measures of Spatial Autocorrelation Geographical Analysis 41 Wiley-Blackwell publishing, ss Chiles, J-P. & P. Delfiner (1999) Geostatistic: modeling spatial uncertainty John Wiley and Sons, Inc. New York 695 s. Cliff, A.D. & J.K. Ord,(1973) Spatial autocorrelation Pion, Lontoo, 178 s. Cliff, A.D. & J.K. Ord(1981) Spatial processes: Models and applications Pion Lontoo 266 s. Cressie, N.A. (1993) Statistics for Spatial Data John Wiley and Sons Inc. New Jersey 900 s. Dormann, C.F., J.M. McPherson, M.B. Araujo, R. Bivand, J. Bolliger, G. Carl, R. G. Davies, A. Hirzel, W. Jetz, W.D. Kissling, I. Kühn, R. Ohlemüller, P. R. Peres-Neto, B. Reineking, B. Schröder, F.M. Schurr & R. Wilson (2007) Methods to account for spatial autocorrelation in the analysis of species distributional data: a review, Ecography 30, Fotheringham, A.S. (2009) "The problem of spatial autocorrelation"and local spatial statistics,geographical Analysis 41, Getis, A. (2008)A History of the Concept of Spatial Autocorrelation:A Geographer s Perspective Geographical Analysis 40, Griffith, D. A. (1992) What is spatial autocorrelation? Reflections on the past 25 years of spatial statistics, Espace géographique, 21, Haining, R. P. (2003)Spatial Data Analysis : Theory and Practice Cambridge University Press, Cambridge 378 s. Lanorte, A., M. Danese, R Lasaponara & B. Murgante (2013) Multiscale mapping of burn area and severity using multisensor satellite data 19
22 and spatial autocorrelation analysis International Journal of Applied Earth Observation and Geoinformation 20, Legendre, P. (1993) Spatial Autocorrelation: Trouble or New Paradigm? Ecology, 74, Lloyd, C.D. (2010) Spatial data analysis: An introducition to GIS users Oxford University Press, Oxford 206 s. Longley, P.A. M. F. Goodchild, D.J. Maguire & D.W. Rhind (2005) Geographical Information Systems and Science John Wiley and Sons, Ltd Chichester, 517 s. Miller, J.D. & A.E. Thode (2007).Quantifying burn severity in a heterogeneous landscape with a relative version of the delta Normalized Burn Ratio (dnbr) RemoteSensing of Environment 109, Miller, H.J. (2004) Tobler s First Law and Spatial Analysis, Annals of the Association of American Geographers 94: Ord, J.K. & A. Getis (1995) Local Spatial Autocorrelation Statistics: Distributional Issues and an Application Geographical Analysis Viladomat, J., R. Mazumder, A. McInturff, D. J. McCauley & T. Hastie (2014)Assessing the Significance of Global and Local Correlations under Spatial Autocorrelation: A Nonparametric Approach Biometrics, 70, Wong, D. W. S. & J. Lee (2005) Statistical analysis of geographic information with ArcView GIS and ArcGIS John Wiley and Sons, Inc., Hoboken, New Jersey 429 s. 20
Johdatus geospatiaaliseen tutkimukseen
LYY-menetelmä työpaja, 15.2.2012, Joensuu Johdatus geospatiaaliseen tutkimukseen Olli Lehtonen Historia- ja maantieteiden laitos Itä-Suomen yliopisto SISÄLLYS: Paikkatieto Spatiaalinen autokorrelaatio
Regressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
Regressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio
Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n
Harjoitus 9: Excel - Tilastollinen analyysi
Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen
1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
Dynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla
HAVAITUT JA ODOTETUT FREKVENSSIT
HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies
ABHELSINKI UNIVERSITY OF TECHNOLOGY
Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.
Johdatus regressioanalyysiin. Heliövaara 1
Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n
TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET
TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen
P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
pitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...
Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012
Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016
2. Teoriaharjoitukset
2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien
Yleistetyistä lineaarisista malleista
Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit
Tutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
pitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen
1. Tutkitaan tavallista kahden selittäjän regressiomallia
TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy
Identifiointiprosessi
Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi
Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä
Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme
Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.
Virhearviointi Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhelajit A. Tilastolliset virheet= satunnaisvirheet, joita voi arvioida tilastollisin menetelmin B. Systemaattiset virheet = virheet, joita
Parametrin estimointi ja bootstrap-otanta
Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista
Vastepintamenetelmä. Kuusinen/Heliövaara 1
Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,
xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =
1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista
Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
Kaksisuuntainen varianssianalyysi. Heliövaara 1
Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän
Epävarmuuden hallinta bootstrap-menetelmillä
1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn
Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen
1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset
TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept
Paikkatiedon käsittely 10. Aluekohteiden yhteisesiintymät
HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Paikkatiedon käsittely 10. Aluekohteiden yhteisesiintymät Antti Leino antti.leino@cs.helsinki.fi 15.2.2007 Tietojenkäsittelytieteen laitos
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
Korrelaatiokertoinen määrittely 165
kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x
Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1
Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli
Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen
Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä
Tilastollisia peruskäsitteitä ja Monte Carlo
Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia
1 Rajoittamaton optimointi
Taloustieteen matemaattiset menetelmät 7 materiaali 5 Rajoittamaton optimointi Yhden muuttujan tapaus f R! R Muistutetaan mieleen maksimin määritelmä. Funktiolla f on maksimi pisteessä x jos kaikille y
Tilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin
Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta
Logistinen regressio, separoivat hypertasot
Logistinen regressio, separoivat hypertasot Topi Sikanen Logistinen regressio Aineisto jakautunut K luokkaan K=2 tärkeä erikoistapaus Halutaan mallintaa luokkien vedonlyöntikertoimia (odds) havaintojen
Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
Johdatus regressioanalyysiin
Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet
GIS-jatkokurssi. Viikko 4: Spatiaalinen statistiikka. Harri Antikainen
GIS-jatkokurssi Viikko 4: Spatiaalinen statistiikka Harri Antikainen Spatiaalinen statistiikka Spatiaalinen tilastotiede (spatial statistics) Maantieteessä ollaan usein kiinnostuttu siitä, onko jossain
Väliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4
Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...
Diskriminanttianalyysi I
Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
Testejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa
Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen
Osa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä
Inversio-ongelmien laskennallinen peruskurssi Luento 2
Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,
Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten
031021P Tilastomatematiikka (5 op) viikko 6
031021P Tilastomatematiikka (5 op) viikko 6 Jukka Kemppainen Mathematics Division Odotusarvojen erotuksen testi, hajonnat σ 1 σ 2 tuntemattomia Oletetaan jälleen, että X ja Y ovat normaalijakautuneita.
Tilastotieteen aihehakemisto
Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet
Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen
Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen 16.06.2014 Ohjaaja: Urho Honkanen Valvoja: Prof. Harri Ehtamo Työn saa tallentaa ja julkistaa Aalto-yliopiston
Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2005) 1 Johdatus regressioanalyysiin Regressioanalyysin lähtökohdat ja tavoitteet Deterministiset mallit ja regressioanalyysi
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu
Harjoitukset 2 : Monimuuttujaregressio (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 2 : Monimuuttujaregressio (Palautus 24.1.2017) Tämän harjoituskerran tarkoitus
MTTTP1, luento KERTAUSTA
25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen
Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen
Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen 08.09.2014 Ohjaaja: DI Mikko Harju Valvoja: Prof. Kai Virtanen Työn saa tallentaa ja julkistaa Aalto-yliopiston
tilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
Menetelmä Markowitzin mallin parametrien estimointiin (valmiin työn esittely)
Menetelmä Markowitzin mallin parametrien estimointiin (valmiin työn esittely) Lauri Nyman 17.9.2015 Ohjaaja: Eeva Vilkkumaa Valvoja: Harri Ehtamo Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla
2. TILASTOLLINEN TESTAAMINEN...
!" # 1. 1. JOHDANTO... 3 2. 2. TILASTOLLINEN TESTAAMINEN... 4 2.1. T-TESTI... 4 2.2. RANDOMISAATIOTESTI... 5 3. SIMULOINTI... 6 3.1. OTOSTEN POIMINTA... 6 3.2. TESTAUS... 7 3.3. TESTIEN TULOSTEN VERTAILU...
r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016
Osakesalkun optimointi Anni Halkola Turun yliopisto 2016 Artikkeli Gleb Beliakov & Adil Bagirov (2006) Non-smooth optimization methods for computation of the Conditional Value-at-risk and portfolio optimization.
Tilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
Dynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 6: 1 Kalmanin suodatin Aiemmin käsitellyt
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita risto.lehtonen@helsinki.fi OHC Survey Tilastollinen analyysi Kysymys: Millä
ABHELSINKI UNIVERSITY OF TECHNOLOGY
Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit
Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja
Lineaariset kongruenssiyhtälöryhmät
Lineaariset kongruenssiyhtälöryhmät LuK-tutkielma Jesse Salo 2309369 Matemaattisten tieteiden laitos Oulun yliopisto Sisältö Johdanto 2 1 Kongruensseista 3 1.1 Kongruenssin ominaisuuksia...................
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.
2. MS-A4/A6 Matriisilaskenta 2. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 5.9.25 Tarkastellaan esimerkkinä lineaarista yhtälöparia { 2x x 2 = x + x 2
Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35
Numeeriset menetelmät TIEA381 Luento 8 Kirsi Valjus Jyväskylän yliopisto Luento 8 () Numeeriset menetelmät 11.4.2013 1 / 35 Luennon 8 sisältö Interpolointi ja approksimointi Funktion approksimointi Tasainen
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi
Matemaatikot ja tilastotieteilijät
Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat
Tilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on
HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka