Mat Sovelletun matematiikan erikoistyö Painemittarin kalibrointi. Valtteri Ervasti 51615N

Koko: px
Aloita esitys sivulta:

Download "Mat 2.108 Sovelletun matematiikan erikoistyö Painemittarin kalibrointi. Valtteri Ervasti 51615N"

Transkriptio

1 Mat 2.08 Sovelletun matematiikan erikoistyö Painemittarin kalibrointi Valtteri Ervasti 565N

2 Sisällys. Johdanto Taustaa Cassini Huygens projekti HASI PPI (Pressure Profile Instrument) Mittausjärjestelyt ja havaintoaineisto Analyyttinen riippuvuus suureiden välillä Funktion sovittaminen dataan Regressioanalyysi Perusteet Standardioletukset Funktion f valinta Parametrien estimointi: pienimmän neliösumman menetelmä (PNS) Mallin hyvyyden arviointi Selitettävän muuttujan käyttäytymisen ennustaminen Lineaarisen regressiomallin riittävyys Toteutus Kalibrointialueet Mathematica ajon tulokset Optimaalisen mallin valinta Päätelmiä Lähteet Liitteet Liite A: Sovituskäyrät ja havaintoaineisto Liite B: Mallien ennustustarkkuus Johdanto Tämän työn tarkoituksena on kalibroida Ilmatieteen laitoksen painemittari PPI (Pressure Profile Instrument). Käytännössä tämä tarkoittaa sitä, että halutaan löytää jokin keino muuttaa ko. instrumentin tuottama raakadata oikeiksi paineen arvoiksi. Kalibrointi tehdään regressioanalyysin avulla. Regressioanalyysin havaintoaineistona käytetään erityistä kalibrointidataa, joka on kerätty tunnetuissa lämpötila ja paineolosuhteissa. Koska selitettävän suureen riippuvuudessa selittäjistä on epälineaarisia piirteitä, joudutaan pohtimaan, onko lineaarisen regressiomallin tarkkuus riittävä. 2

3 2. Taustaa 2.. Cassini-Huygens -projekti Cassini/Huygens projektin tarkoitus on tutkia Saturnusta ja sen renkaita sekä Saturnusta kiertäviä kuita. Projektin juuret juontavat 970 luvun loppuun, jolloin Galileo projektin sekä Jupiteriin lähetetyn luotaimen jälkeen NASA:n huomio kääntyi Saturnukseen. 980 luvun puolella käynnistyi Euroopan avaruustutkimuslaitoksen ESA:n kanssa toteutettu Cassini/Huygens yhteisprojekti, jossa päädyttiin lähettämään Saturnukseen kaksi luotainta. Projektin tavoitteena on saada vastaus lukuisiin Saturnusta koskeviin auki oleviin kysymyksiin. Saturnuksen kuista yksi, Titan, on tieteellisessä mielessä erityisen kiinnostava, koska se on aurinkokuntamme ainut kuu, jolla on oma ilmakehä. Tässä ilmakehässä on lisäksi runsaasti metaania, joten on mahdollista, että Titanilla on jotain biologista toimintaa ja/tai vettä. Jotta tätä voitaisiin tutkia lähemmin, toinen luotaimista laskeutuu Titanin ilmakehään tehdäkseen siellä yksityiskohtaisia havaintoja. Toinen luotain sitä vastoin jää kiertämään Saturnusta ja tekemään havaintoja vielä neljän vuoden ajaksi. Projektin toteutuksesta vastaavat NASA (Yhdysvallat) ja ESA (Eurooppa). Jo aikaisessa vaiheessa projektia päätettiin, että ESA vastaa Titaniin laskeutuvasta luotaimesta ja NASA kantoraketista sekä toisesta luotaimesta. ESA:n kautta myös Suomen Ilmatieteen laitos on mukana projektissa. Luotaimet matkustivat kohti Saturnusta kiinni toisissaan. Luotaimista suurempi on nimeltään Cassini, nimetty 600 luvulla eläneen merkittävän italialaisen astronomin, Jean Dominique Cassinin mukaan. Cassinin aikalainen, hollantilainen astronomi Christiaan Huygens puolestaan oli ensimmäinen, joka havaitsi kuun Saturnusta kiertävällä radalla. Tuo kuu oli Titan, ja näin ollen Titaniin laskeutuva luotain kantaa hänen nimeään. Luotaimet laukaistiin Floridasta vuonna 997, ja ne saapuivat Saturnuksen kiertoradalle kesällä Kaksi ensimmäistä kierrosta Saturnuksen ympäri tarvittiin ohjaamaan luotaimet Titaniin päättyvälle radalle. Joulukuussa 2004 Huygens irtautui Cassinista jatkaakseen tällä radalla, Cassinin muuttaessa tämän jälkeen kurssia välttääkseen törmäyksen. 22 päivää myöhemmin, , Huygens laskeutui Titanin ilmakehään. Samaan aikaan Cassini oli asettunut sopivaan asemaan vastaanottaakseen dataa Huygensilta. Aikataulua on havainnollistettu kuvassa (2 ). 3

4 Kuva 2. Cassinin aikataulu matkalla Saturnukseen.[2] Alkuperäiset suunnitelmat laskeutumisen suhteen olivat seuraavanlaiset: 300 kilometrin päässä Titanin pinnasta alkaa sisääntulovaihe, jonka aikana Huygensin nopeus hidastuu n. Mach 8:sta Mach,5:een. Noin 60 kilometrin korkeudessa aukeaa ensimmäinen kolmesta laskuvarjosta ja mittausvaihe alkaa. (Kuva 2 2, taulukko 2 ) Huygensin mittalaitteet alkavat kerätä dataa ja lähettää sitä Cassinin yhteydessä olevaan vastaanottimeen. Tämän jälkeen kestää n minuuttia, ennen kuin luotain saavuttaa Titanin pinnan. Cassini tulee olemaan sopivassa kulmassa Huygensiin nähden aina 80 minuuttiin asti ottaakseen vastaan informaatiota, jos törmäys tai alhainen lämpötila Titanin pinnalla eivät tee Huygensia toimintakyvyttömäksi ennen sitä. Huygensin tekemät havainnot välitetään Cassinin kautta Maahan. Kuva 2 2. Huygensin laskeutuminen. 4

5 Luotaimissa on yhteensä 8 mittauksia tekevää laitetta, joista 6 on Huygensissa. Koska Huygens on yleiseurooppalainen projekti, on useimmilla laitteilla eri valmistajat. Laitteet ovat: ACP (Aerosol Collector and Pyrolyser) aerosolien keräämiseen ilmakehän koostumuksen analysointia varten, DISR (Descent Imager/Spectral Radiometer) kuvien ottamiseen laskun aikana, DWE (Doppler Wind Experiment) tuuliolojen mittaukseen, GCMS (Gas Chromatograph and Mass Spectrometer) ilmakehän kemiallisiin mittauksiin, SSP (Surface Science Package) fysikaalisten havaintojen tekemiseen Titanin pinnalla ja HASI (Huygens Atmosphere Structure Instrument) ilmakehän fysikaalisten ominaisuuksien mittaukseen. Näistä olemme eniten kiinnostuneita viimeksi mainitusta, koska siinä on mukana Ilmatieteen laitoksen tekniikkaa. Taulukko 2. HASI:n toiminta aikataulu.[] Lisäksi Huygensissa on erilaisia tarpeellisia tukitoimintoja. Nämä ohjaavat Cassinista irtautumista, lämpösuojaa jarrutusvaihetta varten, laskeutumisen hallintaa, tiedonhallintaa, sisäisen lämpötilan hallintaa, virtalähdettä, ja datan lähettämistä Cassinille. Näitä ei nyt käsitellä tarkemmin. 5

6 2.2. HASI Huygensin fysikaalisista ilmakehämittauksista vastaava laite on siis nimeltään HASI (Huygens Atmospheric Structure Instrument). Sen rakentamiseen on osallistunut 7 laitosta eri Euroopan maasta. HASI:ssa on neljä sensoripakettia: ACC (mittaa kiihtyvyyttä), TEM (mittaa lämpötilaa), PPI (painetta) ja PWA (permittiivisyyttä, aaltoliikettä ja korkeutta) Näistä kiihtyvyyden mittaaminen alkaa jo 300 km korkeudessa eli sisääntulovaiheen alkaessa. Muut sensorit aktivoituvat vasta 60 km korkeudessa, kun luotaimen nopeus on hidastunut tarpeeksi ja ensimmäinen laskuvarjo avautunut. (Taulukko 2 ) Tällöin anturit kääntyvät ulospäin ja mittaukset alkavat PPI (Pressure Profile Instrument) PPI (Pressure Profile Instrument) on Ilmatieteen laitoksella valmistettu painetta mittaava instrumentti, joka vastaa HASI:n painemittauksista. Sen tehtävä on määrittää Titanin ilmakehän vertikaalinen paineprofiili. Tätä varten tarvitaan myös muu HASI:n keräämä data esim. luotaimen korkeudesta, joten eri laitokset ovat yhteistyössä keskenään. PPI:ssä on kolmentyyppisiä paineantureita, joita nimitetään myös Barocapeiksi (Vaisala Oyj:n tuote). Nämä on tarkoitettu korkean, keskitason ja matalan paineen mittaukseen. Ilmakehän painetta on mittaamassa yhteensä kuusi anturia, kaksi kutakin tyyppiä, ja näiden lisäksi kaksi anturia mittaa painetta laitteen sisällä. Yhteensä paineantureita on siis kahdeksan. Lisäksi PPI:ssä on kolme lämpötila anturia, jotka mittaavat lämpötilaa laitteen sisällä. Laitteen sisäiset paine ja lämpöolosuhteet halutaan tietää, koska ne vaikuttavat paineanturien toimintaan. Jokaista PPI:n anturia vastaa yksi datakanava. Rakenteellisesti PPI jakaantuu kolmeen osaan, joita kutsutaan usein multicapeiksi (high, medium ja low multicap), joista kukin on suunniteltu toimimaan parhaiten hieman eri painealueella. Kussakin multicapissa on yhteensä kahdeksan kanavaa, joista yksi on lämpöanturi ja kaksi tai kolme paineantureita. Jäljellejäävät 4 5 kanavaa tulevat kondensaattoreista, joiden kapasitanssi on vakio, mm. 0 pf ja 5 pf. Nämä kanavat tuottavat vakiodataa, ja niiden tarkoitus on toimia referensseinä muille kanaville. Myös barocapit ovat itse asiassa kondensaattoreita, joiden levyjen väli muuttuu paineen, ja hieman myös lämpötilan vaikutuksesta. PPI:n instrumentaatio on esitetty kuvassa

7 Kuva 2 3. PPI:n instrumentaatio.[3] Dataa saadaan siis yhteensä 24 eri kanavalta (taulukko 2 2): Taulukko 2 2. Datakanavat. Jokaisen kanavan tuottama signaali on välillä [,], joka siis vastaa jotakin paineen tai lämpötilan arvoa. Tämän työn tarkoituksena on kalibroida PPI, jotta sen tuottamaa raakadataa osattaisiin tulkita. Tätä varten käytössä on kalibrointidataa, joka on kerätty Ilmatieteen laitoksella vuosina , ennen Cassinin laukaisua. Kalibrointimittauksissa PPI:n käyttäytymistä seurattiin ja sen datakanavia luettiin erilaisissa, tunnetuissa olosuhteissa, jotka vastasivat oletettuja todellisia mittausolosuhteita. 3. Mittausjärjestelyt ja havaintoaineisto Kalibrointimittauksissa laite oli sijoitettuna paineastiaan, joka puolestaan oli sijoitettuna sääkaappiin. Näin pystyttiin muuttamaan paine ja lämpötilaolosuhteita. 7

8 (Kuva 3 ) Tällöin oli käytössä edellä mainittujen 24:n lisäksi myös muita kanavia, tärkeimpinä tietenkin lämpömittari (kanava 7) ja painemittarit (kanavat 8, 3 ja 5). Näiltä kanavilta löytyvä tieto antaa meille mahdollisuuden kalibroida PPI instrumentti ja tulkita sen antamaa dataa oikein. Kuva 3. Mittausjärjestelyt PPI:n kalibroinnissa. Kalibroitaessa tarkkailtiin myös muita olosuhteita, kuten ilman kosteutta. Näillä ei kuitenkaan ole merkittävää vaikutusta paineanturien toimintaan, ja keskitymmekin nyt paineen ja lämpötilan tarkasteluun. Mittaukset tehtiin yleensä vakiolämpötilassa paineen vaihtuessa matalasta (lähellä 0 mbar) kohti korkeaa (000 mbar) tai päinvastoin. Välillä [0,00 mbar] havainnot tehtiin 0 millibaarin välein, välillä [00,300] yleensä 50 millibaarin välein, ja siitä ylöspäin 00 millibaarin välein. Jotkut mittaukset tehtiin vakiopaineessa lämpötilan vaihdellessa. Tunnetuissa paine ja lämpöolosuhteissa merkittiin ylös kunkin yllämainitun datakanavan kulloinenkin arvo, ns. y arvo. Kaikissa olosuhteissa tehtiin viisi erillistä havaintoa, joista myöhemmin laskettiin keskiarvo, jolloin siis viisi havaintoa muuttui yhdeksi. Näin yritettiin poistaa satunnaisvaihtelua. Jokaisesta mittauksesta saatiin siis 24 pistejoukkoa, yksi jokaista datakanavaa kohti, ja näiden pisteet olivat muotoa (paine,lämpötila,y arvo) = (p,t,y). Näistä olemme kiinnostuneita painekanavista, joita on kahdeksan. Mittauksia tehtiin yhteensä n. 200 (joista kaikkia ei tosin ole tarkoitettu varsinaisen kalibroinnin aineistoksi), ja nämä jakaantuvat lisäksi neljään eri sarjaan: näitä kutsutaan P, Q, R, ja S sarjoiksi. Eri 8

9 sarjat on kerätty eri aikoina, ja niiden välillä laitteeseen on tehty joitakin muutoksia, joten jokaista sarjaa on pidettävä omana havaintoaineistonaan. Tässä työssä rajoitutaan tarkastelemaan uusinta eli S sarjaa. Kussakin mittauksessa tehtiin yleensä havaintoa, joka em. satunnaisvaihtelun poiston yhteydessä supistui viidesosaan eli noin 0 20:een. Mittauksia taas oli S sarjassa n. 25. Tällöin käsiteltävänä olevassa havaintoaineistossa on n pistettä kutakin kanavaa kohti. Kalibrointia tehtäessä y on ollut suureista se, joka on määräytynyt t:n ja p:n muuttuessa. Nyt otamme kuitenkin selitettäväksi muuttujaksi p:n ja selittäjiksi y:n ja t:n. Näin tehdään siksi, että se aineisto, joka luotaimesta saadaan, koostuu y ja t arvoista, joiden avulla halutaan laskea p. Siksi on järkevää määrätä p suoraan y:n ja t:n funktiona. Havaintoaineistoa käsitellään siis muodossa (y,t,p). Laskuteknisesti tässä ei ole ongelmaa. Kysymys, johon haluamme vastauksen, on seuraava: miten p voidaan lausua y:n ja t:n avulla? 4. Analyyttinen riippuvuus suureiden välillä Yksittäisen barocapin (esim. kanava. tai 2.7) antama y arvo riippuu lämpötilasta t ja paineesta p, eli se on näiden funktio y(p,t). Nyt halutaan ilmoittaa p = f(y,t). Barocapien valmistaja, Vaisala, ilmoittaa omissa dokumenteissaan paineen riippuvan y arvosta seuraavasti: K y K 2 y 2 K 3 y 3 K 4 y 4 O, p= G (4 ) missä A, G, O ja K:t ovat vakioita. Paineella pitäisi tämän mukaan olla jotain riippuvuutta y:n potensseista aina neljänteen potenssiin asti sekä lisäksi selittäjästä. Lämpötilariippuvuuteen ei tässä oteta kantaa, mutta tiedämme, että sellainen on olemassa. Lämpötilariippuvuuden laadun selville saamiseksi ei ole juurikaan muuta keinoa kuin tehdä kokeiluja, jotka tosin onnistuvat tietokoneen avulla helposti. Alustavien sovitusten perusteella päädyttiin siihen, että dataan kannattaa yrittää sovittaa funktiota, jossa on termin ja vakiotermin lisäksi y:n termejä neljänteen potenssiin asti ja t:n termejä toiseen potenssiin asti, sekä näitä kerrottuna toisillaan, esim. y 2 t 2. Tätä korkeammat potenssit eivät missään olosuhteissa enää tarkenna 9

10 mallia. Tuntemattomaksi jäävät edelleen ym. termien kertoimet sekä A:n arvo. Toisin sanoen painetta selittämään käytetään seuraavaa mallia: 2 t 3 t 2 4 t 5 t 2 6 y 7 y 2 8 y 3 9 y 4 (4 2) yt yt 2 y t 3 y t 4 y t 5 y t 6 y t 7 y t p y, t = 0 Tämä on monimutkaisin malli, jota yritetään sovittaa dataan. Jatkossa kutsutaan t:n ja y:n termejä selittäjiksi. Datan perusteella kertoimille i tullaan löytämään estimaattorit. Osa selittäjistä voidaan myös jättää pois mallin yksinkertaistamiseksi, jos näyttää siltä, että ne eivät oleellisesti enää paranna mallin tarkkuutta. 5. Funktion sovittaminen dataan Tarkasteltavana on siis kolmiulotteisen avaruuden pistejoukko, joka halutaan mahdollisimman hyvin selittää jollain analyyttisella tavalla. Ongelmana on toisin sanoen funktion sovittaminen dataan. Tällaisen ongelman ratkaisuun on luonnollisesti kehitetty monia eri menetelmiä. Tässä tapauksessa on jo olemassa ennakkokäsitys siitä analyyttisesta riippuvuudesta, joka vallitsee y:n ja p:n välillä, mikä antaa aiheen yrittää lineaarista regressiomallia. Tässä tehtävässä este lineaarisen regressiomallin suoralle soveltamiselle on se, että lausekkeessa esiintyvä selittäjä ei ole lineaarinen, koska A:ta ei tiedetä. Este voidaan kiertää kiinnittämällä A vakioksi, mutta tällöin maksettava hinta on mallin tarkkuuden heikkeneminen. Oleellista onkin selvittää, onko tarkkuuden heikkeneminen tässä tapauksessa merkityksellistä. Tähän palataan myöhemmin. 6. Regressioanalyysi Regressioanalyysi tarkoittaa seuraavia malliin p= f y, t ; liittyvien tehtävien suorittamista[5]: Funktion f valinta Parametrin β estimointi Parametria β koskevien hypoteesien testaaminen Estimoidun mallin hyvyyden arviointi Mallista tehtyjen oletusten tarkistaminen Selitettävän muuttujan käyttäytymisen ennustaminen ja ennusteiden epävarmuuden analysointi 0

11 6.. Perusteet Yritämme siis selittää painetta y arvon ja lämpötilan t avulla. Olemme keränneet joukon pisteitä (yi,ti,pi). Tehdään yksinkertainen oletus, että p riippuu lineaarisesti :stä (missä A on tunnettu vakio) ja t:stä sekä lisäksi vakioselittäjästä: p = 0 2 t. (6 ) Yllä p on mallin perusteella laskettu paineen arvo eli sovite. Havaintoaineisto ei aivan tarkasti ole tämän muotoinen, eli toisin sanoen havaittu paineen arvo pi poikkeaa lasketusta: pi = 0 i 2 t i i, (6 2) missä εi on mallin virhe. Havaintoaineiston perusteella on löydettävä estimaattorit kertoimille i. Ne löytyvät pienimmän neliösumman menetelmällä, josta kerrotaan tarkemmin alempana. Oletetaan tässä vaiheessa, että estimaattorit on löydetty, ja kutsutaan niitä bi:ksi. Näiden perusteella saadaan estimoitu malli: p L =b 0 b b 2 t. (6 3) Taas huomataan, että satunnainen havaintopiste (yi,ti,pi) ei yleensä asetu tarkasti tälle pinnalle. Sen sijaan jokainen näistä pisteistä täyttää seuraavan yhtälön: pi =b 0 b i b 2 t i e i. (6 4) Yllä esiintyvää e:tä sanotaan residuaaliksi. Lineaarisen regressiomallin oletuksiin kuuluu, että residuaalit ovat normaalijakautuneita odotusarvolla 0. Yleinen lineaarinen malli voidaan esittää myös matriisimuodossa: p=x, [] [ ] p jossa esimerkkitapauksessa p = p 2, X = 2 t (6 5) [] [] 0, =, = 2 t2 2. (6 6)

12 Näistä p on selitettävän muuttujan havaittujen arvojen muodostama vektori. X on havaintomatriisi, jonka rivit vastaavat kutakin havaintopistettä (n kpl) ja sarakkeet selittäjiä (k+ kpl). Yleisen lineaarisen mallin parametreja ovat regressiokertoimet βi sekä virhetermien εi jäännösvarianssi Var i = 2. Näitä parametreja ei voida selvittää tarkasti, mutta niille voidaan havaintoaineiston perusteella löytää estimaattorit Standardioletukset Lineaarista regressiomallia muodostettaessa tehdään seuraavat viisi standardioletusta [5] : Matriisin X alkiot ovat kiinteitä eli ei satunnaisia vakioita Matriisi X on täysiasteinen: r X =k Mallissa ei ole systemaattista virhettä: E =0 Cov = 2 I Virhetermit ovat normaalijakautuneita: ~N n 0, 2 I Näiden ehtojen tulee täyttyä, jotta mallin estimointi ja testaus voidaan tehdä normaalilla tavalla Funktion f valinta Yllä on johdettu funktio 2 t 3 t 2 4 t 5 t 2 6 y 7 y 2 8 y 3 9 y 4 (4 2) yt yt 2 y t 3 y t 4 y t 5 y t 6 y t 7 y t p y, t = 0, joka halutaan sovittaa kyseiseen aineistoon. Seuraava tehtävä on löytää estimaattorit kertoimille βi Parametrien estimointi: neliösumman menetelmä (PNS) pienimmän Kertoimien parhaat estimaattorit löydetään minimoimalla virheen neliösumma. Tarkastellaan samaa yksinkertaista kolmen selittäjän funktiota kuin kohdassa 5.. 2

13 Virheen itseisarvojen summa määritellään havaitun ja mallista lasketun arvon erotuksena: err = pi p Li = pi b 0 b i b 2 t i. (6 7) Tavallisesti minimoitavaksi suureeksi määritellään kuitenkin virheen neliösumma (Sum of Squared Errors): SSE= pi p Li = p i b b i. b 2 t i (6 8) Tämä on bi:n funktio, jonka arvoa voidaan nyt minimoida bi:n suhteen. SSE:n etu verrattuna virheen itseisarvoon on, että se painottaa suuria virheitä enemmän, joten kun sovitus on optimoitu PNS:n mukaan, sen maksimivirhe on todennäköisesti pienempi kuin virheen itsearvon tapauksessa. SSE on myös näistä kahdesta helpompi minimoida. SSE saavuttaa minimin siinä pisteessä, jossa sen osittaisderivaatat kaikkien parametrien a, b ja c suhteen ovat nollia. Otetaan nyt SSE:n osittaisderivaatat kaikkien kertoimien suhteen ja saadaan { b SSE =2 p i b 0 b 2 t i =0 b0 i b b SSE =2 pi b 0 b 2 t i =0 b i i b SSE =2 pi b 0 b 2 t i t i =0 b2 i }. (6 9) Näitä kutsutaan normaaliyhtälöiksi. Ne muodostavat lineaarisen yhtälöryhmän, josta kertoimet osataan ratkaista, kun oletus on voimassa, eli matriisi X on täysiasteinen. Yleisessä mallissa, jossa on k selittäjää, SSE= ei2= [ pi b 0 b 2 r q i i... b k y t ] päädytään normaaliyhtälöihin 3, (6 0)

14 b 0 n b r q... b k y i t i = pi i y ri t iq pi b ²... b k = i i i r q yi t i b 0 y ri t iq b... b k y 2i r t 2i q = p i y ri t iq b0 (6 ) Jos malli on lineaarinen kertoimien bi suhteen (ja X täysiasteinen), niin yleisessä tapauksessa päädytään aina lineaariseen yhtälöryhmään, jossa on k yhtälöä ja k tuntematonta. Tällöin kertoimet ovat aina ratkaistavissa. Matriisimuodossa vektorin β PNS estimaattori ilmoitetaan b= X ' X X ' p. (6 2) Tässä X on siis em. havaintomatriisi. Kun βi:lle on saatu estimaattori bi, halutaan lisäksi tietoa estimaattorin tarkkuudesta. Tarkkuus ilmoitetaan luottamusvälinä, jolla βi sijaitsee q%:n todennäköisyydellä. bi:n varianssin [ D 2 b i = 2 X ' X ] i, i (6 3) [ ] harhaton estimaattori on D 2 bi =s 2 X ' X i, i, 2 missä s2 on siis jäännösvarianssin σ2 estimaattori s = (6 4) e i2. (6 5) n k Standardioletusten pätiessä (6 5) on harhaton estimaattori. Estimaattorin bi luottamusväli (6 4):n avulla lausuttuna on b i ±t /2 D 2 b i, (6 6) missä tά/2 on luottamustasoa q = ά vastaava kerroin Studentin t jakaumasta vapausasteilla (n k ) Mallin hyvyyden arviointi Mallin hyvyyttä voidaan mitata monella eri tunnusluvulla. Edellä käsitelty virheen kokonaisneliösumma SSE (kokonaisvirhe) on näistä yksi. Tarkalla mallilla saadaan pieni neliösumma ja epätarkalla suuri. 4

15 SSE a, b, c = b b2 i 2 b3 t i pi = e i2. (6 7) Eri aineistojen pohjalta tehtyjen mallien kokonaisvirheet ovat vertailukelpoisia vain, jos aineistoissa on sama määrä havaintoja. Tämän takia usein jaetaan ylläoleva n:llä ja otetaan osamäärästä vielä neliöjuuri, jolloin saatu suure (Root Mean Square, RMS) vastaa kysymykseen kuinka suuri virhe on keskimäärin? Toinen tunnusluku, jota usein käytetään kuvaamaan mallin hyvyyttä, on selitysaste. Sitä varten määrittelemme kokonaisneliösumman SST = pi p 2, missä p on kaikkien havaintojen aritmeettinen keskiarvo. Tämän jälkeen selitysaste R2 määritellään: R 2= SSE. SST (6 8) Selitysasteelle pätee: 0 R 2. Mitä korkeampi arvo R2:lla on, sitä paremmin malli selittää selitettävän muuttujan vaihtelun. Jos R2 =, niin malli selittää tämän vaihtelun täydellisesti. Tällöin myös SSE = 0, eli kaikki residuaalit häviävät. SSE ja R2 ovat yhtäpitäviä, eli ne heikkenevät ja paranevat käsi kädessä. Niiden heikko puoli on se, että ne paranevat, tai eivät ainakaan heikkene, aina kun malliin otetaan mukaan uusi selittäjä, oli se kuinka tilastollisesti merkityksetön tahansa. Niiden mielessä malli on siis sitä parempi, mitä enemmän siinä on selittäjiä. Kuitenkin turhaa monimutkaistamista halutaan yleensä välttää. Tämä on otettu huomioon korjatussa selitysasteessa, R 2p = n SSE, n k SST (6 9) missä n on havaintojen lukumäärä ja k mallissa olevien selittäjien lukumäärä. Korjattu selitysaste itse asiassa huononee, jos malliin tuodaan selittäjä, joka ei ole tarpeeksi hyvä. Absoluuttinen maksimivirhe on toinen virhettä kuvaava suure, josta ollaan kiinnostuneita. Se määritellään R =max { pi p i }. (6 20) Maksimivirhe vastaa kysymykseen kuinka suuri virhe voi pahimmillaan olla? R Samoin kiinnostava on suhteellinen maksimivirhe:. Suhteellisissa virheissä on p i se hankala puoli, että niiden maksimi esiintyy yleensä siellä, missä f(x) on lähellä 5

16 nollaa. Jos lähellä nollaa kuitenkin sallitaan jokin epätarkkuus, on tällaiset f(x):t jätettävä tarkastelun ulkopuolelle. Niissä aineistoissa, jotka nyt on käytössä, on aina yksi havainto juuri 0 millibaarin yläpuolella. Nämä on suhteellisen virheen tarkasteluissa jätetty huomiotta. Kertoimien tilastollinen merkitsevyys liittyy variansseihin ja luottamusväleihin. Se määritellään todennäköisyytenä, jolla ko. selittäjän kerroin on nolla. Tämä todennäköisyys lasketaan nk. t testin avulla. Monimutkaisessa mallissa voi käydä niin, että varianssi on jollain kertoimella suurempi kuin kertoimen itseisarvo, ts. nolla kuuluu luottamusvälille. Hyvässä mallissa ei ole tilastollisesti merkityksettömiä selittäjiä Selitettävän ennustaminen muuttujan käyttäytymisen Olkoon olemassa havaintoaineisto, joka koostuu selittäjien arvoista (yi,ti). Johdetulla mallilla saadaan näiden avulla jokin estimaatti kullekin pi:lle. Tällöin halutaan myös tietoa estimaatin tarkkuudesta. Tarkkuus ilmoitetaan jälleen luottamusvälinä. t t2 ja,,,... =, x, x 2,..., x k muodostetaan havaittujen y:n ja t:n arvojen perusteella z =, x, x 2,..., x k, joka vastaa X matriisin yhtä riviä. z :n perusteella lausuttu paras lineaarinen ja harhaton estimaattori p:lle on Määritellään vektori z=, p x, x 2,.., x k =b 0 b x b 2 x 2... b k x k. (6 2) Standardioletusten ollessa voimassa ennustevirhe on normaalijakautunut: p p x, x 2,..., x k ~N 0, 2 [ z ' X ' X z ]. (6 22) Selitettävän muuttujan arvon p luottamusväli luottamustasolla ά on tällöin b 0 b x b 2 x 2... b k x k ±t /2 s [ z X ' X z ] 2, (6 23) missä tά/2 saadaan Studentin t jakaumasta vapausasteilla (n k ). Tästä päättelystä seuraa, että muodostettuamme regressiomallin, jos meillä on tiedossa y ja t, voimme niiden perusteella laskea sekä estimaattorin vastaavalle p:lle (6 2):n avulla, että (6 23):n avulla sen luottamusvälin, jolla p:n todellinen arvo on esim. 95%:n todennäköisyydellä. Luottamusvälit lasketaan kaikissa aineiston pisteissä erikseen, ja satoja pisteitä käsittävässä havaintoaineistossa luottamusvälien keskimääräinen pituus 6

17 voi olla mallin hyvyyttä kuvaava vertailutekijä Lineaarisen regressiomallin riittävyys muodostuu yllä esitellyssä mallissa ongelmaksi, koska siinä muuttuja A on nimittäjässä, ts. selittäjä on epälineaarinen. Päätin selvittää, kuinka paljon lopullisen mallin tarkkuus kärsii, jos tämä ongelma kierretään naulaamalla A:n arvo vakioksi. Selittäjä A:n optimiarvo riippuu luonnollisesti käsiteltävästä anturista sekä havaintosarjasta. Lisäksi se riippuu mallista, jota aineistoon yritetään sovittaa. Tarkastelin asiaa kahdella eri mallilla: yksinkertaisella (pelkästään sekä vakioselittäjä mukana) p y, t = 0, (6 24) ja monimutkaisella (kaikki em. selittäjät mukana): p y, t = 0 2 t 3 t 2 4 t 5 t 2 6 y 7 y 2 8 y 3 9 y 4 0 yt yt 2 2 y 2 t 3 y 2 t 2 4 y 3 t 5 y 3 t 2 6 y 4 t 7 y 4 t 2 (6 25). Tarkastellaan nyt esimerkkitapauksena S sarjaa ja siinä barocapia 2.7. Havaintoaineisto on tulostettu selvyyden vuoksi kaksiulotteisena kuvassa 6, jossa on kaikki kanavalta 2.7 S sarjassa saatu informaatio yhteensä 22 eri mittauksesta. Havaintoja on tehty matalan paineen alueella 0 mbar välein, sen jälkeen 50 ja lopulta 00 mbar välein. 000 mbar tienoilla tehty viimeinen havainto on vaihdellut jonkin verran mittauksesta toiseen, mutta tätä lukuunottamatta jokainen näkyvissä oleva pitkulainen piste koostuu itse asiassa kymmenistä eri havainnoista, mikä tällä tarkkuudella on juuri ja juuri mahdollista erottaa silmällä. Näin voidaan nähdä, millainen vaikutus lämpötilan vaihtelulla on y arvoon. Korkeammassa lämpötilassa sama anturi antaa vähän alhaisemman y arvon, jos paine säilyy samana: esimerkiksi kun 500 mbarissa lämpötila vaihtuu 35:sta +45:een, laskee kanavan 2.7 y arvo 0,2549:stä 0,2529:ään. 7

18 Kuva 6. Kanavan 2.7. havaintoaineisto, kaikki lämpötilat. Silmämääräisesti päätellään siis, että lämpötilan vaikutus y arvoon on varsin vähäinen, mutta havaittavissa. Kaikki havaitut y arvot sijaitsevat välillä [0,; 0,34], pienten y arvojen vastatessa korkeita paineen arvoja. Katsotaan seuraavaksi, minkälainen funktio tähän saadaan sovitettua. Koska A:n arvosta ei ole ennakkotietoa, sovitus tehdään epälineaarisen regression avulla. Ensin yksinkertaisemmalle mallille saadaan optimaalinen sovitus p y = y (6 26) Kaavat (6 24) ja (6 26) muistuttavat hyperbelin analyyttista kaavaa. Tällöin A:n arvon graafinen tulkinta on se y:n arvo, jonka kohdalla kulkee tämän hyperbelin asymptoottisuora. Kun kaikki selittäjät ovat mukana, saadaan puolestaan sovitus: t t² 0.6 y 0.6 y 0.6 y (6 27) y.3462 ty t y y ty t 2 y y ty 3.63 t 2 y y ty t 2 y 4 p y, t = t t 2 A:n optimiarvo on siis ensimmäisessä mallissa ja jälkimmäisessä 0.6. Kun asetetaan t = 0, näyttävät em. funktiot havaintoaineiston kanssa seuraavilta (kuva 6 2): 8

19 Kuva 6 2. Sovitukset 2.7:n aineistoon, yksinkertainen ja kompleksi malli. Sovitusten eroja ei juuri näe silmällä. Mitä sovituksen tarkkuudelle tapahtuu, jos A:n arvoa muutetaan? Tarkastelin asiaa kirjoittamalla ohjelman, joka sovitti kulloisenkin mallin aineistoon kaikilla järkevillä A:n arvoilla (välillä 0,65 0,75) 0,00:n välein, ja tallensi saadun mallin virheen kokonaisneliösumman. Kuva 6 3. A:n arvon vaikutus SSE:hen mallissa (6 24). Yksinkertaisella mallilla paras tarkkuus saavutetaan A:n arvolla 0,687: tällöin virheen kokonaisneliösumma on 7794,9. Kuten kuvasta (6 3) nähdään, tarkkuus alkaa heiketä varsin nopeasti A:n muuttuessa. Tosin tarkimmillaankaan malli ei ole kovin tarkka. Kuva 6 4. A:n arvon vaikutus SSE:hen mallissa (6 25). 9

20 Kaikkien selittäjien mallilla virheen kuvaaja (kuva 6 4) on paljon tasaisempi. Virheen kokonaisneliösumman minimi saavutetaan A:n arvolla 0,6, mutta vaihtelut ovat pieniä. Koko tarkasteluvälillä [0,45; 0,75] kokonaisvirhe on desimaalin tarkkuudella sama. Jos sama tarkastelu tehdään kaikille paineantureille kaikissa sarjoissa, saadaan A:n optimaalisiksi arvoiksi seuraavaa: Taulukko 6.. Parhaat A:n arvot. A:n optimiarvot vaihtelevat aika paljon kahden mallin välillä. Monimutkaisella mallilla (6 25) saadaan jonkin verran vaihtelevia A:n optimiarvoja, mutta yksinkertaisessa mallissa (6 24) nämä pysyvät lähellä toisiaan, välillä 0,67 0,7. Tämä on ymmärrettävää, sillä A:n arvon graafinen tulkinta on se y:n arvo, jonka kohdalla funktion arvo menee äärettömyyteen. Silmämääräisesti voidaan arvioida, että jos mallissa on mukana pelkästään selittäjä, pakottaa se A:n arvon lähelle asymptoottisuoraa. Kaikkien selittäjien mallissa voi käydä niin, että :tä vastaava kerroin i määritellään hyvin pieneksi, jolloin A:n arvo taas voi olla melkein mitä vain sen vaikuttamatta p:n arvoon juuri mitenkään. Tämä nähtiin myös kuvassa (6 4), kun havaittiin, että virheen kuvaaja A:n funktiona oli hyvin laakea. Tähän liittyy myös taulukossa 6 kanavan 2.8 kohdalla silmään pistävä monimutkaisen mallin A:n arvo 5,0. Tämä ei ole kirjoitusvirhe, vaan aivan oikeasti A:n arvoa suurennettaessa ei päästy tähän arvoon mennessä virheen neliösumman minimiin (kuva 6 5), tosin erot pienempiin A:n arvoihin olivat erittäin pienet. Kuva 6 5. Kanava 2.8, S sarja. Tästä voitaneen päätellä, että kanavan 2.8 mittausdatassa saattaa olla jotain muista kanavista jossain määrin poikkeavaa. Tarkempaa tietoa poikkeaman syystä ei ole. Vastaava ilmiö havaittiin eräillä kanavilla muissakin sarjoissa (P, Q, R), joiden tarkastelu on rajattu tämän työn ulkopuolelle. 20

21 Tarkemmin asiaa tutkittaessa havaitaan, että A:n optimiarvo vaihtelee mallista toiseen riippuen siitä, mitä selittäjiä käytetään. Mitä yksinkertaisempi malli on, sitä herkempi sen tarkkuus on A:n vaihteluille. Esimerkiksi mallissa p y, t = 0 2 y 3 y 2 4 y 3 5 t 6 yt paras A:n arvo on hieman eri kuin mallissa p y, t = 0 2 yt 3 y 3 t. Yksinkertaisessa mallissa (6 24) A:n muutos 0,68:sta 0,72:een saattaa kasvattaa virheen neliösummaa jopa 25%, mitä on pidettävä huolestuttavana. Käytännössä kaikkein yksinkertaisinta mallia ei kuitenkaan käytetä. Selittäjät y ja y3 tarkentavat mallia kaikissa tapauksissa niin paljon, että ne on järkevää pitää aina mukana mallissa. Myös jonkinlainen lämpötilariippuvuus täytyy pitää mukana. Niinpä laskemme A:n optimiarvot vielä kolmannelle mallille: p y, t = 0 2 y 3 y 3 4 t. (6 28) Kutsukaamme tätä oleellisten selittäjien malliksi. Haarukoinnista saadaan seuraavat tulokset: Taulukko 6.2. Parhaat A:n arvot. Tarkastellaan taas kanavaa 2.7 S sarjassa. Kokonaisvirhe A:n funktiona näyttää nyt seuraavalta (kuva 6 6): Kuva 6 6. A:n vaikutus SSE:hen oleellisten selittäjien mallissa Paras tarkkuus saavutetaan nyt arvolla A = 0,672, mutta jos tämä muutetaan esim. arvoon 0,75, kasvaa kokonaisvirhe vain noin prosentin. Tarkkuus ei siten ole läheskään niin herkkä A:n muutokselle kuin kaikkein yksinkertaisimmassa mallissa. 2

22 Yleisesti ottaen A:n optimiarvot näyttäisivät olevan lähellä 0,7:ää. Mielestäni A:n arvot voidaan turvallisin mielin kiinnittää niihin arvoihin, jotka on edellä saatu oleellisten selittäjien mallista (6 28), sillä tätä yksinkertaisempaa mallia ei missään tapauksessa tulla oikeasti soveltamaan. Vaisalan omissa dokumenteissa on ilmeisesti jopa ajateltu asiaa niin, että p riippuu ensisijaisesti selittäjästä, muiden ollessa enemmän tai vähemmän korjaustermejä. Sellaisen mallin, jossa on mukana paljon y:n ja t:n termejä, tarkkuus ei ole kovin herkkä A:n arvon muutokselle selittäjässä. Pelkistetyn mallin tapauksessa A:lla on kuitenkin olemassa selkeä optimiarvo. Nämä tulokset saatuani päätin käyttää A:lle kiinnitettyjä arvoja, perustuen niihin optimaalisiin arvoihin joita saatiin mallin ollessa p y, t = 0 2 y 3 y 3 4 t : Taulukko 6.3. Kiinnitetyt A:n arvot. Taulukossa 6 3 esitetyillä A:n arvoilla voidaan todeta lineaarisen regressiomallin olevan riittävän tarkka. 7. Toteutus Tehtäväksi jäi kirjoittaa sovellus, joka löytää estimaatit kertoimille bi. Tätä varten käytössä oli valmis apuväline. Pienimmän neliösumman menetelmä on valmiiksi ohjelmoituna Mathematicassa. Komennolla Fit(lista, selittäjät, muuttujat) saadaan suoraan PNS menetelmällä saatu lineaarinen sovitus. (Komento Regress on muuten sama kuin Fit, mutta se laskee samalla paljon erilaisia mallia koskevia tunnuslukuja.) Listan alkioiden on oltava lukupareja, kolmikkoja, nelikkoja jne. Näistä viimeinen tulkitaan selitettäväksi muuttujaksi ja sitä edeltävät selittäviksi. Meidän tapauksessamme listan alkiot on esitettävä muodossa {y,t,p}. Muuttujat ovat nyt y ja t, ja selittäjät on puolestaan lista niistä y:n ja t:n termeistä, jotka halutaan ottaa tarkasteluun. Tavoitteena on vertailla erilaisia malleja ja siten selvittää, mitkä selittäjät vaikuttavat merkittävästi saatuun p arvoon ja mitkä ehkä eivät. Esimerkiksi, kärsiikö tarkkuus paljon, jos poistamme kaikki lämpötilan toisen potenssin sisältävät selittäjät mallista? 22

23 Koska PNS menetelmä itsessään oli valmiina, sen koodaamisesta ei tarvinnut huolehtia. Suurimmaksi ongelmaksi jäi muuntaa käytettävissä oleva data sellaiseen muotoon, jota Mathematica osaa käsitellä. Alkuperäinen data oli tekstitiedostoina, joissa ilmoitettiin jokaisen kanavan lukema kullakin havaintohetkellä. Jokainen mittaus oli omassa tiedostossaan. Näitä varten kirjoitettiin Octave ohjelma, joka poimi tekstitiedostoista halutut kanavat ja tuotti uuden tekstitiedoston, joka ilmoitti halutun datan taulukkomuodossa. Tällaiset tiedostot Mathematica osaa lukea ja muuntaa Import komennolla käsiteltävään muotoon. Näin saaduista taulukoista luettiin edelleen kulloinkin kiinnostavat tiedot uuteen taulukkoon, jota analysoitiin Regress komennolla. Ohjelma tuottaa taulukon, jossa jokaisen datakanavan tiedot ovat omalla rivillään. Koska painekanavia on kahdeksan, tulee taulukon dimensioiksi otsikkorivin kanssa 9x6. Tietoihin kuuluvat tärkeimpinä kaikkien mahdollisten termien kertoimet sekä kertoimien tilastolliset luottamusvälit 95%:n merkitsevyystasolla. Jos käsiteltävässä mallissa ei ole mukana jotakin termiä, on sen kertoimena taulukossa nolla. Tilastollisista tunnusluvuista mainitaan virheen neliösumma, virheen neliösumma jaettuna havaintojen määrän neliöllä (RMS), suurin absoluuttinen ja suhteellinen virhe sekä näiden esiintymisindeksit. Aluksi taulukossa on pelkkää nollaa, ja rivit täytetään yksi kerrallaan. Yksi taulukko vastaa yhtä sovitettavaa mallia. Käyttäjä voi itse määritellä, mitkä kaikki mallit halutaan muodostaa. Jos esim. halutaan laskea kertoimet malleille b b p y, t =a cy dy 2 ey 3 ft gyt ja p y, t =a cyt dy 3 t, saadaan kaksi taulukkoa, ilmoitettuna kolmiulotteisena taulukkona, jonka dimensiot ovat 2x9x6. Tämä tulostetaan vielä ulkopuoliseen tekstitiedostoon, joka on muiden sovellusten käytössä ja ymmärrettävissä silloin, kun varsinainen havaintodata saadaan käyttöön. 7.. Kalibrointialueet Kunkin multicapin anturit on suunniteltu toimimaan herkimmin tietyllä painealueella. Kun varsinainen havaintodata saadaan käyttöön, tullaan aluksi lukemaan matalan paineen antureita (3.7 ja 3.8) n. 300 mbarin paineeseen asti, sen jälkeen keskitason paineen antureita (.,.6 ja.8) n. 900 mbariin asti, ja lopulta korkean paineen antureita (2., 2.7, 2.8). Sovitusta koskeva maksimivirhe lasketaan kalibrointidatasta vain niillä painealueilla, joilla ko. anturia tullaan oikeasti tarvitsemaan. Kalibrointi sen sijaan tehdään laajemmalta alueelta. 23

24 VIRHEANALYYSIN RAJAT Matala (3) 0 mbar->350 mbar Keskitaso () 300 mbar->950 mbar Korkea (2) 900 mbar-> KALIBROINTIRAJAT Matala (3) 0 mbar > 550 mbar Keskitaso ()0 mbar > 250 mbar Korkea (2) 0 mbar > 2000 mbar Ensimmäisessä eli P sarjassa havaintoja on tehty välillä [0,800] mbar. P sarjassa ei myöskään ole vielä ollut käytössä matalan paineen antureita, vaan ne on lisätty vasta tämän jälkeen. Myöhemmissä sarjoissa painealue onkin rajoitettu välille [0,000] mbar, koska matalan paineen anturit saattavat vaurioitua paineen noustessa selvästi yli 000 millibaarin. Myös keskitason anturit lakkaavat antamasta järkeviä tuloksia noin 400 millibaarin kohdalla, kun kondensaattorien levyt koskettavat toisiaan. Käytännössä kalibrointialue on siis millibaaria lukuunottamatta matalan paineen antureita, joilla se on millibaaria. 8. Mathematica-ajon tulokset Yllä kuvattu Mathematica ohjelma tuottaa jokaiselle sarjalle oman kerroinmatriisinsa, jonka perusteella voidaan vaikka piirtää p(y):n kuvaajia yhdessä havaintoaineiston kanssa jossakin vakiolämpötilassa, jolloin kuvaaja saadaan kahteen ulottuvuuteen. Graafista kolmiulotteista tarkastelua on vaikea järjestää niin, että siitä saisi paperilla selvää. Sen sijaan voidaan piirtää kaksiulotteinen käyrä kussakin lämpötilassa erikseen. Kuvassa [7 ] on merkitty pienillä ristellä kanavan. mittaustulokset sekä piirretty näihin sovitettu käyrä mallin ollessa (9 ). Jotta eri lämpötilat erottuisivat kuvassa toisistaan, niiden välillä on 50 millibaarin offset. Loppujen kanavien piirrokset löytyvät liitteestä A. Kuva 8. Kanavan. havaintoaineisto ja sovitus mallilla (9 ). 24

25 Kun ohjelma ajettiin kuudella erilaisella mallilla kaikille sarjoille, saatiin 24 formaatin mukaista taulukkoa. Keskityn tässä uusimman eli S sarjan tarkasteluun. Multicapeilla ja 2 y arvo pienenee paineen kasvaessa, ja multicapilla 3 päinvastoin. Aineistot ovat yleisesti ottaen hyvin tasaisia ja maksimivirheet ovat pieniä. Joissain mittauksissa on selvästi tullut poikkeuksellisia havaintoja, kun jokin kanava on juuttunut johonkin lukemaan koko mittauksen ajaksi, ja lisäksi yksittäisiä poikkeuksellisia havaintopisteitä esiintyy. Kun tällaiset on saatu poistettua, tarkkuus on melkein aina erinomainen. Sovitetaan S sarjaan esimerkiksi malli p y, t = 0 2 t 3 t 2 4 y 5 y 3 6 t 7 yt 8 y 4 t. (8 ) Taulukko näyttää seuraavanlaiselta (taulukko 8 ): Taulukko 8. Mathematica ajon esimerkkitaulukko. Tässä taulukossa ei ole selvyyden vuoksi merkittynä estimaattorien keskihajontoja. Siitä voidaan esimerkiksi lukea, että mallin (8 ) tapauksessa kanavalle 2.8 saadaan 837,5 0,062 t 0, t 2 p y, t =245 6,59 y sovitus ja kanavalle 0.67 y 0.67 y 0.67 y ,3 y 0,0654 t 0,0460 yt 2,076 y t 25

26 ,34 0,00642 t 0, t 2 p y, t = 36,6 2,622 y 3.8 sovitus y 0.67 y 0.67 y ,92 y 0,0434 t 0,0300 yt 0,53 y t 9. Optimaalisen mallin valinta Kun havaintoaineisto on saatu oikeaan muotoon ja sovitustyökalu on käytössä, jää tehtäväksi päättää, mitkä selittäjät otetaan mukaan lopulliseen regressiomalliin, eli mikä malli lopulta valitaan. Tätä pohtiessa otetaan huomioon seuraavat kriteerit: selittäjien tilastollinen merkitsevyys p:n luottamusvälit mallin selitysaste mallin kokonaisvirhe mallin maksimivirhe mallin ennustavuus mallin yksinkertaisuus Koska aineistot ovat hyvin tasaisia, kokonaisvirhe ja maksimivirhe kulkevat käsi kädessä. Samoin pienimmät selittäjien luottamusvälit esiintyvät yksinkertaisimmissa malleissa. Lisäksi regressioanalyysissa yleensä pyritään siihen, että kaikki selittäjät olisivat tilastollisesti merkitseviä. Tätä ei kuitenkaan tarvitse noudattaa sokeasti, vaan tapauskohtaisesti voidaan tilastollisesti merkityksetönkin selittäjä jättää malliin, jos siitä on jossain mielessä olennaista lisäarvoa. Selittäjän xi tilastollista merkitsevyyttä voidaan testata sen regressiokerrointa βi koskevalla nollahypoteesilla H 0 : i =0. H : i 0 Kappaleessa 5.6 on määritelty βi:n luottamusväli kiinnitetyllä luottamustasolla. Nyt on kysymys siitä, kuuluuko nolla tälle luottamusvälille. Mathematica antaa tässä kohtaa vastauksen muodossa millä tn:llä βi = 0. Jos tämä todennäköisyys on yli halutun rajan (nyt 0.05), nollahypoteesi jää voimaan. Jos nollahypoteesi jää testatessa voimaan, päätellään, että ko. selittäjällä ei ole vaikutusta selitettävään muuttujaan. Muussa tapauksessa selittäjä on tilastollisesti merkitsevä. Ongelma on, että selittäjän tilastollinen merkitsevyys ei ole yksikäsitteistä vaan riippuu siitä, mitä muita selittäjiä mallissa on mukana. 26

27 Tehdään seuraavasti:. Otetaan ensin malli, jossa ovat mukana kaikki mahdolliset selittäjät, ja tehdään yo. testi kaikille kertoimille. 2. Jos löytyy sellaisia selittäjiä, jotka eivät ole tilastollisesti merkitseviä, poistetaan näistä vähiten merkitsevä (jolla on suurin P arvo). 3. Estimoidaan malli uudestaan jäljellejääneillä selittäjillä. Tehdään näille uudet merkitsevyystestit. Toistetaan kohta 2). 4. Kun jäljellä on vain tilastollisesti merkitseviä selittäjiä, malli on valmis. Menetelmää sanotaan alaspäin askellukseksi. Selittäjien keskinäisestä riippuvuudesta johtuen se järjestys, jossa selittäjiä poistetaan, vaikuttaa lopputulokseen. Kun mallista poistetaan jokin selittäjä, se saattaa muuttaa ennen merkityksettömän selittäjän merkitykselliseksi, tai päinvastoin. Siksi tällä menetelmällä saadut tulokset saattavat poiketa muilla menetelmillä saaduista. Taulukkoon (9 ) on merkitty kanavittain x:llä ne selittäjät, joiden havaittiin alaspäin askeltaessa olevan tilastollisesti merkitseviä. Lisäksi on merkitty, kuinka monella kanavalla kukin selittäjä on tilastollisesti merkitsevä, ja kuinka monta selittäjää kuhunkin malliin lopulta valittiin. Tästä voidaan esimerkiksi nähdä, että vain vakioselittäjä sekä selittäjä ovat mukana kaikissa malleissa, mutta myös eräät muut selittäjät ovat mukana melkein kaikissa. Taulukko 9. Alaspäin askelluksen tulokset. Tarkastellaan asiaa vielä toisella tavalla. Taulukkoon (9 2) on kerätty kullekin aineistolle neljä erilaista regressiomallia, sekä näistä seuraavat tunnusluvut: virheen neliösumma, maksimivirhe, varianssin estimaattori, muokattu selitysaste, 95%:n luottamusvälien keskiarvo, selittäjien lukumäärä sekä 95%:n varmuudella 27

28 tilastollisesti merkityksettömien selittäjien lukumäärä. Mallit on pyritty valitsemaan niin, että ensimmäisessä mallissa on mukana kaikki selittäjät, toisessa mallissa ovat vähänkin merkitsevät selittäjät, ja kolmannessa kaikki käytännössä välttämättömät selittäjät, ts. ne jotka tarvitaan jotta tunnusluvut eivät lähde oleellisesti heikkenemään. Neljännessä mallissa ovat mukana vain t selittäjät ja sekä vakioselittäjä. Taulukko 9 2. Malliehdokkaat. t ja selittävät yksinään lähes kaiken p:n vaihtelun, joten mallien vertailun täytyy tapahtua muiden tunnuslukujen avulla. Kuten määritelmässä todetaan, virheen neliösumma heikkenee aina, kun selittäjiä poistetaan mallista, joskin heikkeneminen on aluksi pientä. Maksimivirhe, varianssin estimaattori ja ennustavuus saattavat tällöin jopa vähän parantua. Kuten selitysasteen R2 korkeat arvot kertovat, termit Missään olosuhteissa ei ole syytä käyttää kaikkien selittäjien mallia. Kun siitä 28

29 poistetaan tilastollisesti merkityksettömimmät selittäjät, saadaan paljon yksinkertaisempi malli yhtä hyvillä tai jopa paremmilla tunnuslukujen arvoilla. Tällöin mukana saattaa olla vielä pari määritelmän mukaan tilastollisesti merkityksetöntä selittäjää. Jos vielä nämä poistetaan, saadaan malli, joka useimmissa tapauksissa on lähes yhtä hyvä. Valitaan taulukosta tarkimmat mallit, joissa kaikki selittäjät ovat tilastollisesti merkitseviä. Joillain kanavilla tämä on malli 2 ja joillain malli 3. Tällöin päästään seuraaviin sovitteisiin: t t² Kanava.: 0.79 y 0.79 y 0.79 y t t² y 39.9 y³ yt (9 ) t t² t Kanava.6: 0.69 y 0.69 y 0.69 y t² y y² y³ yt (9 2) t t² t Kanava.8: y y y t² y 23.6 y² y³ yt (9 3) Kanava 2.: t t² t y (9 4) y y y t t² Kanava 2.7: y y y 0.78 t t² y 26.2 y² y³ 0.42 yt Kanava 2.8: t² y y y 0.56 t 8.98 y y³ (9 6) t Kanava 3.7: y y t y y³ yt (9 7) t Kanava 3.8: y y t 2.65 y y³ yt (9 8) Näitä voidaan suositella käytettäväksi mittausdatan käsittelyssä. Katsotaan vielä, miten valitut mallit ennustavat paineen arvoja sellaiselle aineistolle, 29

30 joka ei ole ollut mukana mallia muodostettaessa. Tähän tarkoitukseen on olemassa pyyhkäisymittauksia, joissa y arvoja on mitattu aina 0 mbarin välein nollasta 000 mbariin asti. Tarkastellaan kanavaa., jolle laskettiin yllä malli (9 ): Kuva 9. Mallin (9 ) ennustustarkkuus, kanava.. Kanava. kuuluu keskipaineantureihin, eli sen käypä mittausalue on n millibaaria. Tällä alueella mallin (9 ) antama paineen arvo on enintään 0,2 mbarin päässä havaitusta arvosta. Lisäksi havaitaan, että ennustusvirhe vaihtelee tasaisesti nollan molemmin puolin. Kuva 9 2. Kaikkien selittäjien mallin (6 25) ennustustarkkuus, kanava.. Jos otetaan mukaan kaikki tarkasteltavat selittäjät (kuva 9 2), niin ennustustarkkuus ei juurikaan parane edellisestä. Näin voidaan tehdä sama päätelmä kuin taulukon 9 2 tietojen perusteella, että valittu malli on kaikkien selittäjien malliin verrattuna täysin riittävä. Myös muille kanaville tehtiin vastaava tarkastelu. Kuvat näistä ovat liitteessä. Multicapin antureilla ennustusvirhe vaihtelee tasaisesti nollan molemmin puolin ja 30

31 on itseisarvoltaan korkeintaan 0,2 millibaaria. Sen sijaan multicapeissa 2 ja 3 ennustusvirhe tahtoo painottua positiiviselle puolelle, eikä edes kaikkien selittäjien mukanaolo korjaa tätä. Toisaalta ennustustarkkuus on tällöinkin käyvällä alueella hyvä, multicapissa 2 noin 0,5 millibaaria ja multicapissa 3 enimmillään n. 0,9 millibaaria mittausalueen ylärajalla, pienemmillä paineilla selvästi vähemmän. Multicapeilla 2 ja 3 näyttäisi mallin antamissa p:n arvoissa olevan olevan pieni systemaattinen virhe, kun positiivisia mittausvirheitä on enemmän kuin negatiivisia. Mistä tämä voisi johtua? Oleellisten selittäjien puuttumisesta ei luultavimmin ole kysymys, vaan kyseessä saattaa olla havaintosarjan erikoisuus. Nämä havaintosarjat ovat nimittäin nk. pyyhkäisymittauksia, joissa painetta on nostettu tai laskettu tasaisesti, ja datakanavan arvoa on luettu aina 0 millibaarin välein. Kutakin pistettä vastaa yksi havainto, eli ei ole tehty samanlaista viiden havainnon keskiarvoistamista kuin varsinaisissa kalibrointimittauksissa. Jos testimittaukset ovat olleet laskevia, niin tällöin voi olla odotettavissa, että malli laskema p:n arvo jää aavistuksen verran (tässä tapauksessa pari millibaarin kymmenesosaa) havaitun arvon yläpuolelle. Eräillä kanavilla on myös havaittavissa ennustusvirheen nopea kasvu aivan mittausalueen yläpäässä. Tämä liittyy luultavimmin kalibrointialueen päättymiseen, sillä kalibrointimittauksissa ei ole ollut n. 030 millibaaria korkeampia paineen arvoja. Lisäksi kanavan 2. diagrammista voidaan havaita pientä systemaattista vaihtelua valitun mallin (9 4) ennustusvirheessä, verrattuna kaikkien selittäjien malliin. Tässä valossa olisi voinut olla järkevää ottaa mukaan pari selittäjää lisää, jolloin systemaattinen vaihtelu ei olisi ollut niin silminnähtävää. Tällöin osa selittäjistä olisi ollut tilastollisesti merkityksettömiä, kuten myös taulukosta (9 2) voidaan nähdä. Juuri tällaisessa tilanteessa sellaista kuitenkin voitaisiin ennustustarkkuuden nimissä suvaita. Vaikeammin selitettävissä on etenkin kanavilla 3.7 ja 3.8 erottuva heteroskedastisuus eli virheen kasvaminen p:n funktiona. Virheet ovat alle 00 mbarissa itseisarvoltaan alle 0,2 mbar, mutta kasvavat pahimmillaan lähelle 0,8:aa millibaaria. Tosin tällöin on kysymys yhdestä mittauksesta, kun taas muissa kahdessa mittauksessa ei yhtä voimakasta heteroskedastisuutta ole nähtävissä. Olisiko tälle voitu tehdä jotain esim. painottamalla loppupään havaintoja PNS sovituksen yhteydessä, vai onko kyseessä vain yksittäisen mittauksen erikoisuus, jää avoimeksi. Vastaavanlaista heteroskedastisuutta ei ollut havaittavissa niissä havainnoissa, jotka olivat mukana mallin muodostamisessa. Onni onnettomuudessa on se, että nämäkin virheen itseisarvot ovat tarkoituksiimme aivan riittävän pieniä. Ylläolevat sovitukset on tehty olettaen, että paineen ja lämpötilan mitatut arvot ovat tarkkoja. Todellisuudessa ne eivät ole täysin tarkkoja, joten tästä sovitukseen tulee pientä epätarkkuutta. Lämpötilan osalta mittausdataa voidaan tosin pitää riittävän tarkkana, mutta painemittari on erikseen käyty kalibroimassa mittaustekniikan keskuksessa, ja näin on saatu sen antamille lukemille pieni korjaus, joka nyt jätetään tarkastelun ulkopuolelle. Lisäksi painemittarissa on havaittu pientä ryömintää niiden 3

32 kuukausien aikana, joina mittaukset on tehty. Näitä ongelmakohtia on kyllä käsitelty myöhemmin ja tiettyä hienosäätöä malliin on tehty, mutta tässä työssä ei oteta sitä huomioon. 0. Päätelmiä Käsiteltävänä oli kahdeksan havaintoaineistoa, jotka olivat päällisin puolin melko samanlaisia. Lähemmässä tarkastelussa aineistojen välillä havaittiin kuitenkin olevan pieniä eroja. Tämä havaittiin sovitusta tehdessä, jolloin eri aineistoille saatiin erilaiset optimaaliset regressiomallit. Lähtökohtana oli kaikissa aineistoissa 7 selittäjän lineaarinen regressiomalli. Nämä selittäjät olivat yhtä lukuun ottamatta y arvon ja lämpötilan t eri potenssien tulotermejä. Käytännössä 0 selittäjää toi malliin mukaan kaiken sen tarkkuuden, joka ylipäätään voidaan saada, ja jo 6 selittäjällä saatiin lähes yhtä hyvä lopputulos. Mukana ollut epälineaarinen selittäjä linearisoitiin kiinnittämällä nimittäjässä ollut A arvo kullekin sarjalle vakioksi, jonka arvo perustui haarukointiin. Tämä oli myös tärkein yksittäinen selittäjä ja pelkästään sen avulla laaditun mallin selitysaste oli lähestulkoon. Niinpä muita selittäjiä voidaankin ajatella apuselittäjinä, joita lisättiin malliin, kunnes tarkkuus oli riittävä, kuitenkin niin että kaikki selittäjät olivat edelleen tilastollisesti merkitseviä. Mielestäni muutaman lisäselittäjän avulla malliin saatiin riittävästi joustavuutta, ja tällöin em. linearisointi oli mahdollista tehdä. Linearisoinnin motiivina oli se, että vaikka epälineaarinen regressioanalyysi olisi ollut mahdollista, sen toistettavuus ja erilaisten mallien kokeilu olisi ollut huomattavasti vaivalloisempaa ja hitaampaa. Kalibroinnin tarkoitus huomioon ottaen maksimivirhe on todennäköisesti tässä tapauksessa kaikkein tärkein tunnusluku. Kahdeksassa eri sovitteessa maksimivirhe on pienimmillään 0,35 ja suurimmillaan 0,7 millibaaria. Ottaen huomioon, että Titanin ilmakehässä vallitseva paine on planeetan pinnan läheisyydessä lähellä 000 millibaaria, tarkkuutta voidaan pitää hyvänä. Tarkastellessa sellaisia mittaussarjoja, jotka eivät olleet mukana mallin muodostuksessa, maksimivirhe oli käyvällä alueella samaa luokkaa. Näissä sarjoissa havaitut y arvot olivat, lukuunottamatta multicappia, muutaman millibaarin kymmenesosan enimmäkseen mallin laskemia y arvoja alhaisempia. Syyn tähän voidaan epäillä olevan näiden havaintosarjojen erikoislaatuisuudessa verrattuna kalibrointidataan, ja siksi en ollut tästä ilmiöstä erityisen huolestunut.. Lähteet [] Fulchignoni et al: The characterisation of Titan's atmospheric physical properties by the Huygens atmospheric structure instrument (HASI), Space Science Reviews 32

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾. 24.11.2006 1. Oletetaan, että kaksiulotteinen satunnaismuuttuja µ noudattaa kaksiulotteista normaalijakaumaa. Oletetaan lisäksi, että satunnaismuuttujan regressiofunktio satunnaismuuttujan suhteen on ݵ

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista

Lisätiedot

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35 Numeeriset menetelmät TIEA381 Luento 8 Kirsi Valjus Jyväskylän yliopisto Luento 8 () Numeeriset menetelmät 11.4.2013 1 / 35 Luennon 8 sisältö Interpolointi ja approksimointi Funktion approksimointi Tasainen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018 BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018 Tehtävä 8 on tällä kertaa pakollinen. Aloittakaapa siitä. 1. Kun tässä tehtävässä sanotaan sopii mahdollisimman hyvin, sillä tarkoitetaan

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

Ohjeita fysiikan ylioppilaskirjoituksiin

Ohjeita fysiikan ylioppilaskirjoituksiin Ohjeita fysiikan ylioppilaskirjoituksiin Kari Eloranta 2016 Jyväskylän Lyseon lukio 11. tammikuuta 2016 Kokeen rakenne Fysiikan kokeessa on 13 tehtävää, joista vastataan kahdeksaan. Tehtävät 12 ja 13 ovat

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhearviointi Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhelajit A. Tilastolliset virheet= satunnaisvirheet, joita voi arvioida tilastollisin menetelmin B. Systemaattiset virheet = virheet, joita

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos Datan käsittely Helsingin yliopisto, Fysiikan laitos kevät 2013 3. Datan käsittely Luennon sisältö: Havaintovirheet tähtitieteessä Korrelaatio Funktion sovitus Aikasarja-analyysi 3.1 Havaintovirheet Satunnaiset

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

1 Rajoittamaton optimointi

1 Rajoittamaton optimointi Taloustieteen matemaattiset menetelmät 7 materiaali 5 Rajoittamaton optimointi Yhden muuttujan tapaus f R! R Muistutetaan mieleen maksimin määritelmä. Funktiolla f on maksimi pisteessä x jos kaikille y

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio: Inversio-ongelmista Craig, Brown: Inverse problems in astronomy, Adam Hilger 1986. Havaitaan oppositiossa olevaa asteroidia. Pyörimisestä huolimatta sen kirkkaus ei muutu. Projisoitu pinta-ala pysyy ilmeisesti

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 4 Jatkuvuus Jatkuvan funktion määritelmä Tarkastellaan funktiota f x) jossakin tietyssä pisteessä x 0. Tämä funktio on tässä pisteessä joko jatkuva tai epäjatkuva. Jatkuvuuden

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö 3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö Yhtälön (tai funktion) y = a + b + c, missä a 0, kuvaaja ei ole suora, mutta ei ole yhtälökään ensimmäistä astetta. Funktioiden

Lisätiedot

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A) Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 017 Insinöörivalinnan matematiikan koe 30..017, Ratkaisut (Sarja A) 1. a) Lukujen 9, 0, 3 ja x keskiarvo on. Määritä x. (1 p.) b) Mitkä reaaliluvut

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 2 Lisää osamurtoja Tutkitaan jälleen rationaalifunktion P(x)/Q(x) integrointia. Aiemmin käsittelimme tapauksen, jossa nimittäjä voidaan esittää muodossa Q(x) = a(x x

Lisätiedot

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5. 2. MS-A4/A6 Matriisilaskenta 2. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 5.9.25 Tarkastellaan esimerkkinä lineaarista yhtälöparia { 2x x 2 = x + x 2

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu LIS AYKSI A kirjaan Reaalimuuttujan analyysi 1.6. Numeerinen integrointi: Gaussin kaavat Edella kasitellyt numeerisen integroinnin kaavat eli kvadratuurikaavat Riemannin summa, puolisuunnikassaanto ja

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 4 Supremum ja inmum Tarkastellaan aluksi avointa väliä, Tämä on joukko, johon kuuluvat kaikki reaaliluvut miinus yhdestä yhteen Kuitenkaan päätepisteet eli luvut ja

Lisätiedot

Kojemeteorologia (53695) Laskuharjoitus 1

Kojemeteorologia (53695) Laskuharjoitus 1 Kojemeteorologia (53695) Laskuharjoitus 1 Risto Taipale 20.9.2013 1 Tehtävä 1 Erään lämpömittarin vertailu kalibrointistandardiin antoi keskimääräiseksi eroksi standardista 0,98 C ja eron keskihajonnaksi

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

MS-C1340 Lineaarialgebra ja

MS-C1340 Lineaarialgebra ja MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt Matriisinormi, häiriöalttius Riikka Kangaslampi Kevät 2017 Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Matriisinormi Matriisinormi Matriiseille

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Matematiikan tukikurssi, kurssikerta 3

Matematiikan tukikurssi, kurssikerta 3 Matematiikan tukikurssi, kurssikerta 3 1 Epäyhtälöitä Aivan aluksi lienee syytä esittää luvun itseisarvon määritelmä: { x kun x 0 x = x kun x < 0 Siispä esimerkiksi 10 = 10 ja 10 = 10. Seuraavaksi listaus

Lisätiedot

Kojemeteorologia. Sami Haapanala syksy 2013. Fysiikan laitos, Ilmakehätieteiden osasto

Kojemeteorologia. Sami Haapanala syksy 2013. Fysiikan laitos, Ilmakehätieteiden osasto Kojemeteorologia Sami Haapanala syksy 2013 Fysiikan laitos, Ilmakehätieteiden osasto Mittalaitteiden staattiset ominaisuudet Mittalaitteita kuvaavat tunnusluvut voidaan jakaa kahteen luokkaan Staattisiin

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt Matriisinormi, häiriöalttius Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 2015 1 / 14 R. Kangaslampi matriisiteoriaa Matriisinormi

Lisätiedot

Sekalaiset tehtävät, 11. syyskuuta 2005, sivu 1 / 13. Tehtäviä

Sekalaiset tehtävät, 11. syyskuuta 2005, sivu 1 / 13. Tehtäviä Sekalaiset tehtävät, 11. syyskuuta 005, sivu 1 / 13 Tehtäviä Tehtävä 1. Johda toiseen asteen yhtälön ax + bx + c = 0, a 0 ratkaisukaava. Tehtävä. Määrittele joukon A R pienin yläraja sup A ja suurin alaraja

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Vektoreiden virittämä aliavaruus

Vektoreiden virittämä aliavaruus Vektoreiden virittämä aliavaruus Määritelmä Oletetaan, että v 1, v 2,... v k R n. Näiden vektoreiden virittämä aliavaruus span( v 1, v 2,... v k ) tarkoittaa kyseisten vektoreiden kaikkien lineaarikombinaatioiden

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua

Lisätiedot

7 Vapaus. 7.1 Vapauden määritelmä

7 Vapaus. 7.1 Vapauden määritelmä 7 Vapaus Kuten edellisen luvun lopussa mainittiin, seuraavaksi pyritään ratkaisemaan, onko annetussa aliavaruuden virittäjäjoukossa tarpeettomia vektoreita Jos tällaisia ei ole, virittäjäjoukkoa kutsutaan

Lisätiedot

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos: 8 Kanta Tässä luvussa tarkastellaan aliavaruuden virittäjävektoreita, jotka muodostavat lineaarisesti riippumattoman jonon. Merkintöjen helpottamiseksi oletetaan luvussa koko ajan, että W on vektoreiden

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Aluksi. 1.1. Kahden muuttujan lineaarinen yhtälö

Aluksi. 1.1. Kahden muuttujan lineaarinen yhtälö Aluksi Matematiikan käsite suora on tarkalleen sama asia kuin arkikielen suoran käsite. Vai oliko se toisinpäin? Matematiikan luonteesta johtuu, että sen soveltaja ei tyydy pelkkään suoran nimeen eikä

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Inversio-ongelmien laskennallinen peruskurssi Luento 4 Inversio-ongelmien laskennallinen peruskurssi Luento 4 Kevät 20 Regularisointi Eräs keino yrittää ratkaista (likimääräisesti) huonosti asetettuja ongelmia on regularisaatio. Regularisoinnissa ongelmaa

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

4. Funktion arvioimisesta eli approksimoimisesta

4. Funktion arvioimisesta eli approksimoimisesta 4. Funktion arvioimisesta eli approksimoimisesta Vaikka nykyaikaiset laskimet osaavatkin melkein kaiken muun välttämättömän paitsi kahvinkeiton, niin joskus, milloin mistäkin syystä, löytää itsensä tilanteessa,

Lisätiedot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21

Lisätiedot

Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon

Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon KA1-kurssi on ehkä mahdollista läpäistä, vaikkei osaisikaan piirtää suoraa yhtälön perusteella. Mutta muut kansiksen kurssit, no

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

Mittaustekniikka (3 op)

Mittaustekniikka (3 op) 530143 (3 op) Yleistä Luennoitsija: Ilkka Lassila Ilkka.lassila@helsinki.fi, huone C319 Assistentti: Ville Kananen Ville.kananen@helsinki.fi Luennot: ti 9-10, pe 12-14 sali E207 30.10.-14.12.2006 (21 tuntia)

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot