Mat 2.108 Sovelletun matematiikan erikoistyö Painemittarin kalibrointi. Valtteri Ervasti 51615N



Samankaltaiset tiedostot
Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Harjoitus 9: Excel - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Johdatus regressioanalyysiin. Heliövaara 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Väliestimointi (jatkoa) Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Estimointi. Vilkkumaa / Kuusinen 1

LIITE 1 VIRHEEN ARVIOINNISTA

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

LIITE 1 VIRHEEN ARVIOINNISTA

1. Tilastollinen malli??

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Jatkuvat satunnaismuuttujat

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Sovellettu todennäköisyyslaskenta B

Yleistetyistä lineaarisista malleista

LIITE 1 VIRHEEN ARVIOINNISTA

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Sovellettu todennäköisyyslaskenta B

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Dynaamiset regressiomallit

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Ohjeita fysiikan ylioppilaskirjoituksiin

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Korrelaatiokertoinen määrittely 165

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Sovellettu todennäköisyyslaskenta B

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

1 Rajoittamaton optimointi

Matematiikan tukikurssi

2. Teoriaharjoitukset

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Matematiikan tukikurssi

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Matematiikan tukikurssi

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Testejä suhdeasteikollisille muuttujille

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

Matematiikan tukikurssi

Kojemeteorologia (53695) Laskuharjoitus 1

Osa 2: Otokset, otosjakaumat ja estimointi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

tilastotieteen kertaus

MS-C1340 Lineaarialgebra ja

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Matematiikan tukikurssi, kurssikerta 3

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

3.6 Su-estimaattorien asymptotiikka

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Sekalaiset tehtävät, 11. syyskuuta 2005, sivu 1 / 13. Tehtäviä

4.0.2 Kuinka hyvä ennuste on?

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Vektoreiden virittämä aliavaruus

805306A Johdatus monimuuttujamenetelmiin, 5 op

7 Vapaus. 7.1 Vapauden määritelmä

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Identifiointiprosessi

pitkittäisaineistoissa

Aluksi Kahden muuttujan lineaarinen yhtälö

pitkittäisaineistoissa

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Matemaatikot ja tilastotieteilijät

1. Tutkitaan tavallista kahden selittäjän regressiomallia

4. Funktion arvioimisesta eli approksimoimisesta

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Mittaustekniikka (3 op)

805306A Johdatus monimuuttujamenetelmiin, 5 op

Otoskoko 107 kpl. a) 27 b) 2654

Transkriptio:

Mat 2.08 Sovelletun matematiikan erikoistyö Painemittarin kalibrointi Valtteri Ervasti 565N

Sisällys. Johdanto...2 2. Taustaa...3 2.. Cassini Huygens projekti...3 2.2. HASI...6 2.3. PPI (Pressure Profile Instrument)...6 3. Mittausjärjestelyt ja havaintoaineisto...7 4. Analyyttinen riippuvuus suureiden välillä...9 5. Funktion sovittaminen dataan...0 6. Regressioanalyysi...0 6.. Perusteet... 6.2. Standardioletukset...2 6.3. Funktion f valinta...2 6.4. Parametrien estimointi: pienimmän neliösumman menetelmä (PNS)...2 6.5. Mallin hyvyyden arviointi...4 6.6. Selitettävän muuttujan käyttäytymisen ennustaminen...6 6.7. Lineaarisen regressiomallin riittävyys...7 7. Toteutus...22 7.. Kalibrointialueet...23 8. Mathematica ajon tulokset...24 9. Optimaalisen mallin valinta...26 0. Päätelmiä...32. Lähteet...32 2. Liitteet...34 2.. Liite A: Sovituskäyrät ja havaintoaineisto...34 2.2. Liite B: Mallien ennustustarkkuus...38. Johdanto Tämän työn tarkoituksena on kalibroida Ilmatieteen laitoksen painemittari PPI (Pressure Profile Instrument). Käytännössä tämä tarkoittaa sitä, että halutaan löytää jokin keino muuttaa ko. instrumentin tuottama raakadata oikeiksi paineen arvoiksi. Kalibrointi tehdään regressioanalyysin avulla. Regressioanalyysin havaintoaineistona käytetään erityistä kalibrointidataa, joka on kerätty tunnetuissa lämpötila ja paineolosuhteissa. Koska selitettävän suureen riippuvuudessa selittäjistä on epälineaarisia piirteitä, joudutaan pohtimaan, onko lineaarisen regressiomallin tarkkuus riittävä. 2

2. Taustaa 2.. Cassini-Huygens -projekti Cassini/Huygens projektin tarkoitus on tutkia Saturnusta ja sen renkaita sekä Saturnusta kiertäviä kuita. Projektin juuret juontavat 970 luvun loppuun, jolloin Galileo projektin sekä Jupiteriin lähetetyn luotaimen jälkeen NASA:n huomio kääntyi Saturnukseen. 980 luvun puolella käynnistyi Euroopan avaruustutkimuslaitoksen ESA:n kanssa toteutettu Cassini/Huygens yhteisprojekti, jossa päädyttiin lähettämään Saturnukseen kaksi luotainta. Projektin tavoitteena on saada vastaus lukuisiin Saturnusta koskeviin auki oleviin kysymyksiin. Saturnuksen kuista yksi, Titan, on tieteellisessä mielessä erityisen kiinnostava, koska se on aurinkokuntamme ainut kuu, jolla on oma ilmakehä. Tässä ilmakehässä on lisäksi runsaasti metaania, joten on mahdollista, että Titanilla on jotain biologista toimintaa ja/tai vettä. Jotta tätä voitaisiin tutkia lähemmin, toinen luotaimista laskeutuu Titanin ilmakehään tehdäkseen siellä yksityiskohtaisia havaintoja. Toinen luotain sitä vastoin jää kiertämään Saturnusta ja tekemään havaintoja vielä neljän vuoden ajaksi. Projektin toteutuksesta vastaavat NASA (Yhdysvallat) ja ESA (Eurooppa). Jo aikaisessa vaiheessa projektia päätettiin, että ESA vastaa Titaniin laskeutuvasta luotaimesta ja NASA kantoraketista sekä toisesta luotaimesta. ESA:n kautta myös Suomen Ilmatieteen laitos on mukana projektissa. Luotaimet matkustivat kohti Saturnusta kiinni toisissaan. Luotaimista suurempi on nimeltään Cassini, nimetty 600 luvulla eläneen merkittävän italialaisen astronomin, Jean Dominique Cassinin mukaan. Cassinin aikalainen, hollantilainen astronomi Christiaan Huygens puolestaan oli ensimmäinen, joka havaitsi kuun Saturnusta kiertävällä radalla. Tuo kuu oli Titan, ja näin ollen Titaniin laskeutuva luotain kantaa hänen nimeään. Luotaimet laukaistiin Floridasta vuonna 997, ja ne saapuivat Saturnuksen kiertoradalle kesällä 2004. Kaksi ensimmäistä kierrosta Saturnuksen ympäri tarvittiin ohjaamaan luotaimet Titaniin päättyvälle radalle. Joulukuussa 2004 Huygens irtautui Cassinista jatkaakseen tällä radalla, Cassinin muuttaessa tämän jälkeen kurssia välttääkseen törmäyksen. 22 päivää myöhemmin, 4..2005, Huygens laskeutui Titanin ilmakehään. Samaan aikaan Cassini oli asettunut sopivaan asemaan vastaanottaakseen dataa Huygensilta. Aikataulua on havainnollistettu kuvassa (2 ). 3

Kuva 2. Cassinin aikataulu matkalla Saturnukseen.[2] Alkuperäiset suunnitelmat laskeutumisen suhteen olivat seuraavanlaiset: 300 kilometrin päässä Titanin pinnasta alkaa sisääntulovaihe, jonka aikana Huygensin nopeus hidastuu n. Mach 8:sta Mach,5:een. Noin 60 kilometrin korkeudessa aukeaa ensimmäinen kolmesta laskuvarjosta ja mittausvaihe alkaa. (Kuva 2 2, taulukko 2 ) Huygensin mittalaitteet alkavat kerätä dataa ja lähettää sitä Cassinin yhteydessä olevaan vastaanottimeen. Tämän jälkeen kestää n. 20 50 minuuttia, ennen kuin luotain saavuttaa Titanin pinnan. Cassini tulee olemaan sopivassa kulmassa Huygensiin nähden aina 80 minuuttiin asti ottaakseen vastaan informaatiota, jos törmäys tai alhainen lämpötila Titanin pinnalla eivät tee Huygensia toimintakyvyttömäksi ennen sitä. Huygensin tekemät havainnot välitetään Cassinin kautta Maahan. Kuva 2 2. Huygensin laskeutuminen. 4

Luotaimissa on yhteensä 8 mittauksia tekevää laitetta, joista 6 on Huygensissa. Koska Huygens on yleiseurooppalainen projekti, on useimmilla laitteilla eri valmistajat. Laitteet ovat: ACP (Aerosol Collector and Pyrolyser) aerosolien keräämiseen ilmakehän koostumuksen analysointia varten, DISR (Descent Imager/Spectral Radiometer) kuvien ottamiseen laskun aikana, DWE (Doppler Wind Experiment) tuuliolojen mittaukseen, GCMS (Gas Chromatograph and Mass Spectrometer) ilmakehän kemiallisiin mittauksiin, SSP (Surface Science Package) fysikaalisten havaintojen tekemiseen Titanin pinnalla ja HASI (Huygens Atmosphere Structure Instrument) ilmakehän fysikaalisten ominaisuuksien mittaukseen. Näistä olemme eniten kiinnostuneita viimeksi mainitusta, koska siinä on mukana Ilmatieteen laitoksen tekniikkaa. Taulukko 2. HASI:n toiminta aikataulu.[] Lisäksi Huygensissa on erilaisia tarpeellisia tukitoimintoja. Nämä ohjaavat Cassinista irtautumista, lämpösuojaa jarrutusvaihetta varten, laskeutumisen hallintaa, tiedonhallintaa, sisäisen lämpötilan hallintaa, virtalähdettä, ja datan lähettämistä Cassinille. Näitä ei nyt käsitellä tarkemmin. 5

2.2. HASI Huygensin fysikaalisista ilmakehämittauksista vastaava laite on siis nimeltään HASI (Huygens Atmospheric Structure Instrument). Sen rakentamiseen on osallistunut 7 laitosta eri Euroopan maasta. HASI:ssa on neljä sensoripakettia: ACC (mittaa kiihtyvyyttä), TEM (mittaa lämpötilaa), PPI (painetta) ja PWA (permittiivisyyttä, aaltoliikettä ja korkeutta) Näistä kiihtyvyyden mittaaminen alkaa jo 300 km korkeudessa eli sisääntulovaiheen alkaessa. Muut sensorit aktivoituvat vasta 60 km korkeudessa, kun luotaimen nopeus on hidastunut tarpeeksi ja ensimmäinen laskuvarjo avautunut. (Taulukko 2 ) Tällöin anturit kääntyvät ulospäin ja mittaukset alkavat. 2.3. PPI (Pressure Profile Instrument) PPI (Pressure Profile Instrument) on Ilmatieteen laitoksella valmistettu painetta mittaava instrumentti, joka vastaa HASI:n painemittauksista. Sen tehtävä on määrittää Titanin ilmakehän vertikaalinen paineprofiili. Tätä varten tarvitaan myös muu HASI:n keräämä data esim. luotaimen korkeudesta, joten eri laitokset ovat yhteistyössä keskenään. PPI:ssä on kolmentyyppisiä paineantureita, joita nimitetään myös Barocapeiksi (Vaisala Oyj:n tuote). Nämä on tarkoitettu korkean, keskitason ja matalan paineen mittaukseen. Ilmakehän painetta on mittaamassa yhteensä kuusi anturia, kaksi kutakin tyyppiä, ja näiden lisäksi kaksi anturia mittaa painetta laitteen sisällä. Yhteensä paineantureita on siis kahdeksan. Lisäksi PPI:ssä on kolme lämpötila anturia, jotka mittaavat lämpötilaa laitteen sisällä. Laitteen sisäiset paine ja lämpöolosuhteet halutaan tietää, koska ne vaikuttavat paineanturien toimintaan. Jokaista PPI:n anturia vastaa yksi datakanava. Rakenteellisesti PPI jakaantuu kolmeen osaan, joita kutsutaan usein multicapeiksi (high, medium ja low multicap), joista kukin on suunniteltu toimimaan parhaiten hieman eri painealueella. Kussakin multicapissa on yhteensä kahdeksan kanavaa, joista yksi on lämpöanturi ja kaksi tai kolme paineantureita. Jäljellejäävät 4 5 kanavaa tulevat kondensaattoreista, joiden kapasitanssi on vakio, mm. 0 pf ja 5 pf. Nämä kanavat tuottavat vakiodataa, ja niiden tarkoitus on toimia referensseinä muille kanaville. Myös barocapit ovat itse asiassa kondensaattoreita, joiden levyjen väli muuttuu paineen, ja hieman myös lämpötilan vaikutuksesta. PPI:n instrumentaatio on esitetty kuvassa 2 3. 6

Kuva 2 3. PPI:n instrumentaatio.[3] Dataa saadaan siis yhteensä 24 eri kanavalta (taulukko 2 2): Taulukko 2 2. Datakanavat. Jokaisen kanavan tuottama signaali on välillä [,], joka siis vastaa jotakin paineen tai lämpötilan arvoa. Tämän työn tarkoituksena on kalibroida PPI, jotta sen tuottamaa raakadataa osattaisiin tulkita. Tätä varten käytössä on kalibrointidataa, joka on kerätty Ilmatieteen laitoksella vuosina 994 96, ennen Cassinin laukaisua. Kalibrointimittauksissa PPI:n käyttäytymistä seurattiin ja sen datakanavia luettiin erilaisissa, tunnetuissa olosuhteissa, jotka vastasivat oletettuja todellisia mittausolosuhteita. 3. Mittausjärjestelyt ja havaintoaineisto Kalibrointimittauksissa laite oli sijoitettuna paineastiaan, joka puolestaan oli sijoitettuna sääkaappiin. Näin pystyttiin muuttamaan paine ja lämpötilaolosuhteita. 7

(Kuva 3 ) Tällöin oli käytössä edellä mainittujen 24:n lisäksi myös muita kanavia, tärkeimpinä tietenkin lämpömittari (kanava 7) ja painemittarit (kanavat 8, 3 ja 5). Näiltä kanavilta löytyvä tieto antaa meille mahdollisuuden kalibroida PPI instrumentti ja tulkita sen antamaa dataa oikein. Kuva 3. Mittausjärjestelyt PPI:n kalibroinnissa. Kalibroitaessa tarkkailtiin myös muita olosuhteita, kuten ilman kosteutta. Näillä ei kuitenkaan ole merkittävää vaikutusta paineanturien toimintaan, ja keskitymmekin nyt paineen ja lämpötilan tarkasteluun. Mittaukset tehtiin yleensä vakiolämpötilassa paineen vaihtuessa matalasta (lähellä 0 mbar) kohti korkeaa (000 mbar) tai päinvastoin. Välillä [0,00 mbar] havainnot tehtiin 0 millibaarin välein, välillä [00,300] yleensä 50 millibaarin välein, ja siitä ylöspäin 00 millibaarin välein. Jotkut mittaukset tehtiin vakiopaineessa lämpötilan vaihdellessa. Tunnetuissa paine ja lämpöolosuhteissa merkittiin ylös kunkin yllämainitun datakanavan kulloinenkin arvo, ns. y arvo. Kaikissa olosuhteissa tehtiin viisi erillistä havaintoa, joista myöhemmin laskettiin keskiarvo, jolloin siis viisi havaintoa muuttui yhdeksi. Näin yritettiin poistaa satunnaisvaihtelua. Jokaisesta mittauksesta saatiin siis 24 pistejoukkoa, yksi jokaista datakanavaa kohti, ja näiden pisteet olivat muotoa (paine,lämpötila,y arvo) = (p,t,y). Näistä olemme kiinnostuneita painekanavista, joita on kahdeksan. Mittauksia tehtiin yhteensä n. 200 (joista kaikkia ei tosin ole tarkoitettu varsinaisen kalibroinnin aineistoksi), ja nämä jakaantuvat lisäksi neljään eri sarjaan: näitä kutsutaan P, Q, R, ja S sarjoiksi. Eri 8

sarjat on kerätty eri aikoina, ja niiden välillä laitteeseen on tehty joitakin muutoksia, joten jokaista sarjaa on pidettävä omana havaintoaineistonaan. Tässä työssä rajoitutaan tarkastelemaan uusinta eli S sarjaa. Kussakin mittauksessa tehtiin yleensä 50 00 havaintoa, joka em. satunnaisvaihtelun poiston yhteydessä supistui viidesosaan eli noin 0 20:een. Mittauksia taas oli S sarjassa n. 25. Tällöin käsiteltävänä olevassa havaintoaineistossa on n. 400 000 pistettä kutakin kanavaa kohti. Kalibrointia tehtäessä y on ollut suureista se, joka on määräytynyt t:n ja p:n muuttuessa. Nyt otamme kuitenkin selitettäväksi muuttujaksi p:n ja selittäjiksi y:n ja t:n. Näin tehdään siksi, että se aineisto, joka luotaimesta saadaan, koostuu y ja t arvoista, joiden avulla halutaan laskea p. Siksi on järkevää määrätä p suoraan y:n ja t:n funktiona. Havaintoaineistoa käsitellään siis muodossa (y,t,p). Laskuteknisesti tässä ei ole ongelmaa. Kysymys, johon haluamme vastauksen, on seuraava: miten p voidaan lausua y:n ja t:n avulla? 4. Analyyttinen riippuvuus suureiden välillä Yksittäisen barocapin (esim. kanava. tai 2.7) antama y arvo riippuu lämpötilasta t ja paineesta p, eli se on näiden funktio y(p,t). Nyt halutaan ilmoittaa p = f(y,t). Barocapien valmistaja, Vaisala, ilmoittaa omissa dokumenteissaan paineen riippuvan y arvosta seuraavasti: K y K 2 y 2 K 3 y 3 K 4 y 4 O, p= G (4 ) missä A, G, O ja K:t ovat vakioita. Paineella pitäisi tämän mukaan olla jotain riippuvuutta y:n potensseista aina neljänteen potenssiin asti sekä lisäksi selittäjästä. Lämpötilariippuvuuteen ei tässä oteta kantaa, mutta tiedämme, että sellainen on olemassa. Lämpötilariippuvuuden laadun selville saamiseksi ei ole juurikaan muuta keinoa kuin tehdä kokeiluja, jotka tosin onnistuvat tietokoneen avulla helposti. Alustavien sovitusten perusteella päädyttiin siihen, että dataan kannattaa yrittää sovittaa funktiota, jossa on termin ja vakiotermin lisäksi y:n termejä neljänteen potenssiin asti ja t:n termejä toiseen potenssiin asti, sekä näitä kerrottuna toisillaan, esim. y 2 t 2. Tätä korkeammat potenssit eivät missään olosuhteissa enää tarkenna 9

mallia. Tuntemattomaksi jäävät edelleen ym. termien kertoimet sekä A:n arvo. Toisin sanoen painetta selittämään käytetään seuraavaa mallia: 2 t 3 t 2 4 t 5 t 2 6 y 7 y 2 8 y 3 9 y 4 (4 2) 2 2 2 2 3 3 2 4 4 2 0 yt yt 2 y t 3 y t 4 y t 5 y t 6 y t 7 y t p y, t = 0 Tämä on monimutkaisin malli, jota yritetään sovittaa dataan. Jatkossa kutsutaan t:n ja y:n termejä selittäjiksi. Datan perusteella kertoimille i tullaan löytämään estimaattorit. Osa selittäjistä voidaan myös jättää pois mallin yksinkertaistamiseksi, jos näyttää siltä, että ne eivät oleellisesti enää paranna mallin tarkkuutta. 5. Funktion sovittaminen dataan Tarkasteltavana on siis kolmiulotteisen avaruuden pistejoukko, joka halutaan mahdollisimman hyvin selittää jollain analyyttisella tavalla. Ongelmana on toisin sanoen funktion sovittaminen dataan. Tällaisen ongelman ratkaisuun on luonnollisesti kehitetty monia eri menetelmiä. Tässä tapauksessa on jo olemassa ennakkokäsitys siitä analyyttisesta riippuvuudesta, joka vallitsee y:n ja p:n välillä, mikä antaa aiheen yrittää lineaarista regressiomallia. Tässä tehtävässä este lineaarisen regressiomallin suoralle soveltamiselle on se, että lausekkeessa esiintyvä selittäjä ei ole lineaarinen, koska A:ta ei tiedetä. Este voidaan kiertää kiinnittämällä A vakioksi, mutta tällöin maksettava hinta on mallin tarkkuuden heikkeneminen. Oleellista onkin selvittää, onko tarkkuuden heikkeneminen tässä tapauksessa merkityksellistä. Tähän palataan myöhemmin. 6. Regressioanalyysi Regressioanalyysi tarkoittaa seuraavia malliin p= f y, t ; liittyvien tehtävien suorittamista[5]: Funktion f valinta Parametrin β estimointi Parametria β koskevien hypoteesien testaaminen Estimoidun mallin hyvyyden arviointi Mallista tehtyjen oletusten tarkistaminen Selitettävän muuttujan käyttäytymisen ennustaminen ja ennusteiden epävarmuuden analysointi 0

6.. Perusteet Yritämme siis selittää painetta y arvon ja lämpötilan t avulla. Olemme keränneet joukon pisteitä (yi,ti,pi). Tehdään yksinkertainen oletus, että p riippuu lineaarisesti :stä (missä A on tunnettu vakio) ja t:stä sekä lisäksi vakioselittäjästä: p = 0 2 t. (6 ) Yllä p on mallin perusteella laskettu paineen arvo eli sovite. Havaintoaineisto ei aivan tarkasti ole tämän muotoinen, eli toisin sanoen havaittu paineen arvo pi poikkeaa lasketusta: pi = 0 i 2 t i i, (6 2) missä εi on mallin virhe. Havaintoaineiston perusteella on löydettävä estimaattorit kertoimille i. Ne löytyvät pienimmän neliösumman menetelmällä, josta kerrotaan tarkemmin alempana. Oletetaan tässä vaiheessa, että estimaattorit on löydetty, ja kutsutaan niitä bi:ksi. Näiden perusteella saadaan estimoitu malli: p L =b 0 b b 2 t. (6 3) Taas huomataan, että satunnainen havaintopiste (yi,ti,pi) ei yleensä asetu tarkasti tälle pinnalle. Sen sijaan jokainen näistä pisteistä täyttää seuraavan yhtälön: pi =b 0 b i b 2 t i e i. (6 4) Yllä esiintyvää e:tä sanotaan residuaaliksi. Lineaarisen regressiomallin oletuksiin kuuluu, että residuaalit ovat normaalijakautuneita odotusarvolla 0. Yleinen lineaarinen malli voidaan esittää myös matriisimuodossa: p=x, [] [ ] p jossa esimerkkitapauksessa p = p 2, X = 2 t (6 5) [] [] 0, =, = 2 t2 2. (6 6)

Näistä p on selitettävän muuttujan havaittujen arvojen muodostama vektori. X on havaintomatriisi, jonka rivit vastaavat kutakin havaintopistettä (n kpl) ja sarakkeet selittäjiä (k+ kpl). Yleisen lineaarisen mallin parametreja ovat regressiokertoimet βi sekä virhetermien εi jäännösvarianssi Var i = 2. Näitä parametreja ei voida selvittää tarkasti, mutta niille voidaan havaintoaineiston perusteella löytää estimaattorit. 6.2. Standardioletukset Lineaarista regressiomallia muodostettaessa tehdään seuraavat viisi standardioletusta [5] :. 2. 3. 4. 5. Matriisin X alkiot ovat kiinteitä eli ei satunnaisia vakioita Matriisi X on täysiasteinen: r X =k Mallissa ei ole systemaattista virhettä: E =0 Cov = 2 I Virhetermit ovat normaalijakautuneita: ~N n 0, 2 I Näiden ehtojen tulee täyttyä, jotta mallin estimointi ja testaus voidaan tehdä normaalilla tavalla. 6.3. Funktion f valinta Yllä on johdettu funktio 2 t 3 t 2 4 t 5 t 2 6 y 7 y 2 8 y 3 9 y 4 (4 2) 2 2 2 2 3 3 2 4 4 2 0 yt yt 2 y t 3 y t 4 y t 5 y t 6 y t 7 y t p y, t = 0, joka halutaan sovittaa kyseiseen aineistoon. Seuraava tehtävä on löytää estimaattorit kertoimille βi. 6.4. Parametrien estimointi: neliösumman menetelmä (PNS) pienimmän Kertoimien parhaat estimaattorit löydetään minimoimalla virheen neliösumma. Tarkastellaan samaa yksinkertaista kolmen selittäjän funktiota kuin kohdassa 5.. 2

Virheen itseisarvojen summa määritellään havaitun ja mallista lasketun arvon erotuksena: err = pi p Li = pi b 0 b i b 2 t i. (6 7) Tavallisesti minimoitavaksi suureeksi määritellään kuitenkin virheen neliösumma (Sum of Squared Errors): SSE= pi p Li = p i b 0 2 2 b i. b 2 t i (6 8) Tämä on bi:n funktio, jonka arvoa voidaan nyt minimoida bi:n suhteen. SSE:n etu verrattuna virheen itseisarvoon on, että se painottaa suuria virheitä enemmän, joten kun sovitus on optimoitu PNS:n mukaan, sen maksimivirhe on todennäköisesti pienempi kuin virheen itsearvon tapauksessa. SSE on myös näistä kahdesta helpompi minimoida. SSE saavuttaa minimin siinä pisteessä, jossa sen osittaisderivaatat kaikkien parametrien a, b ja c suhteen ovat nollia. Otetaan nyt SSE:n osittaisderivaatat kaikkien kertoimien suhteen ja saadaan { b SSE =2 p i b 0 b 2 t i =0 b0 i b b SSE =2 pi b 0 b 2 t i =0 b i i b SSE =2 pi b 0 b 2 t i t i =0 b2 i }. (6 9) Näitä kutsutaan normaaliyhtälöiksi. Ne muodostavat lineaarisen yhtälöryhmän, josta kertoimet osataan ratkaista, kun oletus 6.2.2 on voimassa, eli matriisi X on täysiasteinen. Yleisessä mallissa, jossa on k selittäjää, SSE= ei2= [ pi b 0 b 2 r q i i... b k y t ] päädytään normaaliyhtälöihin 3, (6 0)

b 0 n b r q... b k y i t i = pi i y ri t iq pi b ²... b k = i i i r q yi t i b 0 y ri t iq b... b k y 2i r t 2i q = p i y ri t iq b0 (6 ) Jos malli on lineaarinen kertoimien bi suhteen (ja X täysiasteinen), niin yleisessä tapauksessa päädytään aina lineaariseen yhtälöryhmään, jossa on k yhtälöä ja k tuntematonta. Tällöin kertoimet ovat aina ratkaistavissa. Matriisimuodossa vektorin β PNS estimaattori ilmoitetaan b= X ' X X ' p. (6 2) Tässä X on siis em. havaintomatriisi. Kun βi:lle on saatu estimaattori bi, halutaan lisäksi tietoa estimaattorin tarkkuudesta. Tarkkuus ilmoitetaan luottamusvälinä, jolla βi sijaitsee q%:n todennäköisyydellä. bi:n varianssin [ D 2 b i = 2 X ' X ] i, i (6 3) [ ] harhaton estimaattori on D 2 bi =s 2 X ' X i, i, 2 missä s2 on siis jäännösvarianssin σ2 estimaattori s = (6 4) e i2. (6 5) n k Standardioletusten pätiessä (6 5) on harhaton estimaattori. Estimaattorin bi luottamusväli (6 4):n avulla lausuttuna on b i ±t /2 D 2 b i, (6 6) missä tά/2 on luottamustasoa q = ά vastaava kerroin Studentin t jakaumasta vapausasteilla (n k ). 6.5. Mallin hyvyyden arviointi Mallin hyvyyttä voidaan mitata monella eri tunnusluvulla. Edellä käsitelty virheen kokonaisneliösumma SSE (kokonaisvirhe) on näistä yksi. Tarkalla mallilla saadaan pieni neliösumma ja epätarkalla suuri. 4

SSE a, b, c = b b2 i 2 b3 t i pi = e i2. (6 7) Eri aineistojen pohjalta tehtyjen mallien kokonaisvirheet ovat vertailukelpoisia vain, jos aineistoissa on sama määrä havaintoja. Tämän takia usein jaetaan ylläoleva n:llä ja otetaan osamäärästä vielä neliöjuuri, jolloin saatu suure (Root Mean Square, RMS) vastaa kysymykseen kuinka suuri virhe on keskimäärin? Toinen tunnusluku, jota usein käytetään kuvaamaan mallin hyvyyttä, on selitysaste. Sitä varten määrittelemme kokonaisneliösumman SST = pi p 2, missä p on kaikkien havaintojen aritmeettinen keskiarvo. Tämän jälkeen selitysaste R2 määritellään: R 2= SSE. SST (6 8) Selitysasteelle pätee: 0 R 2. Mitä korkeampi arvo R2:lla on, sitä paremmin malli selittää selitettävän muuttujan vaihtelun. Jos R2 =, niin malli selittää tämän vaihtelun täydellisesti. Tällöin myös SSE = 0, eli kaikki residuaalit häviävät. SSE ja R2 ovat yhtäpitäviä, eli ne heikkenevät ja paranevat käsi kädessä. Niiden heikko puoli on se, että ne paranevat, tai eivät ainakaan heikkene, aina kun malliin otetaan mukaan uusi selittäjä, oli se kuinka tilastollisesti merkityksetön tahansa. Niiden mielessä malli on siis sitä parempi, mitä enemmän siinä on selittäjiä. Kuitenkin turhaa monimutkaistamista halutaan yleensä välttää. Tämä on otettu huomioon korjatussa selitysasteessa, R 2p = n SSE, n k SST (6 9) missä n on havaintojen lukumäärä ja k mallissa olevien selittäjien lukumäärä. Korjattu selitysaste itse asiassa huononee, jos malliin tuodaan selittäjä, joka ei ole tarpeeksi hyvä. Absoluuttinen maksimivirhe on toinen virhettä kuvaava suure, josta ollaan kiinnostuneita. Se määritellään R =max { pi p i }. (6 20) Maksimivirhe vastaa kysymykseen kuinka suuri virhe voi pahimmillaan olla? R Samoin kiinnostava on suhteellinen maksimivirhe:. Suhteellisissa virheissä on p i se hankala puoli, että niiden maksimi esiintyy yleensä siellä, missä f(x) on lähellä 5

nollaa. Jos lähellä nollaa kuitenkin sallitaan jokin epätarkkuus, on tällaiset f(x):t jätettävä tarkastelun ulkopuolelle. Niissä aineistoissa, jotka nyt on käytössä, on aina yksi havainto juuri 0 millibaarin yläpuolella. Nämä on suhteellisen virheen tarkasteluissa jätetty huomiotta. Kertoimien tilastollinen merkitsevyys liittyy variansseihin ja luottamusväleihin. Se määritellään todennäköisyytenä, jolla ko. selittäjän kerroin on nolla. Tämä todennäköisyys lasketaan nk. t testin avulla. Monimutkaisessa mallissa voi käydä niin, että varianssi on jollain kertoimella suurempi kuin kertoimen itseisarvo, ts. nolla kuuluu luottamusvälille. Hyvässä mallissa ei ole tilastollisesti merkityksettömiä selittäjiä. 6.6. Selitettävän ennustaminen muuttujan käyttäytymisen Olkoon olemassa havaintoaineisto, joka koostuu selittäjien arvoista (yi,ti). Johdetulla mallilla saadaan näiden avulla jokin estimaatti kullekin pi:lle. Tällöin halutaan myös tietoa estimaatin tarkkuudesta. Tarkkuus ilmoitetaan jälleen luottamusvälinä. t t2 ja,,,... =, x, x 2,..., x k muodostetaan havaittujen y:n ja t:n arvojen perusteella z =, x, x 2,..., x k, joka vastaa X matriisin yhtä riviä. z :n perusteella lausuttu paras lineaarinen ja harhaton estimaattori p:lle on Määritellään vektori z=, p x, x 2,.., x k =b 0 b x b 2 x 2... b k x k. (6 2) Standardioletusten ollessa voimassa ennustevirhe on normaalijakautunut: p p x, x 2,..., x k ~N 0, 2 [ z ' X ' X z ]. (6 22) Selitettävän muuttujan arvon p luottamusväli luottamustasolla ά on tällöin b 0 b x b 2 x 2... b k x k ±t /2 s [ z X ' X z ] 2, (6 23) missä tά/2 saadaan Studentin t jakaumasta vapausasteilla (n k ). Tästä päättelystä seuraa, että muodostettuamme regressiomallin, jos meillä on tiedossa y ja t, voimme niiden perusteella laskea sekä estimaattorin vastaavalle p:lle (6 2):n avulla, että (6 23):n avulla sen luottamusvälin, jolla p:n todellinen arvo on esim. 95%:n todennäköisyydellä. Luottamusvälit lasketaan kaikissa aineiston pisteissä erikseen, ja satoja pisteitä käsittävässä havaintoaineistossa luottamusvälien keskimääräinen pituus 6

voi olla mallin hyvyyttä kuvaava vertailutekijä. 6.7. Lineaarisen regressiomallin riittävyys muodostuu yllä esitellyssä mallissa ongelmaksi, koska siinä muuttuja A on nimittäjässä, ts. selittäjä on epälineaarinen. Päätin selvittää, kuinka paljon lopullisen mallin tarkkuus kärsii, jos tämä ongelma kierretään naulaamalla A:n arvo vakioksi. Selittäjä A:n optimiarvo riippuu luonnollisesti käsiteltävästä anturista sekä havaintosarjasta. Lisäksi se riippuu mallista, jota aineistoon yritetään sovittaa. Tarkastelin asiaa kahdella eri mallilla: yksinkertaisella (pelkästään sekä vakioselittäjä mukana) p y, t = 0, (6 24) ja monimutkaisella (kaikki em. selittäjät mukana): p y, t = 0 2 t 3 t 2 4 t 5 t 2 6 y 7 y 2 8 y 3 9 y 4 0 yt yt 2 2 y 2 t 3 y 2 t 2 4 y 3 t 5 y 3 t 2 6 y 4 t 7 y 4 t 2 (6 25). Tarkastellaan nyt esimerkkitapauksena S sarjaa ja siinä barocapia 2.7. Havaintoaineisto on tulostettu selvyyden vuoksi kaksiulotteisena kuvassa 6, jossa on kaikki kanavalta 2.7 S sarjassa saatu informaatio yhteensä 22 eri mittauksesta. Havaintoja on tehty matalan paineen alueella 0 mbar välein, sen jälkeen 50 ja lopulta 00 mbar välein. 000 mbar tienoilla tehty viimeinen havainto on vaihdellut jonkin verran mittauksesta toiseen, mutta tätä lukuunottamatta jokainen näkyvissä oleva pitkulainen piste koostuu itse asiassa kymmenistä eri havainnoista, mikä tällä tarkkuudella on juuri ja juuri mahdollista erottaa silmällä. Näin voidaan nähdä, millainen vaikutus lämpötilan vaihtelulla on y arvoon. Korkeammassa lämpötilassa sama anturi antaa vähän alhaisemman y arvon, jos paine säilyy samana: esimerkiksi kun 500 mbarissa lämpötila vaihtuu 35:sta +45:een, laskee kanavan 2.7 y arvo 0,2549:stä 0,2529:ään. 7

Kuva 6. Kanavan 2.7. havaintoaineisto, kaikki lämpötilat. Silmämääräisesti päätellään siis, että lämpötilan vaikutus y arvoon on varsin vähäinen, mutta havaittavissa. Kaikki havaitut y arvot sijaitsevat välillä [0,; 0,34], pienten y arvojen vastatessa korkeita paineen arvoja. Katsotaan seuraavaksi, minkälainen funktio tähän saadaan sovitettua. Koska A:n arvosta ei ole ennakkotietoa, sovitus tehdään epälineaarisen regression avulla. Ensin yksinkertaisemmalle mallille saadaan optimaalinen sovitus p y =2548.46 887.306. 0.687 y (6 26) Kaavat (6 24) ja (6 26) muistuttavat hyperbelin analyyttista kaavaa. Tällöin A:n arvon graafinen tulkinta on se y:n arvo, jonka kohdalla kulkee tämän hyperbelin asymptoottisuora. Kun kaikki selittäjät ovat mukana, saadaan puolestaan sovitus: 250.79.29 t 0.02234 t² 0.6 y 0.6 y 0.6 y (6 27). 2 2 2 089.24 y.3462 ty 0.0264 t y 2393.9 y 28.029 ty 0.406 t 2 y 2 849.026 y 3 83.409 ty 3.63 t 2 y 3 9585 y 4 7.53 ty 4 2.54 t 2 y 4 p y, t =660.37 2.2463 t 0.03777 t 2 A:n optimiarvo on siis ensimmäisessä mallissa 0.687 ja jälkimmäisessä 0.6. Kun asetetaan t = 0, näyttävät em. funktiot havaintoaineiston kanssa seuraavilta (kuva 6 2): 8

Kuva 6 2. Sovitukset 2.7:n aineistoon, yksinkertainen ja kompleksi malli. Sovitusten eroja ei juuri näe silmällä. Mitä sovituksen tarkkuudelle tapahtuu, jos A:n arvoa muutetaan? Tarkastelin asiaa kirjoittamalla ohjelman, joka sovitti kulloisenkin mallin aineistoon kaikilla järkevillä A:n arvoilla (välillä 0,65 0,75) 0,00:n välein, ja tallensi saadun mallin virheen kokonaisneliösumman. Kuva 6 3. A:n arvon vaikutus SSE:hen mallissa (6 24). Yksinkertaisella mallilla paras tarkkuus saavutetaan A:n arvolla 0,687: tällöin virheen kokonaisneliösumma on 7794,9. Kuten kuvasta (6 3) nähdään, tarkkuus alkaa heiketä varsin nopeasti A:n muuttuessa. Tosin tarkimmillaankaan malli ei ole kovin tarkka. Kuva 6 4. A:n arvon vaikutus SSE:hen mallissa (6 25). 9

Kaikkien selittäjien mallilla virheen kuvaaja (kuva 6 4) on paljon tasaisempi. Virheen kokonaisneliösumman minimi saavutetaan A:n arvolla 0,6, mutta vaihtelut ovat pieniä. Koko tarkasteluvälillä [0,45; 0,75] kokonaisvirhe on desimaalin tarkkuudella sama. Jos sama tarkastelu tehdään kaikille paineantureille kaikissa sarjoissa, saadaan A:n optimaalisiksi arvoiksi seuraavaa: Taulukko 6.. Parhaat A:n arvot. A:n optimiarvot vaihtelevat aika paljon kahden mallin välillä. Monimutkaisella mallilla (6 25) saadaan jonkin verran vaihtelevia A:n optimiarvoja, mutta yksinkertaisessa mallissa (6 24) nämä pysyvät lähellä toisiaan, välillä 0,67 0,7. Tämä on ymmärrettävää, sillä A:n arvon graafinen tulkinta on se y:n arvo, jonka kohdalla funktion arvo menee äärettömyyteen. Silmämääräisesti voidaan arvioida, että jos mallissa on mukana pelkästään selittäjä, pakottaa se A:n arvon lähelle asymptoottisuoraa. Kaikkien selittäjien mallissa voi käydä niin, että :tä vastaava kerroin i määritellään hyvin pieneksi, jolloin A:n arvo taas voi olla melkein mitä vain sen vaikuttamatta p:n arvoon juuri mitenkään. Tämä nähtiin myös kuvassa (6 4), kun havaittiin, että virheen kuvaaja A:n funktiona oli hyvin laakea. Tähän liittyy myös taulukossa 6 kanavan 2.8 kohdalla silmään pistävä monimutkaisen mallin A:n arvo 5,0. Tämä ei ole kirjoitusvirhe, vaan aivan oikeasti A:n arvoa suurennettaessa ei päästy tähän arvoon mennessä virheen neliösumman minimiin (kuva 6 5), tosin erot pienempiin A:n arvoihin olivat erittäin pienet. Kuva 6 5. Kanava 2.8, S sarja. Tästä voitaneen päätellä, että kanavan 2.8 mittausdatassa saattaa olla jotain muista kanavista jossain määrin poikkeavaa. Tarkempaa tietoa poikkeaman syystä ei ole. Vastaava ilmiö havaittiin eräillä kanavilla muissakin sarjoissa (P, Q, R), joiden tarkastelu on rajattu tämän työn ulkopuolelle. 20

Tarkemmin asiaa tutkittaessa havaitaan, että A:n optimiarvo vaihtelee mallista toiseen riippuen siitä, mitä selittäjiä käytetään. Mitä yksinkertaisempi malli on, sitä herkempi sen tarkkuus on A:n vaihteluille. Esimerkiksi mallissa p y, t = 0 2 y 3 y 2 4 y 3 5 t 6 yt paras A:n arvo on hieman eri kuin mallissa p y, t = 0 2 yt 3 y 3 t. Yksinkertaisessa mallissa (6 24) A:n muutos 0,68:sta 0,72:een saattaa kasvattaa virheen neliösummaa jopa 25%, mitä on pidettävä huolestuttavana. Käytännössä kaikkein yksinkertaisinta mallia ei kuitenkaan käytetä. Selittäjät y ja y3 tarkentavat mallia kaikissa tapauksissa niin paljon, että ne on järkevää pitää aina mukana mallissa. Myös jonkinlainen lämpötilariippuvuus täytyy pitää mukana. Niinpä laskemme A:n optimiarvot vielä kolmannelle mallille: p y, t = 0 2 y 3 y 3 4 t. (6 28) Kutsukaamme tätä oleellisten selittäjien malliksi. Haarukoinnista saadaan seuraavat tulokset: Taulukko 6.2. Parhaat A:n arvot. Tarkastellaan taas kanavaa 2.7 S sarjassa. Kokonaisvirhe A:n funktiona näyttää nyt seuraavalta (kuva 6 6): Kuva 6 6. A:n vaikutus SSE:hen oleellisten selittäjien mallissa Paras tarkkuus saavutetaan nyt arvolla A = 0,672, mutta jos tämä muutetaan esim. arvoon 0,75, kasvaa kokonaisvirhe vain noin prosentin. Tarkkuus ei siten ole läheskään niin herkkä A:n muutokselle kuin kaikkein yksinkertaisimmassa mallissa. 2

Yleisesti ottaen A:n optimiarvot näyttäisivät olevan lähellä 0,7:ää. Mielestäni A:n arvot voidaan turvallisin mielin kiinnittää niihin arvoihin, jotka on edellä saatu oleellisten selittäjien mallista (6 28), sillä tätä yksinkertaisempaa mallia ei missään tapauksessa tulla oikeasti soveltamaan. Vaisalan omissa dokumenteissa on ilmeisesti jopa ajateltu asiaa niin, että p riippuu ensisijaisesti selittäjästä, muiden ollessa enemmän tai vähemmän korjaustermejä. Sellaisen mallin, jossa on mukana paljon y:n ja t:n termejä, tarkkuus ei ole kovin herkkä A:n arvon muutokselle selittäjässä. Pelkistetyn mallin tapauksessa A:lla on kuitenkin olemassa selkeä optimiarvo. Nämä tulokset saatuani päätin käyttää A:lle kiinnitettyjä arvoja, perustuen niihin optimaalisiin arvoihin joita saatiin mallin ollessa p y, t = 0 2 y 3 y 3 4 t : Taulukko 6.3. Kiinnitetyt A:n arvot. Taulukossa 6 3 esitetyillä A:n arvoilla voidaan todeta lineaarisen regressiomallin olevan riittävän tarkka. 7. Toteutus Tehtäväksi jäi kirjoittaa sovellus, joka löytää estimaatit kertoimille bi. Tätä varten käytössä oli valmis apuväline. Pienimmän neliösumman menetelmä on valmiiksi ohjelmoituna Mathematicassa. Komennolla Fit(lista, selittäjät, muuttujat) saadaan suoraan PNS menetelmällä saatu lineaarinen sovitus. (Komento Regress on muuten sama kuin Fit, mutta se laskee samalla paljon erilaisia mallia koskevia tunnuslukuja.) Listan alkioiden on oltava lukupareja, kolmikkoja, nelikkoja jne. Näistä viimeinen tulkitaan selitettäväksi muuttujaksi ja sitä edeltävät selittäviksi. Meidän tapauksessamme listan alkiot on esitettävä muodossa {y,t,p}. Muuttujat ovat nyt y ja t, ja selittäjät on puolestaan lista niistä y:n ja t:n termeistä, jotka halutaan ottaa tarkasteluun. Tavoitteena on vertailla erilaisia malleja ja siten selvittää, mitkä selittäjät vaikuttavat merkittävästi saatuun p arvoon ja mitkä ehkä eivät. Esimerkiksi, kärsiikö tarkkuus paljon, jos poistamme kaikki lämpötilan toisen potenssin sisältävät selittäjät mallista? 22

Koska PNS menetelmä itsessään oli valmiina, sen koodaamisesta ei tarvinnut huolehtia. Suurimmaksi ongelmaksi jäi muuntaa käytettävissä oleva data sellaiseen muotoon, jota Mathematica osaa käsitellä. Alkuperäinen data oli tekstitiedostoina, joissa ilmoitettiin jokaisen kanavan lukema kullakin havaintohetkellä. Jokainen mittaus oli omassa tiedostossaan. Näitä varten kirjoitettiin Octave ohjelma, joka poimi tekstitiedostoista halutut kanavat ja tuotti uuden tekstitiedoston, joka ilmoitti halutun datan taulukkomuodossa. Tällaiset tiedostot Mathematica osaa lukea ja muuntaa Import komennolla käsiteltävään muotoon. Näin saaduista taulukoista luettiin edelleen kulloinkin kiinnostavat tiedot uuteen taulukkoon, jota analysoitiin Regress komennolla. Ohjelma tuottaa taulukon, jossa jokaisen datakanavan tiedot ovat omalla rivillään. Koska painekanavia on kahdeksan, tulee taulukon dimensioiksi otsikkorivin kanssa 9x6. Tietoihin kuuluvat tärkeimpinä kaikkien mahdollisten termien kertoimet sekä kertoimien tilastolliset luottamusvälit 95%:n merkitsevyystasolla. Jos käsiteltävässä mallissa ei ole mukana jotakin termiä, on sen kertoimena taulukossa nolla. Tilastollisista tunnusluvuista mainitaan virheen neliösumma, virheen neliösumma jaettuna havaintojen määrän neliöllä (RMS), suurin absoluuttinen ja suhteellinen virhe sekä näiden esiintymisindeksit. Aluksi taulukossa on pelkkää nollaa, ja rivit täytetään yksi kerrallaan. Yksi taulukko vastaa yhtä sovitettavaa mallia. Käyttäjä voi itse määritellä, mitkä kaikki mallit halutaan muodostaa. Jos esim. halutaan laskea kertoimet malleille b b p y, t =a cy dy 2 ey 3 ft gyt ja p y, t =a cyt dy 3 t, saadaan kaksi taulukkoa, ilmoitettuna kolmiulotteisena taulukkona, jonka dimensiot ovat 2x9x6. Tämä tulostetaan vielä ulkopuoliseen tekstitiedostoon, joka on muiden sovellusten käytössä ja ymmärrettävissä silloin, kun varsinainen havaintodata saadaan käyttöön. 7.. Kalibrointialueet Kunkin multicapin anturit on suunniteltu toimimaan herkimmin tietyllä painealueella. Kun varsinainen havaintodata saadaan käyttöön, tullaan aluksi lukemaan matalan paineen antureita (3.7 ja 3.8) n. 300 mbarin paineeseen asti, sen jälkeen keskitason paineen antureita (.,.6 ja.8) n. 900 mbariin asti, ja lopulta korkean paineen antureita (2., 2.7, 2.8). Sovitusta koskeva maksimivirhe lasketaan kalibrointidatasta vain niillä painealueilla, joilla ko. anturia tullaan oikeasti tarvitsemaan. Kalibrointi sen sijaan tehdään laajemmalta alueelta. 23

VIRHEANALYYSIN RAJAT Matala (3) 0 mbar->350 mbar Keskitaso () 300 mbar->950 mbar Korkea (2) 900 mbar-> KALIBROINTIRAJAT Matala (3) 0 mbar > 550 mbar Keskitaso ()0 mbar > 250 mbar Korkea (2) 0 mbar > 2000 mbar Ensimmäisessä eli P sarjassa havaintoja on tehty välillä [0,800] mbar. P sarjassa ei myöskään ole vielä ollut käytössä matalan paineen antureita, vaan ne on lisätty vasta tämän jälkeen. Myöhemmissä sarjoissa painealue onkin rajoitettu välille [0,000] mbar, koska matalan paineen anturit saattavat vaurioitua paineen noustessa selvästi yli 000 millibaarin. Myös keskitason anturit lakkaavat antamasta järkeviä tuloksia noin 400 millibaarin kohdalla, kun kondensaattorien levyt koskettavat toisiaan. Käytännössä kalibrointialue on siis 0 000 millibaaria lukuunottamatta matalan paineen antureita, joilla se on 0 550 millibaaria. 8. Mathematica-ajon tulokset Yllä kuvattu Mathematica ohjelma tuottaa jokaiselle sarjalle oman kerroinmatriisinsa, jonka perusteella voidaan vaikka piirtää p(y):n kuvaajia yhdessä havaintoaineiston kanssa jossakin vakiolämpötilassa, jolloin kuvaaja saadaan kahteen ulottuvuuteen. Graafista kolmiulotteista tarkastelua on vaikea järjestää niin, että siitä saisi paperilla selvää. Sen sijaan voidaan piirtää kaksiulotteinen käyrä kussakin lämpötilassa erikseen. Kuvassa [7 ] on merkitty pienillä ristellä kanavan. mittaustulokset sekä piirretty näihin sovitettu käyrä mallin ollessa (9 ). Jotta eri lämpötilat erottuisivat kuvassa toisistaan, niiden välillä on 50 millibaarin offset. Loppujen kanavien piirrokset löytyvät liitteestä A. Kuva 8. Kanavan. havaintoaineisto ja sovitus mallilla (9 ). 24

Kun ohjelma ajettiin kuudella erilaisella mallilla kaikille sarjoille, saatiin 24 formaatin mukaista taulukkoa. Keskityn tässä uusimman eli S sarjan tarkasteluun. Multicapeilla ja 2 y arvo pienenee paineen kasvaessa, ja multicapilla 3 päinvastoin. Aineistot ovat yleisesti ottaen hyvin tasaisia ja maksimivirheet ovat pieniä. Joissain mittauksissa on selvästi tullut poikkeuksellisia havaintoja, kun jokin kanava on juuttunut johonkin lukemaan koko mittauksen ajaksi, ja lisäksi yksittäisiä poikkeuksellisia havaintopisteitä esiintyy. Kun tällaiset on saatu poistettua, tarkkuus on melkein aina erinomainen. Sovitetaan S sarjaan esimerkiksi malli p y, t = 0 2 t 3 t 2 4 y 5 y 3 6 t 7 yt 8 y 4 t. (8 ) Taulukko näyttää seuraavanlaiselta (taulukko 8 ): Taulukko 8. Mathematica ajon esimerkkitaulukko. Tässä taulukossa ei ole selvyyden vuoksi merkittynä estimaattorien keskihajontoja. Siitä voidaan esimerkiksi lukea, että mallin (8 ) tapauksessa kanavalle 2.8 saadaan 837,5 0,062 t 0,000243 t 2 p y, t =245 6,59 y sovitus ja kanavalle 0.67 y 0.67 y 0.67 y 3 4 386,3 y 0,0654 t 0,0460 yt 2,076 y t 25

,34 0,00642 t 0,000027 t 2 p y, t = 36,6 2,622 y 3.8 sovitus. 0.67 y 0.67 y 0.67 y 3 4 57,92 y 0,0434 t 0,0300 yt 0,53 y t 9. Optimaalisen mallin valinta Kun havaintoaineisto on saatu oikeaan muotoon ja sovitustyökalu on käytössä, jää tehtäväksi päättää, mitkä selittäjät otetaan mukaan lopulliseen regressiomalliin, eli mikä malli lopulta valitaan. Tätä pohtiessa otetaan huomioon seuraavat kriteerit: selittäjien tilastollinen merkitsevyys p:n luottamusvälit mallin selitysaste mallin kokonaisvirhe mallin maksimivirhe mallin ennustavuus mallin yksinkertaisuus Koska aineistot ovat hyvin tasaisia, kokonaisvirhe ja maksimivirhe kulkevat käsi kädessä. Samoin pienimmät selittäjien luottamusvälit esiintyvät yksinkertaisimmissa malleissa. Lisäksi regressioanalyysissa yleensä pyritään siihen, että kaikki selittäjät olisivat tilastollisesti merkitseviä. Tätä ei kuitenkaan tarvitse noudattaa sokeasti, vaan tapauskohtaisesti voidaan tilastollisesti merkityksetönkin selittäjä jättää malliin, jos siitä on jossain mielessä olennaista lisäarvoa. Selittäjän xi tilastollista merkitsevyyttä voidaan testata sen regressiokerrointa βi koskevalla nollahypoteesilla H 0 : i =0. H : i 0 Kappaleessa 5.6 on määritelty βi:n luottamusväli kiinnitetyllä luottamustasolla. Nyt on kysymys siitä, kuuluuko nolla tälle luottamusvälille. Mathematica antaa tässä kohtaa vastauksen muodossa millä tn:llä βi = 0. Jos tämä todennäköisyys on yli halutun rajan (nyt 0.05), nollahypoteesi jää voimaan. Jos nollahypoteesi jää testatessa voimaan, päätellään, että ko. selittäjällä ei ole vaikutusta selitettävään muuttujaan. Muussa tapauksessa selittäjä on tilastollisesti merkitsevä. Ongelma on, että selittäjän tilastollinen merkitsevyys ei ole yksikäsitteistä vaan riippuu siitä, mitä muita selittäjiä mallissa on mukana. 26

Tehdään seuraavasti:. Otetaan ensin malli, jossa ovat mukana kaikki mahdolliset selittäjät, ja tehdään yo. testi kaikille kertoimille. 2. Jos löytyy sellaisia selittäjiä, jotka eivät ole tilastollisesti merkitseviä, poistetaan näistä vähiten merkitsevä (jolla on suurin P arvo). 3. Estimoidaan malli uudestaan jäljellejääneillä selittäjillä. Tehdään näille uudet merkitsevyystestit. Toistetaan kohta 2). 4. Kun jäljellä on vain tilastollisesti merkitseviä selittäjiä, malli on valmis. Menetelmää sanotaan alaspäin askellukseksi. Selittäjien keskinäisestä riippuvuudesta johtuen se järjestys, jossa selittäjiä poistetaan, vaikuttaa lopputulokseen. Kun mallista poistetaan jokin selittäjä, se saattaa muuttaa ennen merkityksettömän selittäjän merkitykselliseksi, tai päinvastoin. Siksi tällä menetelmällä saadut tulokset saattavat poiketa muilla menetelmillä saaduista. Taulukkoon (9 ) on merkitty kanavittain x:llä ne selittäjät, joiden havaittiin alaspäin askeltaessa olevan tilastollisesti merkitseviä. Lisäksi on merkitty, kuinka monella kanavalla kukin selittäjä on tilastollisesti merkitsevä, ja kuinka monta selittäjää kuhunkin malliin lopulta valittiin. Tästä voidaan esimerkiksi nähdä, että vain vakioselittäjä sekä selittäjä ovat mukana kaikissa malleissa, mutta myös eräät muut selittäjät ovat mukana melkein kaikissa. Taulukko 9. Alaspäin askelluksen tulokset. Tarkastellaan asiaa vielä toisella tavalla. Taulukkoon (9 2) on kerätty kullekin aineistolle neljä erilaista regressiomallia, sekä näistä seuraavat tunnusluvut: virheen neliösumma, maksimivirhe, varianssin estimaattori, muokattu selitysaste, 95%:n luottamusvälien keskiarvo, selittäjien lukumäärä sekä 95%:n varmuudella 27

tilastollisesti merkityksettömien selittäjien lukumäärä. Mallit on pyritty valitsemaan niin, että ensimmäisessä mallissa on mukana kaikki selittäjät, toisessa mallissa ovat vähänkin merkitsevät selittäjät, ja kolmannessa kaikki käytännössä välttämättömät selittäjät, ts. ne jotka tarvitaan jotta tunnusluvut eivät lähde oleellisesti heikkenemään. Neljännessä mallissa ovat mukana vain t selittäjät ja sekä vakioselittäjä. Taulukko 9 2. Malliehdokkaat. t ja selittävät yksinään lähes kaiken p:n vaihtelun, joten mallien vertailun täytyy tapahtua muiden tunnuslukujen avulla. Kuten määritelmässä todetaan, virheen neliösumma heikkenee aina, kun selittäjiä poistetaan mallista, joskin heikkeneminen on aluksi pientä. Maksimivirhe, varianssin estimaattori ja ennustavuus saattavat tällöin jopa vähän parantua. Kuten selitysasteen R2 korkeat arvot kertovat, termit Missään olosuhteissa ei ole syytä käyttää kaikkien selittäjien mallia. Kun siitä 28

poistetaan tilastollisesti merkityksettömimmät selittäjät, saadaan paljon yksinkertaisempi malli yhtä hyvillä tai jopa paremmilla tunnuslukujen arvoilla. Tällöin mukana saattaa olla vielä pari määritelmän mukaan tilastollisesti merkityksetöntä selittäjää. Jos vielä nämä poistetaan, saadaan malli, joka useimmissa tapauksissa on lähes yhtä hyvä. Valitaan taulukosta tarkimmat mallit, joissa kaikki selittäjät ovat tilastollisesti merkitseviä. Joillain kanavilla tämä on malli 2 ja joillain malli 3. Tällöin päästään seuraaviin sovitteisiin: 66.6 0.0989 t 0.00035 t² Kanava.: 0.79 y 0.79 y 0.79 y 0.0844 t 0.0004397 t² 08.84 y 39.9 y³ 0.0867 yt (9 ) 58.6 0.094 t 0.000304 t² 0.07053 t Kanava.6: 0.69 y 0.69 y 0.69 y 0.000347 t² 236.3 y 98.45 y² 380.3 y³ 0.0855 yt (9 2) 644.02 0.09965 t 0.0003243 t² 0.09603 t Kanava.8: 0.722 y 0.722 y 0.722 y 0.0003982 t² 24.89 y 23.6 y² 07.82 y³ 0.08056 yt (9 3) 922.8 96.4 845.7 Kanava 2.: 2400 87.74 0.09769 t 0.0002358 t² 0.450 t 30.28 y (9 4) 0.703 y 0.703 y 0.703 y 694.23 0.06 t 0.00048 t² Kanava 2.7: 0.672 y 0.672 y 0.672 y 0.78 t 0.0004585 t² 326.26 y 26.2 y² 630.9 y³ 0.42 yt 2286.3 Kanava 2.8: 836.53 0.09247 0.0002439 t² 0.674 y 0.674 y 0.674 y 0.56 t 8.98 y 402.7 y³ 2449.5 (9 6) 9.25 0.004 t Kanava 3.7: 0.889 y 0.889 y 0.0669 t 5.075 y 25.04 y³ 0.0230 yt (9 7).34 0.003874 t Kanava 3.8: 0.892 y 0.892 y 0.03047 t 2.65 y 57.995 y³ 0.02337 yt (9 8) 38.34 36.6 Näitä voidaan suositella käytettäväksi mittausdatan käsittelyssä. Katsotaan vielä, miten valitut mallit ennustavat paineen arvoja sellaiselle aineistolle, 29

joka ei ole ollut mukana mallia muodostettaessa. Tähän tarkoitukseen on olemassa pyyhkäisymittauksia, joissa y arvoja on mitattu aina 0 mbarin välein nollasta 000 mbariin asti. Tarkastellaan kanavaa., jolle laskettiin yllä malli (9 ): Kuva 9. Mallin (9 ) ennustustarkkuus, kanava.. Kanava. kuuluu keskipaineantureihin, eli sen käypä mittausalue on n. 400 800 millibaaria. Tällä alueella mallin (9 ) antama paineen arvo on enintään 0,2 mbarin päässä havaitusta arvosta. Lisäksi havaitaan, että ennustusvirhe vaihtelee tasaisesti nollan molemmin puolin. Kuva 9 2. Kaikkien selittäjien mallin (6 25) ennustustarkkuus, kanava.. Jos otetaan mukaan kaikki tarkasteltavat selittäjät (kuva 9 2), niin ennustustarkkuus ei juurikaan parane edellisestä. Näin voidaan tehdä sama päätelmä kuin taulukon 9 2 tietojen perusteella, että valittu malli on kaikkien selittäjien malliin verrattuna täysin riittävä. Myös muille kanaville tehtiin vastaava tarkastelu. Kuvat näistä ovat liitteessä. Multicapin antureilla ennustusvirhe vaihtelee tasaisesti nollan molemmin puolin ja 30

on itseisarvoltaan korkeintaan 0,2 millibaaria. Sen sijaan multicapeissa 2 ja 3 ennustusvirhe tahtoo painottua positiiviselle puolelle, eikä edes kaikkien selittäjien mukanaolo korjaa tätä. Toisaalta ennustustarkkuus on tällöinkin käyvällä alueella hyvä, multicapissa 2 noin 0,5 millibaaria ja multicapissa 3 enimmillään n. 0,9 millibaaria mittausalueen ylärajalla, pienemmillä paineilla selvästi vähemmän. Multicapeilla 2 ja 3 näyttäisi mallin antamissa p:n arvoissa olevan olevan pieni systemaattinen virhe, kun positiivisia mittausvirheitä on enemmän kuin negatiivisia. Mistä tämä voisi johtua? Oleellisten selittäjien puuttumisesta ei luultavimmin ole kysymys, vaan kyseessä saattaa olla havaintosarjan erikoisuus. Nämä havaintosarjat ovat nimittäin nk. pyyhkäisymittauksia, joissa painetta on nostettu tai laskettu tasaisesti, ja datakanavan arvoa on luettu aina 0 millibaarin välein. Kutakin pistettä vastaa yksi havainto, eli ei ole tehty samanlaista viiden havainnon keskiarvoistamista kuin varsinaisissa kalibrointimittauksissa. Jos testimittaukset ovat olleet laskevia, niin tällöin voi olla odotettavissa, että malli laskema p:n arvo jää aavistuksen verran (tässä tapauksessa pari millibaarin kymmenesosaa) havaitun arvon yläpuolelle. Eräillä kanavilla on myös havaittavissa ennustusvirheen nopea kasvu aivan mittausalueen yläpäässä. Tämä liittyy luultavimmin kalibrointialueen päättymiseen, sillä kalibrointimittauksissa ei ole ollut n. 030 millibaaria korkeampia paineen arvoja. Lisäksi kanavan 2. diagrammista voidaan havaita pientä systemaattista vaihtelua valitun mallin (9 4) ennustusvirheessä, verrattuna kaikkien selittäjien malliin. Tässä valossa olisi voinut olla järkevää ottaa mukaan pari selittäjää lisää, jolloin systemaattinen vaihtelu ei olisi ollut niin silminnähtävää. Tällöin osa selittäjistä olisi ollut tilastollisesti merkityksettömiä, kuten myös taulukosta (9 2) voidaan nähdä. Juuri tällaisessa tilanteessa sellaista kuitenkin voitaisiin ennustustarkkuuden nimissä suvaita. Vaikeammin selitettävissä on etenkin kanavilla 3.7 ja 3.8 erottuva heteroskedastisuus eli virheen kasvaminen p:n funktiona. Virheet ovat alle 00 mbarissa itseisarvoltaan alle 0,2 mbar, mutta kasvavat pahimmillaan lähelle 0,8:aa millibaaria. Tosin tällöin on kysymys yhdestä mittauksesta, kun taas muissa kahdessa mittauksessa ei yhtä voimakasta heteroskedastisuutta ole nähtävissä. Olisiko tälle voitu tehdä jotain esim. painottamalla loppupään havaintoja PNS sovituksen yhteydessä, vai onko kyseessä vain yksittäisen mittauksen erikoisuus, jää avoimeksi. Vastaavanlaista heteroskedastisuutta ei ollut havaittavissa niissä havainnoissa, jotka olivat mukana mallin muodostamisessa. Onni onnettomuudessa on se, että nämäkin virheen itseisarvot ovat tarkoituksiimme aivan riittävän pieniä. Ylläolevat sovitukset on tehty olettaen, että paineen ja lämpötilan mitatut arvot ovat tarkkoja. Todellisuudessa ne eivät ole täysin tarkkoja, joten tästä sovitukseen tulee pientä epätarkkuutta. Lämpötilan osalta mittausdataa voidaan tosin pitää riittävän tarkkana, mutta painemittari on erikseen käyty kalibroimassa mittaustekniikan keskuksessa, ja näin on saatu sen antamille lukemille pieni korjaus, joka nyt jätetään tarkastelun ulkopuolelle. Lisäksi painemittarissa on havaittu pientä ryömintää niiden 3

kuukausien aikana, joina mittaukset on tehty. Näitä ongelmakohtia on kyllä käsitelty myöhemmin ja tiettyä hienosäätöä malliin on tehty, mutta tässä työssä ei oteta sitä huomioon. 0. Päätelmiä Käsiteltävänä oli kahdeksan havaintoaineistoa, jotka olivat päällisin puolin melko samanlaisia. Lähemmässä tarkastelussa aineistojen välillä havaittiin kuitenkin olevan pieniä eroja. Tämä havaittiin sovitusta tehdessä, jolloin eri aineistoille saatiin erilaiset optimaaliset regressiomallit. Lähtökohtana oli kaikissa aineistoissa 7 selittäjän lineaarinen regressiomalli. Nämä selittäjät olivat yhtä lukuun ottamatta y arvon ja lämpötilan t eri potenssien tulotermejä. Käytännössä 0 selittäjää toi malliin mukaan kaiken sen tarkkuuden, joka ylipäätään voidaan saada, ja jo 6 selittäjällä saatiin lähes yhtä hyvä lopputulos. Mukana ollut epälineaarinen selittäjä linearisoitiin kiinnittämällä nimittäjässä ollut A arvo kullekin sarjalle vakioksi, jonka arvo perustui haarukointiin. Tämä oli myös tärkein yksittäinen selittäjä ja pelkästään sen avulla laaditun mallin selitysaste oli lähestulkoon. Niinpä muita selittäjiä voidaankin ajatella apuselittäjinä, joita lisättiin malliin, kunnes tarkkuus oli riittävä, kuitenkin niin että kaikki selittäjät olivat edelleen tilastollisesti merkitseviä. Mielestäni muutaman lisäselittäjän avulla malliin saatiin riittävästi joustavuutta, ja tällöin em. linearisointi oli mahdollista tehdä. Linearisoinnin motiivina oli se, että vaikka epälineaarinen regressioanalyysi olisi ollut mahdollista, sen toistettavuus ja erilaisten mallien kokeilu olisi ollut huomattavasti vaivalloisempaa ja hitaampaa. Kalibroinnin tarkoitus huomioon ottaen maksimivirhe on todennäköisesti tässä tapauksessa kaikkein tärkein tunnusluku. Kahdeksassa eri sovitteessa maksimivirhe on pienimmillään 0,35 ja suurimmillaan 0,7 millibaaria. Ottaen huomioon, että Titanin ilmakehässä vallitseva paine on planeetan pinnan läheisyydessä lähellä 000 millibaaria, tarkkuutta voidaan pitää hyvänä. Tarkastellessa sellaisia mittaussarjoja, jotka eivät olleet mukana mallin muodostuksessa, maksimivirhe oli käyvällä alueella samaa luokkaa. Näissä sarjoissa havaitut y arvot olivat, lukuunottamatta multicappia, muutaman millibaarin kymmenesosan enimmäkseen mallin laskemia y arvoja alhaisempia. Syyn tähän voidaan epäillä olevan näiden havaintosarjojen erikoislaatuisuudessa verrattuna kalibrointidataan, ja siksi en ollut tästä ilmiöstä erityisen huolestunut.. Lähteet [] Fulchignoni et al: The characterisation of Titan's atmospheric physical properties by the Huygens atmospheric structure instrument (HASI), Space Science Reviews 32