Datan käsittely Helsingin yliopisto, Fysiikan laitos kevät 2013
3. Datan käsittely Luennon sisältö: Havaintovirheet tähtitieteessä Korrelaatio Funktion sovitus Aikasarja-analyysi
3.1 Havaintovirheet Satunnaiset virheet: Kohina Mittaustarkkuus Systemaattiset virheet: Havaintolaitteesta aiheutuvat vääristymät Ympäristöstä aiheutuvat virheet (esim. ilmakehän vaikutukset)
3.1.1 Havaintojen kohina Kun kohde on tarpeeksi kirkas, on havainnon signaalikohinasuhde S N S Tässä S on kohteesta mitattu signaali (rekisteröityjen fotonien määrä) ja N kohina samoissa yksiköissä. Sama spektri eri S/N arvoilla
3.1.2 Havaintolaitteen vaikutukset havaintoihin Aallonpituusherkkyys Resoluutio Valon sironta ja heijastumat laitteen sisällä Optiset kuvausvirheet Havaintolaitteen liikkuminen Mittalaitteen herkkyysvaihtelut (lämpötilariippuvuus, pikselien väliset herkkyyserot)
3.1.3 Havainnon mittaaminen Vääristymättömän datan ja havaintolaitteella havaitun datan keskinäinen yhteys voidaan usein esittää muodossa g(x) = h(x,x )f(x )dx +n(x) Tässä f(x) kuvaa vääristymätöntä dataa ja g(x) havaittua dataa. Havaintolaitteen vääristymät muodostavat integraalikuvauksen ytimen h(x,x ) ja satunnaisvirheet n(x) summatermin.
3.1.4 Virheiden poistaminen Kohinaa voidaan suodattaa, mutta datan resoluution kustannuksella Havaintojen oikea kalibrointi on tärkeää vääristymien korjaamiseksi esim. flat-field korjaus Huomattavasti poikkeavat hajapisteet (outlierit) on tyypillisesti syytä poistaa Root-mean-square (rms) kohina: R = 1 n (y i ŷ(x i )) n 2, i=1 missä ŷ(x) on havaintoja y kuvaava malli. Tyypillinen kriteeri hajapisteille on y i f(x i ) > 3R
3.1.4 Havaintojen redusointi Redusointi: Poistetaan mahdollisimman paljon havaintolaitteen ja -menetelmän aiheuttamia virheitä Muutetaan havainnot analyysissä tarvittavaan muotoon Esim. 2D CCD-kuva spektri HUOM! Väärä redusointi vääristää tuloksia tai hukkaa informaatiota Käytäntö ja tarve määrittää tehtävät valinnat Esim. Parempi S/N huonompi resoluutio
3.2 Datan korrelaatio Korrelaatio on mitta kahden muuttujan väliselle riippuvuudelle Korrelaatiokertoimia: Pearsonin korrelaatiokerroin Spearmanin järjestyskorrelaatiokerroin Kendallin järjestyskorrelaatiokerroin
3.2.1 Pearsonin korrelaatiokerroin Mittaa lineaarista riippuvuutta Otoskeskihajonta: s x = 1 n 1 jossa x on otoksen keskiarvo n (x i x) 2, i=1 Kahden muuttujan välinen kovarianssi: C xy = 1 n 1 Pearsonin korrelaatiokerroin: n (x i x)(y i y) i=1 r xy = C xy s x s y
3.2.2 Korrelaation todennäköisyys Nollahypoteesi H 0 : x ja y eivät korreloi keskenään Oletetaan havaittu korrelaatiokerroin r xy tunnetuksi Millä todennäköisyydellä muuttujien x ja y korrelaatio on sattumalta vähintään mitatun suuruinen (H 0 yhtäpitävä havaintojen kanssa)? Suurelle n (n > 20) noudattaa r xy normaalijakaumaa Merkitään a = n 2 r xy Korrelaation todennäköisyys: P( r > r xy ) erf(a) = 2 e t2 dt π a
3.3 Funktion sovitus Sovituksen kriteerinä käytetään tyypillisesti neliösumman minimointia R 2 = n ǫ 2 i = i=1 n (y i ŷ(x i )) 2 i=1 Jos datan satunnaisvirheet ovat normaalijakautuneet, on tämä luonnollinen lähestymistapa.
3.3.1 Pienimmän neliösumman menetelmä Sovitettava funktio ŷ(x) = a 1 φ 1 (x)+ +a k φ k (x) Määritellään y 1 y 2 y =..,A = y n φ 1 (x 1 ) φ 2 (x 1 ) φ k (x 1 ) φ 1 (x 2 ) φ 2 (x 2 ) φ k (x 2 )........ φ 1 (x n ) φ 2 (x n ) φ k (x n ),a = a 1 a 2.. a k Funktio sovitetaan pistejoukkoon (x i,y i )
3.3.1 Pienimmän neliösumman menetelmä Jos n = k saadaan yksiselitteinen ratkaisu normaaliyhtälöstä Aa = y Satunnaisvirheiden takia luotettavan sovituksen saamiseksi on kuitenkin oltava n > k. Sovituksen residuaalit ǫ i minimoiva ratkaisu saadaan normaaliyhtälöstä A T Aa = A T y
3.3.2 Suoran sovitus Sovitetaan funktio ŷ(x) = a+bx a = 1 x 1 1 x 2 A =.. AT A = 1 x n A T y = ( a b ) ( ) n xi xi x 2, i ( ) ( yi xi,a T an+b xi Aa = y i a x i +b xi 2 )
3.3.2 Suoran sovitus Ratkaisu saadaan yhtälöryhmästä an+bs x = S y as x +bs xx = S xy S x = x i,s y = y i,s xx = x 2 i,s xy = x i y i Merkitään D = ns xx S 2 x, ratkaisu on: a = S xxs y S x S xy D,b = ns xy S x S y D
3.3.3 Havaintovirheet pienimmän neliösumman sovituksessa Mittausten hajontaa kuvataan kovarianssimatriisilla σ 11 σ 12 σ 1n σ 21 σ 22 σ 2n Σ =...... σ n1 σ n2 σ nn Riippumattomille virheille σ1 2 0 0 0 σ2 2 0 Σ =........ 0 0 σn 2 Σ 1 = 1 σ 2 1 1 0 σ2 2 0 0 0........ 1 0 0 σn 2
3.3.3 Havaintovirheet pienimmän neliösumman sovituksessa Normaaliyhtälö saadaan muotoon A T Σ 1 Aa = A T Σ 1 y Merkitään C = A T Σ 1 A ja d = A T Σ 1 y Ratkaisu on a = C 1 d Kertoimien a i virheet saadaan matriisista C 1 σ ai = C 1 ii
3.3.4 Epälineaarinen sovitus Esitetyllä muotoilulla pienimmän neliösumman menetelmä soveltuu vain lineaaristen ongelmien ratkaisuun. Epälineaarinen ongelma voidaan toisinaan saattaa lineaariseen muotoon Esim. f(x) = ae bx lnf(x) = lna bx Ratkaisuksi ei kuitenkaan saada enää täsmälleen alkuperäisen ongleman ratkaisua. Yleisesti käytetään erilaisia numeerisia optimointimenetelmiä Näissä on syytä pitää silmällä, että saatu ratkaisu on järkevä eikä optimointi ole juuttunut paikalliseen minimiin.
3.4 Aikasarja-analyysi Parametriset menetelmät: Sovitetaan dataan jaksollinen malli Esim. Fourier-sarjan sovitus Ei-parametriset menetelmät: Etsitään jaksollisuutta olettamatta datalle mitään tiettyä mallia Esim. Kuiperin periodogrammi sarjalle aikapisteitä
3.4.1 Fourier-sarjan sovitus Malli: ŷ(t) = M + K B k cos(2πkft)+c k sin(2πkft) k=1 Vapaat parametrit ovat M, B k, C k ja f = 1/P. Malli on epälineaarinen taajuuden suhteen, joten sen ratkaisuun ei voida soveltaa lineaarista pienimmän neliösumman menetelmään. Kuvaus käytännöllisestä ratkaisumenetelmästä: Three Stage Period Analysis (Jetsu & Pelt, 1999)
3.4.2 Esimerkki: Tähden valokäyrän periodin löytäminen Tähden HD 199178 valokäyrä, P 3.3 d Oikea periodi on löydetty etsimällä parhaiten sopiva matalan asteen Fourier-sarja.
3.4.2 Esimerkki: Eksoplaneettajärjestelmä Tähden havaittuihin säteisnopeuksiin on sovitettu kahden planeetan aiheuttamat häiriöt. Planeettojen massat: M sis = 7.7M Jup, M ulk = 17M Jup
3.4.2 Esimerkki: Valokäyrien minimivaiheet Tähtien HD 63433, HD 70573 ja HD 82443 valokäyrien minimit vaiheistettuina Kuiperin periodigrammilla löydetyillä periodeilla 1.00 0.75 0.50 0.25 1.00 0.75 0.50 0.25 1.00 0.75 0.50 0.25 0.00 1995 2000 2005 2010 year
3.5 Kirjallisuutta H. Karttunen: Datan käsittely, CSC 1994 W.H. Press et al.: Numerical Recipes http://www.nr.com/