Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Samankaltaiset tiedostot
Jos havaitaan päivän ylin lämpötila, mittaustuloksissa voi esiintyä seuraavantyyppisiä virheitä:

Pienimmän Neliösumman Sovitus (PNS)

Sovellettu todennäköisyyslaskenta B

4. Datan käsittely lyhyt katsaus. Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman

3. Datan käsittely lyhyt katsaus

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Pienimmän Neliösumman Sovitus (PNS)

5. Datan käsittely lyhyt katsaus. Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman

Havaitsevan tähtitieteen peruskurssi I, yhteenveto

7.4 Fotometria CCD kameralla

Harjoitus 9: Excel - Tilastollinen analyysi

MS-C1340 Lineaarialgebra ja

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

031021P Tilastomatematiikka (5 op) viikko 6

Pienimmän neliösumman menetelmä

031021P Tilastomatematiikka (5 op) viikko 6

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Regressioanalyysi. Kuusinen/Heliövaara 1

Korrelaatiokertoinen määrittely 165

Regressioanalyysi. Vilkkumaa / Kuusinen 1

pitkittäisaineistoissa

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Havaitsevan tähtitieteen peruskurssi I

Kohdeyleisö: toisen vuoden teekkari

Dynaamiset regressiomallit

1 Rajoittamaton optimointi

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Tilastomatematiikka Kevät 2008

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

pitkittäisaineistoissa

MS-C1340 Lineaarialgebra ja

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Numeeriset menetelmät TIEA381. Luento 13. Kirsi Valjus. Jyväskylän yliopisto. Luento 13 () Numeeriset menetelmät / 42

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1

Numeeriset menetelmät

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Maximum likelihood-estimointi Alkeet

TEKNILLINEN KORKEAKOULU Systeemianalyysin laboratorio. Kimmo Berg. Mat Optimointioppi. 9. harjoitus - ratkaisut

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

CCD-kamerat ja kuvankäsittely

Differentiaali- ja integraalilaskenta 1 Ratkaisut 5. viikolle /

8. Fotometria (jatkuu)

Talousmatematiikan perusteet: Luento 8. Vektoreista ja matriiseista Vektorien peruslaskutoimitukset Lineaarinen riippumattomuus Vektorien sisätulo

Kohina. Havaittujen fotonien statistinen virhe on kääntäen verrannollinen havaittujen fotonien lukumäärän N neliö juureen ( T 1/ N)

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Matematiikka B1 - avoin yliopisto

Signaalit ja järjestelmät aika- ja taajuusalueissa

Differentiaali- ja integraalilaskenta 2 Laskuharjoitus 4 / vko 40

9. Polarimetria. tähtitieteessä. 1. Polarisaatio. 2. Stokesin parametrit. 3. Polarisaattorit. 4. CCD polarimetria

Moniulotteiset satunnaismuuttujat ja jakaumat

Satunnaismuuttujien muunnokset ja niiden jakaumat

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Todennäköisyyden ominaisuuksia

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Insinöörimatematiikka D

PHYS-A1110 Laboratoriotyöosuus. Vastaava opettaja Jani Sainio puh: huone 138 (OK 4A)

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

HAVAITUT JA ODOTETUT FREKVENSSIT

Kandidaatintutkielman aineistonhankinta ja analyysi

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

Dynaamiset regressiomallit

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0207 Differentiaali- ja integraalilaskenta 2 Luento 5: Gradientti ja suunnattu derivaatta. Vektoriarvoiset funktiot. Taylor-approksimaatio.

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

9. Tila-avaruusmallit

Mat Tilastollisen analyysin perusteet, kevät 2007

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Oletetaan ensin, että tangenttitaso on olemassa. Nyt pinnalla S on koordinaattiesitys ψ, jolle pätee että kaikilla x V U

Havaitsevan tähtitieteen peruskurssi I. Spektroskopia. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Harha mallin arvioinnissa

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Identifiointiprosessi

BM20A0900, Matematiikka KoTiB3

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Matematiikka B3 - Avoin yliopisto

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Todennäköisyyslaskun kertaus. Heliövaara 1

Johdatus regressioanalyysiin

Transkriptio:

Datan käsittely Helsingin yliopisto, Fysiikan laitos kevät 2013

3. Datan käsittely Luennon sisältö: Havaintovirheet tähtitieteessä Korrelaatio Funktion sovitus Aikasarja-analyysi

3.1 Havaintovirheet Satunnaiset virheet: Kohina Mittaustarkkuus Systemaattiset virheet: Havaintolaitteesta aiheutuvat vääristymät Ympäristöstä aiheutuvat virheet (esim. ilmakehän vaikutukset)

3.1.1 Havaintojen kohina Kun kohde on tarpeeksi kirkas, on havainnon signaalikohinasuhde S N S Tässä S on kohteesta mitattu signaali (rekisteröityjen fotonien määrä) ja N kohina samoissa yksiköissä. Sama spektri eri S/N arvoilla

3.1.2 Havaintolaitteen vaikutukset havaintoihin Aallonpituusherkkyys Resoluutio Valon sironta ja heijastumat laitteen sisällä Optiset kuvausvirheet Havaintolaitteen liikkuminen Mittalaitteen herkkyysvaihtelut (lämpötilariippuvuus, pikselien väliset herkkyyserot)

3.1.3 Havainnon mittaaminen Vääristymättömän datan ja havaintolaitteella havaitun datan keskinäinen yhteys voidaan usein esittää muodossa g(x) = h(x,x )f(x )dx +n(x) Tässä f(x) kuvaa vääristymätöntä dataa ja g(x) havaittua dataa. Havaintolaitteen vääristymät muodostavat integraalikuvauksen ytimen h(x,x ) ja satunnaisvirheet n(x) summatermin.

3.1.4 Virheiden poistaminen Kohinaa voidaan suodattaa, mutta datan resoluution kustannuksella Havaintojen oikea kalibrointi on tärkeää vääristymien korjaamiseksi esim. flat-field korjaus Huomattavasti poikkeavat hajapisteet (outlierit) on tyypillisesti syytä poistaa Root-mean-square (rms) kohina: R = 1 n (y i ŷ(x i )) n 2, i=1 missä ŷ(x) on havaintoja y kuvaava malli. Tyypillinen kriteeri hajapisteille on y i f(x i ) > 3R

3.1.4 Havaintojen redusointi Redusointi: Poistetaan mahdollisimman paljon havaintolaitteen ja -menetelmän aiheuttamia virheitä Muutetaan havainnot analyysissä tarvittavaan muotoon Esim. 2D CCD-kuva spektri HUOM! Väärä redusointi vääristää tuloksia tai hukkaa informaatiota Käytäntö ja tarve määrittää tehtävät valinnat Esim. Parempi S/N huonompi resoluutio

3.2 Datan korrelaatio Korrelaatio on mitta kahden muuttujan väliselle riippuvuudelle Korrelaatiokertoimia: Pearsonin korrelaatiokerroin Spearmanin järjestyskorrelaatiokerroin Kendallin järjestyskorrelaatiokerroin

3.2.1 Pearsonin korrelaatiokerroin Mittaa lineaarista riippuvuutta Otoskeskihajonta: s x = 1 n 1 jossa x on otoksen keskiarvo n (x i x) 2, i=1 Kahden muuttujan välinen kovarianssi: C xy = 1 n 1 Pearsonin korrelaatiokerroin: n (x i x)(y i y) i=1 r xy = C xy s x s y

3.2.2 Korrelaation todennäköisyys Nollahypoteesi H 0 : x ja y eivät korreloi keskenään Oletetaan havaittu korrelaatiokerroin r xy tunnetuksi Millä todennäköisyydellä muuttujien x ja y korrelaatio on sattumalta vähintään mitatun suuruinen (H 0 yhtäpitävä havaintojen kanssa)? Suurelle n (n > 20) noudattaa r xy normaalijakaumaa Merkitään a = n 2 r xy Korrelaation todennäköisyys: P( r > r xy ) erf(a) = 2 e t2 dt π a

3.3 Funktion sovitus Sovituksen kriteerinä käytetään tyypillisesti neliösumman minimointia R 2 = n ǫ 2 i = i=1 n (y i ŷ(x i )) 2 i=1 Jos datan satunnaisvirheet ovat normaalijakautuneet, on tämä luonnollinen lähestymistapa.

3.3.1 Pienimmän neliösumman menetelmä Sovitettava funktio ŷ(x) = a 1 φ 1 (x)+ +a k φ k (x) Määritellään y 1 y 2 y =..,A = y n φ 1 (x 1 ) φ 2 (x 1 ) φ k (x 1 ) φ 1 (x 2 ) φ 2 (x 2 ) φ k (x 2 )........ φ 1 (x n ) φ 2 (x n ) φ k (x n ),a = a 1 a 2.. a k Funktio sovitetaan pistejoukkoon (x i,y i )

3.3.1 Pienimmän neliösumman menetelmä Jos n = k saadaan yksiselitteinen ratkaisu normaaliyhtälöstä Aa = y Satunnaisvirheiden takia luotettavan sovituksen saamiseksi on kuitenkin oltava n > k. Sovituksen residuaalit ǫ i minimoiva ratkaisu saadaan normaaliyhtälöstä A T Aa = A T y

3.3.2 Suoran sovitus Sovitetaan funktio ŷ(x) = a+bx a = 1 x 1 1 x 2 A =.. AT A = 1 x n A T y = ( a b ) ( ) n xi xi x 2, i ( ) ( yi xi,a T an+b xi Aa = y i a x i +b xi 2 )

3.3.2 Suoran sovitus Ratkaisu saadaan yhtälöryhmästä an+bs x = S y as x +bs xx = S xy S x = x i,s y = y i,s xx = x 2 i,s xy = x i y i Merkitään D = ns xx S 2 x, ratkaisu on: a = S xxs y S x S xy D,b = ns xy S x S y D

3.3.3 Havaintovirheet pienimmän neliösumman sovituksessa Mittausten hajontaa kuvataan kovarianssimatriisilla σ 11 σ 12 σ 1n σ 21 σ 22 σ 2n Σ =...... σ n1 σ n2 σ nn Riippumattomille virheille σ1 2 0 0 0 σ2 2 0 Σ =........ 0 0 σn 2 Σ 1 = 1 σ 2 1 1 0 σ2 2 0 0 0........ 1 0 0 σn 2

3.3.3 Havaintovirheet pienimmän neliösumman sovituksessa Normaaliyhtälö saadaan muotoon A T Σ 1 Aa = A T Σ 1 y Merkitään C = A T Σ 1 A ja d = A T Σ 1 y Ratkaisu on a = C 1 d Kertoimien a i virheet saadaan matriisista C 1 σ ai = C 1 ii

3.3.4 Epälineaarinen sovitus Esitetyllä muotoilulla pienimmän neliösumman menetelmä soveltuu vain lineaaristen ongelmien ratkaisuun. Epälineaarinen ongelma voidaan toisinaan saattaa lineaariseen muotoon Esim. f(x) = ae bx lnf(x) = lna bx Ratkaisuksi ei kuitenkaan saada enää täsmälleen alkuperäisen ongleman ratkaisua. Yleisesti käytetään erilaisia numeerisia optimointimenetelmiä Näissä on syytä pitää silmällä, että saatu ratkaisu on järkevä eikä optimointi ole juuttunut paikalliseen minimiin.

3.4 Aikasarja-analyysi Parametriset menetelmät: Sovitetaan dataan jaksollinen malli Esim. Fourier-sarjan sovitus Ei-parametriset menetelmät: Etsitään jaksollisuutta olettamatta datalle mitään tiettyä mallia Esim. Kuiperin periodogrammi sarjalle aikapisteitä

3.4.1 Fourier-sarjan sovitus Malli: ŷ(t) = M + K B k cos(2πkft)+c k sin(2πkft) k=1 Vapaat parametrit ovat M, B k, C k ja f = 1/P. Malli on epälineaarinen taajuuden suhteen, joten sen ratkaisuun ei voida soveltaa lineaarista pienimmän neliösumman menetelmään. Kuvaus käytännöllisestä ratkaisumenetelmästä: Three Stage Period Analysis (Jetsu & Pelt, 1999)

3.4.2 Esimerkki: Tähden valokäyrän periodin löytäminen Tähden HD 199178 valokäyrä, P 3.3 d Oikea periodi on löydetty etsimällä parhaiten sopiva matalan asteen Fourier-sarja.

3.4.2 Esimerkki: Eksoplaneettajärjestelmä Tähden havaittuihin säteisnopeuksiin on sovitettu kahden planeetan aiheuttamat häiriöt. Planeettojen massat: M sis = 7.7M Jup, M ulk = 17M Jup

3.4.2 Esimerkki: Valokäyrien minimivaiheet Tähtien HD 63433, HD 70573 ja HD 82443 valokäyrien minimit vaiheistettuina Kuiperin periodigrammilla löydetyillä periodeilla 1.00 0.75 0.50 0.25 1.00 0.75 0.50 0.25 1.00 0.75 0.50 0.25 0.00 1995 2000 2005 2010 year

3.5 Kirjallisuutta H. Karttunen: Datan käsittely, CSC 1994 W.H. Press et al.: Numerical Recipes http://www.nr.com/