MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0504 First course in probability and statistics

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Regressioanalyysi. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

Dynaamiset regressiomallit

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 9: Excel - Tilastollinen analyysi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus regressioanalyysiin

Yleinen lineaarinen malli

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Korrelaatiokertoinen määrittely 165

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus regressioanalyysiin. Heliövaara 1

Testejä suhdeasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Todennäköisyyden ominaisuuksia

Sovellettu todennäköisyyslaskenta B

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

1. Tilastollinen malli??

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

OPETUSSUUNNITELMALOMAKE

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

OPETUSSUUNNITELMALOMAKE

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Estimointi. Vilkkumaa / Kuusinen 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Testit laatueroasteikollisille muuttujille

805306A Johdatus monimuuttujamenetelmiin, 5 op

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

tilastotieteen kertaus

Transkriptio:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 6 Tilastollinen riippuvuus ja lineaarinen regressio Kalle Kytölä, Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Sisältö Kahden muuttujan aineiston kuvaileminen Pienimmän neliösumman menetelmä Lineaarinen regressiomalli Normaalijakautuneisuuden testaaminen

Sisältö Kahden muuttujan aineiston kuvaileminen Pienimmän neliösumman menetelmä Lineaarinen regressiomalli Normaalijakautuneisuuden testaaminen

Kahden muuttujan aineiston kuvaileminen Kerätty aineisto: n havaintoyksikköä, p muuttujaa. Valitaan kaksi muuttujaa tarkasteluun, jolloin analysoitava aineisto (x, y) koostuu pareista (x 1, y 1 ),..., (x n, y n ).

Esim. Kurssin arvostelu Onko harjoituspisteillä vaikutusta tenttipisteisiin? id tentti (y) raportti harjoitukset (x) arvosana 1 0 0 0 0 2 17 5 20 5 3 15 5 0 3 4 12 6 16 4 5 19 5 20 5 6 21 6 17 5 7 0 0 3 0 8 13 6 9 4 9 19 6 12 5 10 0 0 0 0 11 15 5 19 5 12 12 6 0 3 13 13 5 17 4 Syöte (selittäjä): x = (0, 20, 0, 16, 20, 17, 3, 9, 12, 0, 19, 0, 17) Vaste (selitettävä): y = (0, 17, 15, 12, 19, 21, 0, 13, 19, 0, 15, 12, 13)

Hajontakuvio Aineisto: (x 1, y 1 ),..., (x n, y n )

Otoskovarianssi Aineistovektoreiden x ja y otoskovarianssi määritellään kaavalla s(x, y) = 1 n 1 n (x i m(x))(y i m(y)), i=1 missä m(x) ja m(y) ovat aineistovektoreiden keskiarvot Huom: s(x, x) = s 2 (x) on x:n otosvarianssi s(y, y) = s 2 (y) on y:n otosvarianssi s(x, x) = s(x) on x:n otoskeskihajonta s(y, y) = s(y) on y:n otoskeskihajonta

Esim. Kurssin arvostelu id tentti (y) raportti harjoitukset (x) arvosana 1 0 0 0 0 2 17 5 20 5 3 15 5 0 3 4 12 6 16 4 5 19 5 20 5 6 21 6 17 5 7 0 0 3 0 8 13 6 9 4 9 19 6 12 5 10 0 0 0 0 11 15 5 19 5 12 12 6 0 3 13 13 5 17 4 Otoskovarianssi s(x, y) = cov(x,y) = 43.67 Tämä luku pitää normalisoida, jotta sen voi hahmottaa.

Otoskorrelaatio Aineistovektoreiden x ja y Pearsonin otoskorrelaatio määritellään kaavalla r(x, y) = s(x, y) [ 1, +1] s(x)s(y) Otoskorrelaatio mittaa (tilastollista) lineaarista riippuvuutta: Karl Pearson FRS 1857 1936 Jos r(x, y) > 0, niin x ja y ovat positiivisesti korreloituneita Jos r(x, y) = 0, niin x ja y ovat korreloimattomia Jos r(x, y) < 0, niin x ja y ovat negatiivisesti korreloituneita

Esim. Kurssin arvostelu id tentti (y) raportti harjoitukset (x) arvosana 1 0 0 0 0 2 17 5 20 5 3 15 5 0 3 4 12 6 16 4 5 19 5 20 5 6 21 6 17 5 7 0 0 3 0 8 13 6 9 4 9 19 6 12 5 10 0 0 0 0 11 15 5 19 5 12 12 6 0 3 13 13 5 17 4 Pearsonin otoskorrelaatio r(x, y) = cor(x,y) = 0.694 Harjoituspisteet ja tenttipisteet vaikuttavat positiivisesti korreloituneilta Vai onko kyseessä satunnaisvaihtelun tuotos?

Korreloituneisuuden testaaminen Pohjahypoteesi (stokastinen malli): Havaitut lukuparit (x i, y i ) ovat realisaatioita riippumattomista satunnaisvektoreista (X i, Y i ) N 2 (µ X, µ Y, σ 2 X, σ2 Y, ρ XY ). H 0 : ρ XY = 0 vs. H 1 : ρ XY 0 Yleisen hypoteesin ja nollahypoteesin pätiessä testisuure t(x, Y ) = r(x, Y ) n 2 1 r(x, Y ) 2 William S Gosset (a.k.a. Student ) 1876 1937 noudattaa t-jakaumaa vapausastein n 2. Itseisarvoltaan suuret testisuureen arvot puoltavat nollahypoteesin hylkäämistä

Esim. Kurssin arvostelu id tentti (y) raportti harjoitukset (x) arvosana 1 0 0 0 0 2 17 5 20 5 3 15 5 0 3 4 12 6 16 4 5 19 5 20 5 6 21 6 17 5 7 0 0 3 0 8 13 6 9 4 9 19 6 12 5 10 0 0 0 0 11 15 5 19 5 12 12 6 0 3 13 13 5 17 4 Noudattavatko laskuharjoituspisteet ja tenttipisteet 2-ulotteista normaalijakaumaa? Ei. Molemmat ovat diskreettejä, eikä jakauma yleensä ole edes symmetrinen. Tässä tapauksessa korreloituneisuuden testaaminen edellä mainitulla testillä ei ole perusteltua.

Esim. Isien ja poikien pituudet Height Son 140 150 160 170 180 190 200 140 150 160 170 180 190 200 Father Noudattavatko isien ja poikien pituudet 2-ulotteista normaalijakaumaa?

Father Esim. Isien ja poikien pituudet f Son

Esim. Isien ja poikien pituudet Density 0.00 0.02 0.04 Histogram of Fathers 140 160 180 200 Height Density 0.00 0.02 0.04 0.06 Histogram of Sons 140 160 180 200 Height

Esim. Isien ja poikien pituudet Noudattavatko isien ja poikien pituudet normaalijakaumaa? Pituuksien jakaumaa voidaan pitää likipitäen kaksiulotteisena normaalijakaumana. Korreloituneisuutta voisi olla perusteltua testata edellä mainitulla testillä. Otoskorrelaatio on cor(x,y) = 0.498 Aineistosta laskettu testisuure t(x, y) = 18.85 p-arvo Pr( t(x, Y ) 18.85) = 2*(1-pt(18.85,1076)) = 0 Koska p-arvo on alle 0.01, nollahypoteesi (ρ XY = 0) hylätään 1 % merkitsevyystasolla Johtopäätös: isien ja poikien pituuksien välillä on (tilastollista) lineaarista riippuvuutta.

Sisältö Kahden muuttujan aineiston kuvaileminen Pienimmän neliösumman menetelmä Lineaarinen regressiomalli Normaalijakautuneisuuden testaaminen

Esim. Kurssin arvostelu id tentti (y) raportti harjoitukset (x) arvosana 1 0 0 0 0 2 17 5 20 5 3 15 5 0 3 4 12 6 16 4 5 19 5 20 5 6 21 6 17 5 7 0 0 3 0 8 13 6 9 4 9 19 6 12 5 10 0 0 0 0 11 15 5 19 5 12 12 6 0 3 13 13 5 17 4 Pearsonin otoskorrelaatio r(x, y) = 0.694 Muuttujien välillä kohtuullisen vahva lineaarinen riippuvuus Mikä suora parhaiten kuvastaa lineaarista riippuvuutta?

Hajontakuvio Aineisto: (x 1, y 1 ),..., (x n, y n )

Suoran sovittaminen Sovitteet: ŷ i = β 0 + β 1 x i

Sovitusvirhe Jäännöstermit: e i = y i ŷ i

Sovitusvirheen minimointi Miten valitaan suoran kulmakerroin β 1 ja vakiotermi β 0 optimaalisesti?

Sovitusvirheen minimointi Suoran ŷ = β 0 + β 1 x virhetermien neliösumma SSE(β 0, β 1 ) = n (y i ŷ i ) 2 = i=1 n (y i β 0 β 1 x i ) 2 i=1 Pienimmän neliösumman menetelmä Etsitään (β 0, β 1 ) s.e. virhetermien neliösumma minimoituu. Ratkaisu: Derivoi SSE(β 0, β 1 ) β 0 :n ja β 1 :n suhteen, aseta molemmat derivaatat nolliksi, ja ratkaise kyseiset yhtälöt. Vastaus: (β 0, β 1 ) = (b 0, b 1 ), missä b 1 = r(x, y) s(y) s(x), b 0 = m(y) b 1 m(x).

Esim. Kurssin arvostelu id tentti (y) raportti harjoitukset (x) arvosana 1 0 0 0 0 2 17 5 20 5 3 15 5 0 3 4 12 6 16 4 5 19 5 20 5 6 21 6 17 5 7 0 0 3 0 8 13 6 9 4 9 19 6 12 5 10 0 0 0 0 11 15 5 19 5 12 12 6 0 3 13 13 5 17 4 Keskiarvot: m(x) = 10.2, m(y) = 12.0 Otoskeskihajonnat: s(x) = 8.51, s(y) = 7.39 Pearsonin otoskorrelaatio r(x, y) = 0.694 b 1 = r(x, y) s(y) s(x) = 0.60 b 0 = m(y) b 1 m(x) = 5.82

Esim. Isien ja poikien pituudet Height Son 140 150 160 170 180 190 200 140 150 160 170 180 190 200 Father Keskiarvot: m(x) = 171.92, m(y) = 174.46 Otoskeskihajonnat: s(x) = 6.98, s(y) = 7.14 Pearsonin otoskorrelaatio r(x, y) = 0.498 b 1 = r(x, y) s(y) s(x) = 0.51 b 0 = m(y) b 1 m(x) = 86.83

Esim. Isien ja poikien pituudet Height Son 150 160 170 180 190 200 150 160 170 180 190 200 Father

Sisältö Kahden muuttujan aineiston kuvaileminen Pienimmän neliösumman menetelmä Lineaarinen regressiomalli Normaalijakautuneisuuden testaaminen

Sovitetun suoran luottamusväli Jos kahden muuttujan aineistoon sovittaa suoran pienimmän neliösumman menetelmällä, millä tarkkuudella kyseinen suora ennustaa vasteen arvoja? Millä tn suoralta ennustettu vastemuuttujan arvo on lähellä mittauksessa havaittavaa arvoa? Tarvitaan tilastokokeen stokastinen malli

Lineaarinen regressiomalli Oletetaan, että vastemuuttuja Y riippuu syötemuuttujasta x seuraavasti: Y = β 0 + β 1 x + ɛ, missä ɛ N(0, σ 2 ). Kun tehdään n riippumatonta mittausta syötemuuttujan arvoilla x 1,..., x n, saadaan vastemuuttujan arvot Y k = β 0 + β 1 x k + ɛ k, k = 1,..., n, ja stokastisen mallin satunnaiset virhetermit ɛ 1,..., ɛ n ovat riippumattomat N(0, σ 2 )-jakautuneet. Mallissa on 3 tuntematonta parametria: (β 0, β 1, σ 2 ).

Lineaarisen regressiomallin parametrien estimointi Parametrien β 0, β 1 suurimman uskottavuuden estimaattorit ovat pienimmän neliösumman menetelmällä saadut kertoimet b 1 = r(x, y) s(y) s(x), b 0 = m(y) b 1 m(x). Tuntemattoman varianssiparametrin σ 2 estimaattorina käytetään S 2 = 1 n 2 n j=1 (y j ŷ j ) 2 = 1 n 2 n (y j b 0 b 1 x j ) 2. j=1

Vastemuuttujan ennusteväli Halutaan ennustaa syötemuuttujaa x vastaava vastemuuttujan arvo Y ( x) havaitun aineiston (x 1,..., x n ; y 1,..., y n ) pohjalta. Ennuste on Ŷ ( x) = b 0 + b 1 x, missä b 0, b 1 estimoidaan aineistosta PNS-menetelmällä. Vasteen (1 α) ennustevälin päätepisteet ovat b 0 + b 1 x ± t α/2 S 1 + 1 n + ( x m(x))2 (n 1)s 2 (x), missä t α/2 on luku, jolle t(n 2)-jakatunut satunnaisluku T toteuttaa Pr( t α/2 T t α/2 ) = α. Huom: Ennusteväli on sitä leveämpi, mitä kauempana x on havaitun aineiston keskiarvosta m(x).

Esim. Kurssin arvostelu Voidaanko harjoituspisteistä ennustaa tenttipisteet? id tentti (y) raportti harjoitukset (x) arvosana 1 0 0 0 0 2 17 5 20 5 3 15 5 0 3 4 12 6 16 4 5 19 5 20 5 6 21 6 17 5 7 0 0 3 0 8 13 6 9 4 9 19 6 12 5 10 0 0 0 0 11 15 5 19 5 12 12 6 0 3 13 13 5 17 4 Ei ainakaan edellä mainitulla regressiomallilla, koska jäännösten ei voida olettaa noudattavan normaalijakaumaa.

Esim. Isien ja poikien pituudet Voidaanko poikien pituudet ennustaa isien pituuksista?

Esim. Isien ja poikien pituudet Height Son 150 160 170 180 190 200 150 160 165 170 180 190 200 Father

Regressiomallin jäännökset, kun isä on noin 165cm Histogram of residuals vs. normal distribution Density 0.00 0.02 0.04 0.06 0.08 20 15 10 5 0 5 10 Residual

Esim. Isien ja poikien pituudet Height Son 150 160 170 180 190 200 150 160 170 180 190 200 Father

Regressiomallin jäännökset, kun isä on noin 170cm Histogram of residuals vs. normal distribution Density 0.00 0.02 0.04 0.06 0.08 0.10 0.12 15 10 5 0 5 10 15 Residual

Esim. Isien ja poikien pituudet Voidaanko poikien pituudet ennustaa isien pituuksista? Vaikuttaisi siltä, että jäännösten normaalijakautuneisuus ja varianssiehto toteutuvat, joten regressiomallia voidaan soveltaa.

Pojan pituus, kun isän pituus on noin 165cm Heights of sons Density 0.00 0.02 0.04 0.06 0.08 155 160 165 170 175 180 Height Poikien pituuksien jakauma ja 90% ennusteväli, kun isän pituus on 165cm.

Pojan pituus, kun isän pituus on noin 170cm Heights of sons Density 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 160 165 170 175 180 185 Height Poikien pituuksien jakauma ja 90% ennusteväli, kun isän pituus on 170cm.

Esim. Isien ja poikien pituudet (90 % ennusteväli) Height Sons 150 160 170 180 190 200 150 160 170 180 190 200 Fathers

Sisältö Kahden muuttujan aineiston kuvaileminen Pienimmän neliösumman menetelmä Lineaarinen regressiomalli Normaalijakautuneisuuden testaaminen

Onko aineisto peräisin normaalijakaumasta? x = (0.8 32.4 41.1 67.2 39.0 49.1 61.0 8.1 64.2 67.5 39.4 44.6 29.9 57.4 24.3 56.7 18.8 28.6-15.1 32.6) Ovatko havaitut luvut riippumattomien normaalijakautuneiden satunnaismuuttujien (X 1,..., X n ) realisaatioita? Aineiston tunnuslukuja Keskiarvo m(x) = 37.38 Otoskeskihajonta s(x) = 22.60 Minimi min(x) = 15.1 Maksimi max(x) = 67.5 Histogrammi Histogrammi ei näytä normaalijakautuneelta. Voiko tämä johtua pienen otoksen satunnaisvaihtelusta?

Empiirinen kertymäfunktio x = (0.8 32.4 41.1 67.2 39.0 49.1 61.0 8.1 64.2 67.5 39.4 44.6 29.9 57.4 24.3 56.7 18.8 28.6-15.1 32.6) Aineiston x empiirinen kertymäfunktio t F x (t) kertoo, millä tn aineistosta umpimähkään valittu luku on enintään t. F x (t) = lkm{k : x k t} n Glivenko Cantelli: Jos aineisto peräisin F :stä, niin F (X1,...,X n)(t) F (t) suurilla n.

Kolmogorovin Smirnovin testisuure x = (0.8 32.4 41.1 67.2 39.0 49.1 61.0 8.1 64.2 67.5 39.4 44.6 29.9 57.4 24.3 56.7 18.8 28.6-15.1 32.6) Nollahypoteesi H 0 : Aineisto on peräisin jakaumasta F. H 0 :n pätiessä stokastisen mallin X = (X 1,..., X n ) testisuure D (X1,...,X n) = n max t R F (X 1,...,X n)(t) F (t) noudattaa likimain Kolmogorovin jakaumaa, kertymäfunktio H(t) = 1 2 ( 1) k 1 e 2k2 t 2, t 0. k=1 Suuret testisuureen arvot puoltavat H 0 :n hylkäämistä.

Empiirinen kertymäfinktio vs. normaalijakauma 0.0 0.2 0.4 0.6 0.8 1.0 20 0 20 40 60 Kolmogorv Smirnovin testi R:llä, ks.test(x,"pnorm",mx,sx): testisuure: D = 0.1037, p-arvo= 0.9672 nollahypoteesia aineisto on jakaumasta N(m(x), s 2 (x)) ei hylätä.

Kolmogorovin Smirnovin testi Testin avulla voi testata mitä tahansa muutakin jakaumaoletusta, kuin normaalisuutta. Testin nollahypoteesi väittää, että aineisto on jostakin tietystä jakaumasta, joten nollahypoteesi voi olla syytä hylätä paljon suuremmilla p-arvoilla kuin aiemmin käsitellyissä testeissä. Jos otos on pieni, niin nollahypoteesin hylkäämisen todennäköisyys on pieni, vaikka aineisto ei olisi likimainkaan nollahypoteesin mukaisesta jakaumasta. Erittäin suurilla otoksilla puolestaan todella pienetkin poikkeamat johtavat nollahypoteesin hylkäämiseen, joka ei myöskään ole aina toivottavaa.

Kertauskysymyksiä Mitä eroa on keskiarvolla ja odotusarvolla? Voiko aineiston yläkvartiili olla vähemmän kuin keskiarvo? Milloin keskeinen raja-arvolause toimii? Mikä on luottamusväli? Mikä on p-arvo? Voiko nollahypoteesi olla totta, vaikka p-arvo olisi pieni?

Miten tästä eteenpäin?

Stochastics and Statistics Courses 2015 2016 MS-C2111 S TOKASTISET PROSESSIT MS-E1600 P ROBABILITY THEORY Periodi I, 5 op, tekn. kand. Luennoitsija: Lasse Leskelä Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A000X Matriisilaskenta MS-A020X Differentiaali- ja integraalilaskenta 2 Stokastisilla prosesseilla mallinnetaan tekniikan, talouden ja luonnontieteiden sovelluksissa esiintyviä ajasta riippuvia satunnaisilmiöitä. Tällä kurssilla opimme analysoimaan stokastisia populaatiomalleja Markov-prosessien avulla sekä ennakoimattomien tapahtumien esiintymistä Poisson-prosessien avulla. Lisäksi opimme analysoimaan yksinkertaisten uhkapelien sijoitusstrategioita martingaalien avulla. Tämän kurssin tiedot ovat tärkeitä useimmilla stokastiikan ja tilastotieteen jatkokursseilla. Period III, 5 cr, MSc Lecturer: Prerequisites: MS-C2103 KOESUUNNITTELU JA TILASTOLLISET MALLIT MS-C2128 E NNUSTAMINEN JA AIKASARJA - ANALYYSI la. Kurssin tavoitteena on oppia, kuinka aikasarjoja analysoidaan ja miten niiden avulla laaditaan ennusteita. Kurssi kattaa yleisimmät mallit, kuten ARIMA-mallit ja dynaamiset regressiomallit, mutta myös muita tulosten kannalta oleellisia asioita, kuten diagnostiikan ja mallin valinnan. Kurssilla käytetään R-ohjelmistoa. -Niels Bohr Jos tietyt matemaattiset oletukset täyttyvät, voidaan tehdä käyttökelpoisia ennusteita historiallisten aikasarja-aineistojen perusteel- 30 0 10 "Ennustaminen on vaikeaa, varsinkin tulevaisuuden" 2007 2008 2009 2010 2011 2012 2013 Date MS-E1601 B ROWNIAN MOTION AND STOCHASTIC ANALYSIS Period II, 5 cr, MSc Lecturer: Prerequisites: Lauri Viitasaari MS-E1600 Probability theory (MS-C2111 Stokastiset prosessit) This course introduces the foundations of stochastic analysis and stochastic integration with respect to a Brownian motion. The course starts with a construction of Brownian motion and analysis of its basic properties, and continues with the construction of Ito stochastic integral. We derive the Ito formula which is the equivalent of the fundamental theorem of calculus for stochastic integrals, and discuss its applications to mathematical finance. MS-E1996 M ULTIVARIATE LOCATION AND SCATTER Where is the data? How is it scattered? 15 10 When dealing with multivariate observations, the very first questions that come to mind are: 20 Pauliina Ilmonen At least one matrix algebra and one MSc level statistics/probability course 5 Period II, 5 cr, MSc Lecturer: Prerequisites: 10 15 20 Periodit III IV, 5 op, tekn. kand./di Luennoitsija: Heikki Seppälä Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi Kurssilla esitellään tavallisimpia koejärjestelyitä sekä menetelmiä tilastollisen analyysin tekemiseen. Tavoitteena on oppia valitsemaan sopiva koejärjestely tilastollisen testin toteuttami- seksi, suorittamaan testi ja analysoimaan tulokset. Kurssi kattaa regressioanalyysin perusteet, varianssianalyysin sekä valikoituja koejärjestelyitä, kuten lohkoasetelmat, faktorikokeet sekä vastepintamenetelmän. Kurssilla käytetään R-ohjelmistoa. 20 Tenor basis spread (bp) 40 Periodi II, 5 op, tekn. kand. Luennoitsija: Heikki Seppälä Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A020X Differentiaali- ja integraalilaskenta 2 (MS-C2111 Stokastiset prosessit) Kalle Kytölä MS-C1540 Euklidiset avaruudet This course is about the mathematical foundations of randomness. Most advanced topics in stochastics and statistics rely on probability theory. The basic constructions are identical to measure theory, but there are a number of distinctly probabilistic features such as independence, notions of convergence of random variables, information contained in a sigma-algebra, conditional expectation, characteristic functions and generating functions, laws of large numbers and central limit theorems, etc. These questions are discussed together with selected applications. This is an advanced course in statistics for MSc and doctoral students. Only 10 students are admitted to this course, so email the lecturer ASAP to register. Topics include: M-estimates of location and scatter, MCD-estimates, spatial sign and rank based estimates, multivariate location tests, autocovariance matrices and applications, PCA using different location and scatter estimates, multivariate regression analysis based on spatial signs and ranks, scatter matrix based ICA, complex time series ICA, ICS and skewness and kurtosis. MS-C2104 T ILASTOLLISEN ANALYYSIN PERUSTEET Periodit III IV, 5 op, tekn. kand./di Luennoitsija: Pauliina Ilmonen Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A000X Matriisilaskenta Kurssi on johdatus tietokoneavusteiseen tilastolliseen analyysiin ja tilastolliseen päättelyyn. Kurssin aiheita ovat estimointi ja väliestimointi, yksinkertaiset parametriset ja epäparametriset testit, tilastollinen riippuvuus ja korrelaatio, lineaarinen regressioanalyysi ja varianssianalyysi. Kurssilla käytetään R-ohjelmistoa. MS-E2112 M ULTIVARIATE STATISTICAL ANALYSIS Periods III IV, 5 cr, MSc Lecturer: Pauliina Ilmonen Prerequisites: At least one statistics/probability and one matrix algebra course This course is an introduction to multivariate statistical analysis. The goal is to learn basics of common multivariate data analy- sis techniques and to use the methods in practice. Software R is used in the exercises of this course. The topics of the course are multivariate location and scatter, principal component analysis, bivariate correspondence analysis, multivariate correspondence analysis, canonical correlation analysis, discriminant analysis, classification, and clustering. MS-E1602 L ARGE RANDOM SYSTEMS Period IV, 5 cr, MSc Lecturers: Lasse Leskelä and Kalle Kytölä Prerequisites MS-E1600 Probability theory, (MS-C2111 Stokastiset prosessit) Many interesting random systems contain a large number of simpler constituents interacting with each other. This course covers both mathematical techniques for the study of such systems, and important probabilistic models of a range of different phenomena. The theory focuses on tightness and weak convergence of probability measures. Examples include random walk and Brownian motion, percolation, Curie-Weiss model and Ising model, and voter model and contact process.

Kurssi päättyy tähän. Kiitoksia osallistumisesta ja onnea välikokeisiin!

Aineistolähteet Luentokalvot pohjautuvat osittain kurssin edellisten vuosien (Ilkka Mellin, Milla Kibble, Juuso Liesiö) luentokalvoihin.