2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

Samankaltaiset tiedostot
Mat Tilastollisen analyysin perusteet, kevät 2007

Regressioanalyysi. Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

8.3. Yleinen lineaarinen malli ja yleistetty pienimmän neliösumman menetelmä

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yleinen lineaarinen malli. Yleinen lineaarinen malli. Yleinen lineaarinen malli: Mitä opimme? 2/4. Yleinen lineaarinen malli: Mitä opimme?

Mat Tilastollisen analyysin perusteet, kevät 2007

Yhden selittäjän lineaarinen regressiomalli: Lisätiedot. Yhden selittäjän lineaarinen regressiomalli

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Johdatus regressioanalyysiin. Heliövaara 1

Osa 2: Otokset, otosjakaumat ja estimointi

S Laskennallinen systeemibiologia

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Regressiodiagnostiikka. Regressiodiagnostiikka. Regressiodiagnostiikka: Mitä opimme? 2/2. Regressiodiagnostiikka: Mitä opimme? 1/2

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Regressiomallin valinta. Regressiomallin valinta. Regressiomallin valinta: Esitiedot. Regressiomallin valinta: Mitä opimme?

Yleinen lineaarinen malli

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

2. Teoriaharjoitukset

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Harjoitus 9: Excel - Tilastollinen analyysi

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

8. laskuharjoituskierros, vko 11, ratkaisut

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Moniulotteisia todennäköisyysjakaumia

EX1 EX 2 EX =

Tilastolliset menetelmät: Tilastolliset testit

Yhden selittäjän lineaarinen regressiomalli

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Harjoitusten 4 vastaukset

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2004) 1

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Satunnaismuuttujien muunnokset ja niiden jakaumat. Satunnaismuuttujien muunnokset ja niiden jakaumat

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

1 Eksponenttifunktion määritelmä

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

5.3 Matriisin kääntäminen adjungaatilla

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

Korrelaatiokertoinen määrittely 165

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Mat Lineaarinen ohjelmointi

Johdatus regressioanalyysiin. Johdatus regressioanalyysiin. Johdatus regressioanalyysiin: Mitä opimme? 2/3

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

4.0.2 Kuinka hyvä ennuste on?

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Todennäköisyyden ominaisuuksia

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Osa 2: Otokset, otosjakaumat ja estimointi

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Harjoitusten 5 vastaukset

2-suuntainen vaihtoehtoinen hypoteesi

6.1 Riippumattomat satunnaismuuttujat

Testit laatueroasteikollisille muuttujille

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

9. laskuharjoituskierros, vko 12-13, ratkaisut

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

( ) k 1 = a b. b 1) Binomikertoimen määritelmän mukaan yhtälön vasen puoli kertoo kuinka monta erilaista b-osajoukkoa on a-joukolla.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Mat Sovellettu todennäköisyyslaskenta B 5. harjoitukset / Ratkaisut Aiheet: Jatkuvia jakaumia Avainsanat: Jatkuvia jakaumia

Transkriptio:

Moimuuttujameetelmät: Ilkka Melli. Yleise lieaarise malli määrittelemie.. ja malli oletukset.. Yleise lieaarise malli matriisiesitys. Yleise lieaarise malli parametrie estimoiti.. Parametrie estimoiti.. Regressiokertoimie estimoiti kovariasseista ja korrelaatioista 3. Testaus ja eustamie yleisessä lieaarisessa mallissa 3.. Regressiokertoimia koskevat testit 3.. Eustamie yleisellä lieaarisella mallilla 4. Edistyeempää lieaarista regressioaalyysia 4.. PNS-estimaattori hyvyys 4.. Yleistetty pieimmä eliösumma meetelmä 4.3. Lieaariset rajoitukset 4.4. Stokastiset selittäjät TKK Ilkka Melli (007) /67

Moimuuttujameetelmät:. Yleise lieaarise malli määrittelemie.. ja malli oletukset YLEINEN LINEAARINEN MALLI SELITTÄVÄT MUUTTUJAT JA NIIDEN ARVOJA KOSKEVAT OLETUKSET JÄÄNNÖSTERMI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄ MUUTTUJA JA SEN ARVOJEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMET JA NIITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN MALLIN PARAMETRIT YLEISEN LINEAARISTA MALLIN STANDARDIOLETUKSET.. Yleise lieaarise malli matriisiesitys MATRIISIESITYS YLEISELLE LINEAARISEN MALLILLE SELITTÄJIEN HAVAITTUJEN ARVOJEN MATRIISI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄN MUUTTUJAN HAVAITTUJEN ARVOJEN VEKTORI JA SEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN REGRESSIOMALLIN PARAMETRIT YLEISEN LINEAARISEN MALLIN STANDARDIOLETUKSET MATRIISIMUODOSSA. Yleise lieaarise malli parametrie estimoiti.. Parametrie estimoiti OLETUKSET REGRESSIOKERTOIMIEN PNS-ESTIMAATTORIT REGRESSIOKERTOIMIEN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORIT ESTIMOITU REGRESSIOTASO REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN STOKASTISET OMINAISUUDET SOVITTEET SOVITTEIDEN OMINAISUUDET RESIDUAALIT, RESIDUAALIEN OMINAISUUDET SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET JÄÄNNÖSVARIANSSIN HARHATON ESTIMAATTORI TKK Ilkka Melli (007) /67

JÄÄNNÖSVARIANSSIN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORI REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN VARIANSSIEN ESTIMOINTI REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT VARIANSSIANALYYSIHAJOTELMA VARIANSSIANALYYSIHAJOTELMAN TULKINTA SELITYSASTE SELITYSASTEEN OMINAISUUDET.. Regressiokertoimie estimoiti kovariasseista ja korrelaatioista OLETUKSET REGRESSIOKERTOIMIEN ESTIMOINTI KOVARIANSSEISTA REGRESSIOKERTOIMIEN ESTIMOINTI KORRELAATIOISTA 3. Testaus ja eustamie yleisessä lieaarisessa mallissa 3.. Regressiokertoimia koskevat testit OLETUKSET REGRESSIOKERTOIMIA KOSKEVAT TESTIT REGRESSION OLEMASSAOLON TESTAAMINEN YKSITTÄISTEN REGRESSIOKERTOIMIEN TESTAAMINEN TESTIT JA MALLIN VALINTA ASKELLUS ALASPÄIN 3.. Eustamie yleisellä lieaarisella mallilla OLETUKSET ENNUSTAMISONGELMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN ENNUSTEVIRHE SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI 4. Edistyeempää lieaarista regressioaalyysia 4.. PNS-estimaattori hyvyys OLETUKSET PNS-ESTIMAATTORIN HYVYYS GAUSSIN JA MARKOVIN LAUSE 4.. Yleistetty pieimmä eliösumma meetelmä OLETUKSET YLEISTETTY PIENIMMÄN NELIÖSUMMAN ESTIMAATTORI YLEISTETYN PNS-ESTIMAATTORIN OMINAISUUDET YLEISTETYN PNS-ESTIMAATTORIN HYVYYS TKK Ilkka Melli (007) 3/67

4.3. Lieaariset rajoitukset OLETUKSET RAJOITETTU PIENIMMÄN NELIÖSUMMAN ESTIMAATTORI RAJOITETUN PNS-ESTIMAATTORIN OMINAISUUDET RAJOITETUN PNS-ESTIMAATTORIN PAREMMUUS RAJOITUKSIEN TESTAAMINEN 4.4. Stokastiset selittäjät OLETUKSET KIINTEÄT JA SATUNNAISET SELITTÄJÄT EHDOLLISTAMINEN TKK Ilkka Melli (007) 4/67

. Yleise lieaarise malli määrittelemie.. ja malli oletukset Usea selittäjä lieaarisessa regressiomallissa eli yleisessä lieaarisessa mallissa () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ o seuraavat osat: y t = selitettävä muuttuja y satuaie ja havaittu arvo havaiossa t x ti = selittävä muuttuja x i, i =,,, k, kiiteä (ei-satuaie) ja havaittu arvo havaiossa t β 0 = vakioselittäjä regressiokerroi, kiiteä (ei-satuaie) ja tutemato vakio β i = selittäjä x i, i =,,, k, regressiokerroi, kiiteä (ei-satuaie) ja tutemato vakio ε t = jääöstermi ε satuaie ja ei-havaittu arvo havaiossa t Malli () kuvaa selitettävä muuttuja y havaittuje arvoje y t lieaarista tilastollista riippuvuutta selittävie muuttujie eli selittäjie x, x,, x k havaituista arvoista x t, x t,, x tk. Malli () tavoitteea o selittää muuttuja y havaittuje arvoje vaihtelu muuttujie x, x,, x k havaittuje arvoje vaihtelu avulla. Huomautus : Malli () lieaarisuudella tarkoitetaa sitä, että malli o lieaarie regressiokertoimie β 0, β, β,, β k suhtee, mutta o syytä huomata, että malli o lieaarie myös selittäjie x, x,, x k arvoje suhtee. Huomautus : Selitettävä muuttuja y oletetaa mitta-asteikollisilta omiaisuuksiltaa jatkuvaksi. Huomautus 3: Vakio β 0 o vakioselittäjä (selittäjä, joka jokaie havaitoarvo = ) regressiokerroi. Vakioselittäjä ei ole samassa mielessä aito selittäjä kui muuttujat x, x,, x k. Huomautus 4: Kaikki yleise lieaarise malli () estimoitia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole vakioselittäjää. Selittävät muuttujat ja iide arvoja koskevat oletukset Yleise lieaarise malli () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ selittävie muuttujie x i havaitut arvot x ti oletetaa kiiteiksi eli ei-satuaisiksi. Tiukasti ottae tämä ehto voi toteutua vai sellaisissa tilateissa, joissa selittäjie arvot valitaa. TKK Ilkka Melli (007) 5/67

Tietyi ehdoi selittävie muuttujie satuaisuudella ei kuitekaa ole vaikutusta tässä luvussa esitettävii tuloksii; ks. kappaletta 4.4. Selittäjie x i havaituista arvoista x ti tehdää tavallisesti lisäksi oletus, joka takaa se, että regressiokertoimilla β 0, β, β,, β k o yksikäsitteiset pieimmä eliösumma estimaattorit. Muodostetaa jokaise selittäjä x i havaituista arvoista x ti, t =,,,, -vektori ja olkoo x i = (x i, x i,, x i ), i =,,, k = (,,, ) ykköste muodostama -vektori. Oletus, joka takaa se, että regressiokertoimilla β 0, β, β,, β k o yksikäsitteiset pieimmä eliösumma estimaattorit o se, että vektorit x, x,, x p ja ovat lieaarisesti riippumattomia. Jos oletus vektoreide x, x,, x p ja lieaarisesta riippumattomuudesta ei päde, aiaki yksi vektoreista x, x,, x p ja voidaa lausua muide lieaarikombiaatioa, jolloi vastaava selittäjä o redudatti ja se voidaa poistaa mallista. Huomautus: Oletus vektoreide x, x,, x p ja lieaarisesta riippumattomuudesta merkitsee sitä, että havaitoja o oltava vähitää yhtä paljo kui selittäjiä eli että k+. Jääöstermit ja iitä koskevat oletukset Yleise lieaarise malli () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ jääöstermit ε t ovat ei-havaittuja satuaismuuttujia. Jääöstermeistä ε t oletetaa, että () E(ε t ) = 0, t =,,, (3) D (ε t ) = σ, t =,,, (4) Cov(ε s, ε t ) = 0, jos s t Jos lisäksi oletetaa, että jääöstermit ε t oudattavat ormaalijakaumaa, ii oletuksista () ja (3) seuraa, että (5) ε t N(0, σ ), t =,,, Jääöstermejä koskevie oletuksie tulkita Oletukse () mukaa kaikilla jääöstermeillä ε t o sama odotusarvo: E(ε t ) = 0, t =,,, Jääöstermit ε t vaihtelevat satuaisesti havaiosta toisee, mutta olla ympärillä. Oletukse (3) mukaa kaikilla jääöstermeillä ε t o sama variassi: D (ε t ) = σ, t =,,, TKK Ilkka Melli (007) 6/67

Tätä oletusta kutsutaa homoskedastisuusoletukseksi. Jos jääöstermie ε t variassi vaihtelee havaiosta toisee, jääöstermit ovat heteroskedastisia. Jääöstermie yhteistä variassia σ kutsutaa malli jääösvariassiksi. Oletukse (4) mukaa jääöstermit ovat korreloimattomia. Selitettävä muuttuja ja se arvoje stokastiset omiaisuudet Yleise lieaarise malli () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ selitettävä muuttuja y havaitut arvot y t ovat satuaisia. Jääöstermeistä ε t edellä tehdyistä oletuksista ()-(4) ja siitä, että selittäjie x, x,, x k havaitut arvot x t, x t,, x tk o oletettu ei-satuaisiksi seuraa, että selitettävä muuttuja y havaituilla arvoilla y t o seuraavat stokastiset omiaisuudet: () E(y t ) = β 0 + β x t + β x t + + β k x tk, t =,,, (3) D (y t ) = σ, t =,,, (4) Cov(y s, y t ) = 0, jos s t Jos jääöstermit ε t oudattavat ormaalijakaumaa, ii myös selitettävä muuttuja y havaitut arvot y t oudattavat ormaalijakaumaa: (5) y t N(E(y t ), σ ), t =,,, Perustelu: () Koska selittäjie x, x,, x k havaitut arvot x t, x t,, x tk ja regressiokertoimet β 0, β, β,, β k o oletettu ei-satuaisiksi ja E(ε t ) = 0, t =,,, ii E( yt) = E( β0 + βxt+ βxt + + βkxtk + εt) = β0 + βxt+ βxt + + βkxtk + E( εt) = β + β x + β x + + β x, t =,,, 0 t t k tk (3) Kohdasta () ja siitä, että D (ε t ) = σ, t =,,, seuraa, että Var( t) = E[( t E( t)) ] = E[ εt ] = Var( εt) = σ, =,,, y y y t (4) Kohdasta () ja siitä, että Cov(ε s, ε t ) = 0, jos s t seuraa, että Cov( y, y ) = E[( y E( y ))( y E( y ))] = E[ ε ε ] = Cov( ε, ε ) = 0 jos s t. s t s s t t s t s t TKK Ilkka Melli (007) 7/67

(5) Väite seuraa kohdista () -(4) sekä siitä, että satuaismuuttuja y t oudattaa ormaalijakaumaa, koska y t o ormaalijakaumaa oudattava satuaismuuttuja ε t lieaarimuuos. Yleise lieaarise malli systemaattie osa ja satuaie osa Jääöstermeistä ε t tehdyistä oletuksista ja siitä, että selittäjät x, x,, x k o oletettu eisatuaisiksi seuraa, että yleie lieaarie malli () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ voidaa kirjoittaa muotoo y t = E(y t ) + ε t, t =,,, jossa odotusarvo E(y t ) = β 0 + β x t + β x t + + β k x tk, t =,,, o vakio, joka riippuu selittäjie x, x,, x k saamista arvoista havaiossa t ja jääöstermi ε t, t =,,, o satuaismuuttuja, joka ei riipu selittäjie x, x,, x k saamista arvoista havaiossa t. Site yleise lieaarise malli () selitettävä muuttuja y saamat arvot y t o esitetty mallissa kahde osatekijä summaa, jossa osatekijää E(y t ) = β 0 + β x t + β x t + + β k x tk, t =,,, kutsutaa malli systemaattiseksi (tai selittäjie arvoista riippuvaksi) osaksi ja osatekijää ε t, t =,,, kutsutaa malli satuaiseksi (tai selittäjie arvoista riippumattomaksi) osaksi. Systemaattie osa E(y t ) o lieaarie sekä regressiokertoimie β 0, β, β,, β k että selittäjie x, x,, x k arvoje suhtee. Regressiotaso Yleise lieaarise malli () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ systemaattie osa E(y t ) = β 0 + β x t + β x t + + β k x tk, t =,,, määrittelee taso y = β 0 + β x + β x t + + β k x k k + avaruudessa. Malli systemaattise osa määräämää tasoa kutsutaa regressiotasoksi. Jääösvariassi σ mittaa selitettävä muuttuja arvoje vaihtelua regressiotaso ympärillä. TKK Ilkka Melli (007) 8/67

Regressiokertoimet ja iitä koskevat oletukset Yleise lieaarise malli () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ regressiokertoimet β 0, β, β,, β k ovat ei-satuaisia tutemattomia vakioita. Vakioparametrisuusoletus Ku yleie lieaarie malli esitetää muodossa () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ oletetaa implisiittisesti, että regressiokertoimet β 0, β, β,, β k ovat samat kaikille havaioille t. Tätä oletusta kutsutaa vakioparametrisuusoletukseksi. Regressiokertoimie tulkita Oletetaa, että jokaisella selittävällä muuttujalla x i o vakioarvo x i, i =,,, k. Tällöi yleise lieaarise malli y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ selitettävä muuttuja y saama arvo systemaattisella osalla E(y t ) = β 0 + β x t + β x t + + β k x tk, t =,,, o vakioarvo y = E( y) = β0 + βx+ βx + + βkxk Oletetaa, että selitettävä muuttuja x i arvo x i kasvaa yhdellä yksiköllä: x x + i i ja kaikkie muide selittäjie arvot pysyvät eallaa. Tällöi selitettävä muuttuja y saama arvo systemaattie osa y = E(y) muuttuu regressiokertoime β i verra: y y+ β i Site regressiokerroi β i kertoo paljoko sitä vastaava selittäjä x i arvossa tapahtuva yksikö kokoie lisäys muuttaa selitettävä muuttuja y saama arvo systemaattista osaa. Yleise lieaarise malli parametrit Yleise lieaarise malli () parametreja ovat regressiokertoimet β 0, β, β,, β k ja jääösvariassi σ. TKK Ilkka Melli (007) 9/67

Yleise lieaarise malli stadardioletukset Usea selittäjä lieaarisessa regressiomallissa eli yleisessä lieaarisessa mallissa () y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ o seuraavat osat: y t = selitettävä muuttuja y satuaie ja havaittu arvo havaiossa t x ti = selittäjä x i, i =,,, k, ei-satuaie ja havaittu arvo havaiossa t β 0 = vakioselittäjä ei-satuaie ja tutemato regressiokerroi β i = selittäjä x i, i =,,, k, ei-satuaie ja tutemato regressiokerroi ε t = satuaie ja ei-havaittu jääöstermi havaiossa t Seuraavia oletuksia kutsutaa yleise lieaarise malli () stadardioletuksiksi: (i) Selittäjie x i arvot x ti ovat ei-satuaisia, t =,,,, i =,,, k. (ii) -vektorit x i = (x i, x i,, x i ), i =,,, k ja -vektori = (,,, ) ovat lieaarisesti riippumattomia. (iii) E(ε t ) = 0, t =,,, (iv) D (ε t ) = σ, t =,,, (v) Cov(ε s, ε t ) = 0, jos s t Usei oletuksii (i)-(v) liitetää vielä jääöstermejä ε t koskeva ormaalisuusoletus: (vi) ε t N(0, σ ), t =,,,.. Yleise lieaarise malli matriisiesitys Matriisiesitys yleiselle lieaariselle mallille Yleise lieaarise malli y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,,, k+ matriisiesitys saadaa seuraavalla tavalla: (i) Muodostetaa selitettävä muuttuja y havaituista arvoista -vektori y, y,, y y = (y, y,, y ) TKK Ilkka Melli (007) 0/67

(ii) Muodostetaa selittävie muuttujie x, x,, x k havaituista arvoista (k + )-matriisi x, x,, x ; x, x,, x ; ; x k, x k,, x k X x x x k x x x x x xk k = (iii) Muodostetaa regressiokertoimista β 0, β, β,, β k (k+)-vektori β = (β 0, β, β,, β k ) (iv) Muodostetaa jääöstermeistä ε, ε,, ε -vektori ε = (ε, ε,, ε ) Tällöi yleie lieaarie malli voidaa esittää matriisei seuraavassa muodossa: () y = Xβ + ε Mallissa () vektorit y ja ε ovat satuaisvektoreita, ku taas matriisi X ja vektori β ovat eisatuaisia, vektori y ja matriisi X ovat havaittuja, ku taas vektorit ε ja β ovat ei-havaittuja tai tutemattomia. Ositetaa selittäjie x, x,, x k havaituista arvoista muodostettu (k+)-matriisi X seuraavalla tavalla: missä X = [ X ] = (,,, ) o ykköste muodostama -vektori ja X x x x k x x x x x xk k = o selittäjie x, x,, x k havaittuje arvoje x ti, t =,,,, i =,,, k muodostama k-matriisi. Olkoo z t = (, x t ), t =,,, matriisi X t. rivi alkioide, x t, x t,, x tk muodostama (k+)-vektori, missä x t = (x t, x t,, x tk ), t =,,, o selittäjie x, x,, x k havaittuje arvoje x t, x t,, x tk muodostama k-vektori havaiossa t. Vektori x t o k-matriisi X t. rivivektori. TKK Ilkka Melli (007) /67

Olkoo x i = (x i, x i,, x i ), i =,,, k matriisi X i. sarakkee alkioide x i, x i,, x i muodostama -vektori. Vektori x i muodostuu selittäjä x i havaituista arvoista. Matriisi X voidaa esittää sarakevektoreidesa, x, x,, x k avulla seuraavalla tavalla ositettua: X = [ x x x k ] Ositetaa regressiokertoimie vektori β vastaavalla tavalla kui vektori z t : β = (β 0, β ) missä β 0 o vakioselittäjä regressiokerroi ja β = (β, β,, β k ) aitoje selittäjie x, x,, x k regressiokertoimie β, β,, β k muodostama k-vektori. Tällöi yleie lieaarie malli () voidaa esittää muodoissa y = Xβ + ε = β 0 + X β + ε ja yt = β zt + εt = β0 + β xt i + εt, t =,,, Huomautus : Malli () o lieaarie regressiokertoimie vektori β suhtee. Huomautus : Koska matriisi X esimmäiseä sarakkeea o ykköste muodostama -vektori = (,,, ) mallissa () o vakioselittäjä. Vakioselittäjää vastaa regressiokerroi β 0. Vakioselittäjä ei ole samassa mielessä aito selittäjä kui muuttujat Huomautus 3: x, x,, x k Kaikki yleise lieaarise malli () estimoitia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole selittäjää vakiota. Selittäjie havaittuje arvoje matriisi ja sitä koskevat oletukset Yleise lieaarise malli () y = Xβ + ε selittäjie havaittuje arvoje matriisi X oletetaa kiiteäksi eli ei-satuaiseksi. Matriisista X tehdää tavallisesti oletus, joka takaa se, että regressiokertoimie vektorilla β o yksikäsitteie pieimmä eliösumma estimaattori. Matriisista X tehtävä oletus o se, että matriisi X sarakevektoreide pitää olla lieaarisesti riippumattomia eli matriisi X pitää olla täysiasteie: r(x) = k+ TKK Ilkka Melli (007) /67

Huomautus: Oletus matriisi X sarakevektoreide lieaarisesta riippumattomuudesta merkitsee sitä, että havaitoja pitää olla vähitää yhtä paljo kui selittäjiä eli että k+. Jääöstermie vektori ja sitä koskevat oletukset Yleise lieaarise malli () y = Xβ + ε jääöstermi ε o ei-havaittu satuaismuuttuja, jota koskevat oletukset voidaa esittää muodossa () E(ε) = 0 (3)-(4) Cov(ε) = σ I Jos lisäksi oletetaa, että jääöstermi ε oudattaa multiormaalijakaumaa, ii oletuksista () ja (3)-(4) seuraa, että (5) ε N (0, σ I) Jääöstermejä koskevie oletuksie tulkita Oletukse () mukaa kaikilla jääöstermeillä ε t o sama odotusarvo: E(ε t ) = 0, t =,,, Site jääöstermit ε t vaihtelevat satuaisesti havaiosta toisee, mutta olla ympärillä. Oletukse (3)-(4) mukaa jääöstermit ε t ovat korreloimattomia ja lisäksi kaikilla jääöstermeillä o sama variassi: D (ε t ) = σ, t =,,, Oletusta D (ε t ) = σ, t =,,,, kutsutaa homoskedastisuusoletukseksi. Jos jääöstermie ε t variassi vaihtelee havaiosta toisee, jääöstermit ovat heteroskedastisia. Jääöstermie yhteistä variassia σ kutsutaa malli jääösvariassiksi. Selitettävä muuttuja havaittuje arvoje vektori ja se stokastiset omiaisuudet Yleise lieaarise malli () y = Xβ + ε selitettävä muuttuja y havaittuje arvoje vektori y o satuaie. Jääöstermistä ε tehdyistä oletuksista () ja (3) ja siitä, että matriisi X o oletettu ei-satuaiseksi seuraa, että selitettävä muuttuja y havaittuje arvoje vektorilla y o seuraavat stokastiset omiaisuudet: () E(y) = Xβ (3) -(4) Cov(y) = σ I Jos jääöstermi ε oudattaa multiormaalijakaumaa, ii myös selitettävä muuttuja y havaittuje arvoje vektori y oudattaa multiormaalijakaumaa: (5) y N (Xβ, σ I) TKK Ilkka Melli (007) 3/67

Perustelu: () Koska X ja β ovat ei-satuaisia ja E(ε) = 0 ii E( y) = E( Xβ+ ε) = Xβ+ E( ε) = Xβ (3) -(4) Kovariassimatriisi määritelmästä, kohdasta () ja siitä, että Cov(ε) = σ I seuraa, että Cov( y) = E[( y E( y))( y E( y)) ] = E[ εε ] = Cov( ε) = σ I (5) Väite seuraa kohdista () ja (3) -(4) sekä siitä, että satuaismuuttuja y oudattaa multiormaalijakaumaa, koska y o multiormaalijakaumaa oudattava satuaismuuttuja ε lieaarimuuos. Yleise lieaarise malli systemaattie osa ja satuaie osa Jääöstermistä ε tehdyistä oletuksista ja siitä, että matriisi X o oletettu ei-satuaiseksi seuraa, että yleie lieaarie malli () y = Xβ + ε voidaa kirjoittaa muotoo y = E(y) + ε jossa odotusarvo E(y) = Xβ o vakio, joka riippuu selittäjie x, x,, x k saamie arvoje matriisista X ja jääöstermi ε o satuaismuuttuja, joka ei riipu selittäjie saamista arvoista. Site yleise lieaarise malli () selitettävä muuttuja arvoje vektori y o esitetty kahde osatekijä summaa, jossa osatekijää E(y) = Xβ kutsutaa malli systemaattiseksi (tai selittäjie arvoista riippuvaksi) osaksi ja osatekijää ε kutsutaa malli satuaiseksi (tai selittäjie arvoista riippumattomaksi) osaksi. Systemaattie osa E(y) o lieaarie regressiokertoimie vektori β suhtee. TKK Ilkka Melli (007) 4/67

Regressiotaso Yleise lieaarise malli () y = Xβ + ε systemaattie osa E(y) = Xβ määrittelee taso () y = β z = β 0 + βx (k+)-ulotteisessa avaruudessa k +. Yhtälössä () β = (β 0, β, β,, β k ) = (β 0, β ) o regressiokertoimie muodostama (k+)-vektori, missä β 0 o vakioselittäjä regressiokerroi ja β = (β, β,, β k ) aitoje selittäjie x, x,, x k regressiokertoimie β, β,, β k muodostama k-vektori ja z = (, x) k o (k+)-vektori, missä k-vektori x = (x, x,, x k ). Tasoa () kutsutaa regressiotasoksi. Jääösvariassi σ mittaa selitettävä muuttuja arvoje vaihtelua regressiotaso () ympärillä. Regressiokertoimie vektori ja sitä koskevat oletukset Yleise lieaarise malli () y = Xβ + ε regressiokertoimie vektori β o tutemattomie ei-satuaiste vakioide muodostama (k+)-vektori. Vakioparametrisuusoletus Ku yleie lieaarie malli esitetää muodossa y t = β z t + ε t, t =,,, oletetaa implisiittisesti, että regressiokertoimie vektori β o sama kaikille havaioille t. Tätä oletusta kutsutaa vakioparametrisuusoletukseksi. Regressiokertoimie tulkita Oletetaa, että jokaisella selittävällä muuttujalla x i o vakioarvo x i, i =,,, k. Tällöi yleise lieaarise malli y t = β 0 + β x t + β x t + + β k x tk + ε t, t =,,, selitettävä muuttuja y saama arvo systemaattisella osalla E(y t ) = β 0 + β x t + β x t + + β k x tk, t =,,, o vakioarvo TKK Ilkka Melli (007) 5/67

y = y = β + β x + β x + + β x E( ) 0 k k Oletetaa, että selitettävä muuttuja x i arvo x i kasvaa yhdellä yksiköllä: x x +, i =,,, k i i ja kaikkie muide selittäjie arvot pysyvät eallaa. Tällöi selitettävä muuttuja y saama arvo systemaattie osa y = E(y) muuttuu regressiokertoime β i verra: y y+ β, i =,,, k i Site regressiokerroi β i kertoo paljoko sitä vastaava selittäjä x i arvossa tapahtuva yksikö kokoie lisäys muuttaa selitettävä muuttuja y saama arvo systemaattista osaa. Yleise lieaarise malli parametrit Yleise lieaarise malli () parametreja ovat regressiokertoimie vektori β ja jääösvariassi σ. Yleise lieaarise malli stadardioletukset matriisimuodossa Matriisimuotoisessa usea selittäjä lieaarisessa regressiomallissa eli yleisessä lieaarisessa mallissa () y = Xβ + ε o seuraavat osat: y = satuaie ja havaittu selitettävä muuttuja y arvoje y t muodostama -vektori, t =,,, X = ei-satuaie ja havaittu selittäjie x, x,, x k arvoje x ti muodostama (k+)-matriisi, missä. sarakkeea o -vektori = (,,, ), t =,,,, i =,,, k, k+ β = (β 0, β, β,, β k ) = regressiokertoimie muodostama eisatuaie ja tutemato (k+)-vektori, missä β 0 o vakioselittäjä regressiokerroi ja β, β,, β k ovat aitoje selittäjie x, x,, x k regressiokertoimet ε = satuaie ja ei-havaittu jääöstermie ε t muodostama -vektori, t =,,, Seuraavia oletuksia kutsutaa yleise lieaarise malli () stadardioletuksiksi: (i) Matriisi X o ei-satuaie. (ii) r(x) = k+ (iii) E(ε) = 0 (iv)-(v) Cov(ε) = σ I Usei oletuksii (i)-(v) liitetää vielä jääöstermiä ε t koskeva ormaalisuusoletus: (vi) ε N (0, σ I) TKK Ilkka Melli (007) 6/67

. Yleise lieaarise malli parametrie estimoiti.. Parametrie estimoiti Oletukset Olkoo () y = Xβ + ε usea selittäjä lieaarie regressiomalli eli yleie lieaarie malli, jossa y = satuaie ja havaittu selitettävä muuttuja y arvoje y t muodostama -vektori, t =,,, X = ei-satuaie ja havaittu selittäjie x, x,, x k arvoje x ti muodostama (k+)-matriisi, missä. sarakkeea o -vektori = (,,, ), t =,,,, i =,,, k, k+ β = (β 0, β, β,, β k ) = regressiokertoimie muodostama eisatuaie ja tutemato (k+)-vektori, missä β 0 o vakioselittäjä regressiokerroi ja β, β,, β k ovat aitoje selittäjie x, x,, x k regressiokertoimet ε = satuaie ja ei-havaittu jääöstermie ε t muodostama -vektori, t =,,, Seuraavia oletuksia kutsutaa yleise lieaarise malli () stadardioletuksiksi: (i) Matriisi X o ei-satuaie. (ii) r(x) = k+ (iii) E(ε) = 0 (iv)-(v) Cov(ε) = σ I Usei oletuksii (i)-(v) liitetää vielä jääöstermiä ε t koskeva ormaalisuusoletus: (vi) ε N (0, σ I) Regressiokertoimie PNS-estimaattorit Yleise lieaarise malli () y = Xβ + ε regressiokertoimie vektori β estimoidaa tavallisesti pieimmä eliösumma meetelmällä eli PNS-meetelmällä. Pieimmä eliösumma meetelmässä eliösumma εε = ε = ( y Xβ)( y Xβ ) i= i miimoidaa regressiokertoimie vektori β suhtee. Miimi löydetää derivoimalla eliömuoto ε ε vektori β suhtee ja merkitsemällä derivaatta ollaksi. TKK Ilkka Melli (007) 7/67

Derivoiti johtaa ormaaliyhtälöö X Xβ = X y Tällä yhtälöllä o yksikäsitteie ratkaisu vektori β suhtee, jos matriisista X tehty oletus r(x) = k+ pätee. Ratkaisuksi saadaa regressiokertoimie vektori β pieimmä eliö-summa (PNS-) estimaattori b = (X X) X y Perustelu: Derivoidaa eliösumma εε = ε = ( y Xβ)( y Xβ) = yy β Xy + β XXβ i= i vektori β suhtee ja merkitää derivaatta ollaksi: () εε = Xy + X Xβ = 0 β Jos r(x) = k+, ii r(x X) = k+ ja matriisi X X o site epäsigulaarie. Tällöi yhtälöstä saatavalla ormaaliyhtälöllä X Xβ = X y o ratkaisu β = b= ( XX ) Xy Saatu ratkaisu ataa eliömuodo ε ε miimi, koska εε = XX ββ ja matriisi X X o positiivisesti defiiitti eli X X > 0 Olkoo z t = (, x t ), t =,,, matriisi X t. rivi alkioide muodostama (k+)-vektori, missä x t = (x t, x t,, x tk ), t =,,, o aitoje selittäjie x, x,, x k havaittuje arvoje x t, x t,, x tk muodostama k-vektori havaiossa t ja olkoo y t o selitettävä muuttuja y havaittu arvo havaiossa t. Regressiokertoimie vektori β pieimmä eliösumma estimaattori b voidaa esittää äitä merkitöjä käyttäe muodossa b = z z z y ti ti ti t t= t= TKK Ilkka Melli (007) 8/67

Regressiokertoimie suurimma uskottavuude estimaattorit Oletetaa, että yleise lieaarise malli () y = Xβ + ε stadardioletuksie (i)-(v) lisäksi jääöstermiä ε koskeva ormaalisuusoletus (vi) pätee. Tällöi regressiokertoimie vektori β suurimma uskottavuude estimaattori yhtyy vektori β PNS-estimaattorii b = (X X) X y Perustelu: Koska olemme olettaeet, että ε N (0, σ I) ii y N (Xβ, σ I) Site otokse y uskottavuusfuktio o muotoa / L( β, σ ) = ( π) σ exp ( y Xβ)( y Xβ ) σ ja vastaava logaritmie uskottavuusfuktio o muotoa l( β, σ ) = log L( β, σ ) = log( π) log( σ ) ( y Xβ) ( y Xβ ) σ Logaritmise uskottavuusfuktio l( β, σ ) lausekkeesta ähdää välittömästi, että fuktio l( β, σ ) maksimoiti parametri β suhtee o yhtäpitävää eliösumma εε = ε = ( y Xβ)( y Xβ ) i= miimoii kassa. i Estimoitu regressiotaso Olkoo b = (b 0, b, b,, b k ) = (b 0, b ) yleise lieaarise malli () regressiokertoimie vektori β = (β 0, β, β,, β k ) PNSestimaattoreide muodostama (k+)-vektori, missä b 0 o vakioselittäjä regressiokertoime β 0 PNS-estimaattori ja b = (b, b,, b k ) o aitoje selittäjie x, x,, x k regressiokertoimie β, β,, β k PNS-estimaattoreide muodostama k-vektori. TKK Ilkka Melli (007) 9/67

Määritellää (k+)-vektori z = (, x) k missä k-vektori x = (x, x,, x k ). Yhtälö y b b bx b x b x () = bz= 0 + bx = 0 + + + + k k määrittelee taso (k + )-ulotteisessa avaruudessa regressiotasoksi. Olkoo yt t = y = k +. Tasoa () kutsutaa estimoiduksi selitettävä muuttuja y havaittuje arvoje y t aritmeettie keskiarvo. Määritellää (k+)- vektori z = (, x ) missä k-vektori x = (,,, ) x x x k Vektori x i. alkio xi = xti, i =,,, k t = o selittäjä x i havaittuje arvoje x ti aritmeettie keskiarvo. Estimoitu regressiotaso () kulkee aia havaitoaieisto paiopistee ( x, y) kautta eli y = bz = b + bx = b + bx + b x + + b x 0 0 k k Regressiokertoimie PNS-estimaattoreide stokastiset omiaisuudet Yleise lieaarise malli () regressiokertoimie vektori β PNS-estimaattori b keskeiset stokastiset omiaisuudet o esitetty seuraavassa esitettävissä kahdessa lauseessa. Lause... Oletetaa, että yleise lieaarise malli () stadardioletukset (i)-(v) pätevät. Tällöi (i) E(b) = β (ii) Cov(b) = σ (X X) ja site erityisesti (iii) Var( b) = σ [( X X ) ], i = 0,,,, k i ( i+ )( i+ ) Perustelu: Todetaa esi, että regressiokertoimie vektori β PNS-estimaattori b lauseke voidaa kirjoittaa seuraavaa muotoo: b= ( XX ) Xy = ( XX ) X ( Xβ+ ε) = β+ ( XX ) Xε TKK Ilkka Melli (007) 0/67

(i) (ii) Koska regressiokertoimie vektori β ja matriisi X ovat ei-satuaisia ja lisäksi E( ε) = 0, ii b = β + XX X ε = β E( ) E( ) ( ) E( ) Kohda (i) todistuksesta seuraa, että b E( b) = b E( β) = ( XX ) Xε Koska matriisi X o ei-satuaie ja lisäksi Cov( ε) = σ I, ii Cov( b) = E[( b E( b))( b E( b)) ] = E[( XX ) Xεε XXX ( ) ] = ( XX ) X E( εε ) XXX ( ) = ( XX ) X Cov( ε) XXX ( ) = ( XX ) X ( σ I) X( XX ) = σ ( XX ) XX ( XX ) = σ ( XX ) (iii) Kohta (iii) o suora seuraus kohdasta (ii). Huomautus: Lausee... kohda (i) mukaa PNS-estimaattori b o regressiokertoimie vektori β harhato estimaattori. Lause... Oletetaa, että yleise lieaarise malli () stadardioletuksie (i)-(v) lisäksi ormaalisuusoletus (vi) pätee. Tällöi b N k+ (β, σ (X X) ) ja erityisesti b N(, [( ) ] ), i 0,,,, k i βi σ X X ( i+ )( i+ ) = Perustelu: Lause... seuraa suoraa lauseesta..., koska pieimmä eliösumma estimaattori Sovitteet Olkoo b = (X X) X y o multiormaalise satuaismuuttuja y lieaarimuuoksea multiormaalie. b = (X X) X y yleise lieaarise malli () regressiokertoimie vektori β PNS-estimaattori. TKK Ilkka Melli (007) /67

Määritellää estimoidu malli sovitteide muodostama -vektori yhtälöllä: yˆ = Xb Sovite ŷ voidaa kirjoittaa seuraavii muotoihi: missä -matriisi yˆ = Xb= X( XX ) Xy = Py P = X(X X) X o symmetrie ja idempotetti eli projektio. Matriisi P aste o r(p) = tr(p) = k+ Perustelu: Matriisi P o symmetrie, koska Koska P = [X(X X) X ] = X(X X) X = P Matriisi P o idempotetti, koska P = [X(X X) X ][X(X X) X ] = X(X X) X = P Koska matriisi P o projektio, ii se aste o r(p) = tr(p) = tr[x(x X) X ] = tr[(x X) X X] = tr[i k+ ] = k+ PX = X(X X) XX = X ii matriisi P projisoi avaruude vektorit matriisi X sarakkeide virittämää vektorialiavaruutee (tasoo). Sovite ŷ o vektori y projektio tähä vektorialiavaruutee. Olkoo z t = (, x t ), t =,,, matriisi X t. rivi alkioide muodostama (k+)-vektori, missä x t = (x t, x t,, x tk ), t =,,, o aitoje selittäjie x, x,, x k havaittuje arvoje x t, x t,, x tk muodostama k-vektori havaiossa t ja olkoo b = (b 0, b, b,, b k ) = (b 0, b ) yleise lieaarise malli () regressiokertoimie vektori β = (β 0, β, β,, β k ) PNSestimaattoreide muodostama (k+)-vektori, missä b 0 o vakioselittäjä regressiokertoime β 0 PNS-estimaattori ja b = (b, b,, b k ) o aitoje selittäjie x, x,, x k regressiokertoimie β, β,, β k PNS-estimaattoreide muodostama k-vektori. Sovitteide muodostama -vektori y ˆ = ( yˆ ˆ ˆ, y,, y ) t. alkio o TKK Ilkka Melli (007) /67

yˆ = bz = b + bx i = b + bx + b x + + b x, t =,,, t t 0 t 0 t t k tk Sovitteide omiaisuudet Lause..3. Jos yleise lieaarise malli () stadardioletukset (i)-(v) pätevät, ii (i) E( ŷ ) = Xβ (ii) Cov( ŷ ) = σ P Perustelu: (i) Koska PNS-estimaattori b o harhato parametrille β, ii E( yˆ ) = E( Xb) = XE( b) = Xβ (ii) Kohdasta (i) seuraa, että Cov( yˆ) = E[( yˆ E( yˆ))( yˆ E( yˆ)) ] = E[( Xb Xβ)( Xb Xβ)] = XE[( b β)( b β)] X = XCov( b) X = X[ σ ( XX ) ] X = σ XXX ( ) X = σ P Huomautus: Lausee..3. kohda (i) mukaa sovite ŷ estimoi harhattomasti yleise lieaarise malli () systemaattista osaa E(y) = Xβ. Lause..4. Oletetaa, että yleise lieaarise malli () stadardioletuksie (i)-(v) lisäksi ormaalisuusoletus (vi) pätee. Tällöi ŷ N (Xβ, σ P) Perustelu: Lause..4. seuraa suoraa lauseesta..3., koska sovite yˆ = Xb= X( XX ) Xy = Py o multiormaalise satuaismuuttuja y lieaarimuuoksea multiormaalie. Huomautus: Lausee..4. multiormaalijakauma o sigulaarie. TKK Ilkka Melli (007) 3/67

Residuaalit Olkoo b = (X X) X y yleise lieaarise malli () regressiokertoimie vektori β PNS-estimaattori ja olkoo yˆ = Xb estimoidu malli sovite. Määritellää estimoidu malli residuaalie muodostama -vektori yhtälöllä e= y y ˆ Residuaali e voidaa kirjoittaa seuraavii muotoihi: e= y yˆ = y Xb = y X( XX ) Xy = ( I X( XX ) X ) y = ( I P) y = My = Mε missä -matriisit P = X(X X) X M = I P ovat symmetrisiä ja idempotetteja eli projektioita. Matriisie P ja M asteet ovat r(p) = tr(p) = k+ r(m) = tr(m) = k Lisäksi PX = X MX = 0 PM = MP = 0 Perustelu: Matriisi P omiaisuudet o todistettu edellä. Matriisi M o symmetrie, koska matriisi P o symmetrie: M = (I P) = I P = I P Matriisi M o idempotetti, koska matriisi P o idempotetti: M = (I P) = I P + P = I P + P = I P = M Koska matriisi M o projektio, ii se aste o r(m) = tr(m) = tr( I P) = tr(i ) tr(p) = (k+) = k TKK Ilkka Melli (007) 4/67

Koska PX = X, ii Lisäksi ja vektorit matriisi X sarakkeide virittämää vektori- Koska P projisoi avaruude aliavaruutee ja lisäksi ja MX = (I P)X = X PX = X X = 0 PM = P(I P) = P P = P P = 0 MP = (I P)P = P P = P P = 0 PM = MP = 0 MX = 0 ii matriisi M projisoi avaruude vektorit matriisi X sarakkeide virittämää vektorialiavaruutta vastaa kohtisuorassa olevaa vektorialiavaruutee. Residuaali e o vektori y projektio tähä vektorialiavaruutee. Residuaalie muodostama -vektori t. alkio o missä e = (e, e,, e ) e = y yˆ, t =,,, t t t yˆ = bz = b + bx + b x + + b x, t =,,, t t 0 t t k tk o estimoidu malli sovite havaiossa t. Residuaalie omiaisuudet Lause..5. Jos yleise lieaarise malli () stadardioletukset (i)-(v) pätevät, ii (i) E(e) = 0 (ii) Cov(e) = σ M Perustelu: (i) Koska e= Mε, ii E( e) = ME( ε) = 0 (ii) Kohdasta (i) ja siitä, että e= Mε, jossa matriisi M o symmetrie ja idempotetti eli projektio ii TKK Ilkka Melli (007) 5/67

Huomautus : Cov( e) = E[( e E( e))( e E( e)) ] = E( ee ) = E( Mεε M ) = M E( εε ) M = M Cov( ε) M = M( σ I) M = σ M = σ M Lausee..5. kohda (i) mukaa residuaali e estimoi harhattomasti yleise lieaarise malli () satuaista osaa ε. Huomautus : Lausee..5. kohda (ii) mukaa residuaalit e t ovat korreloitueita, vaikka jääöstermit ε t o oletettu korreloimattomiksi. Korrelaatio o kuiteki lievää, jos havaitoje lukumäärä o huomattavasti malli selittäjie lukumäärää (k+) suurempi. Lause..6. Oletetaa, että yleise lieaarise malli () stadardioletuksie (i)-(v) lisäksi ormaalisuusoletus (vi) pätee. Tällöi e N (0, σ M) Perustelu: Lause..6. seuraa suoraa lauseesta..5., koska residuaali e= y yˆ = y Xb= ( I X( XX ) X ) y = ( I P) y = My o multiormaalise satuaismuuttuja y lieaarimuuoksea multiormaalie. Huomautus: Lausee..6. multiormaalijakauma o sigulaarie. Sovitteide ja residuaalie omiaisuudet Olkoo b = (X X) X y yleise lieaarise malli () regressiokertoimie vektori β PNS-estimaattori ja olkoo yˆ = Xb estimoidu malli sovite ja vastaava residuaali. e= y y ˆ TKK Ilkka Melli (007) 6/67

Lause..7. (i) y ˆ = y (ii) ex = 0 (iii) ey ˆ = 0 (iv) Perustelu: (i) (ii) yy = yy ˆˆ + ee Edellä esitety mukaa sovitteide ja vastaavie residuaalie muodostamat vektorit ŷ ja e voidaa esittää projektiomatriisie P ja M avulla muodoissa yˆ = Py e= My Koska lisäksi PM = 0, ii y e ˆ = y P My = y PMy = 0 Edellä esitety mukaa matriisi M o projektio matriisi X sarakeavaruude ortogoaalisee komplemettii. Site residuaalie muodostama vektori e= My o matriisi X sarakeavaruude ortogoaalisessa komplemetissa, jote vektori e o kohtisuorassa matriisi X sarakeavaruutta eli matriisi X sarakkeide virittämää tasoa vastaa: Xe = 0 Sama tulos saadaa myös suoraa laskemalla: Xe = X ( y Xb) = Xy XXb = Xy XX ( XX ) Xy = Xy Xy = 0 Koska mallissa o mukaa vakio, matriisi X. sarakkeea o vektori = (,, ) Site edellä esitetystä seuraa, että e = 0 (iii) Suoraa sovitteide ja residuaalie muodostamie vektorie määritelmistä ähdää, että Site y = yˆ + e y = y ˆ + e = y ˆ + 0 = y ˆ koska (ii)-kohda mukaa e = 0. (iv) Suoraa sovitteide ja residuaalie muodostamie vektorie määritelmistä ähdää, että y = yˆ + e TKK Ilkka Melli (007) 7/67

Site yy = yy ˆˆ + ee + ˆ ye = yy ˆˆ + ee koska kohda (i) mukaa ˆ ye= 0. Huomautus : Lausee..7. kohda (ii) mukaa residuaalie vektori e o kohtisuorassa matriisi X sarakkeide virittämää vektorialiavaruutta (tasoa) vastaa. Huomautus : Koska oletuksie mukaa mallissa () o selittäjää vakio (eli matriisissa X o ykköste muodostama sarake), Lausee..7. kohdasta (ii) seuraa, että residuaalie summa = 0: e = 0 Huomautus 3: Lausee..7. kohda (iii) mukaa sovite ŷ ja residuaali e ovat ortogoaalisia. Huomautus 4: Koska y = yˆ + e ii vektorit yy,ˆ ja e muodostavat suorakulmaise kolmio, joka kateetteia ovat vektorit yˆ ja e ja hypoteuusaa o vektori y. Huomautus 5: Lausee..7. kohta (iv) o Pythagoraa lause: Suorakulmaisessa kolmiossa hypoteuusalle piirrety eliö pita-ala o kateeteille piirrettyje eliöide pitaaloje summa. Jääösvariassi harhato estimaattori Oletetaa, että yleise lieaarise malli () stadardioletukset (i)-(v) pätevät. Määritellää residuaalie e vaihtelua kuvaava jääöseliösumma kaavalla: Huomaa, että jos ja vai jos SSE = ee = e t= t SSE = 0 e t = 0, t =,,, TKK Ilkka Melli (007) 8/67

Jääöseliösumma SSE voidaa kirjoittaa seuraavii muotoihi: missä -matriisit SSE = ee = ( y yˆ)( y yˆ) = ( y Xb)( y Xb) = yy bxxb = y ( I X( XX ) X ) y = y ( I P) y = ymy = ε Mε P = X (X X) X M = I P ovat symmetrisiä ja idempotetteja eli projektioita. Lause..8. Tuusluku s = SSE k o yleise lieaarise malli () jääösvariassi σ harhato estimaattori eli E(s ) = σ Perustelu: Todetaa esi, että t t= ( k ) s = e = ee jossa residuaalie muodostama -vektorilla e o esitysmuodot e= y yˆ = y Xb= My = Mε missä -matriisi M = I P= I X( XX ) X o symmetrie ja idempoteti eli projektio: M = M M = M Koska Cov( ε) = σ I saamme suoraa laskemalla: TKK Ilkka Melli (007) 9/67

E( ee ) = E( ε MMε ) = E( ε Mε) = E(trace( Mεε )) = trace( M E( εε )) = trace( M Cov( ε)) = trace( M( σ I)) = σ trace( M) Väite tulee todistetuksi toteamalla, että trace( M) = trace( I X( XX) X) = trace( I) trace( X( XX ) X ) = trace(( XX ) XX ) = trace( Ik + ) = k Estimaattoria s kutsutaa residuaalivariassiksi. Huomautus: Estimaattori s kaava ataa todellaki residuaalie variassi, koska mallissa o selittäjää vakio. Tämä johtuu siitä, että tällöi josta seuraa, että e = e = e = 0 t= t e t i t= t= ( k ) s = ( e e) = e = ( k ) s Jääösvariassi suurimma uskottavuude estimaattori Oletetaa, että yleise lieaarise malli y = Xβ + ε stadardioletuksie (i)-(v) lisäksi jääöstermiä ε koskeva ormaalisuusoletus (vi) pätee. Tällöi jääösvariassi σ suurimma uskottavuude estimaattori o ˆ σ = SSE Perustelu: Olemme todeeet edellä, että otokse y N (Xβ, σ I) uskottavuusfuktio o muotoa TKK Ilkka Melli (007) 30/67

/ L( β, σ ) = ( π) σ exp ( y Xβ)( y Xβ ) σ ja sitä vastaava logaritmie uskottavuusfuktio o muotoa l( β, σ ) = log L( β, σ ) = log( π) log( σ ) ( y Xβ) ( y Xβ ) σ Lisäksi parametri β suurimma uskottavuude estimaattori yhtyy se pieimmä eliösumma estimaattorii b= ( XX ) Xy Site jossa l b = y Xb y Xb σ = log( π) log( σ ) SSE σ (, σ ) log( π) log( σ ) ( ) ( ) SSE = ( y Xb)( y Xb) = ee o estimoidu malli jääöseliösumma. Derivoidaa fuktio l( b, σ ) parametri σ suhtee ja merkitää derivaatta ollaksi: l( b, σ ) = SSE = 0 4 σ σ σ Saadulla ormaaliyhtälöllä o ratkaisu σ = ˆ σ = SSE Voidaa osoittaa, että saatu ratkaisu tuottaa fuktio l( b, σ ) maksimi (ks. lukua Multiormaalijakauma). Regressiokertoimie PNS-estimaattoreide variassie estimoiti Edellä o todettu, että yleise lieaarise malli y = Xβ + ε regressiokertoimie vektori β PNS-estimaattorilla b = (X X) X y o stadardioletuksie (i)-(vi) pätiessä seuraavat stokastiset omiaisuudet: b N k+ (β, σ (X X) ) ja erityisesti b N( β, σ [( ) ] ), i 0,,,, k i i X X ( i+ )( i+ ) = TKK Ilkka Melli (007) 3/67

Site E( b) = β, i = 0,,,, k i i ja Var( b) = D ( b) = σ [( X X ) ], i = 0,,,, k i i ( i+ )( i+ ) bi E( bi) zi = N(0,), i = 0,,,, k D( b ) i Tämä regressiokertoime β i PNS-estimaattori b i otosjakaumaa koskeva tulos o epäoperatioaalie, koska jääösvariassi σ o ormaalisti tutemato. Korvataa σ yo. kaavoissa harhattomalla estimaattorillaa ja merkitää s = SSE k ˆD ( b) = s [( X X ) ], i = 0,,,, k i ( i+ )( i+ ) Voidaa osoittaa, että ˆD ( b i ) o regressiokertoime b i variassi harhato estimaattori ja lisäksi bi E( bi) ti = t( k ), i = 0,,,, k ˆD( b ) Perustelu: i Se, että ˆD ( b i ) o regressiokertoime b i variassi välittömästi siitä, että E( s ) = σ D( i ) ja siitä, että X o ei-satuaie. Yo. jakaumatulos seuraa t-jakauma määritelmästä seuraavalla tavalla: Edellä esitety mukaa bi E( bi) N(0,), i = 0,,,, k D( bi ) jossa D ( b) = σ [( X X ) ], i = 0,,,, k i ( i+ )( i+ ) b harhato estimaattori seuraa Lisäksi voidaa osoittaa, että s o riippumato estimaattoreista b 0, b, b,, b k ja ( ) σ ks. kappale 3.. k s SSE = χ k σ ( ) TKK Ilkka Melli (007) 3/67

Suoraa t-jakauma määritelmästä seuraa, että bi E( bi) D( bi ) ti = SSE k σ bi E( bi) σ [( X X) ]( i+ )( i+ ) = s σ bi E( bi) = s [( X X) ]( i+ )( i+ ) bi E( bi) = t ( k ), i= 0,,,, k ˆD( b ) i Regressiokertoimie luottamusvälit ja yksittäisiä kertoimia koskevat testit voidaa kostruoida yo. jakaumatulokse avulla samaa tapaa kui ormaalijakauma odotusarvolle kostruoidaa ormaalise otokse tapauksessa luottamusväli ja s. yhde otokse t-testi. Regressiokertoimie luottamusvälit Lause..9. Oletetaa, että yleise lieaarise malli () stadardioletukset (i)-(vi) pätevät. Tällöi regressiokertoime β i, i = 0,,,, k luottamusväli luottamustasolla ( α) saadaa kaavasta b ± tα / s, i = 0,,,, k i b i jossa b i o regressiokertoime β i PNS-estimaattori, t α/ ja +t α/ ovat luottamustasoo ( α) liittyvät luottamuskertoimet t-jakaumasta, joka vapausasteide lukumäärä o ( k ) ja s = s [( X X ) ], i = 0,,,, k bi ( i+ )( i+ ) missä s o jääösvariassi σ harhato estimaattori. Variassiaalyysihajotelma Mitta-asteikoltaa jatkuvie muuttuja arvoje vaihtelua mitataa tavallisesti iide variassilla. Yleise lieaarise malli () selitettävä muuttuja y arvoje variassi o jossa σ = SST ˆ y SST = ( y y) t= t TKK Ilkka Melli (007) 33/67

o selitettävä muuttuja y arvoje vaihtelua kuvaava kokoaiseliösumma. Selitettävä muuttuja y havaittuje arvoje y t aritmeettie keskiarvo yt t = y = voidaa esittää matriisei muodossa y = y missä = (,,, ) o ykköste muodostama -vektori ja y o selitettävä muuttuja y havaittuje arvoje y t muodostama -vektori. Määritellää -matriisi C= I J missä J = ( ) = O helppo ähdä, että matriisit C ja J ovat symmetrisiä ja idempotetteja eli projektioita, jolloi r(j) = tr(j) = r(c) = tr(c) = Kokoaiseliösumma SST voidaa em. määritelmiä hyväksikäyttäe esittää matriisei muodoissa SST = ( y y)( y y) = y ( I J) y = ycy Olkoo e= y y ˆ estimoidu malli residuaali, jossa yˆ = Xb o estimoidu malli sovite ja olkoo SSE = ee = ymy residuaalie vaihtelua kuvaava jääöseliösumma, missä -matriisi M = I X (X X) X o symmetrie ja idempotetti eli projektio. Voidaa osoittaa, että jääöseliösumma SSE o korkeitaa yhtä suuri kui kokoaiseliösumma SST: SSE SST Erotusta SSM = SST SSE kutsutaa regressio- tai mallieliösummaksi, koska voidaa osoittaa, että TKK Ilkka Melli (007) 34/67

(ˆt ˆ) (ˆ t ) t= t= SSM = y y = y y Mallieliösumma SSM voidaa esittää matriisei muodoissa SSM = ( yˆ y)( yˆ y) = y ( P J) y missä -matriisit P = X( XX) X J = ( ) = ovat symmetrisiä ja idempotetteja eli projektioita. Idetiteettiä SST = SSM + SSE kutsutaa malli () selitettävä muuttuja y arvoje vaihtelua kuvaava kokoaiseliösumma SST variassiaalyysihajotelmaksi. Perustelu: Todistetaa variassiaalyysihajotelma matriisilasketaa käyttäe. Todetaa esi, että kokoaiseliösumma SST voidaa kirjoittaa muotoo ( t ) i yy t= t= SST = y y = y y = y jossa y = ( y, y,, y ) o selitettävä muuttuja y havaittuje arvoje y t muodostama -vektori. Aikaisemmi esitettyje tuloste mukaa residuaalie e t muodostama -vektori e = ( e, e,, e ) voidaa esittää muodossa e= My = ( I P) y missä matriisit P= X( XX ) X ja M = I P ovat symmetrisiä ja idempotetteja. Site jääöseliösumma SSE voidaa kirjoittaa muotoo et ee ymy yy ypy t= SSE = = = = Tarkastellaa yt mallieliösummaa SSM. TKK Ilkka Melli (007) 35/67

Jos voimme osoittaa, että SSM = ypy y ii variassiaalyysihajotelma o todistettu. Aikaisemmi esitettyje tuloste mukaa selitettävä muuttuja havaituilla arvoilla ja sovitteilla o sama summa: y ˆ i = y = y = t= t= jote y = y ˆ ˆ i = yi = y i= i= Site mallieliösumma SSM voidaa kirjoittaa muotoo jossa yˆ i (ˆ t ) (ˆt ˆ) ˆt ˆ yy ˆ ˆ t= t= t= SSM = y y = y y = y y = y y ˆ = ( ˆ, ˆ,, ˆ ) y y y o sovitteide y ˆt muodostama -vektori. Aikaisemmi esitettyje tuloste mukaa yˆ = Py jossa matriisi P o symmetrie ja idempotetti. Site yy ˆˆ = ypy ja kute halusimme. SSM = yy ˆˆ y = ypy y Variassiaalyysihajotelma voidaa esittää matriisei myös muodoissa (i) ( y y)( y y) = ( yˆ y)( yˆ y) + ee (ii) y ( I Jy ) = y ( P Jy ) + ymy Huomautus : -matriisit J = ( ) = I J = I P= X( XX ) X TKK Ilkka Melli (007) 36/67

M = I P= I X( XX ) X P J = I J M = X( XX ) X ovat symmetrisiä ja idempotetteja eli projektioita. Projektiomatriisie omiaisuuksie perusteella r( J) = tr( J) = Lisäksi Huomautus : r( I J) = tr( I J) = r( P) = tr( P) = k+ r( M) = tr( M) = k r( P J) = tr( P J) = k ( I J) J = J( I J) = 0 PM = MP = 0 Vaikka mallissa () ei olisi selittäjää vakiota, pätee hajotelma yy = yy ˆˆ + ee jossa ja yy ˆˆ = bxxb = yx ( XX ) Xy = ypy ee = ymy = SSE -matriisit M = I P P = X(X X) X ovat symmetrisiä ja idempotetteja eli projektioita. Variassiaalyysihajotelma tulkita Selitettävä muuttuja y arvoje vaihtelua kuvaava kokoaiseliösumma SST = ( y y)( y y) = y ( I J) y o hajotettu lieaarise regressiomalli () avulla kahde osatekijä summaksi SST = SSM + SSE jossa mallieliösumma SSM = ( yˆ y)( yˆ y) = y ( P J) y kuvaa malli () selittämää osaa selitettävä muuttuja y arvoje kokoaisvaihtelusta ja jääöseliösumma TKK Ilkka Melli (007) 37/67

SSE = ee = ymy kuvaa sitä osaa kokoaisvaihtelusta, jota malli () ei ole pystyyt selittämää. Malli () selittää selitettävä muuttuja y arvoje vaihtelu sitä paremmi mitä suurempi o mallieliösumma SSM osuus kokoaiseliösummasta tai, mikä o sama asia, mitä pieempi o jääöseliösumma SSE osuus kokoaiseliösummasta. Selitysaste Variassiaalyysihajotelma SST = SSM + SSE motivoi tuusluvu SSM SSE R = = SST SST käytö lieaarise regressiomalli () hyvyyde tai selitysvoima mittaamisessa. Tuuslukua R kutsutaa estimoidu malli selitysasteeksi. Selitysastee omiaisuudet Seuraava lausee kohdat (i)-(iii) ovat välittömiä seurauksia variassiaalyysihajotelmasta sekä residuaalie, variassiaalyysihajotelma osie ja selitysastee määritelmistä. Kohda (iv) todistamie o suoraviivaista, mutta melko työlästä ja ei kovi mielekiitoista ja jätetää siksi välii. Lause..0. (i) 0 R (ii) Jos kaikki residuaalit häviävät eli e = 0 ii SSE = e e = 0 ja R = Tällöi malli sopii havaitoihi täydellisesti. (iii) Jos b = b = = b k = 0 ii residuaalie vektori o muotoa e= y y jolloi SSE = SST ja R = 0 Tällöi malli ei ollekaa selitä selitettävä muuttuja y arvoje vaihtelua. TKK Ilkka Melli (007) 38/67

(iv) jossa R = [Cor( yy, ˆ)] Cor( yy, ˆ) = t= ( y y)(ˆ y y) t ( yt y) (ˆ yt y) t= t= t selitettävä muuttuja y havaittuje arvoje y t ja iitä vastaavie sovitteide y ˆt välie otoskorrelaatiokerroi. Koska Lausee..0. kohda (i) mukaa 0 R, selitysaste ilmoitetaa tavallisesti prosetteia: 00 R % Huomautus: y = y = y ˆ = yˆ.. Regressiokertoimie estimoiti kovariasseista ja korrelaatioista Oletukset Olkoo () y = Xβ + ε usea selittäjä lieaarie regressiomalli eli yleie lieaarie malli, jossa y = satuaie ja havaittu selitettävä muuttuja y arvoje y t muodostama -vektori, t =,,, X = ei-satuaie ja havaittu selittäjie x, x,, x k arvoje x ti muodostama (k+)-matriisi, missä. sarakkeea o -vektori = (,,, ), t =,,,, i =,,, k, k+ β = (β 0, β, β,, β k ) = regressiokertoimie muodostama eisatuaie ja tutemato (k+)-vektori, missä β 0 o vakioselittäjä regressiokerroi ja β, β,, β k ovat aitoje selittäjie x, x,, x k regressiokertoimet ε = satuaie ja ei-havaittu jääöstermie ε t muodostama -vektori, t =,,, Oletetaa, että yleise lieaarise malli () stadardioletukset (i)-(v) pätevät. Regressiokertoimie estimoiti kovariasseista Keskistetää selitettävä muuttuja y havaituista arvoista y, y,, y muodostettu -vektori y = (y, y,, y ) ja selittäjie x, x,, x k havaituista arvoista TKK Ilkka Melli (007) 39/67

x, x,, x ; x, x,, x ; ; x k, x k,, x k muodostettu k-matriisi X x x x k x x x x x xk k = Keskistämisellä tarkoitetaa sitä, että muuttujie havaituista arvoista väheetää ko. muuttuja havaitoarvoje aritmeettie keskiarvo. Keskistettyje havaitoarvoje aritmeettie keskiarvo o aia olla. Olkoot matriisit y ja X keskistettyiä y = y y ja jossa X = X x yt t = y = o selitettävä muuttuja y havaittuje arvoje aritmeettie keskiarvo, = (,,, ) o ykköste muodostama -vektori ja x = ( x, x,, x k ) o k-vektori, joka i. alkio xi = xti, i =,,, k t = o selittäjä x i havaittuje arvoje aritmeettie keskiarvo. Muodostetaa keskistetyistä havaioista lieaarie regressiomalli () y = Xβ + ε Tällöi b = ( X X ) X y o regressiokertoimie vektori β PNS-estimaattori. Huomautus: Mallissa () ei ole vakioselittäjää. Olkoo k k-matriisi Mxx = ( X x)( X x ) selittäjie havaittuje arvoje muodostama momettimatriisi ja k -matriisi TKK Ilkka Melli (007) 40/67

M = ( X x )( y y) xy selitettävä muuttuja ja selittäjie havaittuje arvoje muodostama momettimatriisi. Tällöi S S xx xy = M = M ovat vastaavat otoskovariassimatriisit. Matriisi M xx i. rivi ja j. sarakkee alkio o muotoa xx xy xx ij ti i tj j t= [ M ] = ( x x )( x x ), i, j =,,, k Matriisi (vektori) M xy i. rivi alkio o muotoa xy i ti i t t= [ M ] = ( x x )( y y), i=,,, k Matriisi S xx i. rivi ja j. sarakkee alkioa o muuttujie x i ja x j havaittuje arvoje otoskovariassi ja matriisi (vektori) S xy i. rivi alkioa o muuttujie x i ja y havaittuje arvoje otoskovariassi. Koska M = X X ja ii M xx X y xy = b = ( X X ) X y = MxxMxy = SxxSxy ja saomme, että estimaattori b o estimoitu kovariasseista. Olkoo b regressiokertoimie vektori β PNS-estimaattori mallista (). Seuraava lause ilmaisee estimaattoreide b ja b suhtee: Lause... Ositetaa malli () regressiokertoimie vektori β PNS-estimaattori b seuraavalla tavalla: b= ( b, b ) 0 jossa b 0 o vakioselittäjä regressiokertoime β 0 PNS-estimaattori ja b o aitoje selittäjie x, x,, x k regressiokertoimie β, β,, β k PNS-estimaattoreide muodostama k-vektori. Tällöi b = b ja TKK Ilkka Melli (007) 4/67

b = y bx = y bx b x b x 0 k k missä b = ( b, b,, b k ) Huomautus: Lause... o lieaarise riippuvuude siirtoivariattiude ilmaisu. Regressiokertoimie estimoiti korrelaatioista Stadardoidaa selitettävä muuttuja y havaituista arvoista y, y,, y muodostettu -vektori y = (y, y,, y ) ja selittäjie x, x,, x k havaituista arvoista x, x,, x ; x, x,, x ; ; x k, x k,, x k muodostettu k-matriisi X x x x k x x x x x xk k = Stadardoiilla tarkoitetaa sitä, että muuttujie havaituista arvoista väheetää ko. havaitoarvoje aritmeettie keskiarvo ja saadut erotukset jaetaa ko. havaitoarvoje keskihajoalla. Stadardoituje havaitoarvoje aritmeettie keskiarvo o aia olla ja otoshajota o yksi. Olkoot matriisit y ja X stadardoituia y = ( y y ) s ja jossa y X = ( X x) DS yt t = y = / o selitettävä muuttuja y havaittuje arvoje aritmeettie keskiarvo, sy = ( yt y) t= o selitettävä muuttuja y havaittuje arvoje keskihajota, = (,,, ) o ykköste muodostama -vektori, x = ( x, x,, x k ) TKK Ilkka Melli (007) 4/67

o k-vektori, joka i. alkio xi = xti, i =,,, k t = o selittäjä x i havaittuje arvoje aritmeettie keskiarvo k ja o diagoaalimatriisi, jossa D = S = S diag( xx) diag( sx, s,, ) x s x k s = ( x x ) = [ S ], i =,,, k xi ti i xx ii t= o selittäjä x i havaittuje arvoje otosvariassi. Huomaa, että D = diag( s, s,, s ) / S x x x k jolloi / D S = diag,,, sx s x s x k Muodostetaa stadardoiduista havaioista lieaarie regressiomalli (3) y = Xβ + ε Tällöi b = ( X X ) X y o regressiokertoimie vektori β PNS-estimaattori. Huomautus: Mallissa (3) ei ole vakioselittäjää. Olkoo k k-matriisi R D S D / / xx = S xx S selittäjie havaittuje arvoje otoskorrelaatiomatriisi ja k -matriisi / R D S xy = S s y xy selitettävä muuttuja ja selittäjie havaittuje arvoje muodostama otoskorrelaatiomatriisi, jossa S ( )( ) xx = X x X x o selittäjie o havaitoarvoje muodostama otoskovariassimatriisi, S ( )( ) xy = X x y y TKK Ilkka Melli (007) 43/67