USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI



Samankaltaiset tiedostot
Regressioanalyysi. Vilkkumaa / Kuusinen 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Kuusinen/Heliövaara 1

Yleistetyistä lineaarisista malleista

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Korrelaatiokertoinen määrittely 165

Testejä suhdeasteikollisille muuttujille

Todennäköisyyden ominaisuuksia

Harjoitus 9: Excel - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Johdatus regressioanalyysiin. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Harjoitus 7: NCSS - Tilastollinen analyysi

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

HAVAITUT JA ODOTETUT FREKVENSSIT

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Testit järjestysasteikollisille muuttujille

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

1. Tilastollinen malli??

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Väliestimointi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Dynaamiset regressiomallit

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Osa 2: Otokset, otosjakaumat ja estimointi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Testit laatueroasteikollisille muuttujille

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Vastepintamenetelmä. Heliövaara 1

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi


Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

2. Teoriaharjoitukset

Lohkoasetelmat. Kuusinen/Heliövaara 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mat Tilastollisen analyysin perusteet, kevät 2007

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Yleinen lineaarinen malli

Identifiointiprosessi

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Lohkoasetelmat. Heliövaara 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen lain ja mahdollisen satunnaisen häiriötekijän mukaisesti, eli y = f(x 1, x 2,..., x p ) + ɛ Virhetermi kuvastaa havaintojen epävarmuutta, mittausvirheitä tms. Esimerkki. Jos pikkuleivän valmistuksessa taikina muodostetaan sekoittamalla 7 eri osa-tekijää x1 = jauho, x2 = sokeri, x3 = rasva, x4 = kananmuna, x5 = kerma, x6 = leivinjauhe, x7 = kardemumma ja mittaamme sopivalla makutestilla syntyvän taikinaseoksen laadun y kuluttajien makuraadin pisteinä, voidaan ajatella maun riippuvan koostumuksesta jonkin tuntemattoman funktion y = f(x 1,..., x 7 ) tapaan. Lukemattomista pikku syistä johtuen (mittausvirheet, tuntemattomat lisäaineet, sekoitusmenetelmä) funktion anatamaan tulokseen liittyy oletettavasti epätarkkuutta, epävarmuutta. Sen vuoksi mallia täydennetän lisäämällä siihen satunaistermi. y = f(x 1,..., x 7 ) + ɛ Lineaarinen regressiomalli on muotoa y = β 0 + β 1 x 1 + β 2 x 2 +... + β p x p + ɛ Esimerkki. Selitettävä muuttuja y voisi olla jätteenpolttolaitokseen tuotavan kuorman lämpöarvo, x i :t edustavat p:n erilaisen jätelajin/jakeen osuutta kuormassa. Mallilla voitaisiin kuvata kuorman lämpöarvon riippuvuutta kuorman koostumuksesta. Pohdittavaksi: Miksi taikinareseptin maku ei voi olla lineaarinen funktio? Millä oletuksilla jätekuorman lämpoarvo voisi olla lineaarisen mallin mukainen. Voitaisiinko taikinareseptiä kuvata likimääräisesti lineaarisella mallilla jollain suureiden rajoitetulla vaihtelualueella? Mallin tilastolliset oletukset Regressiomallin taustaoletuksena on, että virhetermi on normaalijakautunut satunnainen suure ɛ N(0, σ 2 ) ja eri havaintojen virheet ovat toisistaan riippumattomia. Data [X, Y ] muodostuu selittävien muuttujien arvoista x i,j sekä selitettävän muuttujan mitausarvoista y i. Lisäksi data-matriisin X ensimmäinen sarake on vakio-sarake (1, 1,..., 1) T, koska yhtälön vakiotermin β 0 kerroin on 1. Isoilla kirjaimilla Y, X i viitataan havaittujen mittausarvojen muodostamiin vektoreihin. Yllä käytetyt symbolit y ja x i tarkoittivat muuttujien nimiä. Rivien lukumäärä n = havaintojen lukumäärä. i X 1 X 2... X p Y 1 x 11 x 12... x 1p y 1 2 x 21 x 22... x 2p y 2.................. n x n1 x n2... x np y n Havainnot ja malli Havaintojen selitys mallin avulla kukin saatu havainto ajatellaan selittyvän yhtälön y i = β 0 + β 1 x i1 + β 2 x i2 +... + β p x ip + e i missä e i = havainnon mittaamisessa tapahtunut satunnaisvirhe. Matriisimuodossa tämä havaintovektorin Y muodostuminen voidaan esittää Y = Xβ + ɛ, missä β = (β 0... β p ), ɛ = (e 1... e p ), Y = (y 1... y p ) ja X = datamatriisi avulla,

Mallin kertoimien estimointi (PNS) PNS = virheneliösumman minimointiin perustuva menetelmä kertoimien estimoimiseksi. SSE(b 0, b 1,..., b p ) = e i 2 = Y X β 2 = (y i b 0 b 1 x i1 b 2 x i2... b p x ip ) 2 minimoi! Optimointitehtävän Y X β 2 min! ratkaisu perustuu matriisilaskentaan ja ortogonaaliprojektion ajatukseen. Optimipisteen määrää matriisiyhtälö X Xβ = X Y, (skalaarimuodossa ns. normaaliyhtälöt). Ratkaisuna saadaan kertoimille β 0... β p estimaatit β = (X X) 1 X Y Optimointitehtävän ratkaisu voidaan myös johtaa ehdoista SSE/ b i = 0 i=1,...,p Olkoon havaintojen keskiarvo y = y i /n sekä keskiarvovektori Y = (y, y,..., y) T. Selitettävän muuttujan havaintojen kokonaisvaihtelu on SST = (y i y) 2 = Y Y 2. Regressioanalyysin pohjana on tämän kokonaisvaihtelun jakaminen osavaihteluihin. Vaihteluneliösummat Regressioanalyysin johtopäätökset perustuvat muuttujien vaihtelua ilmentävien neliösummien tilastollisten jakaumien ominaisuuksiin. Kokonaisvaihtelun komponentit Vaihtelun hajoitelma SST = SSD + SSE Kokonaisvaihtelu SST = Y Y ( y) 2 /n Selitetty neliösumma SSD = β X Y ( y) 2 /n Jäännösvaihtelu SSE = SST SSE Hajonnan estimointi Mallin satunnaisvirhettä kuvaavan termin ɛ varianssia sanotaan mallin perusvarianssiksi. Sille voidaan johtaa mittaustuloksien perusteella estimaatti s 2 = SSE /(n p 1) Yllä johdetut regressiokertoimien kaavat ovat estimaattoreita, satunnais-lausekkeita, joiden arvo vaihtelisi, jos y-mittaukset toistettaisiin täsmälleen samoilla x ij -arvoilla. Johdettujen kerrointen luotettavuutta voidaan arvioida niiden hajonnan avulla. Kerroinestimaattien hajonnat ovat s(b j ) = s Mallin selittävyys, Selitysaste (X T X) 1 jj Jos malli sopii täydellisesti havaintojen kanssa yhteen, pitäisi olla SSE = 0 ja SST = SSD. Jos malli ei selitä havaintojen vaihtelua lainkaan, koko vaihtelu on satunnaisvaihtelua eli SST = SSE. Mallin selitys asteeksi sanotaan suhdelukua joka kertoo, kuinka suuri osuus selitetty vaihtelu on kokonaisvaihtelusta. R 2 = SSD / SST = (SST SSE)/ SST Mallin testaus: F-testi, testisuure Mallin selittävyyden testaus tapahtuu asettamalla Hypoteesi H 0 : β 1 =... = β p = 0 eli mikään mallin muuttuja ei selitä Y :n arvoissa esiintyvää vaihtelua, sekä Vastahypoteesi H 1 : jokin β j poikkeaa 0:sta. Hypoteesin testaus perustuu seuraavaan F-jakautuneeseen testisuureeseen. F = MSD (SST SSE)/p MSE = SSE /(n p 1) Mikäli testisuure ylittää kriittisen rajan (valittu merkitsevyyden taso) tulkitaan, että selitetty vaihtelu on liian suuri ollakseen satunnaista, ja nollahypoteesi hylätään. Kertoimien merkitsevyys

Regressiomalin yksitäisen kertoimen selityskykyä tutkitaan testaamalla kertoimen merkitsevyys Hypoteesi H 0 : β j = 0 Testisuure t = b j /s(b j ), jonka jakauma t(df) Osamallin testaus Lisättäessä ja vähennettäessa selittäviä muuttujia on tarpeen tutkia miten selitetty neliösumma ja jäännösneliösumma muuttuvat lisättyjen muuttujien vaikutuksesta. Tämä punnitaan asettamalla Hypoteesi H 0 : β k+1... β p = 0, ts. muuttujat X 1... X k selittävät Y :n vaihtelun ja lisättyjen muuttujien X k+1... X p vaikutus voidaan jättää huomiotta. Testin perustana on testisuure F = (SSE(k) SSE)/(p k) SSE /(n p 1), jakauma F (p k, n p 1) missä SSE(k) tarkoittaa k:n selittäjän osamallin jäännösvaihtelua. Muuttujan lisääminen malliin Kun malliin tuodaan uusi muuttuja X k+1, saadaan uusi (hieman suurempi) selitysaste R 2 (k + 1). Selitysasteen paraneminen R 2 (k + 1) R 2 (k) eli SSE:n väheneminen kertoo, miten hyvä uusi selittäjä on. Tätä eroa testataan edellä kuvatun F-testisuureen avulla F = SSE(k) SSE(k+1) SSE(k+1)/(n k 2), jakauma F (1, n k 2. Mikäli F-testin kriittinen arvo ylittyy, tulkitaan, että lisätty muuttuja on kasvattanut selitysastetta eli vähentänyt jäännösneliösummaa merkitsevästi ja muuttuja on perusteltua hyväksyä malliin selittäjäksi. Analyysin yhteenvetotaulukot Tilastolliset ohjelmistotyökalut, kuten SPSS, Statgraphics jne suorittavat regressioanalyysin edellyttämät laskutoimitukset vaivattomasti. Ohjelmat tulostavat yleensä seuraavat yhteenvetotaulukot. Mallin kertoimien estimaatit, näiden luotettavuudesta kertovat hajonta-estimaatit ja kertoimen testauksen (hypoteesi β i = 0)tulokset annetaan taulukkona Parameter Estimate Std errt p Const b0 s(b0) t-testis Muuttuja1 b1 s(b1) t-testis Muuttuja2 b2 s(b2) t-testis............ Koko mallia koskevan varianssianalyysin tulokset ja mallin tilastollisen selittävyyden tulokset ilmenevät seuraavasta taulukosta. Siitä löytyvät mm. havaintojen kokonaisvaihtelun komponentit, vapausasteluvut, F-testisuureen arvo, mallin selitysaste sekä mallin perushajonnan σ estimaatti s. ANOVA-taulukko Lähde SS df MS F p Model SSD p 1 SSD /df MSD / MSE Resid SSE n p 1 SSE /df R-squared R Mean abs error R-squared (adj) D-W statistic Std error s Matti Poutiainen 16.12.2003

TEORIA MALLIN RAKENTAMINEN 1. Järkevyystarkastelut - onko regressiomallin ajatus ylipäänsä uskottava? - mitkä muuttujat vaikuttavat? - ovatko muuttujien vaikutus lineaarista? - muodosta scatter plot kuvioita - satunnaisvirheen jakaumaoletukset? 2. Selittävien muuttujien valinta 3. Mallin kertoimien estimointi (PNS) 4. Mallin testaukset - koko mallin merkitsevyys - testit yksittäisille kertoimille 5. Mallin riittävyystarkastelut - diagnostiset tarkastelut - tulkinnat - residuaalikuviot Selittävien muuttujien valinta - taustatietojen perusteella, ilmiön ymmärtäminen pohjana - huomioi scatter plot kuvioiden antamat vihjeet - muunnokset, lisätermit, mahdollinen linearisointi, dummy-muuttujat, yhdysvaikutustermit - kokeilut, selitysasteen muutokset - askeltavan regression periaate Askeltava regressio Forward entry, eteenpäin valikoiva: 1. valitaan muuttuja, jonka F-testin p-arvo on pienin (tai jonka antama selitysaste on suurin). 2. valitaan seuraavaksi muuttuja, jonka lisäämisen jälkeen F-testin p-arvo on pienin, eli jonka ottaminen malliin kasvattaa selitysastetta eniten jne. Backward elimination 1. Aluksi kaikki muuttujat mallissa, poistetaan se, jolle F-testin p-arvo on suurin, eli jonka poisjättäminen pienentää selitysastetta vähiten. 2. Poistetaan muuttuja, jonka vaikutus F-testin p-arvoon on vähäisin jne.

Stepwise selection Kuten forward entry, mutta jokaisen muuttujan lisäyksen jälkeen tarkistetaan, onko jokin mallissa mukana oleva tullut tarpeettomaksi Forced entry, forced remove Pakotetaan jokin muuttuja malliin tai pois siitä jonkin taustatiedon perusteella. Riittävyystarkastelut Satunnaisvirheen jakaumaoletukset PNS-menetelmä perustuu oletukseen, että virhetermi noudattaa normaalijakaumaa N(0, σ 2 ). Lisäksi oletetaan, että eri havaintoihin liittyvät virheet ovat riippumattomia. Tarkastelutapoja - histogrammikuviot jäännöksistä (standadised residulas) - normal plots - sirontakuviot ennuste vs. jäännös - outlier-havaintojen tunnistaminen sirontakuvioista - perättäisten jäännösten välisen korrelaation tarkasteleminen (Runs-testi, Durbin-Watson testi) Jäännösten homoskedastisuus - hajonnan tulisi pysyä samana eri X:n arvoilla - heteroskedastisuuden seurauksena mm. kertoimien testit muodostuvat epäluotettaviksi. Lineaarisuusoletus, onko voimassa? - sirontakuviot, residuaalikuviot - tarvittavat muunnokset Jos esim residuaalikuvion perusteella aineistossa näyttäisi olevan polynomifunktion, eksponentiaalisen kasvun, käänteisen verrannollisuuden 1/x tyyppisiä piirteitä, vastaavia muunnettuja selittäjiä on syytä harkita. Yhdysvaikutusten ilmetessä kannattaa kokeilla tulotermejä Xi Xj jne. Multikollineaarisuus - selittävien muuttujien välinen korrelaatio - korrelaatiomatriisi Selittäjien välinen korreloituminen voi aiheuttaa virheitä mm kerroinestimaatteihin. Ohjelmistotyövälineet laskevat ja tulostavat yleensä rutiinitoimintona muuttujien korrelaatiomatriisin. Tämä on syytä tutkia. Esimerkki. Tutkitaan biojätteestä valmistetun lannoitteen vaikutusta puutarhakasvin kasvun lisääjänä. Useista lannoite-eristä mitataan neljän orgaanisen kemikaalin X1, X2, X3 ja X4 pitoisuudet. Näiden arvellaan vaikuttavan pituuskasvuun merkittävästi. Lannoite-eriä kokeillaan kasvatukseen koe-aloilla. Aineistoon sovitetaan kasvin pituuskasvun Y lisäystä selittävä regressiomalli Y = a0 + a1 X1 + a2 X2 + a3 X3 + a4 X4. Jos nyt osoittautuu, että jokin biokemiallinen mekanismi sitoo kemikaalien X1 ja X2 määrät yhteen siten, että esim niiden summa on näytteissä likimain vakio, voi käydä niin, että regressiomallia sovitettaessa näiden selittäjien kertoimet estimoituvat pahasti väärin, jopa etumerkki voi vaihtua. Matti Poutiainen 16.12.2003