Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit riippumattomia normaalisti jakautuneita muuttujia, joilla E(Y) = m ja vakiovarianssi σ 2 Systemaattinen komponentti: Selittävien muuttujien x 1, x 2,,x n tuottama lineaarinen ennuste h = Σ x i b i Linkki systemaattisen ja satunnaiskomponentin välillä: Identiteetti m = h 1
Yleistetty lineaarinen malli Klassisen lineaarisen mallin yleistys, jossa systemaattisen ja satunnaiskomponentin välillä funktionaalinen yhteys η i = g(µ i ) Satunnaiskomponentin jakauma voi olla muukin eksponenttiperheen jakauma kuin normaalijakauma linkkifunktio g( ) voi olla mikä tahansa monotoninen differentioituva funktio Erikoistapauksia Y jatkuva, X:t jatkuvia tai diskreettejä Regressioanalyysi, varianssianalyysi normaalijakauma, η = µ Y binäärinen, X:t jatkuvia tai diskreettejä logit-malli = logistinen regressio binomijakauma, η = log{p/(1- p)} Y diskreetti, X:t diskreettejä log-lineaarinen malli = poisson regressio poisson-jakauma, η = log(µ) 2
Regressioanalyysi Yksi muuttuja (selitettävä) ilmaistaan muiden analyysissa mukana olevien muuttujien (selittävien muuttujien) lineaarikombinaationa y i = b 0 + b 1 x 1i + b 2 x 2i + + b n x ni + e i Mitä voimme sanoa selitettävän muuttujan keskimääräisistä arvoista, jos tunnemme selittäjien arvot? Regressikertoimien tulkinta (1/2) Regressiokertoimet b 0, b 1,, b n ovat mallin parametreja Estimoidaan aineistosta b 0 on vakio, joka kuvaa selitettävän muuttujan keskimääräistä arvoa, kun kaikki selittävät muuttujat saavat arvon nolla ei aina mielekästä tulkintaa Muut regressiokertoimet kuvaavat, kuinka monta yksikköä selitettävän muuttujan arvo muuttuu, kun ko. selittävän muuttujan arvo on yhtä mittayksikköä suurempi 3
Regressikertoimien tulkinta (2/2) Jos muuttujilla on ymmärrettävä mittaasteikko, kertoimet saavat suhteellisen selvän konkreettisen tulkinnan voidaan käyttää esimerkiksi verrattaessa jonkin vaikutuksen voimakkuutta eri ryhmissä Jos muuttujille ei ole luonnollista ymmärrettävää asteikkoa, voi olla järkevää käyttää tulkinnan pohjana standardoituja regressiokertoimia (beta-kertoimia) voidaan arvioida eri selittäjien suhteellista selityskykyä Regressioanalyysin perusoletukset Selittäjien arvot ovat kiinteitä eli ei-satunnaisia Minkään selittäjän arvot eivät riipu häiritsevästi toisten selittäjien arvoista multikollineaarisuus Havaintoja on enemmän kuin muuttujia Virhetermin odotusarvo on nolla Virhetermin varianssi on vakio homoskedastisuusoletus Virhetermit ovat keskenään korreloimattomia Virhetermi on normaalisti jakautunut vakiovarianssilla ja odotusarvolla nolla 4
Diagnostiikka Koska mallin sovittaminen aineistoon on matemaattinen ongelma, ei aineistoon sovitetulla mallilla tarvitse olla mitään tekemistä muuttujien välistä todellista riippuvuutta kuvaavan mallin kanssa Tutkijan on aina itse varmistettava, että aineistoon sovitettu malli täyttää sille asetetut vaatimukset näissä ns. diagnostisissa tarkasteluissa mallia kiusataan eri tavoin ja yritetään löytää siitä epäloogisuuksia löydettyjen ongelmien syy ja vaikutus pyritään selvittämään ja tarvittaessa myös mallia tulee korjata Regressiodiagnostiikka Mallin harhattomuus, jäännösvaihtelun homoskedastisuus, vaikutusvaltaiset havainnot Jäännösvaihteludiagramma hajontakuva, jossa y-akselilla residuaalit syytä piirtää sovitteen ja kaikkien mallissa mukana olevien selittävien muuttujien suhteen Satunnaisvaihtelun normaalisuus Normaalisuustestit Multikollineaarisuus korrelaatiomatriisi tulomomenttimatriisin X X ominaisarvot Autokorrelaatio 5
Mallinvalinnasta Muuttujien valinta malliin: Muuttujan mielekkyys tutkittavan ilmiön kannalta Muuttujaan liittyvän regressiokertoimen merkitsevyys Mallin valinta: Mallin (korjattu) selitysaste Selitysaste R 2 on selitysprosentti, joka osoittaa, kuinka suuren osan y:n vaihtelusta mallin muuttujat pystyvät selittämään Dummy-muuttujat Käyttämällä dummy-muuttujia sallitaan kullekin ryhmälle oma vakiotermi dummy-muuttuja on muuttuja, joka saa arvon 1, jos havainto kuuluu ryhmään ja arvon 0, jos havainto ei kuulu ryhmään dummy-muuttujia on (yleensä) yksi vähemmän kuin ryhmiä dummy-muuttujiin liittyviä kertoimia tulkitaan suhteessa referenssiryhmään referenssiryhmä on se ryhmä, jolle ei ole erillistä dummy-muuttujaa 6
Yksisuuntainen varianssianalyysi Yksisuuntaisessa varianssianalyysissa perusjoukko jaetaan kahteen tai useampaan ryhmään yhden tekijän suhteen Tarkoituksena on vertailla johonkin perusjoukon ominaisuuteen liittyvän satunnaismuuttujan odotusarvoa näissä ryhmissä Testauksen kohteena on nollahypoteesi, jonka mukaan odotusarvo on kaikissa ryhmissä sama Huomioita varianssianalyysista Varianssianalyysi on erikoistapaus regressioanalyysista muodostetaan sopivat dummy-muuttujat Tärkeimmät oletukset havaintojen riippumattomuus varianssien yhtäsuuruus kaikissa ryhmissä selitettävän muuttujan normaalisuus 7
Neliösummahajotelma Yksisuuntaisessa varianssianalyysissa selitettävän muuttujan vaihtelu hajotetaan kahteen komponenttiin Kokonaisneliösumma SST = SSG + SSE ryhmäneliösumma SSG ryhmäkeskiarvojen vaihtelu kokonaiskeskiarvon ympärillä jäännösneliösumma SSE havaintojen vaihtelu ryhmäkeskiarvojen ympärillä Kaksiulotteinen varianssianalyysi Perusjoukko jaetaan ryhmiin kahden tekijän suhteen Vaihtelu hajotetaan komponentteihin Virhevaihtelu Sarake- ja rivimuuttujiin (päävaikutuksiin) liittyvä vaihtelu Interaktiovaikutukseen liittyvä vaihtelu Interaktiovaikutus: yhden muuttujan vaikutus on ehdollinen muiden muuttujien suhteen muuttujan yhteys selitettävään on erilainen toisen selittävän muuttujan eri luokissa 8
Logistinen regressio Selitettävä muuttuja dikotominen linkkifunktiona logit-muunnos todennäköisyys p ristitulosuhteeksi p/(1-p) ja edelleen koko reaaliakselille log{p/(1-p)} kuten lineaarinen regressioanalyysi, mutta logit-asteikolla saatuja regressiokertoimia hankala tulkita exp(b) vastaa helposti tulkittavaa ristitulosuhdetta (odds ratio) Ristitulosuhteiden tulkinta Dikotominen selittäjä kuinka paljon todennäköisempää on, että selitettävä on totta selittäjän ollessa totta kuin selittäjän ollessa ei-totta Polytominen selittäjä ristitulosuhteet referenssiryhmään nähden kuinka paljon todennäköisempää on, että selitettävä on totta ryhmälle x kuin referenssiryhmälle Jatkuva selittäjä kuinka paljon todennäköisempää on, että selitettävä on totta selittävän muuttujan arvolle x+1 kuin selittävän muuttujan arvolle x 9
Muita huomioita logit-mallista Mallinvalinta ja diagnostiikka vastaavasti kuin regressioanalyysissa logistiselle regressiolle kuitenkin omat selitys- ja diagnostiikkamitat myös interaktiotermit pitää huomioida interaktiotermi ei järkevä, jos siihen liittyviä päävaikutuksia ei ole mallissa Ristitulosuhteisiin liittyvät luottamusvälit tulee aina raportoida Log-lineaarinen malli Soveltuu ristiintaulukointien analysoimiseen minkä tahansa taulukointiin käytetyn kahden muuttujan yhteyden tarkka kuvaus ja testaaminen onnistuu mallia käytettäessä melko hyvin pyritään erottamaan toisistaan erilaiset perusjoukon ehdolliset jakaumat eli selvittämään, minkä muuttujien välillä on perusjoukossa yhteisvaihtelua ja minkä välillä ei interaktiotermit yleensä keskeisessä osassa 10