TILASTOTIEDE KÄYTÄNNÖN TUTKIMUKSESSA, 8 10 OP. 22.9.-11.12.2009. Luennoi: yliopisto-opettaja Pekka Pere. Aputuloksia Logaritmin muutos ja suhteellinen muutos Lähtökohta on approksimaatio log(1 + δ) δ, jossa δ ("deltan itseisarvo") on "pieni" ja 1+δ > 0. (Approksimaatio on huono, jos ensimmäinen ehto ei päde.) Esimerkki (δ =0, 1): log(1 + 0, 1) = log(1, 1) = 0, 0953 0, 1. Palautetaan mieliin laskusääntö log(xy) =log(x)+log(y), jossa x ja y ovat positiivisia lukuja. Approksimaatiosta ja laskusäännöstä seuraa, että log[x(1 + δ)] = log(x) + log(1 + δ) log(x) + δ ja log[x(1 + δ)] log(x) δ. Logaritmin argumentin muuttuessa 100 δ prosentilla muuttuu logaritmi noin δ:lla. Logaritmin muutokset kerrottuna sadalla ovat siten approksimatiivisia prosenttimuutoksia. Esimerkki (x = 100 ja δ =0, 05): 100(1 + 0, 05) = 105 logaritmin argumentti suurenee 5 prosenttia. log[100(1 + 0, 05)] log(100) = log(105) log(100) = 0, 0488 logaritmi suurenee noin 0, 05:llä. 1 1 Lisää aiheesta on artikkelissa Leo Törnqvist, Pentti Vartia ja Yrjö Vartia (1985): How Should Relative Changes Be Measured? The American Statistician, 39, 43 46.
F-testisuureen kaavoista 2 Pohditaan lineaarisen mallin Y i = α + β 1 X i1 + + β k X ik + ε i (1) (kirjassa tehdyin oletuksin) β j -kertoimia koskevien lineaaristen rajoitusten testaamista. Yllä indeksi i viittaa havaintoon (i =1,...n). Tyypillisimpiä rajoituksia ovat, että kaikki β j -kertoimet ovat nollia (β 1 =... = β k =0)tai että d kerrointa (0 <d<k) ovat nollia (esimerkiksi β k d+1 =... = β k =0). Rajoituksetvoivatkuitenkinolla muunlaisia. (Esimerkkejä: β 1 =1, β 1 = β 2 ja β 1 + β 2 =1.) 3 Baddeleyn ja Barrowcloughin kirjan sivuilla 129 ja 35 esitetään kaksi kaavaa F -testisuureelle: R 2 /k F k,n k 1 = (1 R 2 (2) )/(n k 1) ja F d,n ku 1 = (RSS r RSS u )/d RSS u /(n k u 1). (3) Yllä R 2 on selitysosuus pienimmän neliösumman (PNS) menetelmällä estimoidusta mallista (1), RSS 2 u on edelliseen regressioon liittyvä residuaalineliösumma (residual sum of squares), RSS 2 r on PNS:llä estimoidun rajoitetun mallin residuaalineliösumma ja k ka k u pvat vapaasti estimoidussa mallissa olevien muuttujien lukumäärä. Alaindeksit u ja r viittaavat adjektiiveihin unrestricted ja restricted. Edellinen kaava on F -testisuure nollahypoteesille, että mallin kaikki k kerrointa ovat nollia; jälkimmäisellä kaavalla voidaan testata yleisempää muotoa olevia d:tä (0 <d k) lineaarista rajoitusta mallin kertoimille (β j, j =1,...,k). Johdetaan ensin kaavalle (3) muoto, jolla se voidaan laskea selitysasteiden avulla. Merkitään rajoittamattoman mallin selitysastetta R 2 u:lla (R 2 :sta yllä) ja rajoitetun mallin selitysastetta R 2 r:lla. Luennolla perusteltiin, että R 2 u =1 RSS u TSS, jossa TSS= P n i=1 (Y i Y _ ) 2 eli kokonaisneliösumma (total sum of squares) ja _ Y = P n i=1 Y i. Jakamalla kaavan (3) osoittaja ja nimittäjä TSS:llä ja käyttämällä 2 Jakson päätulokset ovat tärkeitä, mutta todistus (4) ja alaviite 3 ovat vain kiinnostuneille eivätkä kuulu kuulusteltavaan materiaaliin. 3 Lineaariset rajoitukset ovat lineaarikombinaatioita β j -parametreista muotoa P kj=1 a j β j = b. Tässä a i :t ja b ovat testattavien hypoteesien mukaisesti valittuja lukuja. Ensimmäisessä esimerkissä a 1 =1=b ja a 2 =...= a k =0,toisessaa 1 =1, a 2 = 1 ja a 3 =...= a k = b =0ja kolmannessa a 1 = a 2 =1, a 3 =...= a k =0ja b =1.
yllä olevaa kaavaa saadaan F d,n ku 1 = (RSS r RSS u )/d RSS u /(n k u 1) = = µ RSSr TSS RSS u TSS µ RSSu TSS µ 1 RSS u TSS 1 /d /(n k u 1) µ 1 RSS u TSS µ /d 1 RSS r TSS /(n k u 1) (4) = (R 2 u R 2 r)/d (1 R 2 u)/(n k u 1). Kaavan (3) testisuure F d,n ku 1 voidaan siten laskea kätevästi vapaasti estimoidun mallin selitysasteen R 2 u ja rajoitetusti estimoidun mallin selitysasteen R 2 r avulla. Esimerkki: Testataan d:n (0 <d<k) viimeisen selittäjän kuulumista malliin eli nollahypoteesia β k d+1 =... = β k =0. Estimoidaan ensin malli (1) ja kirjataan regression selitysaste R 2 u. Seuraavaksi estimoidaan mallin (1) rajoitettu versio, jolloin regressiossa on mukana vain k d ensimmäistä selittäjää. Kirjataan tämän regression selitysaste R 2 r. Testisuure (4) voidaan nyt laskea. Testisuurella (4) voidaan testata d:n (0 <d k) lineaarisen rajoituksen pätevyyttä. Mikäli nollahypoteesi on β 1 =... = β k =0,onR 2 r =0(kuten luennolla on perusteltu). Testisuure (4) pelkistyy tällöin testisuureeksi (2). Indikaattorimuuttujista Yhdysvaltalainen palkka-aineisto vuodelta 1987 Tutkitaan yhdysvaltalaista aineistoa nuorten työntekijöiden (jatkossa "miesten" ja "naisten") tuntipalkoista vuonna 1987 (US National Longitudinal Survey; 3294 havaintoa, joista 1698 on miehiä). 4 Tutkitaan miesten ja naisten palkkaeroja. Aineistossa muuttuja m (male) saa arvon 1, jos työntekijä on mies ja arvon 0, jos työntekijä on nainen. Tällaista muuttujaa, joka saa vain arvoja 1 ja 0, kutsutaan indikaattori- tai luokittelumuuttujaksi (dummy). 4 Analyysi alla on Marno Verbeekin (2008) oppikirjasta A Guide to Modern Econometrics. Aineiston saa sivulta www.wileyeurope.com/college/verbeek.
Yksinkertainen esimerkki indikaattorimuuttujien käytöstä lineaaristen mallien estimoinnissa 5 saadaan selittämällä palkkoja (w; wage) sukupuoli-indikaattorilla m: w i = 5, 15 + 1, 17m i + ε i, (0, 081) (0, 112) (5) σ =3, 217, R 2 =0, 032, F = 107, 93. Yllä luvut suluissa ovat keskivirheitä, σ on jäännöksen estimoitu keskihajonta, R 2 on selitysaste ja F -testisuure on laskettu kaavalla (2) eli nollahypoteesille, että mallin kaikkien selittäjien (pl. vakion) kertoimet ovat nollia. F -testisuureen saamasta suuresta arvosta (107, 93) seuraa, että sukupuoli vaikuttaa (tavallisilla merkitsevyystasoilla) tilastollisesti merkitsevästi palkkoihin (perustele). Regression (5) selitysaste on vaatimaton (0, 03). Suurella havaintomäärällä näinkin pieni selitysaste voi tuottaa suuren F -testisuureen arvon ja olla tilastollisesti merkitsevä. Naisten ja miesten keskimääräiset tuntipalkat ovat aineistossa 5, 15 ja 6, 31 dollaria. Vakion estimaatti 5, 15 kuvaa siten miesten keskimääräistä palkkaa ja kerroin 1, 17 sitä, minkä verran miehen palkka keskimäärin poikkeaa naisen palkasta (5, 15+1, 17 1 6, 31). Miesten palkat ovat keskimäärin 23 prosenttia naisten palkkoja korkeammat (6, 31/5, 15 1, 23). Yhtälön (5) kaltaisessa yhden selittävän muuttujan regressiossa vakion estimaatti on vertailuryhmän keskiarvo ja indikaattorimuuttujan kerroin kuvaa, minkä verran indikaattorimuuttujan 1-indeksillä osoitettujen havaintojen keskiarvo poikkeaa muiden havaintojen keskiarvosta eli estimoidusta vakiosta. Keskiarvojen mahdollista poikkeavuutta tutkitaan regressiossa yllä F - (tai yhtäpitävästi t) testillä olettaen, että yhtälön jäännöksen varianssi on molemmille sukupuolille sama. On merkityksetöntä, kumpaa (työntekijä-)ryhmää merkitään indikaattorimuuttujassa 1:llä ja kumpaa 0:lla. Mikäli indikaattorimuuttuja olisi f (female,) joka saa arvon 1, kun työntekijä on nainen ja 0 muutoin, olisi regression tulos w i = 6, 31 1, 17f i + ε i. (0, 078) (0, 112) Tämä regressio on sisällöllisesti yhtäpitävä regression (5) kanssa (perustele). Kolmas yhtäpitävä regressio saataisiin sisällyttämällä malliin molemmat sukupuoli-indikaattorit (m i ja f i ), jolloin vakiota ei kuitenkaan voida sisällyttää malliin (perustele): w i = 6, 31m i + 5, 15f i + ε i. (0, 078) (0, 081) 5 Kaikki estimoinnit alla on tehty pienimmän neliösumman menetelmällä.
Yllä kumpikaan kertoimista ei mittaa poikkeamaa (estimoidun vakion mukaisesta) vertailutasosta, vaan ne estimoivat palkkojen odotusarvoa ryhmissä. Jatkoanalyysi pohjautuu regressioon (5). Indikaattorimuuttujia voidaan käyttää myös regressiomalleissa, joissa on muita selittäjiä. Indikaattorimuuttujan kerroin kuvaa tällöin, minkä verran miesten palkat eroavat naisten palkoista, kun mallin muita muuttujia pidetään kiinnitettyinä. Yhtälön (5) mukaan miehet tienaavat naisia enemmän. Ero palkoissa voi kuitenkin johtua muista tekijöistä kuin sukupuolesta esimerkiksi koulutuksesta. Mallin pieni selitysaste viittaakin siihen, että monet muut tekijät vaikuttavat palkkoihin kuin pelkkä sukupuoli. Lisätään malliin koulutustasoa mittava muuttuja s (schooling; vuosia) sekä työkokemusta mittaava muuttuja e (experience; vuosia). Tulos on w i = 3, 38 + 1, 34m i + 0, 64s i + 0, 12e i + ε i, (0, 465) (0, 108) (0, 033) (0, 024) (6) σ =3, 046, R 2 =0, 133, F = 167, 63. Useita muuttujia sisältävässä regressiossa vakio ei ole ylipäänsä tulkittavissa yksinkertaisena keskiarvona. Tässä mallissa se periaatteessa kuvaa mallin laskemaa ennustetta palkaksi työntekijälle, joka on täysin kouluttamaton täysin työkokemusta vailla oleva nainen (m i = s i = e i =0). Ennusteen negatiivisuus ( 3, 38) varoittaa ekstrapoloinnin vaaroista (tällaisia työntekijöitä tuskin on ollut aineistossa!). Mallin mukaan miehet saavat 1, 34 dollaria naisia enemmän tuntipalkkaa, kun koulutuksen ja työkokemuksen vaikutus työntekijän palkkaan on huomioitu. Molempien sukupuolien tuntipalkka kasvaa lisäkoulutusvuodesta 0, 64 dollaria ja työkokemuksen lisäyksestä vuodella 0, 12 dollaria. Saman koulutuksen ja työkokemuksen omaavien miehien ja naisien suhteellinen palkkaero voidaan laskea mallin avulla valituilla koulutus- ja työvuosilla. Esimerkiksi jos työntekijä on käynyt koulua 10 vuotta ja tehnyt töitä 10 vuotta, on palkan ennuste miehelle 3, 38 + 1, 34 + 0, 64 10 + 0, 12 15 = 6, 16 dollaria ja naiselle 3, 38 + 0, 64 10 + 0, 12 15 = 4, 82 dollaria. Tällaisessa tilanteessa suhteellinen palkkaero on 28 prosenttia (6, 16/4, 82 1, 28). Erot miesten ja naisten koulutuksessa eivät selitä palkkaeroa sukupuolten välillä. Mallin mukaan suhteellinen palkkaero vaihtelee eri palkkatasoilla, sillä sukupuoli-indikaattorin vaikutus on kiinteä dollarimäärä palkkatasosta riippumatta. Kaikki selittäjät vaikuttavat tilastollisesti merkitseviltä sekä F -ettät-testien mukaan (perustele). Periaatteessa F -testin tulos voisi johtua siitä, että indikaattorimuuttuja m on yksinkin tilastollisesti merkitsevä selittäjä (perustele). Koulutus s ja työkokemus e ovat kuitenkin itsessäänkin tarpeellisia muuttujia. Niiden merkitsevyyttä voidaan testata kaavalla (4) F d,n k 1 = (R 2 u R 2 r)/d (1 R 2 u)/(n k 1).
Tässä tilanteessa se saa muodon F 2,3294 2 1 = (0, 132 0, 032)/2 = 191, 35. (1 0, 132)/(3294 3 1) Koulutus ja työkokemus ovat F -testin mukaan myös yhdessä tilastollisesti merkitseviä selittäjiä (perustele). Mallin (6) selitysaste (0, 13) on huomattavasti suurempi kuin alkuperäisessä mallissa (5). Silti valtaosa palkkojen vaihtelusta jää edelleen selittämättä. Belgialainen palkka-aineisto vuodelta 1994 Tutkitaan seuraavaksi belgialaista tuntipalkka-aineistoa vuodelta 1994 (European Community Household Panel; 1472 havaintoa, joista 893 on miehiä). 6 Miesten palkat ovat tässä aineistossa 13 prosenttia suuremmat kuin naisten palkat. Toisaalta aineiston miehillä on naisia enemmän työkokemusta, joten sukupuolisyrjintää palkkojen ero ei välttämättä merkitse. Edellisessä esimerkissä estimoidussa mallissa vuosi lisää koulutusta tai työkokemusta lisäsi palkkaa kiinteällä dollarimäärällä. Luontevampi voisi olla malli, jossa tällaiset tekijät kasvattavaisivat palkkaa prosentuaalisesti eikä kiinteällä dollarimäärällä. Tämä on oleellisesti mahdollista siirtymällä käyttämään muuttujien (pl. indikaattorimuuttujan) logaritmeja (Baddeleyn ja Barrowcloughin kirjan luku 3). Tällöin indikaattorimuuttujankin vaikutus selitettävään muuttujaan pysyy suhteellisesti samana kaikilla palkkatasoilla toisin kuin edellisessä esimerkissä. Selitetään belgialaisten palkkojen logaritmia (w) sukupuoli-indikaattorilla (m = 1, jos työntekijä on mies; 0 muutoin) sekä koulutustason logaritmilla (s) että työkokemusvuosien logaritmilla (e). Koulutusta mitataan viisiportaisella asteikolla niin 1:stä 5:teen, niin että 5 vastaa yliopistotutkintoa. Regression tulos on w i = 1, 15 + 0, 12m i + 0, 44s i + 0, 23e i + ε i, (0, 041) (0, 016) (0, 018) (0, 011) (7) σ =0, 287, R 2 =0, 376, F = 294, 96. Kaikki muuttujat ovat tilastollisesti merkitseviä. Mallin mukaan miesten palkat ovat noin 12 prosenttia naisten palkkojen suurempia muiden tekijöiden ollessa annettuja. Koulutus vaikuttaa (estimoituun odotettuun) palkkaan seuraavasti: 7 Ero koulutustason 2 ja 1 työntekijöiden palkan logaritmissa on 0, 44 [log(2) log(1)] 0, 30 eli palkat eroavat n. 30 prosenttia. 6 Tämäkin analyysi on Marno Verbeekin (2008) kirjasta. Aineisto on sivulla www.wileyeurope.com/college/verbeek. 7 Logaritmien muutokset alla ovat niin suuria (esim. "0, 71"), että palkkojen vastaavat prosenttimuutokset poikkeavat huomattavasti alla kuvaillusta (esim. "n. 71 prosenttia").
Ero koulutustason 3 ja 1 työntekijöiden palkan logaritmissa on 0, 44 [log(3) log(1)] 0, 48 eli palkat eroavat n. 48 prosenttia. Edellisestä tasostanousuaonn.18prosenttia. Ero koulutustason 4 ja 1 työntekijöiden palkan logaritmissa on 0, 44 [log(4) log(1)] 0, 61 eli palkat eroavat n. 61 prosenttia. Edellisestä tasostanousuaonn.13prosenttia. Ero koulutustason 5 ja 1 työntekijöiden palkan logaritmissa on 0, 44 [log(5) log(1)] 0, 71 eli palkat eroavat n. 71 prosenttia. Edellisestä tasosta nousua on n. 9 prosenttia. Koulutusmuuttujan logaritmoinnin takia koulutustason noston vaikutus on sitä pienempi, mitä korkeampi on lähtökoulutustaso, vaikka koulutuksen muutos välittyy kiinteän kertoimen (0, 44) kautta. Koulutustason noston vaikutus voitaisiin estimoida täysin vapaasti, mikäli kullekin koulutustasolle luotaisiin neljä indikaattorimuuttujaa (s2 = 1, jos koulutustaso on 2; 0 muutoin,..., s5 = 1, jos koulutustaso on 5; 0 muutoin). Estimoidaan tällainen yleisempää muotoa oleva malli: w i = 1, 27 + 0, 12m i + 0, 14s2 i + 0, 31s3 i + 0, 47s4 i (0, 045) (0, 015) (0, 033) (0, 032) (0, 033) + 0, 64s5 i + 0, 23e i + εi, (0, 033) (0, 011) Mallin (8) mukaan σ =0, 282, R 2 =0, 398, F = 161, 14. Palkkaero koulutustasojen 1 ja 2 välillä on n. 14 prosenttia. Palkkaero koulutustasojen 1 ja 3 välillä on n. 31 prosenttia.; edellisestä tasostanousuaonn.17prosenttia. Palkkaero koulutustasojen 1 ja 4 välillä on n. 47 prosentilla; edellisestä tasostanousuaonn.16prosenttia. Palkkaero koulutustasojen 1 ja 5 välillä on n. 64 prosenttia; edellisestä tasostanousuaonn.18prosenttia. Koulutustason noston seuraavalle tasolle vaikutus palkkaan vaihtelee tässä mallissa vähän ja pyrkii pikemminkin kasvamaan korkeammille koulutustasoille edettäessä päinvastoin kuin mallissa (7). Mallit (7) ja (8) poikkeavat siten toisistaan oleellisesti. Malli (7) on mallin (8) erikoistapaus, sillä jälkimmäisessä koulutustason vaikutus palkkaan on täysin vapaasti estimoitavissa kullekin tasolle. Testataan F -testillä (4) näitä malliin (7) liittyvää kolmea rajoitusta: (8)
(0, 398 0, 376)/3 F 3,1472 6 1 = =17, 36. (1 0, 398)/(1472 7) Nollahypoteesi, että rajoitukset pätisivät, hylätään 1 prosentin riskitasolla. Malli (8) on syytä ottaa jatkoanalyysin lähtökohdaksi. Interaktiomuuttujista Joskus lineaarisen mallin jonkin selittäjän vaikutus selitettävään muuttujaan riippuu toisen selittäjän arvosta. Yleinen keino sallia se on lisätä malliin kyseisten muuttujien tulo: Y i = α + β 1 X i1 + + β k X ik + β k+1 X i1 X i2 + ε i. Interaktiomuuttuja on Z i1 X i1 X i2, joka on 1. ja 2. muuttujan tulo (esimerkiksi). Mikäli selittävän muuttujan vaikutus selitettävään muuttujaan riippuu useampien toisten selittäjien arvoista, voidaan malliin sisällyttää useita interaktiomuuttujia. Havainnollistetaan interaktiomuuttujien käyttöä edellä käsitellyllä belgialaisella palkka-aineistolla. On ajateltavissa, että koulutuksen ja työkokemuksen vaikutus palkkaan riippuisi sukupuolesta. Testataan tällaista mahdollisuutta lisäämällä malliin (8) viisi interaktiomuuttujaa sm2 =s 2 m, sm3 =s3 m, sm4 =s4 m ja sm5 =s5 m sekä em = e m. Alkuperäiset muuttujat s2:sta s4:ään ja e kuvaavat tällöin koulutuksen ja työkokemuksen vaikutusta naisten palkkoihin. Miesten palkkoihin koulutus ja työkokemus voivat vaikuttaa nyt eri tavoin. Tällaisen mallin estimointi tuottaa yhtälön w i = 1, 22 + 0, 15m i + 0, 22s2 i + 0, 43s3 i (0, 078) (0, 095) (0, 068) (0, 063) + 0, 60s4 i + 0, 76s5 i + 0, 21e i 0, 10sm2 i (0, 063) (0, 065) (0, 017) (0, 078) 0, 17sm3 i 0, 17sm4 i 0, 15sm5 i + 0, 04em i + ε i, (0, 073) (0, 074) (0, 76) (0, 021) (9) σ =0, 281, R 2 =0, 403, F =89, 69. Lasketaan F -testisuure (4) nollahypoteesille, että interaktiomuuttujat eivät kuulu malliin: F 5,1472 11 1 = (0, 403 0, 398)/5 =2, 74. (1 0, 403)/(1472 11 1) Arvo on tilastollisesti merkitsevä 5 prosentin joskaan ei 1 prosentin riskitasolla. Interaktiomuuttujat vaikuttavat tarpeellisilta.
Koulutuksen ja kokemuksen interaktio sukupuoli-indikaattorin kanssa muuttaa mallin tulkintaa oleellisesti. Mallin (9) mukaan koulutus kasvattaa naisten palkkoja miehiä enemmän, sillä koulutuksen ja sukupuolen interaktioiden kertoimet ovat negatiivisia. Työkokemuksen ja sukupuolen interaktion kerroin on positiivinen, joten toisaalta työkokemus kasvattaa palkkoja miehillä enemmän kuin naisilla. Sukupuoli-indikaattorin kerroin (0, 15) ei mittaa enää miesten ja naisten palkkaeroa, kun koulutus ja työkokemus ovat samat. Esimerkiksi estimoitu palkkaero koulutustason 2 mies- ja naistyöntekijöillä 20 vuoden työkokemuksella on n. 18 prosenttia: 1, 22 + 0, 15 + 0, 22 + 0, 21 log(20) 0, 10 + 0, 04 log(20) [1, 22 + 0, 22 + 0, 21 log(20)] =0, 15 0, 10 + 0, 04 log(20) =0, 18. Vaikutus ei siten ole sukupuoli-indikaattorin estimoidun kertoimen mukainen n. 15 prosenttia. Kertoimien tulkintaa, kun mallissa on interaktiomuuttujia, jatketaan seuraavassa jaksossa. Kertoimien tulkinta, kun mallissa on selittäjien potensseja tai interaktiomuuttuja Köyhyysaineistolle (22 maata) estimoitiin malli ("luvun 4 jatkoanalyysia II") Y i = 61, 171 + 4, 821X i 0, 34X 2 i + ε i, (2, 261) (1, 089) (0, 122) (10) σ =2, 381, R 2 =0, 760. Yllä Y i on eliniän odote, X i on julkisten terveysmenojen bruttokansantuoteosuus, i on havainnon indeksi (i = 1,...,22) jamuutmerkinnätovatkuten edellä. Lineaarisen mallin Y i = α + β 1 X i1 + + β k X ik + ε i selittäjien β j -kertoimien tulkinta on selkeä. Kerroin β j kuvaa, mikä on Y i :n (ehdollisen odotusarvon) muutos X ij :n (i. havainto j. selittäjästä X j ) muuttuessa, kun muut selittäjät ovat kiinnitettyjä: E(Y i X i1,...x ik ) = β X j. ij Yllä E(Y i X i1,...x ik ) on Y i :n ehdollinen odotusarvo ehdolla samaan havaintoon liittyvien selittäjien arvot X i1,...x ik ja merkintä / X ij viittaa derivaattaan X ij :n suhteen.
Mallin (10) kertoimia ei voida tulkita samoin. Siinä ensimmäisen selittäjän (Xi) muuttuessa väistämättä myös toinen selittäjä (X 2 i ) muuttuu. Selittäjän X i muutoksen vaikutus Y i :hin välittyy tässä mallissa molempien selittäjien kautta. Yhtälöä (10) vastaava yleinen malli on Vaikutus on tällöin Y i = α + β 1 X i + β 2 X 2 i + ε i. d E(Y i X i,xi 2) = β dx 1 +2β 2 X i. i Selittäjän X i muutoksen vaikutus Y i :hin riippuu siten selittäjän X i arvosta! Esimerkiksi saakoon X i vain positiivisia arvoja (jos haluat, voit myös olettaa, että mallin (10) tapaan β 1 > 0 ja β 2 < 0). Tällöin X i :n ollessa välillä (0, 1), korostuu β 1 parametrin vaikutus Y i n muutoksen määräytymisessä (Xi 2 <X i,kun X i (0, 1)), kun X i muuttuu. Kun X i on "suuri" (kun Xi 2 on paljon suurempi kuin X i ), korostuu β 2 -kertoimen vaikutus Y i n muutoksen määräytymisessä. Interaktiomalleissa yksi selittäjä vaikuttaa selitettävään muuttujaan vastaavalla tavalla kahden muuttujan eli itse selittäjän ja siihen liittyvän interaktiotermin kautta. Esimerkiksi mallissa Y i = α + β 1 X i1 + β 2 X i2 + β 3 X i1 X i2 + ε i muuttujan X i1 muutoksen vaikutus Y i :hin on E(Y i X i1,x i2 ) = β X 1 + β 3 X i2. i1 Esimerkki: Mallin (9) mukaan työkokemus (sen logaritmi) kasvattaa belgialaisen miehen palkkaa (sen logaritmia) yhtälön mukaisesti. Muuta 0, 21 + 0, 04 1=0, 25 Vaikka belgialaisten palkkojen määräytymistä kuvaava malli (9) huomio monia seikkoja, tulee sen tulkinnassa silti olla varovainen. Esimerkiksi mallissa ei ole työpaikan laatua kuvaavaa muuttujaa ja koulutustaso vaikuttaa varmasti siihen. Koulutustason estimoitu vaikutus heijastaa todennäköisesti paljolti erilaisten työtehtävien vaikutusta palkkaan. Näin ollen mallin ennuste ei ole luotettava, jos sitä käytetään laskemaan palkkaa kahdelle työntekijälle, joiden koulutustasot poikkeavat mutta jotka ovat muuten samanlaisia ja toimivat samassa työtehtävässä.
Mallia (9) ei voi tulkita myöskään kausaalisesti. Siitä ei voida esimerkiksi päätellä, että jos työntekijä nostaa koulutustasoaan, niin hänen palkkansa nousisi (odotusarvon mielessä) mallin ennusteen mukaisesti. Syy on, että koulutustaso korreloi työntekijöiden monien henkilökohtaisten ominaisuuksien (älykkyys, omatoimisuus jne.) kanssa, jotka vaikuttavat myös palkkaan. Tomi Kyyrä estimoi kansantaloustieteen väitöskirjassaan (2007) kehittyneempiä malleja suomalaisella aineistolla vuodelta 2000. Hän päätteli, että naiset saavat Suomessa samasta työstä 3 4 prosenttia miehiä vähemmän palkkaa. Vaikka pedagogisesti on hyödyllistä rakentaa lineaarinen malli yllä kuvattuun tapaan yksinkertaisesta monimutkaisempaan edeten, yleensä olisi suotavampaa aloittaa mallin rakentaminen kattavimmasta kuviteltavissa olevasta ja karsia se yksinkertaisemmaksi esimerkiksi F -testien avulla. Tällöin aloitusmalli (oletettavasti) sisältää erikoistapauksena todellisen mallin ja kaikki laskutoimitukset ja päätelmät perustuvat paikkansapitävään malliin.