Lumipallo regressioanalyysista jokainen kirjoittaa lapulle yhden lauseen regressioanalyysista ja antaa sen seuraavalle Logistinen regressioanalyysi Y250. Kvantitatiiviset menetelmät (6 op) Hanna Wass tutkijatohtori hanna.wass@helsinki.fi vastaanotto ke 14-15 tai sopimuksen mukaan uuden lapun saatuaan kukin täydentää edellisen aloittamaa kuvausta yhdellä lauseella ja antaa lapun seuraavalle näin jatketaan yhteensä neljä kertaa, kunnes kukin lappu palautuu takaisin lähettäjälleen Regressioanalyysi Soveltuvan menetelmän valinta Regressioanalyysissa tarkastellaan yhden tai useamman vähintään välimatka-asteikollisen selittävän muuttujan vaikutusta vähintään välimatka-asteikolliseen selittävään muuttujaan. Muuttujien välinen yhteys voidaan kuvata regressiosuoralla y = a + bx, jossa kerroin b ilmaisee kuinka paljon selitettävä muuttuja keskimäärin muuttuu, kun selittävä muuttuja muuttuu yhden yksikön verran. Kun regressioanalyysissa tarkastellaan samanaikaisesti useita selittäviä muuttujia, on mahdollista saada selville kunkin tekijän itsenäinen, muista mukana olevista selittävistä muuttujista riippumaton vaikutus. selittävä muuttuja laatuero- tai järjestysasteikko välimatka- tai suhdelukuasteikko selitettävä muuttuja laatuero- tai välimatka- tai järjestysasteikko suhdelukuasteikko ristiintaulukointi log-lineaariset mallit varianssianalyysi logistinen regressioanalyysi regressioanalyysi multinomiaalinen regressioanalyysi Logistinen regressioanalyysi I tavallisen regressioanalyysin erikoistyyppi, jota käytetään silloin kun selitettävä muuttuja voi saada vain kaksi arvoa äänestikö vastaaja vaaleissa ero tavanomaiseen regressioanalyysin on se, että muuttujien välisten riippuvuuksien ei tarvitse olla nimenomaan lineaarisia, vaan myös muunlaiset riippuvuussuhteet (esimerkiksi eksponentiaalinen tai logaritminen) ovat mahdollisia Logistinen regressioanalyysi II analysoidaan määrien sijaan todennäköisyyksiä sille, että jokin tarkasteltava asia tapahtuu tai pätee tulokset kertovat, vaikuttavatko selittävät muuttujat tapahtuman todennäköisyyteen ja kuinka suuri vaikutus on iän vaikutus äänestämisen todennäköisyyteen 1
Logistisen regressioanalyysin perusidea I Logistisen regressioanalyysin perusidea II selitettävä muuttuja dikotominen eli voi saada vain arvon yksi (1) tai nolla (0) vastaaja äänesti (Y=1) vastaaja ei äänestänyt (Y=0) keskeistä riskin (odds) ja ristitulosuhteen (odds ratio) käsitteet käytetään yleisesti kuvattaessa vedonlyönnin voittosuhteita miehistä 67,6 prosenttia äänesti vuoden 2007 eduskuntavaaleissa eli äänestämisen todennäköisyys on 0,68 vastaavasti 32 prosenttia ei äänestänyt eli äänestämättä jättämisen todennäköisyys on 0,32 (1-0,68) miesten äänestämisen riski P(Y=1) on 2,13 (0,68/0,32) tapahtuman riski saadaan suhteuttamalla tapahtuman todennäköisyys siihen todennäköisyyteen, että se ei tapahdu vastaavalla tavalla laskettuna naisten äänestämisen riski on 2,6 (0,72/0,28) Logistisen regressioanalyysin perusidea III Logistisen regressioanalyysin perusidea IV riski voi saada arvoja nollan ja äärettömän väliltä tavanomainen regressioanalyysi soveltuu parhaiten tilanteeseen, jossa selitettävän muuttujan arvoja ei ole rajattu millekään ennalta määrätylle välille (myös <0 mahdollinen) yksinkertaistettuna logistinen regressiomalli siis tavallinen regressiomalli, jossa selitettävänä muuttujana on tutkittavan tapahtuman ristitulosuhteen logaritmi tästä syystä logistista regressioanalyysia varten riskistä otetaan vielä luonnollinen logaritmi, mikä varmistaa, että saatu luku vaihtelee äärettömän pienien ja äärettömän suurien lukujen välillä ristitulosuhde on kahden eri riskin suhde äänestämisen riski jaettuna äänestämättä jättämisen riskillä äänestämättä jättämisen riski jaettuna äänestämisen riskillä Logistisen regressioanalyysin perusidea V Logistinen regressioanalyysin tulkinta I P(Y=1) on todennäköisyys sille, että selitettävä muuttuja saa arvon yksi, a on vakiotekijä, b regressiokerroin ja x selittävän muuttujan arvo logistisen regressiomallin kaavan lauseke a+bx on täsmälleen sama kuin normaalissa regressioanalyysissa logistisen regressioanalyysin tulkinta on lähes sama kuin tavallisessa regressioanalyysissa tulkinnassa tulee kuitenkin huomioida se, että logistisessa regressiomallissa selittävien ja selitettävän muuttujan suhde ei ole lineaarinen, vaan sen oletetaan seuraavan niin sanotun s-käyrän (eli logistisen käyrän) muotoa 2
Kuvio 1 Logistinen s-käyrä Logistinen regressioanalyysin tulkinta II mikäli selittävä muuttuja ei vaikuta lainkaan selitettävään muuttujaan, saa regressiokerroin b itseisarvoltaan hyvin pienen arvon kun b=0, muuttujien välistä yhteyttä kuvaava käyrä vaakasuora selitettävän muuttujan mittaaman tapahtuman todennäköisyys ei muutu selittävän muuttujan arvojen vaihdellessa Logistinen regressioanalyysin tulkinta III mikäli kerroin b saa suuren arvon, on selittävän muuttujan arvojen ja tapahtuman todennäköisyyden yhteyttä kuvaava käyrä s-kirjaimen muotoinen kun selittävän muuttujan pieni arvo kasvaa hiukan, ei tämä muuta paljoakaan selitettävän muuttujan mittaaman tapahtuman todennäköisyyttä (väli A kuviossa1) selittävän muuttujan saadessa arvoja vaihteluvälin keskivaiheilta pienikin muutos aiheuttaa suuren muutoksen selitettävän ilmiön tapahtumistodennäköisyydessä (väli B kuviossa 1) selittävän muuttujan ollessa lähellä ylärajaa muutoksilla on jälleen pienempi vaikutus (väli C kuviossa 1) Logistinen regressioanalyysin tulkinta IV mikäli kertoimen b arvo on keskikokoinen, on sen muoto vaakasuoran ja s-käyrän välimailla mikäli kertoimen b arvo on negatiivinen, laskee selitettävän muuttujan mittaaman tapahtuman todennäköisyys selittävän muuttujan arvon kasvaessa tällöin käyrät samanmuotoisia kuin kuviossa 1, mutta laskevat vasemmalta oikealle Logistinen regressioanalyysin tulkinta V kun tavallisessa regressiomallissa yhden yksikön muutos selittävässä muuttujassa aiheuttaa aina samansuuruisen muutoksien selitettävässä muuttujassa, logistisessa regressioanalyysissa selitettävän todennäköisyyden muutos riippuu b-kertoimen lisäksi selittävän muuttujan arvosta logistisessa regressioanalyysissa b-kertoimet ilmoittavat muutoksen selitettävän muuttujan ristitulosuhteen logaritmissa D1. Mitä mieltä olette seuraavasta väitteestä: Kansalaisten pitäisi saada valita vapaasti käyttävätkö he verovaroin kustannettuja julkisesti tuotettuja vai verovaroin kustannettuja mutta yksityisesti tuotettuja palveluita? Valid Missing täysin samaa mieltä osittain samaa mieltä osittain eri mieltä täysin eri mieltä en osaa sanoa System Cumulative Frequency Percent Valid Percent Percent 72 19,8 26,7 26,7 95 26,1 35,2 61,9 55 15,1 20,4 82,2 47 12,9 17,4 99,6 1,3,4 100,0 270 74,2 100,0 94 25,8 logistisessa regressioanalyysissa tulosten tulkinta monimutkaisempaa 3
dikotoimisoidaan muuttuja (arvot 1-2 saavat arvon 1, arvot 3-4 arvon 0 ja ei osaa sanoa -vastaukset luokitellaan puuttuviksi tiedoiksi) valitaan muodostunut kaksiluokkainen muuttuja logistisen regressioanalyysin selitettäväksi muuttujaksi (dependent) analyze-regression-binary logistic valitaan selittäviksi muuttujiksi (covatiates) samat kuin tavallisen regressioanalyysin yhteydessä eli sukupuoli, ikä, koulutus, työmarkkina-asema ja puoluekanta Case Processing Summary Unweighted Cases a Selected Cases Included in Analysis Missing Cases Unselected Cases N Percent 263 72,3 101 27,7 0,0 a. If weight is in effect, see classification table for the total number of cases. - ensimmäinen tulostus ilmoittaa havaintojen määrän analyysissa ja koko aineistossa Step 1 Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 265,672 a,264,361 a. Estimation terminated at iteration number 5 because parameter estimates changed by less than,001. - logistisessa regressioanalyysista puuttuu yleisesti hyväksytty mallin hyvyyden testi, joka olisi verrannollinen tavallisen regressioanalyysin R 2 -tunnusluvulle - useita eri testejä ehdotettu, yleensä raportoidaan Nagelgerke R 2 - monen tutkijan mielestä R 2 -tunnisluku logistisessa regressioanalyysissa on varsin vähän kiinnostava (Garson2010) Observed Step 1 palvelut2 Overall Percentage a. The cut value is,500,00 1,00 Classification Table a Predicted palvelut2 Percentage,00 1,00 Correct 63 34 64,9 30 136 81,9 75,7 - logistisen regressiomallin ennustearvoa voidaan tarkastella katsomalla, kuinka hyvin sen avulla pystytään luokittelemaan vastaajat oikeisiin luokkiin heidän vastaustensa mukaan - mallin antaman ennusteen P avulla voidaan kukin havainto luokitella kahteen ryhmään: mikäli P < 0.5, ennustetaan, että havainto kuuluu ryhmään 0 ja mikäli P > 0.5, ennustetaan, että havainto kuuluu ryhmään 1 - tässä tapauksessa oikein ennustettujen tapausten osuus on 75,7 prosenttia (raportoidaan yleensä taulukossa) Variables in the Equation B S.E. Wald df Sig. Exp(B) Step sukupuoli,473,327 2,099 1,147 1,605 1 a ikä,006,016,155 1,693 1,006 keskiaste,363,515,496 1,481 1,437 korkeaaste -,508,545,870 1,351,602 töissä -,025,672,001 1,970,975 ulkopuolella,126,688,033 1,855 1,134 KOK,650,508 1,633 1,201 1,915 SDP -1,984,432 21,144 1,000,137 VAS -2,766,539 26,366 1,000,063 vihreät -,863,683 1,598 1,206,422 Kristillisdemokraa,622,834,556 1,456 1,863 Constant,519 1,294,161 1,689 1,680 a. Variable(s) entered on step 1: sukupuoli, ikä, keskiaste, korkeaaste, töissä, ulkopu VAS, vihreät, Kristillisdemokraatit. sarakkeessa B luetellaan regressiokertoimet, joita vastaavat testit perustuvat Waldin testisuureeseen Waldin testisuure saadaan jakamalla kerroin (B) keskivirheellään (S.E.) ja korottamalla kyseinen osamäärä toiseen potenssiin sukupuolen suhteen (473/327)^2=2,099 Waldin testisuure on 2 -jakautunut vapausastein 1 mikäli selittävä muuttuja on luokkamuuttuja, on vapausaste m-1, missä m on luokkien määrä 4
sig.-sarakkeesta nähdään Waldin-testisuureen arvoa vastaavan p-arvon suurilla regressiokertoimien arvoilla Waldin testi on epäluotettava estimoitu keskivirhe liian suuri, joten Wald-testisuure itse on liian pieni, mikä voi johtaa siihen, että nollahypoteesi: B_i = 0 jää voimaan silloinkin, kun se pitäisi hylätä vaihtoehto Waldin testille suurilla kertoimien arvoilla on testata, muuttuuko logaritminen uskottavuus (log likelihood), kun kyseinen muuttuja lisätään malliin B-kertoimet voivat saavat arvoja välillä + ja ääretön mikäli b<0, yhteys negatiivinen (X:n kasvaessa Y eli tarkasteltavan tapahtuman ristitulosuhde pienenee) mikäli b>0, yhteys positiivinen (X:n kasvaessa Y tarkasteltavan tapahtuman ristitulosuhde suurenee) mikäli b=0, selittävällä muuttujalla ei ole vaikutusta tarkasteltavan tapahtuman ristitulosuhteeseen sarakeessa Exp(B) ilmoitetaan ristitulosuhteen kerroin kullekin muuttujalle ristitulosuhdekerroin osoittaa kutakin muuttujaa vastaavan riskin muutoksen mikäli yksittäisen havainnon jonkin muuttujan arvo lisääntyy yhdellä yksiköllä, niin kyseisen havainnon uusi riski saadaan kertomalla alkuperäinen riski vastaavalla odds ratio - kertoimella mikäli ikä lisääntyy yhdellä vuodella, uusi odds saadaan vanhasta kertomalla se luvulla 1,006 eli todennäköisyys olla samaa mieltä tarkasteltavana olevan väitteen kanssa kasvaa 0,06 prosenttia jokaisen ikävuoden myötä dummy-muuttujien suhteen riski suhteutetaan vertailuryhmään, jonka arvo 1,00 eli ristitulosuhdekerroin ilmoittaa, kuinka paljon suurempi todennäköisyys kullakin muulla ryhmällä on olla samaa mieltä väitteen kanssa vertailuryhmään verrattuna mikäli mallissa mukana sekä välimatka-asteikollisia että luokittelumuuttujia, on selittävien tekijöiden vaikutusta usein helpoin arvioida kuvion avulla Multinominiaalinen logistinen regressio tavallisen logistisen regressioanalyysin laajennus, jossa luokitteluasteikolla mitattu selitettävä muuttuja voi saada useampia kuin pelkästään kaksi vaihtoehtoa tutkitaan, mitkä tekijät vaikuttavat siihen, että vastaaja on valinnut tietyn vaihtoehdon suhteessa muihin vaihtoehtoihin käytännössä saadaan niin monta mallia kuin selitettävässä muuttujassa on luokkia kolmeluokkaisesta muuttujasta saadaan kolme mallia: yhdessä verrataan vaihtoehdon A valintaa suhteessa vaihtoehtoon B, toisessa A:n valintaa suhteessa C:hen ja kolmannessa B:n valintaa suhteessa C:hen 5