Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Samankaltaiset tiedostot
Prospektiteoreettinen näkökulma

Kvantitatiiviset menetelmät

Yleistetyistä lineaarisista malleista

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Harjoitus 9: Excel - Tilastollinen analyysi


1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Tilastollisen analyysin perusteet, kevät 2007

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

805306A Johdatus monimuuttujamenetelmiin, 5 op

HAVAITUT JA ODOTETUT FREKVENSSIT

Johdatus regressioanalyysiin. Heliövaara 1

Harjoittele tulkintoja

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Liite artikkeliin Intohimo tasa-arvoon

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Usean selittävän muuttujan regressioanalyysi

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Harjoitus 7: NCSS - Tilastollinen analyysi

Opiskelija viipymisaika pistemäärä

Dynaamiset regressiomallit

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Kvantitatiiviset menetelmät

voidaan hylätä, pienempi vai suurempi kuin 1 %?

MAY1 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Julkaiseminen sallittu vain koulun suljetussa verkossa.

Sovellettu todennäköisyyslaskenta B

Keskeisin opittu asia (%) Regressioanalyysi. Keskeisin kertausta vaativa asia (%) Soveltuvan menetelmän valinta. Regressioanalyysi II

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Kvantitatiiviset menetelmät

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

2. Aineiston kuvaaminen graafisesti 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Mat Tilastollisen analyysin perusteet, kevät 2007

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Harjoitukset 4 : Paneelidata (Palautus )

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Tehtävät 1/10. TAMPEREEN YLIOPISTO Informaatiotieteiden tiedekunta Valintakoe Matematiikka ja tilastotiede. Sukunimi (painokirjaimin)

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Sovellettu todennäköisyyslaskenta B

Harjoitusten 4 vastaukset

Testejä suhdeasteikollisille muuttujille

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Frequencies. Frequency Table

Load

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

Lineaarinen yhtälöryhmä

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Matematiikan tukikurssi

Matematiikan tukikurssi

pisteet Frekvenssi frekvenssi Yhteensä

Logistinen regressio, separoivat hypertasot

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Sovellettu todennäköisyyslaskenta B

Laskelmia puoluekannatuksesta Seppo

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

SELVITTÄJÄN KOMPETENSSISTA

Juuri 7 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty c) sin 50 = sin ( ) = sin 130 = 0,77

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Liito-oravan elinympäristöjen mallittaminen Tampereen seudulla

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Matematiikan tukikurssi: kurssikerta 10

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

7 Vapaus. 7.1 Vapauden määritelmä

Transkriptio:

Lumipallo regressioanalyysista jokainen kirjoittaa lapulle yhden lauseen regressioanalyysista ja antaa sen seuraavalle Logistinen regressioanalyysi Y250. Kvantitatiiviset menetelmät (6 op) Hanna Wass tutkijatohtori hanna.wass@helsinki.fi vastaanotto ke 14-15 tai sopimuksen mukaan uuden lapun saatuaan kukin täydentää edellisen aloittamaa kuvausta yhdellä lauseella ja antaa lapun seuraavalle näin jatketaan yhteensä neljä kertaa, kunnes kukin lappu palautuu takaisin lähettäjälleen Regressioanalyysi Soveltuvan menetelmän valinta Regressioanalyysissa tarkastellaan yhden tai useamman vähintään välimatka-asteikollisen selittävän muuttujan vaikutusta vähintään välimatka-asteikolliseen selittävään muuttujaan. Muuttujien välinen yhteys voidaan kuvata regressiosuoralla y = a + bx, jossa kerroin b ilmaisee kuinka paljon selitettävä muuttuja keskimäärin muuttuu, kun selittävä muuttuja muuttuu yhden yksikön verran. Kun regressioanalyysissa tarkastellaan samanaikaisesti useita selittäviä muuttujia, on mahdollista saada selville kunkin tekijän itsenäinen, muista mukana olevista selittävistä muuttujista riippumaton vaikutus. selittävä muuttuja laatuero- tai järjestysasteikko välimatka- tai suhdelukuasteikko selitettävä muuttuja laatuero- tai välimatka- tai järjestysasteikko suhdelukuasteikko ristiintaulukointi log-lineaariset mallit varianssianalyysi logistinen regressioanalyysi regressioanalyysi multinomiaalinen regressioanalyysi Logistinen regressioanalyysi I tavallisen regressioanalyysin erikoistyyppi, jota käytetään silloin kun selitettävä muuttuja voi saada vain kaksi arvoa äänestikö vastaaja vaaleissa ero tavanomaiseen regressioanalyysin on se, että muuttujien välisten riippuvuuksien ei tarvitse olla nimenomaan lineaarisia, vaan myös muunlaiset riippuvuussuhteet (esimerkiksi eksponentiaalinen tai logaritminen) ovat mahdollisia Logistinen regressioanalyysi II analysoidaan määrien sijaan todennäköisyyksiä sille, että jokin tarkasteltava asia tapahtuu tai pätee tulokset kertovat, vaikuttavatko selittävät muuttujat tapahtuman todennäköisyyteen ja kuinka suuri vaikutus on iän vaikutus äänestämisen todennäköisyyteen 1

Logistisen regressioanalyysin perusidea I Logistisen regressioanalyysin perusidea II selitettävä muuttuja dikotominen eli voi saada vain arvon yksi (1) tai nolla (0) vastaaja äänesti (Y=1) vastaaja ei äänestänyt (Y=0) keskeistä riskin (odds) ja ristitulosuhteen (odds ratio) käsitteet käytetään yleisesti kuvattaessa vedonlyönnin voittosuhteita miehistä 67,6 prosenttia äänesti vuoden 2007 eduskuntavaaleissa eli äänestämisen todennäköisyys on 0,68 vastaavasti 32 prosenttia ei äänestänyt eli äänestämättä jättämisen todennäköisyys on 0,32 (1-0,68) miesten äänestämisen riski P(Y=1) on 2,13 (0,68/0,32) tapahtuman riski saadaan suhteuttamalla tapahtuman todennäköisyys siihen todennäköisyyteen, että se ei tapahdu vastaavalla tavalla laskettuna naisten äänestämisen riski on 2,6 (0,72/0,28) Logistisen regressioanalyysin perusidea III Logistisen regressioanalyysin perusidea IV riski voi saada arvoja nollan ja äärettömän väliltä tavanomainen regressioanalyysi soveltuu parhaiten tilanteeseen, jossa selitettävän muuttujan arvoja ei ole rajattu millekään ennalta määrätylle välille (myös <0 mahdollinen) yksinkertaistettuna logistinen regressiomalli siis tavallinen regressiomalli, jossa selitettävänä muuttujana on tutkittavan tapahtuman ristitulosuhteen logaritmi tästä syystä logistista regressioanalyysia varten riskistä otetaan vielä luonnollinen logaritmi, mikä varmistaa, että saatu luku vaihtelee äärettömän pienien ja äärettömän suurien lukujen välillä ristitulosuhde on kahden eri riskin suhde äänestämisen riski jaettuna äänestämättä jättämisen riskillä äänestämättä jättämisen riski jaettuna äänestämisen riskillä Logistisen regressioanalyysin perusidea V Logistinen regressioanalyysin tulkinta I P(Y=1) on todennäköisyys sille, että selitettävä muuttuja saa arvon yksi, a on vakiotekijä, b regressiokerroin ja x selittävän muuttujan arvo logistisen regressiomallin kaavan lauseke a+bx on täsmälleen sama kuin normaalissa regressioanalyysissa logistisen regressioanalyysin tulkinta on lähes sama kuin tavallisessa regressioanalyysissa tulkinnassa tulee kuitenkin huomioida se, että logistisessa regressiomallissa selittävien ja selitettävän muuttujan suhde ei ole lineaarinen, vaan sen oletetaan seuraavan niin sanotun s-käyrän (eli logistisen käyrän) muotoa 2

Kuvio 1 Logistinen s-käyrä Logistinen regressioanalyysin tulkinta II mikäli selittävä muuttuja ei vaikuta lainkaan selitettävään muuttujaan, saa regressiokerroin b itseisarvoltaan hyvin pienen arvon kun b=0, muuttujien välistä yhteyttä kuvaava käyrä vaakasuora selitettävän muuttujan mittaaman tapahtuman todennäköisyys ei muutu selittävän muuttujan arvojen vaihdellessa Logistinen regressioanalyysin tulkinta III mikäli kerroin b saa suuren arvon, on selittävän muuttujan arvojen ja tapahtuman todennäköisyyden yhteyttä kuvaava käyrä s-kirjaimen muotoinen kun selittävän muuttujan pieni arvo kasvaa hiukan, ei tämä muuta paljoakaan selitettävän muuttujan mittaaman tapahtuman todennäköisyyttä (väli A kuviossa1) selittävän muuttujan saadessa arvoja vaihteluvälin keskivaiheilta pienikin muutos aiheuttaa suuren muutoksen selitettävän ilmiön tapahtumistodennäköisyydessä (väli B kuviossa 1) selittävän muuttujan ollessa lähellä ylärajaa muutoksilla on jälleen pienempi vaikutus (väli C kuviossa 1) Logistinen regressioanalyysin tulkinta IV mikäli kertoimen b arvo on keskikokoinen, on sen muoto vaakasuoran ja s-käyrän välimailla mikäli kertoimen b arvo on negatiivinen, laskee selitettävän muuttujan mittaaman tapahtuman todennäköisyys selittävän muuttujan arvon kasvaessa tällöin käyrät samanmuotoisia kuin kuviossa 1, mutta laskevat vasemmalta oikealle Logistinen regressioanalyysin tulkinta V kun tavallisessa regressiomallissa yhden yksikön muutos selittävässä muuttujassa aiheuttaa aina samansuuruisen muutoksien selitettävässä muuttujassa, logistisessa regressioanalyysissa selitettävän todennäköisyyden muutos riippuu b-kertoimen lisäksi selittävän muuttujan arvosta logistisessa regressioanalyysissa b-kertoimet ilmoittavat muutoksen selitettävän muuttujan ristitulosuhteen logaritmissa D1. Mitä mieltä olette seuraavasta väitteestä: Kansalaisten pitäisi saada valita vapaasti käyttävätkö he verovaroin kustannettuja julkisesti tuotettuja vai verovaroin kustannettuja mutta yksityisesti tuotettuja palveluita? Valid Missing täysin samaa mieltä osittain samaa mieltä osittain eri mieltä täysin eri mieltä en osaa sanoa System Cumulative Frequency Percent Valid Percent Percent 72 19,8 26,7 26,7 95 26,1 35,2 61,9 55 15,1 20,4 82,2 47 12,9 17,4 99,6 1,3,4 100,0 270 74,2 100,0 94 25,8 logistisessa regressioanalyysissa tulosten tulkinta monimutkaisempaa 3

dikotoimisoidaan muuttuja (arvot 1-2 saavat arvon 1, arvot 3-4 arvon 0 ja ei osaa sanoa -vastaukset luokitellaan puuttuviksi tiedoiksi) valitaan muodostunut kaksiluokkainen muuttuja logistisen regressioanalyysin selitettäväksi muuttujaksi (dependent) analyze-regression-binary logistic valitaan selittäviksi muuttujiksi (covatiates) samat kuin tavallisen regressioanalyysin yhteydessä eli sukupuoli, ikä, koulutus, työmarkkina-asema ja puoluekanta Case Processing Summary Unweighted Cases a Selected Cases Included in Analysis Missing Cases Unselected Cases N Percent 263 72,3 101 27,7 0,0 a. If weight is in effect, see classification table for the total number of cases. - ensimmäinen tulostus ilmoittaa havaintojen määrän analyysissa ja koko aineistossa Step 1 Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 265,672 a,264,361 a. Estimation terminated at iteration number 5 because parameter estimates changed by less than,001. - logistisessa regressioanalyysista puuttuu yleisesti hyväksytty mallin hyvyyden testi, joka olisi verrannollinen tavallisen regressioanalyysin R 2 -tunnusluvulle - useita eri testejä ehdotettu, yleensä raportoidaan Nagelgerke R 2 - monen tutkijan mielestä R 2 -tunnisluku logistisessa regressioanalyysissa on varsin vähän kiinnostava (Garson2010) Observed Step 1 palvelut2 Overall Percentage a. The cut value is,500,00 1,00 Classification Table a Predicted palvelut2 Percentage,00 1,00 Correct 63 34 64,9 30 136 81,9 75,7 - logistisen regressiomallin ennustearvoa voidaan tarkastella katsomalla, kuinka hyvin sen avulla pystytään luokittelemaan vastaajat oikeisiin luokkiin heidän vastaustensa mukaan - mallin antaman ennusteen P avulla voidaan kukin havainto luokitella kahteen ryhmään: mikäli P < 0.5, ennustetaan, että havainto kuuluu ryhmään 0 ja mikäli P > 0.5, ennustetaan, että havainto kuuluu ryhmään 1 - tässä tapauksessa oikein ennustettujen tapausten osuus on 75,7 prosenttia (raportoidaan yleensä taulukossa) Variables in the Equation B S.E. Wald df Sig. Exp(B) Step sukupuoli,473,327 2,099 1,147 1,605 1 a ikä,006,016,155 1,693 1,006 keskiaste,363,515,496 1,481 1,437 korkeaaste -,508,545,870 1,351,602 töissä -,025,672,001 1,970,975 ulkopuolella,126,688,033 1,855 1,134 KOK,650,508 1,633 1,201 1,915 SDP -1,984,432 21,144 1,000,137 VAS -2,766,539 26,366 1,000,063 vihreät -,863,683 1,598 1,206,422 Kristillisdemokraa,622,834,556 1,456 1,863 Constant,519 1,294,161 1,689 1,680 a. Variable(s) entered on step 1: sukupuoli, ikä, keskiaste, korkeaaste, töissä, ulkopu VAS, vihreät, Kristillisdemokraatit. sarakkeessa B luetellaan regressiokertoimet, joita vastaavat testit perustuvat Waldin testisuureeseen Waldin testisuure saadaan jakamalla kerroin (B) keskivirheellään (S.E.) ja korottamalla kyseinen osamäärä toiseen potenssiin sukupuolen suhteen (473/327)^2=2,099 Waldin testisuure on 2 -jakautunut vapausastein 1 mikäli selittävä muuttuja on luokkamuuttuja, on vapausaste m-1, missä m on luokkien määrä 4

sig.-sarakkeesta nähdään Waldin-testisuureen arvoa vastaavan p-arvon suurilla regressiokertoimien arvoilla Waldin testi on epäluotettava estimoitu keskivirhe liian suuri, joten Wald-testisuure itse on liian pieni, mikä voi johtaa siihen, että nollahypoteesi: B_i = 0 jää voimaan silloinkin, kun se pitäisi hylätä vaihtoehto Waldin testille suurilla kertoimien arvoilla on testata, muuttuuko logaritminen uskottavuus (log likelihood), kun kyseinen muuttuja lisätään malliin B-kertoimet voivat saavat arvoja välillä + ja ääretön mikäli b<0, yhteys negatiivinen (X:n kasvaessa Y eli tarkasteltavan tapahtuman ristitulosuhde pienenee) mikäli b>0, yhteys positiivinen (X:n kasvaessa Y tarkasteltavan tapahtuman ristitulosuhde suurenee) mikäli b=0, selittävällä muuttujalla ei ole vaikutusta tarkasteltavan tapahtuman ristitulosuhteeseen sarakeessa Exp(B) ilmoitetaan ristitulosuhteen kerroin kullekin muuttujalle ristitulosuhdekerroin osoittaa kutakin muuttujaa vastaavan riskin muutoksen mikäli yksittäisen havainnon jonkin muuttujan arvo lisääntyy yhdellä yksiköllä, niin kyseisen havainnon uusi riski saadaan kertomalla alkuperäinen riski vastaavalla odds ratio - kertoimella mikäli ikä lisääntyy yhdellä vuodella, uusi odds saadaan vanhasta kertomalla se luvulla 1,006 eli todennäköisyys olla samaa mieltä tarkasteltavana olevan väitteen kanssa kasvaa 0,06 prosenttia jokaisen ikävuoden myötä dummy-muuttujien suhteen riski suhteutetaan vertailuryhmään, jonka arvo 1,00 eli ristitulosuhdekerroin ilmoittaa, kuinka paljon suurempi todennäköisyys kullakin muulla ryhmällä on olla samaa mieltä väitteen kanssa vertailuryhmään verrattuna mikäli mallissa mukana sekä välimatka-asteikollisia että luokittelumuuttujia, on selittävien tekijöiden vaikutusta usein helpoin arvioida kuvion avulla Multinominiaalinen logistinen regressio tavallisen logistisen regressioanalyysin laajennus, jossa luokitteluasteikolla mitattu selitettävä muuttuja voi saada useampia kuin pelkästään kaksi vaihtoehtoa tutkitaan, mitkä tekijät vaikuttavat siihen, että vastaaja on valinnut tietyn vaihtoehdon suhteessa muihin vaihtoehtoihin käytännössä saadaan niin monta mallia kuin selitettävässä muuttujassa on luokkia kolmeluokkaisesta muuttujasta saadaan kolme mallia: yhdessä verrataan vaihtoehdon A valintaa suhteessa vaihtoehtoon B, toisessa A:n valintaa suhteessa C:hen ja kolmannessa B:n valintaa suhteessa C:hen 5