TAMPEREEN TEKNILLINEN YLIOPISTO Teknis-luonnontieteellinen osasto HELI RAASSINA Matematiikan opiskelun esteiden analysointi logistisella regressioanalyysillä DIPLOMITYÖ Aihe hyväksytty Teknis-luonnontieteellisen osastoneuvoston kokouksessa 11.5.2005 Tarkastajat: professori Seppo Pohjolainen erikoistutkija Kirsi Silius
Alkusanat Tämä diplomityö on toteutettu osana Tampereen teknillisen yliopiston matematiikan laitoksen ja hypermedialaboratorion laajempaa matematiikan opetuksen kehittämistutkimusta. Saadessani diplomityöpaikan matematiikan opetuksen kehittämiseen liittyen tunsin, että tutkimusaihe on kuin räätälöity minua varten. Tutkimuksen parissa työskentely onkin mahdollistanut kahden mielenkiinnon kohteeni yhdistämisen - matematiikan ja kasvatustieteiden. Haluankin kiittää professori Seppo Pohjolaista sekä erikoistutkija Kirsi Siliusta työni aiheesta sekä diplomityöprosessin aikana saamastani ohjauksesta. Kiitos myös lehtori Osmo Kalevalle logistiseen regressioanalyysiin liittyvistä selvennyksistä ja neuvoista sekä työtovereilleni mieltä avartavista keskusteluista ja loistavasta työilmapiiristä. Lämmin kiitos myös vanhemmilleni, sisaruksilleni sekä miehelleni Pekalle koko opiskeluaikana saamastani tuesta. Tampereella 31. toukokuuta 2005 Heli Raassina Iidesranta 6 C 42 33100 Tampere heli.raassina@tut.fi
Sisältö Tiivistelmä Abstract Käytetyt lyhenteet ja symbolit iv v vi 1 Johdanto 1 2 Matematiikkaa tutkimuksen taustalla 3 2.1 Todennäköisyyslaskentaa...................... 3 2.2 Tilastomatematiikan peruskäsitteitä................ 11 3 Binäärinen logistinen regressioanalyysi 14 3.1 Kun selitettävä muuttuja on binäärinen............... 15 3.1.1 Ongelmia.......................... 15 3.2 Logistinen funktio.......................... 16 3.2.1 Logistisen funktion ominaisuuksia............. 19 3.3 Logistisen regressiomallin muodostaminen............ 20 3.3.1 Kertoimien estimointi................... 20 3.3.2 Riskisuhteen ja laskettujen kertoimien välinen yhteys... 24 3.3.3 Muuttujien valitseminen regressiomalliin......... 26 3.3.4 Mitkä muuttujat ovat merkitseviä logistisessa regressiomallissa?.......................... 28 3.3.5 Askeltavat muuttujienvalintamenetelmät.......... 30 3.3.6 Mallin hyvyyden arviointi................. 31 3.3.7 Logistisen regressiomallin selitysaste........... 35 3.4 Logistisen regressioanalyysin rajoitukset ja oletukset....... 35 4 Opiskelusta oppimiseen 37 4.1 Mitä oppiminen on?......................... 37 4.1.1 Oppiminen jatkuvana prosessina.............. 38 iii
4.2 Oppimistyylejä ja -strategioita................... 40 4.2.1 Käsitteiden määrittely................... 40 4.2.2 Tutkimuksia oppimisstrategioista............. 41 4.2.3 Kolb ja kokemuksellinen oppiminen............ 42 4.2.4 Vermuntin oppimistyylit.................. 43 4.3 Muita tutkimuksen taustalla olevia teorioita............ 45 4.3.1 Gardnerin seitsemän lahjakkuutta............. 45 4.3.2 Bloomin taksonomia.................... 48 4.4 Teorioiden yhtäläisyyksiä...................... 49 4.5 Tutkimuksia matematiikan opiskelumenetelmistä......... 51 4.5.1 Yliopistotulokkaiden matematiikan opiskelumenetelmiä. 51 4.5.2 Kognitiiviset opiskelumenetelmät............. 52 4.5.3 Pinnallinen ja syvällinen jäsentäminen ongelmanratkaisussa 53 5 Tutkimuksen toteutus 55 5.1 Kohdejoukon muotoutuminen................... 55 5.2 Tutkimuskysymykset........................ 56 5.3 Mittari ja mittauksen toteuttaminen................. 56 5.3.1 Aineiston kerääminen................... 57 5.4 Aineiston käsittely......................... 57 6 Tutkimustulokset 59 6.1 Aineiston kuvailua......................... 59 6.1.1 Jumpan suorittaneiden opiskelijoiden kuvailua...... 60 6.2 Jumppaajien profilointi....................... 61 6.2.1 Profiilien yhtäläisyyksiä ja eroavaisuuksia......... 65 6.3 Jumppaajien opintomenestykseen vaikuttavia tekijöitä....... 66 6.3.1 Kurssin läpäisemisen ennustaminen logistisen regressiomallin avulla........................ 66 6.3.2 Kurssin läpäisseiden ja reputtaneiden eroavaisuudet ryhmittäin........................... 68 6.4 Jumppaajien matematiikan taidoissa ilmenneitä ongelmia..... 71 6.5 Tulosten pohdintaa......................... 75 6.6 Tutkimuksen luotettavuus...................... 76 6.7 Opetuksen kehittäminen...................... 79 6.7.1 Opiskelijaprofiileiltaan erilaisten jumppaajien huomioiminen opetuksessa..................... 83 6.7.2 Matematiikan jumpan kehittäminen............ 87 7 Yhteenveto 89 iv
Kirjallisuutta 93 Liitteet 97 A Kysymyslomake 97 B Ryhmäkeskiarvot 106 C Kurssin läpäiseminen 114
TAMPEREEN TEKNILLINEN YLIOPISTO Teknis-luonnontieteellinen osasto Matematiikan laitos Raassina, Heli: Matematiikan opiskelun esteiden analysointi logistisella regressioanalyysillä Diplomityö, 96 sivua, 20 liitesivua Tarkastajat: professori Seppo Pohjolainen ja erikoistutkija Kirsi Silius Käsitellään osastoneuvostossa kesäkuussa 2005 Tiivistelmä Tässä diplomityössä selvitetään Tampereen teknilliseen yliopistoon tulevien uusien opiskelijoiden matematiikan opiskelun esteitä. Tutkimuksen kohdejoukon muodostavat ne opiskelijat, jotka menestyivät heikosti syksyllä 2004 järjestetyssä matematiikan perustaitojen testissä. Nämä 170 opiskelijaa ohjattiin kertaamaan matematiikan perustaitoja nk. matematiikan jumppaan. Jumppa oli mahdollista suorittaa ohjatussa ryhmässä tai etäopiskeluna. Jumpan suorittaneille opiskelijoille (N=122) tehtiin kysely, jolla pyrittiin kartoittamaan opiskelijan oppimistyylejä, oppimisstrategioita, opiskelumenetelmiä sekä odotuksia matematiikan opetukselta. Lisäksi ohjatuissa jumpparyhmissä kerättiin opiskelijoiden matematiikantaidoissa ilmenneitä ongelmia opettajapäiväkirjan avulla. Kyselylomakkeella kerätyn aineiston perusteella jumppaajat profiloitiin hierarkista klusterianalyysiä käyttäen viiteen ryhmään. Ryhmien ominaisuuksia tarkasteltiin kunkin ryhmittelyssä mukana olleen muuttujan suhteen laskettujen ryhmäkeskiarvojen perusteella. Näiden ominaisuuksien mukaan opiskelijaprofiilit nimettiin seuraavasti: toistamissuuntautuneet, soveltajat, itsenäiset oppijat, merkityssuuntautuneet sekä suuntautumattomat. Lisäksi tutkittiin insinöörimatematiikka 1 -opintojakson läpäisemiseen yhteydessä olevia tekijöitä logistisen regressioanalyysin avulla. Muodostuneen logistisen regressiomallin avulla voitiin päätellä, että opiskeluaktiivisuus edesauttaa kurssin läpäisemistä kun taas opiskelijan riippuvuus ulkoisesta motivoinnista heikentää kurssin läpäisyn todennäköisyyttä. Opettajapäiväkirjalle tehdyn sisällönanalyysin perusteella jumppaajien suurimmat ongelmat matematiikan taidoissa liittyivät asian unohtamiseen sekä heikkoon käsitteiden hallintaan. Jumppaajien oppimisen edistämiseksi tutkimuksessa esitetään vuorovaikutteisuuteen sekä opiskelijoiden aktivointiin pohjautuvien työtapojen käyttämistä opetuksessa. Lisäksi erilaisille opiskelijaprofiileille suositellaan omia laskuharjoitusryhmiä, joissa olisi helpointa huomioida kunkin profiilin opiskelijoiden ominaiset tavat opiskella.
TAMPERE UNIVERSITY OF TECHNOLOGY Department of Science and Engineering Institute of Mathematics Raassina, Heli: An analysis using logistic regression of obstacles to learning engineering mathematics Master of the Science Thesis, 96 pages, 20 Appendix pages Examiner: Professor Seppo Pohjolainen and Senior Researcher Kirsi Silius Evaluated by the Department Council in June 2005 Abstract The aim of this master of the science thesis is to analyse learning differences of the students entering Tampere University of Technology. In the fall 2004 new students took a test of basic skills in mathematics. Those 170 students, whose test result were unsatisfying were advised to practise their mathematical skills. These students were offered an opportunity to train basics in mathematics in the guided study group or in the distance learning group. The students, who took part in training groups and completed the exercises (N=122), answered a questionnaire. Questionnaire was planned to investigate students learning styles, learning strategies, learning methods and expectations of the education. In addition, in the guided study groups common questions and mistakes made by students were written down to the teaching diary. By the data collected by the questionnaire, students were profiled into five groups using hierarchical cluster analysis. After that the separate mean values of variables for all of the groups were calculated. Differences between groups were examined by comparing the mean values of the groups. Each group was named after its characteristic features as reproduction directed learners, application directed learners, independent learners, meaning directed learners and undirected learners. Furthermore the factors, which were connected to passing the course of engineering mathematics, were studied using logistic regression. Logistic regression model indicates that active studying enhances passing the course. On the other hand, students dependence of external motivation decreased probability of passing the course. From the content of the teaching diary arose two reasons, which explained the problems in mathematical skills: forgetting and weak understanding of mathematical concepts. To improve the learning of these students, it is recommended to use teaching methods, which are based on interaction and students activation. The best way to respect the different learning profiles, is to set up own tutorials to the students of each learning profile.
Käytetyt lyhenteet ja symbolit #(A) A c A B A B A \ B A B Ĉ cov(x, Y ) D E(X) E(Y X) F f : R R f(x) f X (x) f(x, y) f(y x) F (x) g(x ) l(β) L(β) LR OR O(Y ) P (A) P (A B) r jk s j s 2 j tapahtuman A suotuisten alkeistapausten lukumäärä A:n komplementti Joukkojen A ja B yhdiste Joukkojen A ja B leikkaus Joukkojen A ja B erotus A on B:n osajoukko Hosmerin ja Lemeshown testisuure satunnaismuuttujien X ja Y välinen kovarianssi poikkeavuus satunnaismuuttujan X odotusarvo ehdollinen odotusarvo kokoelma perusjoukon Ω osajoukkoja kuvaus eli funktio joukosta R joukkoon R tiheysfunktio reunatiheysfunktio yhdistetty tiheysfunktio ehdollien tiheysfunktio kertymäfunktio logit-muunnos uskottavuusfunktio logaritminen uskottavuusfunktio uskottavuusosamäärä riskisuhde Tapahtuman Y riski tapahtuman A todennäköisyys ehdollinen todennäköisyys j:nnen ja k:nnen muuttujan välinen korrelaatiokerroin j:nteen muuttujaan liittyvä keskihajonta j:nteen muuttujaan liittyvä otosvarianssi
s jk V (X) W x j χ 2 x i x X y i j:nnen ja k:nnen muuttujan välinen otoskovarianssi satunnaismuuttujan X varianssi Waldin testisuure j:nteen muuttujaan liittyvä otoskeskiarvo Pearsonin χ 2 -testisuure i:nteen havaintoon liittyvä selittävän muuttujan arvo vektorin x transpoosi havaintomatriisi i:nteen havaintoon liittyvä selitettävän muuttujan arvo R reaalilukujen joukko β logistisen regressiomallin kertoimista muodostettu vektori ˆβ logistiseen regressiomalliin estimoiduista kertoimista muodostettu vektori µ odotusarvo π(x) logistinen regressiomalli π(x ) usean muuttujan logistinen regressiomalli σ 2 varianssi Ω perusjoukko ω i perusjoukon Ω i:s alkio, alkeistapaus tyhjä joukko {ω 1, ω 2,... ω n } alkioiden ω 1, ω 2,... ω n muodostama joukko ω i Ω ω i on Ω:n alkio (Ω, F, P ) todennäköisyysavaruus TTY Tampereen teknillinen yliopisto ix
Luku 1 Johdanto Tampereen teknillisessä yliopistossa opintonsa aloittavien opiskelijoiden lukumäärä on kasvanut viimeisen kymmenen vuoden aikana usealla sadalla opiskelijalla [31]. Ikäluokkien pienentyessä tämä väistämättä tarkoittaa myös sitä, että yhä suurempi osa ikäluokasta aloittaa opintonsa yliopistossa. Valtakunnallisesti vuonna 2004 yliopistojen teknillistieteellisille aloille hakeneista opiskelijoista 55 %:a pääsi aloittamaan opintonsa kyseisellä alalla. Vertailupohjana mainittakoon, että mm. luonnontieteellisellä alalla vastaava prosenttiosuus on 36 %, kauppatieteellisellä alalla 29 % ja lääketieteellisellä alalla 19 %. [33] Näin ollen teknillisille aloille pyrkivät opiskelijat eivät kohtaa niin suurta karsintaa kuin esim. lääketieteelliselle alalle hakeneet. Tämän seurauksena teknillisellä alalla aloittavien opiskelijoiden joukko on entistä heterogeenisempää ja siten opiskelijoiden lähtötiedot ja -taidot voivat poiketa huomattavasti toisistaan. Tämän diplomityön tausta-asetelman luovat käytännön opetustyössä nousseet havainnot, joiden mukaan kaikilla opintonsa aloittavilla opiskelijoilla matematiikan tiedot ja taidot eivät ole yliopisto-opintojen edellyttämällä tasolla. Tampereen teknillisen yliopiston matematiikan laitoksella opiskelijoiden oppimisen tukeminen ja opetuksen kehittäminen on otettu vakavasti. Tämä tutkimus liittyykin laajempaan TTY:n matematiikan laitoksen ja hypermedialaboratorion yhteiseen matematiikan opetuksen kehittämistutkimukseen. Laajemman tutkimuksen puitteissa syksyllä 2004 Tampereen teknillisessä yliopistossa opintojakson insinöörimatematiikka 1 suorittavat opintonsa aloittavat opiskelijat ohjattiin tietokoneavusteiseen matematiikan perustaitotestiin. Testin tarkoituksena oli löytää ne opiskelijat, joiden matematiikan perustaidoissa on selkeitä puutteita. Heikosti testissä menestyneille opiskelijoille tarjottiin mahdollisuutta kerrata lukiosta tuttuja matematiikan perusasioita ensimmäisten opiskeluviikkojen aikana. Tässä diplomityössä tarkastelun kohteena ovat ne opiskelijat, jotka heikon testimenestyksen perusteella ohjattiin kertaamaan matematiikan perustaitoja nk. matematiikan jumppaan. Tutkimuksen tarkoituksena on selvittää, onko jumppaan ohjattujen opiskelijoi- 1
LUKU 1. JOHDANTO 2 den opiskelumenetelmissä, oppimistyyleissä ja -strategioissa havaittavissa sellaisia ominaisuuksia, jotka olisivat yhteydessä heikkoihin matematiikan oppimistuloksiin ja siten mahdollisesti myös menestymiseen yliopisto-opinnoissa. Toisaalta tutkimuksessa aiotaan selvittää, minkälaisia ongelmia jumppaan ohjatuilla opiskelijoilla on matematiikan taidoissa ja mitkä tekijät vaikuttavat heidän opintomenestykseensä kurssilla insinöörimatematiikka 1. Opintomenestykseen vaikuttavia tekijöitä analysoidaan binäärisen logistisen regressioanalyysin avulla. Tutkimuksen tavoitteena on löytää opetuksellisia keinoja, joilla matematiikassa heikommin pärjäävien oppimista voitaisiin edesauttaa ja tukea. Vaikka tutkimusaineiston analysoinnissa on käytetty useampaa tilastollista menetelmää, luodaan tässä työssä tarkempi katsaus binäärisen logistisen regressioanalyysin teoreettiseen taustaan. Seuraavassa luvussa määrittellään binäärisen logistisen regression teoreettisessa tarkastelussa vilahtavia matemaattisia peruskäsitteitä ja luvussa kolme siirrymme varsinaiseen analyysimenetelmän teoriaan. Luku neljä puolestaan käsittelee tutkimuksen taustalla esiintyviä kasvatustieteen käsitteitä, ja samaisessa luvussa luodaan katsaus tutkimuksen taustalla vaikuttaviin oppimisen teorioihin ja aikaisempiin tutkimuksiin. Viidennessä luvussa käsitellään tutkimuksen toteuttamiseen liittyviä kysymyksiä. Luku kuusi puolestaan sisältää tutkimuksen tulokset: jumppaajista löydetyt opiskelijaprofiilit, opintomenestykseen vaikuttavat tekijät sekä jumppaajien matematiikan taidoissa havaittujen ongelmien analyysin. Lisäksi luvussa pohditaan tutkimuksen luotettavuutta ja sitä, miten erilaiset matematiikan jumppaajat voitaisiin ottaa huomioon opetuksessa. Lopuksi luvussa seitsemän on esitetty yhteenveto koko tutkimuksesta.
Luku 2 Matematiikkaa tutkimuksen taustalla Vaikka tutkimuksen toteuttamisessa on käytetty useampia tilastollisia menetelmiä, perehdymme seuraavassa tarkemmin vain logistiseen regressioanalyysin teoreettiseen taustaan. Logistista regressioanalyysiä on käytetty tässä tutkimuksessa mallintamaan kurssin läpäisemistä ja syntyneestä mallista voi lukea tarkemmin kappaleesta 6.3. Seuraavassa perehdymme tämän työn taustalla vaikuttaviin matematiikan peruskäsitteisiin, minkä jälkeen siirrymme tarkastelemaan logistista regressioanalyysiä. 2.1 Todennäköisyyslaskentaa Todennäköisyyslaskennassa on kysymys satunnaisten ilmiöiden todennäköisyysmallien muodostamisesta, analysoinnista ja vertailemisesta [27]. Seuraavaksi perehdymme todennäköisyyslaskennan peruskäsitteisiin. Oletamme, että joukkoopin perusteet ovat lukijalla hallussa. Tämä osio perustuu pääasiassa lähteisiin [27] ja [34] ellei toisin mainita. Perusjoukko ja alkeistapaus Tutkittavan ilmiön kaikki mahdolliset tulokset muodostavat perusjoukon Ω. Esimerkiksi kahta noppaa heitettäessä silmälukujen summaksi voidaan saada luvut 2-12. Perusjoukko Ω = {2, 3,..., 11, 12}. Perusjoukon alkioita ω i, i = 1,..., n kutsutaan alkeistapauksiksi. Siis perusjoukko Ω = {ω 1, ω 2,..., ω n }, missä n on alkeistapausten lukumäärä. 3
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 4 Tapahtuma Tapahtuma A on mielivaltainen perusjoukon Ω osajoukko. Nopanheitossa tapahtuma A voisi merkitä tapahtumaa silmälukujen summa on pienempi kuin viisi. Tällöin tapahtuma A = {2, 3, 4}. Helposti huomataan, että A Ω. Klassillinen todennäköisyys Äärellisen perusjoukon Ω = {ω 1,..., ω n } alkeistapaukset ovat yhtä todennäköisiä, jos niiden todennäköisyys P (ω i ) = 1/n. Tällöin tapahtuman A todennäköisyys saadaan jakamalla tapahtuman A toteuttavien alkeistapausten lukumäärä #(A) koko otosavaruuden alkeistapausten lukumäärällä #(Ω). Siis P (A) = #(A) #(Ω). Käytetään perusjoukon Ω tapahtumien kokoelmasta merkintää F. Määritelmä 1 Perusjoukon Ω osajoukoista muodostettu kokoelma F on σ- algebra, jos (i) (ii) (iii) Ω F A F A c F A i F(i = 1, 2,... ) A i F. i=1 Kun tapahtuma A F on annettu, sen todennäköisyys P (A) on yksikäsitteisesti määrätty reaaliluku. Näin ollen todennäköisyys P on kuvaus F R Määritelmä 2 Kuvaus P : F R on todennäköisyys, jos (i) P (A) 0 kaikilla A F (ii) P (Ω) = 1 (iii) Jos A i F (i = 1, 2,... ) ja A i A j = (i j), niin P ( A i ) = P (A i ). i=1 i=1 Kolmikkoa (Ω, F, P ) sanotaan todennäköisyysavaruudeksi, jos Ω on ei-tyhjä joukko, F on σ-algebra ja P : F R on todennäköisyys. [27], [34]
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 5 Todennäköisyyden perusominaisuuksia Lause 1 Olkoon F σ -algebra. Tällöin (i) (ii) (iii) F A, B F A B F, A B F, A \ B F A i F (i = 1, 2,... ) A i F. i=1 Lause 2 Olkoon (Ω, F, P ) todennäköisyysavaruus. Tällöin (i) P ( ) = 0 (ii) (iii) (iv) (v) (vi) P (A c ) = 1 P (A) kaikilla A F A, B F, A B = P (A B) = P (A) + P (B) 0 P (A) 1 kaikilla A F A, B F, A B P (A) P (B) A, B F P (A \ B) = P (A) P (A B). Toisistaan riippumattomat tapahtumat Tapahtumat A ja B ovat toisistaan riippumattomat kun P (A B) = P (A) P (B). Satunnaismuuttujat Määritelmä 3 Olkoon (Ω, F, P ) todenäköisyysavaruus. Kuvaus X : Ω R on reaalinen satunnaismuuttuja, jos {X x} = {ω Ω X(ω) x} kaikilla x R. X on diskreetti satunnaismuuttuja todennäköisyysavaruudella, jos X:n arvojoukko X(Ω) on numeroituva joukko {x 1, x 2,... } ja {X = x k } F kaikilla k. Tiheysfunktio Diskreetin satunnaismuuttujan X tiheysfunktio f(x) on kuvaus f : R R f(x) = P (X = x), x R.
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 6 Tiheysfunktio toteuttaa aina seuraavat ominaisuudet: (i) f(x) 0, x R (ii) f(x) > 0 x kuuluu X:n numeroituvaan arvojoukkoon {x 1, x 2,... } (iii) f(x k ) = 1. k [34] Satunnaismuuttujalla X on jatkuva jakauma tiheysfunktiona, kun P (a X b) = b a f(x)dx. [34] Funktio f : R R on tiheysfunktio jos ja vain jos (i) f 0 (ii) [34] Kertymäfunktio f(x)dx = 1. Diskreetin satunnaismuuttujan X kertymäfunktio F (x) = P (X x) = x i x f(x i ), x R. Jos satunnaismuuttujalla X on jatkuva jakauma tiheysfunktiona, kertymäfunktio F (x) = x f(t)dt Toisin sanoen tiheysfunktio f(x) = F (x). Lause 3 Jos F (x) on kertymäfunktio, niin F (x) on kasvava ja oikealta jatkuva sekä F ( ) = 0 ja F ( ) = 1. [27], [34]
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 7 Odotusarvo Diskreetin satunnaismuuttujan X odotusarvo E(X) määritellään seuraavasti: E(X) = k x k P (X = x k ) = k x k f(x k ) Toisin sanoen odotusarvo on satunnaismuuttujan arvojen painotettu keskiarvo, jossa painokertoimina ovat satunnaismuuttujan arvojen todennäköisyydet. Jos satunnaismuuttujalla X on jatkuva jakauma tiheysfunktiona, sen odotusarvo on luku E(X) = xf(x)dx. Satunnaismuuttujan X odotusarvosta käytetään merkintää E(X) = µ. Yleisesti, jos satunnaismuuttujilla X ja Y on odotusarvo E(X + Y ) = E(X) + E(Y ), E(a) = a, E(aXb) = ae(x)b, missä a ja b ovat reaalilukuja. [27], [34] Varianssi Diskreetin satunnaismuuttujan varianssi V (X) voidaan määritellä formaalisti joko odotusarvon avulla tai keskihajonnan painotettuna keskiarvona. Siis V (X) = E((X µ) 2 ) = (x k E(X)) 2 f(x k ). 1 k< Vastaavasti satunnaismuuttujalle X, jonka tiheysfunktiona on jatkuva jakauma [27], [34] V (X) = E((X µ) 2 ) = Kovarianssi (x E(X)) 2 f(x)dx. Kahden satunnaismuuttujan välistä yhteyttä voidaan kuvata kovarianssilla [27], [34] Cov(X, Y ) = E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y )
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 8 Ehdollinen todennäköisyys Määritelmä 4 Olkoot A ja B todennäköisyysavaruuden (Ω, F, P ) tapahtumia ja P (B) > 0. Tällöin tapahtuman A todennäköisyys ehdolla B on P (A B) = P (A B). P (B) Ehdollisella todennäköisyydellä P (A B) tarkoitetaan siis tapahtuman A todennäköisyyttä, kun tapahtuma B on jo tapahtunut. Kokonaistodennäköisyys Olkoot tapahtumat B 1 B 2 B n = Ω ja tapahtuma A Ω mielivaltainen. Tällöin n P (A) = P (A B i )P (B i ) [27] i=1 Yhdistetty tiheysfunktio Kahden diskreetin satunnaismuuttujan X Ω ja Y Ω yhdistetty tiheysfunktio määritellään sellaisen todennäköisyyden avulla, jossa molemmat tapahtumat {X = x} ja {Y = y} ovat yhtä aikaa voimassa. Siis f(x, y) = P (X = x, Y = y). Satunnaismuuttujilla X ja Y on jatkuva jakauma tiheysfunktiona, jos P ((X, Y ) B) = f(x, y)dydx, kaikilla B R 2. [5], [27], [34] Reunatiheysfunktio B Diskreetille satunnaismuuttujalle reunatiheysfunktiot f X (x) ja f Y (y) saadaan yhdistetystä tiheysfunktiosta f(x, y) seuraavasti f X (x) = y f Y (y) = x f(x, y) f(x, y)
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 9 Jatkuvan satunnaismuuttujan tapauksessa [27] f X (x) = f Y (y) = f(x, y)dy f(x, y)dx. Ehdollinen tiheysfunktio Muuttujan Y ehdollinen tiheysfunktio ehdolla {X = x} f(y x) = P (Y = y X = x) = P (Y = y, X = x) P (X = x) = f(x, y) f X (x), missäf X(x) > 0. [27], [34] Ehdollinen odotusarvo Satunnaismuuttujan Y ehdollinen odotusarvo ehdolla {X = x} määritellään seuraavasti: E(Y X = x) = y yf(y x). Kun satunnaismuuttujat noudattavat jatkuvaa jakaumaa ehdollinen odotusarvo [27] E(Y X = x) = Bernoullin satunnaismuuttuja yf(y x). Bernoullin satunnaismuuttujaksi kutsutaan satunnaismuuttujaa X, joka voi saada joko arvon 0 tai 1. Tällöin todennäköisyydet P (X = 0) = 1 p ja P (X = 1) = p kun 0 p 1. [27] Normaalijakauma Kun satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja σ 2, käytetään merkintää X N(µ, σ 2 ).
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 10 Lause 4 Satunnaismuuttuja X N(µ, σ 2 ), jos ja vain jos X:n tiheysfunktiona on jatkuva jakauma f(x) = 1 2πσ e 1 2 ( x µ σ )2, missä < x <, < µ < ja σ > 0. Kun satunnaismuuttuja X on normaalisti jakautunut, sen odotusarvo ja varianssi ovat [5], [34] E(X) = µ ja V (X) = σ 2. Binomijakauma Merkitään toisistaan riippumattomien havaintojen lukumäärää kirjaimella n. Merkitään x:llä mittauksen kohteena olevien tapahtumien lukumäärää ja kirjaimella p mittauksen kohteena olevan tapahtuman todennäköisyyttä. Tällöin ( ) n P (X = x) = p x (1 p) n x, x = 0, 1,..., n x Satunnaismuuttuja X noudattaa binomijakaumaa, mikäli sen diskreetti tiheysfunktio ( ) n f(x) = p x (1 p) n x. x Binomijakautuneen satunnaismuuttujan X odotusarvo µ = np ja varianssi σ 2 = np(1 p). [5], [27] χ 2 -jakauma Ennen χ 2 -jakauman määrittämistä määritellään gammajakauma. Satunnaismuuttuja X noudattaa gammajakaumaa parametreillä α > 0 ja β > 0 mikäli tiheysfunktio { β α f(x) = Γ(α) xα 1 e x/β, jos x > 0 0, jos x 0. Gammajakaumassa oleva gammafunktio Γ(x) = 0 t x 1 e t dt.
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 11 Parameterillä α = ν/2 ja β = 2 määriteltyä jakaumaa kutsutaan χ 2 -jakaumaksi. Satunnaismuuttujan X sanotaan noudattavan χ 2 -jakaumaa vapausasteilla ν, jos sen tiheysfunktio f(x) = { 2 ν/2 Γ(ν/2) xν/2 1 e x/2, jos x > 0 0, jos x 0. χ 2 -jakaumaa vapausasteilla ν noudattavan satunnaismuuttujan odotusarvo µ = ν ja varianssi σ 2 = 2ν. [5] 2.2 Tilastomatematiikan peruskäsitteitä Tässä kappaleessa käsittelemme tutkimuksen taustalla vaikuttavia tilastomatematiikan peruskäsitteitä. Jako todennäköisyyslaskennan ja tilastomatematiikan välillä on myös hivenen keinotekoinen, eikä peruskäsitteitä voi aina ajatella pelkästään tilastomatematiikkaan tai todennäköisyyslaskentaan kuuluviksi. Tässä esityksessä tilastomatematiikan peruskäsitteistä on käytetty matriisinotaatiota ja oletetaan, että lukijalla on perustietämys matriisilaskennasta. Perusjoukko Perusjoukko P muodostuu tutkimuksen kohteena olevista asioista, joille halutaan suorittaa mittaus. Tässä tutkimuksessa mittauksen kohteena ovat matematiikan alkutestissä heikosti menestyneet opiskelijat ja he muodostavat siten tutkimuksen perusjoukon. Perusjoukkoa kutsutaan yksinkertaisesti myös tutkimuksen kohdejoukoksi. [1] Otosjoukko Tutkimuksen perusjoukko saattaa olla hyvinkin suuri ja sen takia mittaus suoritetaan usein vain osalle perusjoukkoa. Sitä perusjoukon osaa, josta tutkimuksen aineisto on kerätty, kutsutaan otosjoukoksi S = {s 1... s n }, missä joukon alkio s n on aineiston n:s havainto. Otosjoukko on perusjoukon osajoukko eli S P. [1] Niitä asioita, joita olemme tutkimuksessa mitanneet, kutsutaan muuttujiksi. Tässä tutkimuksessa kukin lomakkeen kysymys muodostaa oman muuttujan. Tutkimusaineisto koostuu siis tietystä määrästä havaintoja sekä muuttujia ja ne voidaan kirjoittaa matriisiin X 1, jossa alkio x ij viittaa i:nnen havainnon j:nteen muuttujaan. Alla esitetyssä matriisissa on siis p kappaletta muuttujia ja n kappaletta
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 12 havaintoja. X 1 = x 11 x 12... x 1p x 21 x 22... x 2p... x n1 x n2... x np Yhdeltä matriisin vaakariviltä voidaan nyt lukea tiettyyn havaintoon liittyvät muuttujien arvot. Matriisin pystyriveiltä puolestaan nähdään tietyn muuttujan arvot kaikkien havaintojen osalta. [1], [13] Otoskeskiarvo Kullekin muuttujalle j = 1, 2... p voidaan laskea otoskeskiarvo. Otoskeskiarvo on j:nteen muuttujaan liittyvien havaintojen x 1j... x nj aritmeettinen keskiarvo [13] x j = 1 n n x ij j = 1, 2,..., p. i=1 Otosvarianssi Otosvarianssi s 2 j = 1 n n (x ij x j ) 2 i=1 kuvaa j:nnen muuttujan mittauksen hajanaisuutta.esimerkiksi pieni otosvarianssin arvo kertoo, että suurin osa havainnoista on keskittynyt lähelle otoskeskiarvon arvoa. Kun havaintoja on vähän, otosvarianssissa on perusteltua käyttää jakajana luvun n sijasta lukua n 1. [1], [13] Otoksen hajonta Otoksen keskihajonta saadaan ottamalla neliöjuuri otosvarianssista. s j = 1 n (x ij x j ) n 2 [13] i=1
LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 13 Otoskovarianssi Otoskovarianssilla s jk = 1 n n (x ij x j )(x ik x k ) j = 1, 2,..., p, k = 1, 2,..., p. i=1 mitataan j:nnen ja k:nnen muuttujan välistä yhteyttä. Voidaan huomata, että otoskovarianssi tapauksessa j = k on itse asiassa otosvarianssi. Lisäksi s jk = s kj. [13] Otoksen korrelaatiokerroin Otoskorrelaatiokerroin j:nnen ja k:nnen muuttujan välille saadaan laskemalla s n jk i=1 r jk = = (x ij x j )(x ik x k ) n sjj skk i=1 (x ij x j ) 2 n i=1 (x ik x k ) 2 kun j = 1, 2,..., p ja k = 1, 2,..., p. Lisäksi r jk = r kj kaikilla j ja k. [13]
Luku 3 Binäärinen logistinen regressioanalyysi Logistisen regressioanalyysin perusajatuksena on löytää malli, joka kuvaa parhaiten selitettävän muuttujan Y ja selittävien muuttujien X i, i = 1, 2,..., p välistä suhdetta. Tutkittavan aineiston perusteella pyritään laskemaan selitettävälle muuttujalle ennuste Ŷ, joka vastaa mahdollisimman hyvin tehtyjä havaintoja. Logistisessa regressioanalyysissä malliin estimoidaan vakiotermi β 0 sekä muuttujien X 1,..., X p painokertoimet β 1,..., β p siten, että selitettävän muuttujan ennuste Ŷ = eβ 0+β 1 X 1 + +β px p 1 + e β 0+β 1 X 1 + +β px p vastaa mahdollisimman uskottavasti havaittuja selitettävän muuttujan Y arvoja. [30] Binäärisessä logistisessa regressiossa selitettävä muuttuja Y on kaksiluokkainen eli dikotominen. Tämän takia selitettävä muuttuja koodataan yleensä binäärisesti arvoilla 0 ja 1. Nolla vastaa tilannetta, jossa tutkittava ilmiö ei ole läsnä ja vastaavasti yksi merkitsee tilannetta, jossa tutkittava ilmiö on läsnä. [12] Binäärinen logistinen regressioanalyysi on suosittu varsinkin lääketieteellisissä tutkimuksissa, joissa pyritään selvittämään jonkin sairauden riskitekijöitä tai ennustamaan tunnettujen riskitekijöiden perusteella sairastuuko henkilö kyseiseen sairauteen vai ei [30]. Logistisessa regressioanalyysissä selitettävä muuttuja voi saada arvoja myös useammasta kuin kahdesta luokasta. Tällöin kyseessä on multinomiaali logistinen regressioanalyysi (multinomial regression analysis), joka on binäärisen logistisen regression laajennus. Tässä luvussa keskitymme kuitenkin pelkästään binääriseen logistiseen regressioanalyysiin ja siksi ilmaisut binäärinen logistinen regressioanalyysi ja logistinen regressioanalyysi voidaan lukea toistensa synonyymeina. Luvun tarkastelussa on hyödynnetty pääasiallisesti lähteitä [12] ja [24]. 14
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 15 3.1 Kun selitettävä muuttuja on binäärinen Tarkastellaan ensin perinteisen lineaarisen regressiomallin avulla malliin liittyviä ominaisuuksia, kun selitettävä muuttuja on binäärinen. Otetaan yksinkertainen lineaarinen regressiomalli Y i = β 0 + β 1 x i + ε i, missä virhetermi ε i N(0, σ 2 ) ja i = 1,..., n. Lineaarisen regressiomallin selitettävän muuttujan odotusarvo E(Y i ) = E(β 0 + β 1 x i + ε i ) = E(β 0 + β 1 x i ) + E(ε i ) = β 0 + β 1 x i, koska lineaarisessa regressiomallissa virhetermin odotusarvo E(ε i ) = 0. [13], [14] Toisaalta, kun muuttuja Y i on Bernoullin satunnaismuuttuja, niin todennäköisyydet P (Y i = 1) = π i ja P (Y i = 0) = 1 π i. Näin ollen Y i on diskreetti satunnaismuuttuja, jonka odotusarvo Siis [24] E(Y i ) = 1 π i + 0 (1 π i ) = π i. E(Y i ) = P (Y i = 1) = π i. (3.1) 3.1.1 Ongelmia Kun selitettävä muuttuja on binäärinen, perinteisen regressiomallin oletukset eivät välttämättä ole enää voimassa. Seuraavaksi tarkastelemme näitä ongelmia edellä esitetyn yksinkertaisen lineaarisen regressiomallin avulla. Virhetermi ei noudata normaalijakaumaa Kun selitettävä muuttuja on binäärinen, lineaarisen regressiomallin Y i = β 0 + β 1 x i + ε i virhetermi voi saada niin ikään vain kaksi arvoa: Kun Y i = 0, kun Y i = 1, niin ε i = β 0 β 1 x i = π i niin ε i = 1 β 0 β 1 x i = 1 π i Voidaan havaita, että virhetermi ei selvästikään noudata normaalijakaumaa alkuperäisen oletuksen mukaisesti. [12], [24]
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 16 Virhetermin varianssi ei ole vakio Toinen binääriseen selitettävään muuttujaan liittyvä ongelma on se, etteivät kuhunkin havaintoon liittyvien virhetermien ε i varianssit ole välttämättä keskenään samansuuruisia. Virhetermin ε i varianssi σ 2 (ε i ) = E[(ε i E(ε i )) 2 ] = E[(Y i π i 0) 2 ] = E(Y 2 i ) 2π i E(Y i ) + π 2 i = π i 2π 2 i + π 2 i = π i (1 π i ) = E(Y i )[1 E(Y i )] on sama kuin selitettävän muuttujan Y i varianssi, sillä σ 2 (Y i ) = E[(Y i E(Y i )) 2 ] = (0 π i ) 2 (1 π i ) + (1 π i ) 2 π i = π i (1 π i ) = E(Y i )[1 E(Y i )]. Siis σ 2 (ε i ) = E(Y i )[1 E(Y i )] = (β 0 +β 1 x i )[1 (β 0 +β 1 x i )]. Koska virhetermin varianssi on riippuvainen x i :stä, varianssin arvo vaihtelee muuttujan X saamien arvojen mukaisesti. [24] Selitettävän muuttujan odotusarvoa rajoittavat tekijät Yhtälön 3.1 mukaisesti selitettävän muuttujan odotusarvo vastaa todennäköisyyttä P (Y i = 1) eli E(Y i ) = π i. Siksi 0 E(Y i ) 1. Koska odotusarvo on lukujen 0 ja 1 välissä, myös odotusarvoa mallintavalta funktiolta vaaditaan samat rajoitukset. Siksi mm. lineaarisella funktiolla ei pystytä mallintamaan dikotomisen selitettävän muuttujan odotusarvoa. [24] 3.2 Logistinen funktio Sekä teoreettisten että käytännön havaintojen perusteella on voitu todeta, että dikotomisen muuttujan odotusarvoa mallintavan funktion tulisi olla käyräviivainen [24]. Selitettävän muuttujan odotusarvon E(Y i ) rajoituksiin vastaa täydellisesti logistinen funktio f(z) = ez 1 + e = 1, missä z (, ). z 1 + e z
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 17 Logistisen funktion f(z) arvot ovat välillä (0,1). Lisäksi f( ) = lim z z 1 1 = 0 ja 1 + e z f( ) = lim = 1. 1 + e z Funktion f(z) kuvaaja (kuvassa 3.1) on S-kirjaimen muotoinen: keskeltä funktio on lähes lineaarinen ja alkupäässä funktio lähestyy asymptoottisesti arvoa 0, kun z ja loppupäässä arvoa 1, kun z. Logistisesta funktiosta saadaan Kuva 3.1: Logistinen funktio. logistinen malli, kun merkinnällä z viitataan perinteiseen lineaariseen regressiomalliin. Yksinkertaisimmillaan z = β 0 + β 1 x, jolloin yleisesti selitettävän muuttujan Y odotusarvoa kuvaavasta logistisesta funktiosta f(z) saadaan seuraavanlainen yhteys 1 E(Y ) = 1 + e = 1 z 1 + e. (β 0+β 1 x) Logistisen regression yhteydessä odotusarvosta E(Y ) käytetään merkintää π(x), jolloin yksinkertainen logistinen regressiomalli π(x) = 1 1 + e (β 0+β 1 x). (3.2)
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 18 Viitattaessa selitettävän muuttujan i:nteen havaintoon logistinen regressiomalli kirjoitetaan muotoon E(Y i ) = π(x i ) = 1 1 + e (β 0+β 1 x i ). (3.3) Logistisen funktion käyttöä dikotomisen muuttujan analyysissä perustellaan mm. sillä, että funktio on matemaattisesti helppokäyttöinen ja joustava. Lisäksi logistisen funktion käyttäminen helpottaa mielekkäiden tulkintojen tekemistä. [12] Koska selitettävä muuttuja voi olla riippuvainen useista selittävistä muuttujista, tarvitsemme muuttujien välisten suhteiden kuvaamiseen usean muuttujan logistisen funktion. Sitä varten muodostamme logistisen regressiomallin tuntemattomista kertoimista vektorin β = β 0 β 1. β p ja mallissa olevista muuttujista vektorin x = [1 X 1 X p ]. Kirjataan vielä kustakin mittauksesta saadut muuttujien X 1,..., X p arvot havaintomatriisiksi X, jossa ensimmäinen sarake on yksikkövektori 1 1 x 11 x 12... x 1p x 1 1 x 21 x 22... x 2p X =.... = x 2. = [1, x 1, x 2,..., x p ]. 1 x n1 x n2... x np Matriisin X pystyvektoriin k viitataan merkinnällä x 1k x 2k x k =, jossa k = 1, 2,..., p.. x nk Vektorista x k on luettavissa kaikki havainnot, jotka liittyvät k:nteen muuttujaan. Vastaavasti l:nteen havaintoon liittyvät muttujien arvot on luettavissa matriisin X vaakavektorista x n x l = [ 1 x l1 x l2... x lp ], jossa l = 1, 2,..., n.
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 19 Tällöin z = x β = β 0 + β 1 X 1 + β 2 X 2 + + β p X p ja z i = x iβ = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip i = 1,..., n. Nyt odotusarvoa E(Y ) kuvaava usean muuttujan logistinen regressiomalli on muotoa E(Y ) = 1 1 + e = 1 z 1 + e, (3.4) (β 0+β 1 X 1 +β 2 X 2 + +β px p) josta käytetään jatkossa merkintää π(x ). Vastaavasti odotusarvoa E(Y i ) kuvaava logistinen regressiomalli π(x i) = 1 1 + e z i = 3.2.1 Logistisen funktion ominaisuuksia 1 1 + e (β 0+β 1 x i1 +β 2 x i2 + +β px ip ). (3.5) Kuten kuvasta 3.1 voidaan huomata, logistinen funktio on aidosti kasvava. Lisäksi se on linearisoitavissa logit-muunnoksen avulla. Määritelmä 5 Logit-muunnos Logit-muunnos g(x ) määritellään yleisen logistisen regressiomallin π(x ) avulla seuraavasti ( ) π(x ) g(x ) = ln 1 π(x ) Voidaan havaita, että g(x ) on lineaarinen logistisen regressiomallin muuttujien X 1,..., X p suhteen, sillä ( ) π(x ) g(x ) = ln = ln(π(x )) ln(1 π(x )) 1 π(x ) ( ) ( ) 1 1 = ln ln 1 1 + e z 1 + e z ( ) = ln(1) ln(1 + e z e z ) ln 1 + e z = ln(1 + e z ) ln(e z ) + ln(1 + e z ) = z = β 0 + β 1 X 1 + β 2 X 2 + + β p X p. (3.6)
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 20 3.3 Logistisen regressiomallin muodostaminen Olemme huomanneet, että logistinen regressiomalli muodostuu tietystä määrästä selittäviä muuttujia X i, i = 1,..., p, vakiosta β 0 sekä selittäville muuttujille laskettavista kertoimista β i, i = 1,..., p. Usein tutkittavasta aineistosta ei ole hyödyllistä eikä edes tarpeellista valita kaikkia muuttujia regressiomalliin. Tässä osiossa tarkastelemme, millä perusteella malliin tulevat muuttujat voidaan valita, jotta regressiomalli olisi mahdollisimman hyvä. Sitä ennen katsomme, miten logistisen regressiomallin tuntemattomat kertoimet β i estimoidaan ja miten kertoimien luotettavuutta voidaan arvioida. 3.3.1 Kertoimien estimointi Otetaan otos, jossa on n kappaletta toisistaan riippumattomia havaintoja. Tällöin i:s havainto muodostaa vektorin x i = [1, x i1, x i2,..., x ip ] ja sitä vastaava selitettävän muuttujan arvo on y i, kun i = 1, 2,..., n. Koska selitettävä muuttuja Y i on dikotominen, sen arvo y i määräytyy seuraavasti { 1, jos i. havainto kuuluu luokkaan 1 (esim. henkilö on sairastunut) y i = 0, jos i. havainto kuuluu luokkaan 2 (esim. henkilö on terve) Logistisessa regressioanalyysissä tuntemattomien kertoimien β estimointiin käytetään suurimman uskottavuuden menetelmää (maximum likelihood method). Menetelmän avulla mallin tuntemattomille kertoimille pyritään saamaan sellaiset arvot, että selitettävän muuttujan Y ennuste Ŷ vastaisi tehtyjä havaintoja mahdollisimman suurella todennäköisyydellä. Muodostetaan ensin suurimman uskottavuuden funktio, joka ilmaisee havaitun aineiston todennäköisyyksiä tuntemattomien kertoimien funktiona. Kuten edellä on esitetty, Bernoullin satunnaismuuttujalle todennäköisyydet P (Y i = 1) = π(x i) ja P (Y i = 0) = 1 π(x i). Näin ollen havaintoon (x i, y i ) liittyvä todennäköisyys saadaan funktiosta f(y i ) = π(x i) y i [1 π(x i)] 1 y i. (3.7) Koska havainnot oletettiin toisistaan riippumattomiksi saadaan uskottavuusfunktio havaintojen todennäköisyyksien tulona l(β) = n π(x i) y i [1 π(x i)] 1 y i. (3.8) i=1 Matemaattisesti on helpompaa käsitellä uskottavuusfunktion logaritmia, joten
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 21 määrittelemme vielä logaritmisen uskottavuusfunktion [ n ] L(β) = ln[l(β)] = ln π(x i) y i [1 π(x i)] 1 y i = = n i=1 n i=1 i=1 [ ] ln π(x i) y i [1 π(x i)] 1 y i [ ] y i ln[π(x i)] + (1 y i )ln[1 π(x i)]. (3.9) [12], [24] Halutut arvot tuntemattomille parametreille ovat niitä, jotka maksimoivat logaritmisen uskottavuusfunktion. Tarvittavat logaritmisen uskottavuusfunktion ääriarvokohdat saadaan derivaatan nollakohdista ja siksi laskemme funktion derivaatat β 0 :n ja β j :n suhteen. L(β) β 0 = = = = = n [ i=1 n [ i=1 n [ i=1 n i=1 n i=1 y i y i y i ln[π(x β i)] + (1 y i ) ] ln[1 π(x 0 β i)] 0 [ ] 1 ln + (1 y β 0 1 + e z i ) [ ]] 1 ln 1 i β 0 1 + e z i [ ]] e z i 1 + e + (1 y i) 1 + e z i z i 1 + e z i ] 1 1 + e z i ], missä z i = β 0 + β 1 x i1 + + β p x ip [ y i [ y i π(x i) L(β) β j = = = = n [ y i ln[π(x β i)] + (1 y i ) ] ln[1 π(x j β i)] j n [ [ ] 1 y i ln + (1 y β j 1 + e z i ) [ ]] 1 ln 1 i β j 1 + e z i n [ [ ]] e z i y i x ij 1 + e + (1 y i)x z ij 1 + e z i i 1 + e z i n ] 1 x ij [y i 1 + e z i i=1 i=1 i=1 i=1
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 22 = n i=1 ] x ij [y i π(x i), missä z i = β 0 + β 1 x i1 + + β j x ij + + β p x ip. Näin saamme yhtälöt n [ ] y i π(x i) = 0 ja (3.10) i=1 n i=1 ] x ij [y i π(x i) = 0. (3.11) [12] Tästä eteenpäin käytetään merkintää ˆβ vastaamaan yllä olevista yhtälöistä ratkaistavia tuntemattomien kertoimien arvoja. Vastaavasti merkintä ˆπ(x i) tarkoittaa logistisen regressiomallin arvoja, kun arvojen laskemiseen on käytetty vektoreita ˆβ ja x i. Koska edellä esitetyt yhtälöt ovat epälineaarisia, niiden ratkaiseminen on varsin haastavaa. Ratkaisuprosessi perustuu usein iteratiiviseen painotetun pienimmän neliösumman menetelmään, joka on suhteellisen suoraviivainen. Proseduuri etenee pääpiirteissään seuraavasti: Ensin määritetään estimoitavien kertoimien ˆβ 0 alkuarvot. Usein alkuarvot saadaan perinteisellä pienimmän neliösumman menetelmällä käyttäen ensimmäisen kertaluvun lineaarista mallia. (Selitettävä muuttuja on Y ja selittävinä muuttujina X 1, X 2,..., X p.) Saatuja alkuarvoja käyttämällä voidaan laskea ẑ i0 = x i ˆβ 0, jolloin ˆπ 0 (x i) = 1 1 + e ẑ i0. Seuraavaksi lasketaan selitettävälle muuttujalle uusi arvo ŷ i0 = ẑ i0 + y i ˆπ 0 (x i) ˆπ 0 (x i )[1 ˆπ 0(x i )] sekä muuttujaa vastaava paino w i0 = ˆπ 0 (x i)[1 ˆπ 0 (x i)]. Tämän jälkeen lasketaan uudet regressiokertoimet ˆβ 1 käyttäen ensimmäisen kertaluvun lineaarista mallia arvoilla ŷ i0 ja w i0.
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 23 Edellisiä vaiheita toistetaan niin kauan, että kertoimien uudet numeeriset arvot poikkeavat edellisistä arvoista erittäin vähän tai ei ollenkaan. Yleensä kertoimien arvot suppenevat muutaman iteraatiokierroksen jälkeen. [24] Kertoimien estimoinnissa voi ilmetä ongelmia mm. silloin kun selittävät muuttujat korreloivat voimakkaasti keskenään tai niitä on liikaa. Siksi ensiksi suositellaan selittävien muuttujien lukumäärään vähentämistä, jos kertoimien numeerinen etsintä epäonnistuu suppenemisongelmien takia. [24] Kertoimien hajonta Edellä laskettujen kertoimien ˆβ hajontaa voidaan arvioida niille laskettavien varianssien ja kovarianssien avulla. Kertoimen β j varianssin ja kovarianssien laskeminen perustuu niin ikään suurimman uskottavuuden -teoriaan. Varianssien ja kovarianssien estimaatit saadaan logaritmisen uskottavuusfunktion toisen kertaluvun osittaisderivaattojen avulla. ja 2 L(β) β 2 j = L(β) ( n ]) x ij [y i π(x β i) j i=1 n [ ( )] L(β) L(β) 1 = x ij y i x ij β i=1 j β j 1 + e β jx ij z j n [ ] x ij e z = x ij (1 + e z ) 2 i=1 n [ ( )] = x 2 1 1 ij 1 1 + e z 1 + e z i=1 n [ ( )] = x 2 ijπ(x i) 1 π(x i), missä z j = z β j x ij i=1 ( n 2 L(β) = L(β) β j β l β l i=1 n [ L(β) = β i=1 l n = i=1 ]) x ij [y i π(x i) ( )] L(β) 1 x ij y i x ij β l 1 + e β lx il z l [ ] x il e z x ij (1 + e z ) 2
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 24 = = n i=1 n i=1 [ x ij x il 1 [ x ij x il π(x i) ( )] 1 1 1 + e z 1 + e z ( )] 1 π(x i), missä z l = z β l x il kun j, l = 0, 1, 2,..., p. Vaihdetaan edellä laskettujen osittaisderivaattojen etumerkit, ja muodostetaan niiden avulla informaatiomatriisi I(β). Itse asiassa, kun X on aiemmin määritelty havaintomatriisi ja V = ˆπ(x 1)(1 ˆπ(x 1)) 0 0 0 ˆπ(x 2)(1 ˆπ(x 2)) 0... 0 0 ˆπ(x n)(1 ˆπ(x n)) niin estimoiduista kertoimien arvoista muodostettu informaatiomatriisi I( ˆβ) = X T VX. Nyt estimoitujen kertoimien varianssit ja kovarianssit sisältävä matriisi Var( ˆβ) = I 1 ( ˆβ) (3.12) ja kertoimen ˆβ j hajonnan estimaatti s( ˆβ j ) = [Var( ˆβ j )] 1/2, (3.13) missä j = 0, 1, 2,..., p ja Var( ˆβ j ) on matriisin Var(ˆβ) diagonaali alkio. [12] 3.3.2 Riskisuhteen ja laskettujen kertoimien välinen yhteys Tarkastellaan seuraavaksi käsitteitä riski (odds) ja riskisuhde (odds ratio) yksinkertaisen logistisen regressiomallin avulla. Olkoon ˆβ 0 ja ˆβ 1 malliin estimoidut kertoimet ja vektori x = [1 x]. Käytetään merkintää x j1 = [1 x j ] kun satunnaismuuttuja X saa arvon x j. Tällöin logit -funktion arvo g(x j1) = ˆβ 0 + ˆβ 1 x j. Vastaavasti kun satunnaismuuttujan arvo kasvaa yhdellä eli X = x j + 1 g(x j2) = ˆβ 0 + ˆβ 1 (x j + 1), missä x j2 = [1 x j + 1]. Yksinkertaisella laskutoimituksella huomaamme, että [24] g(x j2) g(x j1) = ˆβ 0 + ˆβ 1 x j + ˆβ 1 ˆβ 0 ˆβ 1 x j = ˆβ 1.
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 25 Määritelmä 6 Riski Riskillä (odds) tarkoitetaan tapahtuman Y todennäköisyyden suhdetta todennäköisyyteen, että tapahtumaa ei tapahdu. Siis O(Y ) = P (Y ) 1 P (Y ) [12],[14]. Yhtälöstä 3.1 voidaan huomata, että dikotomiselle muuttujalle todennäköisyys P (Y ) = E(Y ). Näin ollen O(Y ) = E(Y ) 1 E(Y ) = π(x ) 1 π(x ). Määritelmän 5 mukaan ( ) π(x ) g(x ) = ln = ln[o(y )]. 1 π(x ) Edellä laskettu erotus voidaan laskea riskiä hyväksikäyttäen [ ] g(x j2) g(x O(Y2 ) j1) = ln[o(y 2 )] ln[o(y 1 )] = ln O(Y 1 ) [ ] [ ] ˆπ(xj2 ) ˆπ(xj1 ) = ln ln 1 ˆπ(x j2 ) 1 ˆπ(x j1 ) = ˆβ 0 + ˆβ 1 x j + ˆβ 1 ˆβ 0 ˆβ 1 x j = ˆβ 1 Määritelmä 7 Riskisuhde (odds ratio). Riskisuhde kertoo nimensä mukaisesti kahden riskin O(Y 2 ) ja O(Y 1 ) välisen suhteen. OR = O(Y 2) O(Y 1 ). Voimme huomata, että riskisuhde OR voidaan ilmoittaa myös logistiseen regressiomalliin estimoidun kertoimen avulla. Koska [ ] O(Y2 ) ln = O(Y 1 ) ˆβ 1 niin OR = e ˆβ 1. [24] Itse asiassa riskisuhde ilmoittaa tietyssä ulostuloluokassa olemisen todennäköisyyden muutoksen kun ennustavan muuttujan arvo muuttuu yhdellä yksiköllä [30].
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 26 3.3.3 Muuttujien valitseminen regressiomalliin Jotta malli olisi tarkoitukseemme mahdollisimman hyvä, meidän täytyy ensin miettiä, millä perusteella valitsemme malliin selittävät muuttujat. Tämän lisäksi meillä tulisi olla erilaisia menetelmiä arvioida saamaamme mallia. [12] Yleisesti malli pyritään muodostamaan siten, että selittäviä muuttujia olisi mahdollisimman vähän mutta muuttujat selittäisivät kuitenkin mahdollisimman suuren osan aineistosta. Tässä osiossa tarkastelemme malliin tulevien muuttujien valintaa prosessina, jonka jälkeen keskitymme tarkemmin muuttujien merkitsevyyden testaamiseen ja mallin hyvyyden arviointiin. Yleisesti logistisen regressiomallin muodostaminen noudattelee lineaarisen regressiomallin muodostamisen periaatteita. Muuttujienvalintaprosessi alkaa kunkin selittävän muuttujan itsenäisellä analyysillä. Hosmer ja Lemeshow [12] suosittelevat ensimmäisenä toimenpiteenä selittävien muuttujien ristiintaulukointia selitettävän muuttujan kanssa. Erityistä huomiota tulisi kiinnittää sellaisiin muuttujiin, joiden ristiintaulukoinnissa ilmenee tyhjiä soluja. Tällaiset muuttujat tuottavat logistisessa regressioanalyysissa ei-toivottuja numeerisia tuloksia. Aineistosta riippuen muuttuja voidaan mm. koodata uudelleen tyhjien solujen eliminoimiseksi. Jatkuvat muuttujat voidaan sovittaa myös yhden muuttujan logistiseen regressiomalliin tai niille voidaan tehdä kahden otoksen t-testi. Näillä menetelmillä päästään käsiksi siihen, kuinka merkitsevästi tilastotieteen valossa kulloinkin analysoitava muuttuja eroaa selitettävästä muuttujasta. [12] Kun kukin muuttuja on ristiintaulukoitu selitettävän muuttujan kanssa (tai analysoitu jollakin muulla tavalla), valitaan jatkokäsittelyyn sellaiset muuttujat, jotka ovat riippumattomia selitettävästä muuttujasta riskitasolla 0,25 eli toisin sanoen χ 2 -testin p-arvo< 0, 25. Jos tilastollisen merkitsevyyden raja on liian tiukka, saattaa mallin kannalta oleellisia muuttujia jäädä pois jatkokäsittelystä. Jatkokäsittelyn kannalta ei ole mielekästä käyttää myöskään suurempaa merkitsevyyden rajaa, ellei ole syytä olettaa, että jokin pois jäänyt muuttuja nousee merkitykselliseksi esim. muiden muuttujien yhteisvaikutuksen takia. Toisaalta joidenkin alan ihmisten mielestä mallin muodostamisessa tulisi olla mukana kaikki muuttujat, joilla oletetaan olevan merkitystä mallia muodostettaessa yhden muuttujan analyysin tuloksista piittaamatta. [12] Kaikesta päätellen muuttujien valitseminen jatkokäsittelyyn jää viime kädessä tutkijan harkinnan varaan, sillä yhtä oikeaa ja kaikissa tilanteissa pätevää menettelyä ei näyttäisi keskusteluista huolimatta olevan olemassa. Kun muuttujat on valittu jatkokierroksille, on aika aloittaa varsinainen usean muuttujan mallin muodostaminen. Yleisimpiä menetelmiä logistisen regressiomallin muodostamiseen ovat askeltavat menetelmät mutta myös lineaarisessa regressiossa käytettyä parhaan osajoukon menetelmää (best subsets selection) voidaan soveltaa logistiseen regressioanalyysiin. Askeltavissa menetelmissä pe-
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 27 rusajatuksena on valita malliin parhaat muuttujat asteittain joko lisäämällä malliin yksi muuttuja kerrallaan tai poistamalla mallista yksi muuttuja kerrallaan. Muuttujien lisäämisen/poistamisen kriteerit ovat puhtaasti tilastollisia. Parhaan osajoukon menetelmässä puolestaan testataan yhdestä useamman muuttujan muodostamia osajoukkoja ja katsotaan, mikä näistä osajoukoista muodostaa parhaan mallin tiettyjen, ennalta asetettujen kriteereiden valossa. Mekaanisia muuttujienvalintaproseduureja vastaan on esitetty myös runsaasti kritiikkiä mm. siksi, että muodostuneet mallit eivät vastaa todellisuutta. Joidenkin mielestä mekaaniset muuttujienvalintaproseduurit tuovat malliin epäoleellisia muuttujia. Hosmerin ja Lemeshown mukaan merkittävin ongelma on kuitenkin se, että malli esitetään lopullisena, vaikka sitä ei ole kyetty tarkastamaan ja arvioimaan huolellisesti. Lopullisen mallin arvioiminen on aina tutkijan, ei tietokoneen, vastuulla. [12] Askeltavia muuttujienvalintamenetelmiä käsitellään tarkemmin osiossa 3.3.5. Käytettiinpä lopullisen mallin muodostuksessa mitä menetelmää tahansa, malliin tulevia muuttujia tulee arvioida joillakin kriteereillä. Mallin muodostamisen päämääränä on löytää selittävien muuttujien joukosta ne muuttujat, jotka kuvaavat selitettävää muuttujaa tilastollisessa mielessä mahdollisimman merkitsevästi. Mallia sovitettaessa jokainen malliin tuleva muuttuja arvioidaan erikseen. Muuttujien arviointiprosessi noudattelee kaavaa poista, sovita uudelleen ja tarkista niin kauan, kunnes malliin on jäänyt kaikista oleellisimmat, selitettävää muuttujaa parhaiten kuvaavat muuttujat. Muuttujien valintakriteerinä voidaan käyttää Waldin tunnuslukua, jolloin kullekin muuttujalle estimoitua kerrointa verrataan sellaisen mallin kertoimeen, jossa käsiteltävä muuttuja on yksin. Muuttujat, jotka eivät tuo malliin mitään uutta, poistetaan. Syntynyttä uutta mallia verrataan vanhaan malliin uskottavuusosamäärätestin avulla. Myös uuteen malliin estimoitujen muuttujien kertoimia tulisi verrata koko malliin estimoituihin kertoimiin. Muuttujien valinnassa kannattaa kiinnittää huomio ennen kaikkea niihin muuttujiin, joiden kertoimien estimoidut arvot vaihtelevat suuresti eri malleissa. Arvojen vaihtelu voi nimittäin tarkoittaa sitä, että mallista poistettujen muuttujien joukossa on muuttujia, joita tarvittaisiin mallissa olevien muuttujien vaikutuksen oikaisemiseksi. Kun kaikki merkittävät muuttujat ovat mallissa mukana, testataan vielä koko mallin sopivuutta. [12] Matemaattisempi esitys malliin tulevien muuttujien merkitsevyyden testaamisesta on osiossa 3.3.4 ja koko mallin sopivuuden arviointia käsitellään tarkemmin osiossa 3.3.6.
LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 28 3.3.4 Mitkä muuttujat ovat merkitseviä logistisessa regressiomallissa? Kun lähdemme selvittämään muuttujien merkitsevyyttä, haluamme tietää, kertooko malli enemmän selitettävästä muuttujasta, jos tietty yksittäinen muuttuja on tai ei ole mallissa mukana. Ajatuksena on verrata selitettävän muuttujan havaittuja arvoja ennustettuun arvoon, kun kyseinen yksittäinen muuttuja on tai ei ole mallissa mukana. Seuraavaksi käsitellyillä testeillä testataan nollahypoteesin H 0 : β = 0 paikkansapitävyyttä. Uskottavuusosamäärätesti Tarkastellaan ensimmäisenä uskottavuusosamäärätestiä, jossa varsinainen vertailu perustuu uskottavuusfunktioon (3.8). Muodostetaan ensin kaksi erilaista regressiomallia: täydellinen malli ja sovitettava malli. Täydellisessä mallissa n havaintoa istuu täydellisesti n:n muuttujan malliin. Käytetään merkintää l( ˆβ f ) tarkoittamaan uskottavuusfunktion arvoa, kun arvon laskemisessa on käytetty täydellisen mallin kertoimia ˆβ f. Vastaavasti sovitettavan mallin kertoimista laskettua uskottavuusfunktion arvoa merkitään l( ˆβ r ). Näistä saadaan laskettua uskottavuusosamäärä (likelihood ratio) LR = l( ˆβ r ) l( ˆβ f ). (3.14) [12], [24] Uskottavuusosamäärän avulla muodostetaan suure D, josta käytetään nimitystä poikkeavuus (deviance). [ ] l( ˆβr ) D = 2ln l( ˆβ f ) = 2[L( ˆβ r ) L( ˆβ f )] [ n = 2 (y i ln[ˆπ(x i)] + (1 y i )ln[1 ˆπ(x i)]) = 2 i=1 n ] (y i ln[y i ] + (1 y i )ln[1 y i ]) i=1 n [ ( ) ( )] ˆπ(x y i ln i) 1 ˆπ(x + (1 y i )ln i) y i 1 y i i=1 (3.15)