TILASTOTIETEEN JATKOKURSSI (806119P)

Samankaltaiset tiedostot
Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

HAVAITUT JA ODOTETUT FREKVENSSIT

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Kandidaatintutkielman aineistonhankinta ja analyysi

Todennäköisyyden ominaisuuksia

Opiskelija viipymisaika pistemäärä

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Harjoitus 2: Matlab - Statistical Toolbox

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

pisteet Frekvenssi frekvenssi Yhteensä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Yleistetyistä lineaarisista malleista

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

805306A Johdatus monimuuttujamenetelmiin, 5 op

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Harjoitus 9: Excel - Tilastollinen analyysi

Johdatus regressioanalyysiin. Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Moniulotteisia todennäköisyysjakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Jatkuvat satunnaismuuttujat

Korrelaatiokertoinen määrittely 165

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Mat Tilastollisen analyysin perusteet, kevät 2007

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

tilastotieteen kertaus

Mat Tilastollisen analyysin perusteet, kevät 2007

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Tilastollinen aineisto Luottamusväli

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTP1, luento KERTAUSTA

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Mat Tilastollisen analyysin perusteet, kevät 2007

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

1. Tilastollinen malli??

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

031021P Tilastomatematiikka (5 op) viikko 6

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskun kertaus. Heliövaara 1

MTTTP1, luento KERTAUSTA

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Dynaamiset regressiomallit

Johdatus regressioanalyysiin

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Johdatus tn-laskentaan perjantai

11. laskuharjoituskierros, vko 15, ratkaisut

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastomatematiikka Kevät 2008

MTTTP1, luento KERTAUSTA

Mat Tilastollisen analyysin perusteet, kevät 2007

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Normaalijakaumasta johdettuja jakaumia

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Tutkimustiedonhallinnan peruskurssi

Testit laatueroasteikollisille muuttujille

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

ABHELSINKI UNIVERSITY OF TECHNOLOGY

dx=5&uilang=fi&lang=fi&lvv=2014

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Vilkkumaa / Kuusinen 1

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Transkriptio:

TILASTOTIETEEN JATKOKURSSI (806119P) Luentomoniste Jari Päkkilä Kevät 2016

Sisältö 1 KOKEELLINEN TUTKIMUS 4 1.1 Yleistä............................... 4 1.2 Eräitä koejärjestelyjä....................... 6 2 TODENNÄKÖISYYSLASKENTAA 8 2.1 Kokonaistodennäköisyys ja Bayesin kaava............ 8 2.2 Diskreettejä todennäköisyysjakaumia.............. 10 2.2.1 Binomijakauma...................... 10 2.2.2 Poisson-jakauma..................... 13 2.3 Jatkuvia todennäköisyysjakaumia................ 14 2.3.1 Tasainen jakauma..................... 14 2.3.2 Eksponenttijakauma................... 15 2.3.3 χ 2 -jakauma........................ 17 3 KAKSIULOTTEISET JAKAUMAT 18 3.1 Ristiintaulukointi......................... 18 3.2 Ristiintaulukkoon liittyvät riippuvuusluvut........... 20 3.2.1 Kontingenssikerroin C ja suhteellinen kontingenssikerroin C/C MAX....................... 20 3.2.2 Ristitulosuhde, riskisuhde ja riskiero.......... 21 3.3 χ 2 -riippumattomuustesti..................... 22 3.4 Hajontakuvio eli sirontakuvio.................. 23 1

3.5 Korrelaatiokertoimet....................... 25 3.5.1 Pearsonin tulomomenttikorrelaatiokerroin r...... 25 3.5.2 Spearmannin järjestyskorrelaatiokerroin ρ....... 27 3.5.3 Korrelaatiomatriisi.................... 29 3.5.4 Sirontakuviomatriisi................... 32 4 REGRESSIOANALYYSIA 33 4.1 Yleistä............................... 33 4.2 Yksi selittävä muuttuja...................... 34 4.3 Lineaarinen regressioanalyysi ja R................ 37 4.3.1 Lyhyesti regressiokertoimien luottamusväleistä..... 38 4.4 Kaksi tai useampia selittäjiä................... 39 5 TILASTOLLINEN PÄÄTTELY 43 5.1 Testaus ja luottamusvälit eräissä perusasetelmissa....... 45 5.1.1 Kahden jakauman sijainnin vertailu........... 45 5.1.2 Kahden suhteellisen osuuden vertailu.......... 47 5.1.3 χ 2 -yhteensopivuustesti.................. 48 2

ESIPUHE Tämä opiskelumateriaali on suunniteltu käytettäväksi Oulun yliopiston luonnontieteellisen tiedekunnan Tilastotieteen jatkokurssilla (806119P). Kurssin kohderyhmänä ovat ensisijaisesti ne Oulun yliopiston opiskelijat, joiden opintoihin tilastotieteen opinnot kuuluvat, mutta jotka eivät kuitenkaan opiskele joko tilastotiedettä tai matematiikkaa pääaineenaan. Kurssin esitiedoiksi suositellaan joko opintojakson 806118P Johdatus tilastotieteeseen tai 806116P Tilastotiedettä kauppatieteilijöille kurssin suoritusta tai vastaavien tilastotieteen perusteiden omaksumista joko omatoimisesti tai asiasisällöltään vastaavien peruskurssien kautta. Monisteen sisällössä on suurelta osin hyödynnetty Marjatta Mankisen 2011 laatimaa luentomonistetta Tilastotieteen perusmenetelmät I -kurssia varten. Luentomonisteen sähköinen versio löytyy opintoportaali Nopasta kurssin kotisivuilta. Monistetta täydentäviä esimerkkejä käydään läpi luennoilla ja osa esimerkeistä löytyy aikanaan kurssin kotisivuilta Nopasta. Materiaalin tekijänoikeudet kuuluvat monisteen tekijälle. Kurssin opiskelijat saavat kopioida, tulostaa ja tallentaa materiaalin tai osia siitä omaan käyttöönsä. Oulussa 13.3.2016 Jari Päkkilä 3

1 KOKEELLINEN TUTKIMUS Aiemmilla tilastotieteen peruskursseilla on esitelty otantatutkimukseen liittyvia teemoja. Otannan avulla hankitut aineistot ovat luonteeltaan epa kokeellisia ja ta llo in tutkijalla on usein analysoitavanaan kuvaileva tutkimuskysymys. Tehta va na voi olla esim. arvioida tietyn puolueen kannatusosuutta jossain perusjoukossa tietylla ajanhetkella. Analyysin tavoitteena ei ole siten selvitta a syy-seuraussuhteita, kuten vaikkapa sita, miksi puolueen kannatusosuus on tietylla tasolla. 1.1 Yleista Kokeellisissa tutkimuksissa (experimental study, controlled experiment) havaintoaineisto saadaan soveltamalla kontrolloitujen kokeiden (experiment) periaatteita. Kokeessa kokeen kohteet, koeyksiko t (koehenkilo t, koe-ela imet, koealat yms.) alistetaan erilaisille ka sittelyille (treatment), jotta saataisiin selville, minka laisia muutoksia eri ka sittelyt aiheuttavat koeyksiko iden joissakin ominaisuuksissa: nk. selitetta vissa eli vastemuuttujissa, lyhyesti vasteissa (response). A. Halutaan tietää: Käsittelyn vaikutus B. Asetelman periaate: Vertailu Vertailuolosuhde Vastemuuttujan arvojen keskiarvo Koeolosuhde Vastemuuttujan arvojen keskiarvo Koeyksiköt C. Malli havainnoille: Ero keskimääräisissä vasteissa = käsittelyn vaikutus + harha + satunnaisvirhe D. Harhattomuuden edellytykset: - Satunnaistus - Kaksoisnaamiointi Kuva 1: Kokeellisen tutkimuksen periaate, kaksi vertailtavaa ka sittelya. Yksinkertaisimmissa kokeissa vertailtavat ka sittelyt ovat ilmaistavissa yhden selitta va n muuttujan eli tekija n eli faktorin (factor ) eri arvoina, joita 4

tässä yhteydessä voi kutsua myös tasoiksi (level). Ns. yhdistely- eli tekijäkokeissa (factorial experiment) sovellettavat käsittelyt ovat kahden tai useamman tekijän eri tasojen yhdistelmiä. Esimerkki 1.1 Viljelykokeessa halutaan tutkia tietyn typpilannoitteen vaikutusta heinän satomäärään. Koejärjestelyssä käytetään kolmea eri lannoitustasoa: ei lannoitusta, typpilannoitetta 100 kg/ha ja typpilannoitetta 200 kg/ha. Kyseessä on yhden tekijän koe, jossa koetekijällä on kolme tasoa. Rengasvalmistaja haluaa puolestaan testata kolmen rengastyypin (A, B ja C) pitokykyä erilaisilla alustoilla (kuiva asfaltti, märkä asfaltti ja lumi). Kyseessä on kahden tekijän koe, jossa on mahdollista tutkia rengastyypin ja alustan omavaikutuksia renkaan pitokykyyn. Sen lisäksi on mahdollista tutkia rengastyypin ja alustan yhdysvaikutusta eli interaktiota pitokykyyn. Erilaisia koeolosuhteita tässä esimerkissä on kaikkiaan yhdeksän kappaletta. Kokeellisessa tutkimuksessa eli kokeessa koeolosuhteet ovat hyvin pitkälle kokeen tekijän hallittavissa. Kokeilla pyritään selvittämään ennen kaikkea kausaali- eli syy-seuraussuhteita ja itse asiassa ankaran kausaalisuuden periaatteen mukaan syy-seuraussuhteista voidaan tehdä päätelmiä vain tekemällä kokeita. Muissa kuin kokeellisissa tutkimuksissa syy-yhteyksiä koskeviin päätelmiin tulee suhtautua hyvin varovaisesti. Kokeellisia tutkimuksia tehdään erityisesti lääketieteessä ja biologiassa. Galileo Galilei (1564-1642) ja Isaac Newton (1642-1727) olivat kokeellisen tieteen uranuurtajia. Kuitenkin vasta v. 1935 R.A. Fisher esitti kirjassaan The making of experiments vertailevien kokeiden suunnittelun yleiset periaatteet, joista tärkeimmät ovat satunnaistus, toistaminen ja lohkojen muodostaminen. Satunnaistus (randomisation) tarkoittaa sitä, että koeyksiköt jaetaan eri käsittelyille (eri ryhmiin) arpomalla, satunnaisesti eikä millään subjektiivisella jakomenettelyllä. Satunnaistamisella ryhmistä tehdään (keskimäärin) samanlaisia. Toistaminen (replication) tarkoittaa, että eri ryhmissä on oltava riittävän useita koeyksiköitä selittäjän/selittäjien todellisten vaikutusten ja satunnaisvaihteluiden erottamiseksi toisistaan. Lohkojen muodostaminen (blocking) on koeyksikköjen jakamista ennen satunnaistamista joidenkin vasteeseen vaikuttavien taustamuut- 5

tujien suhteen mahdollisimman samankaltaisiin eli homogeenisiin lohkoihin, jonka ja lkeen ka sittelyt jaetaan arpomalla kunkin lohkon sisa lla. Lohkominen lisa a ryhmien samanlaisuutta. Fisher kehitti erilaisia koesuunnitelmia (koeja rjestelyja ) eli koekaavioita (experimental design) ja testeja (erityisesti yksi- ja kaksisuuntaisen varianssianalyysin, erikoistapaus yksisuuntaisesta varianssianalyysista esitelty luvussa 5.1.1) saatujen tulosten analysoimiseen. Regressioanalyysi (luku 4) on myo s ta rkea koetulosten analysointimenetelma. Kera tyn koeaineiston alustavassa tarkastelussa kannattaa ka ytta a hyva ksi peruskursseilla esiteltyja kuvailevan tilastotieteen menetelmia : graafisia esityksia, taulukointia ja tunnuslukuja. 1.2 Era ita koeja rjestelyja Oletetaan kohdissa 1) ja 2), etta selitta via muuttujia on vain yksi ja ta lla tekija lla on kaksi tai useampia tasoja (=ka sittelyja ). 1) Ta ysin satunnaistettu koe(ja rjestely) Koeyksiko t jaetaan satunnaisesti ryhmiin, joita on yhta monta kuin ka sittelyja ja kuhunkin ryhma a n sovelletaan yhta ka sittelya. käsittelyt satunnaistus Koeyksiköt Ryhmä 1 (koeolosuhde 1) Vasteen arvojen mittaaminen Ryhmä 2 (koeolosuhde 2) Vasteen arvojen mittaaminen Ryhmä 3 (koeolosuhde 3) Vasteen arvojen mittaaminen Kuva 2: Ta ysin satunnaistettu koe, selitta ja lla kolme tasoa. 2) (Arvottujen eli) satunnaistettujen lohkojen koe(ja rjestely) Ta ta koeja rjestelya kannattaa ka ytta a, jos koeyksiko iden tiedeta a n poikkeavan toisistaan sellaisten ominaisuuksien (taustamuuttujien) suhteen, joilla oletetaan olevan vaikutusta vastemuuttujaan. 6

Koeja rjestely suoritetaan siten, etta i) ensin koeyksiko t jaetaan taustamuuttujien perusteella mahdollisimman homogeenisiin lohkoihin. Esim. lohkon sisa lla olevat ovat samaa sukupuolta, samanika isia jne. Jokaisessa lohkossa koeyksiko ita on yhta monta kuin sovellettavia ka sittelyja ja ii) sitten kunkin lohkon sisa lla ka sittelyt jaetaan arpomalla. Koeyksiköt käsittelyt satunnaistus... Ryhmä 1 (koeolosuhde 1) Vasteen arvojen mittaaminen Ryhmä 2 (koeolosuhde 2) Vasteen arvojen mittaaminen Ryhmä 3 (koeolosuhde 3) Vasteen arvojen mittaaminen Koeyksikkö Lohko Kuva 3: Satunnaistettujen lohkojen koe, selitta ja lla kolme tasoa. Mika li koeolosuhteita eli ka sittelyja on vain kaksi, kyseessa on ns. kaltaistetut parit (matched pairs). Ta llo in lohko muodostuu kahdesta koeyksiko sta, jotka ovat keskena a n mahdollisimman samanlaiset (esim. identtiset kaksoset). 3) Yhdistely- eli tekija koe Yhdistely- eli tekija kokeessa ka sittelyt ovat kahden tai useamman eri selitta va n muuttujan (tekija n) tasojen yhdistelmia. Yksinkertaisin on ns. 2x2tekija koe, jossa kummallakin tekija lla on kaksi tasoa. Yhdistelykokeessa on mahdollista tutkia eri tekijo iden yhdysvaikutuksia eli interaktioita. Vertaa esimerkin 1.1 renkaan pitokyvyn tutkiminen. 7

2 TODENNÄKÖISYYSLASKENTAA Aiemmilla kursseilla on tutustuttu satunnaismuuttujan käsitteeseen sekä diskreeteistä todennäköisyysjakaumista Bernoullin jakaumaan. Jatkuvista todennäköisyysjakaumista esittelyssä ovat olleet puolestaan normaalijakauma ja t-jakauma. Seuraavaksi tutustutaan diskreeteistä jakaumista Binomijakaumaan ja Poisson-jakaumaan. Jatkuvista jakaumista käsittelyyn otetaan puolestaan tasainen jakauma sekä eksponentti- ja χ 2 -jakauma. Ennen kyseisten todennäköisyysjakaumien esittelyä palataan peruskursseilla esiteltyyn ehdolliseen todennäköisyyteen P (A B), joka määriteltiin seuraavasti: ehdolliselle todennäköisyydelle pätee, että jos P(B) > 0 P(A B) = P(A B) P(B) Laajennetaan ehdollisen todennäköisyyden ajatusta seuraavaksi ns. kokonaistodennäköisyyteen ja Bayesin kaavaan. 2.1 Kokonaistodennäköisyys ja Bayesin kaava Olkoon A ja B 1, B 2,..., B k saman satunnaisilmiön tapahtumia siten, että B 1, B 2,..., B k ovat pareittain toisensa poissulkevia ja muodostavat perusjoukon E osituksen eli B i B j = jokaisella i j, i, j = 1,..., k ja B 1 B 2 B k = E. Oletetaan, että tunnetaan todennäköisyydet P(B i ), i = 1,..., k ja ehdolliset todennäköisyydet P(A Bi), i = 1,..., k ja halutaan määrätä P(A) ja/tai P(B i A). Koska P(A B i ) = P(B i )P(A B i ), i = 1,..., k ja koska tapahtumat A B i, i = 1,..., k ovat toisensa poissulkevia (ks. seuraavan sivun kuva), on P(A) = P(A B 1 ) + P(A B 2 ) + + P(A B k ) = P(B 1 )P(A B 1 ) + P(B 2 )P(A B 2 ) + + P(B k )P(A B k ) k = P(B i )P(A B i ) i=1 = kokonaistodennäköisyys, (the law of total probability) 8

Na in ollen jokaisella i = 1,..., k P(A Bi ) P(A) P(Bi )P(A Bi ) = P(A) P(Bi )P(A Bi ) = k X P(Bi )P(A Bi ) P(Bi A) = (= Bayesin kaava, Bayes theorem) i=1 B3 B1 B3 A Bk B2 Kuva 4: Kokonaistodenna ko isyyteen liittyva Venn-diagrammi. B3 B1 B3 A Bk B2 B1 P(A B1) P(A B1) Kuva 5: Bayesin kaavaan liittyva kuvio. 9

2.2 Diskreettejä todennäköisyysjakaumia 2.2.1 Binomijakauma Tarkastellaan toistokoetta E ja sen tapahtumia A ja A c (A:n komplementtitapahtuma). Toistetaan koetta n kertaa ja oletetaan, että toistot ovat toisistaan riippumattomat. Lisäksi oletetaan, että jokaisessa toistossa tapahtuman A todennäköisyys pysyy vakiona ts. P(A) = p jokaisessa toistossa, jolloin P(A c ) = 1 p jokaisessa toistossa. Olkoon X = A:n esiintymiskertojen lukumäärä n toistossa. X:n jakaumaa sanotaan binomijakaumaksi (binomial distribution) parametrein n ja p, merk. X Bin(n, p). X:n eri arvoihin liittyvät todennäköisyydet saadaan laskettua seuraavalla kaavalla: P(X = k) = ( ) n p k (1 p) n k, k k = 0, 1, 2,..., n Huom 1. Binomijakaumaa parametrein n ja p noudattava satunnaismuuttuja X voidaan ajatella n riippumattoman Bernoulli-jakaumaa parametrilla p noudattavan satunnaismuuttujan Y i, i = 1, 2,..., n, summamuuttujaksi. Y i = { 1, jos i:nnessä toistossa esiintyy A 0, jos i:nnessä toistossa ei esiinny A X = Y 1 + Y 2 + + Y n Huom 2. Odotusarvon ja varianssin ominaisuuksia hyväksikäyttäen voidaan päätellä, että E(X) = E(Y 1 ) + E(Y 2 ) + + E(Y n ) = p + p + + p = np ja D 2 (X) = D 2 (Y 1 ) + D 2 (Y 2 ) + + D 2 (Y n ) = p(1 p) + p(1 p) + + p(1 p) = np(1 p) Ts. jos X Bin(n, p), X:n odotusarvo E(X) = np ja X:n varianssi D 2 (X) = np(1 p). 10

n=4, p=0.25 n=4, p=0.75 0.4 0.4 todennäköisyys 0.3 0.2 0.1 todennäköisyys 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 0.0 0 1 2 3 4 5 6 7 8 9 10 x x n=10, p=0.75 n=10, p=0.50 0.4 0.4 todennäköisyys 0.3 0.2 0.1 todennäköisyys 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 0.0 0 1 2 3 4 5 6 7 8 9 10 x x Kuva 6: Binomijakauman kuvaajia eri n:n ja p:n arvoilla. Esim 2.1 Oletetaan, että vastasyntynyt lapsi on sukupuoleltaan poika todennäköisyydellä 0.5. Millä todennäköisyydellä kymmenlapsisessa perheessä on a) kolme poikaa, b) vähintään kolme poikaa? Merkitään A = vastasyntynyt on poika, A c = vastasyntynyt ei ole poika, p = P(A) = 0.5 jokaisessa toistossa X = poikien lukumäärä kymmenlapsisessa perheessä, X Bin(10, 0.5) (Vertaa kuvan 6 oikean alanurkan tilanteeseen) Nyt P(X = k) = ( ) 10 [ (0.5 k (1 0.5) 10 k], k = 0, 1, 2,..., 10 k 11

a) P(X = 3) = 0.1172 b) P(vähintään kolme poikaa) = P(X 3) = P(X = 3) + P(X = 4) + + P(X = 10) = 1 P(X 2) = 1 [P(X = 0) + P(X = 1) + P(X = 2)] 1 (0.0010 + 0.0098 + 0.0439) = 0.9453 Binomijakaumaa Bin(n, p) voidaan approksimoida normaalijakaumalla, kun n on riittävän suuri ja p ei ole kovin pieni eikä kovin suuri (karkea sääntö: np > 5 ja n(1 p) > 5). Tällöin Bin(n, p) N(np, np(1 p)). Approksimaation tarkkuutta voidaan parantaa jonkin verran ns. jatkuvuuskorjauksella. Katso seuraava esimerkki. Esim 2.2 Etelän lomakohteeseen lentävässä lentokoneessa on 350 matkustajapaikkaa. Lentoyhtiön johto tietää pitkän kokemuksen perusteella, että 90% ennakkovarauksen tehneistä saapuu lennolle. Tämän takia lentokoneeseen myydään 375 varausta. Millä todennäköisyydellä jokainen lennolle paikan varannut ei pääse koneeseen? 0.08 Bin(375, 0.9) jakauma ja N(337.5, 33.75) jakauma 0.06 Todennäköisyys/tiheys 0.04 0.02 0.00 310 315 320 325 330 335 340 345 350 355 360 365 Lennolle saapuvien lukumäärä Kuva 7: Binomijakauman approksimointia normaalijakauman avulla. 12

2.2.2 Poisson-jakauma Poisson-jakauma sopii esim. tilanteisiin, joissa ollaan kiinnostuneita tietyn tapahtuman A esiintymisten lukumäärästä (= X) aikavälillä (0, t], kun tiedossa on tapahtuman A keskimääräinen esiintymisten lukumäärä m aikayksikössä. Esimerkkejä Poisson-jakaumaa noudattavista muuttujista. Liikenneonnettomuuksien lukumäärä kuukaudessa jollakin alueella, Harvinaiseen sairauteen sairastuvien lukumäärä vuodessa, Huoltoasemalle aikavälillä 12-15 saapuvien autojen lukumäärä. Jos X noudattaa Poisson-jakaumaa parametrilla λ, merk. X Poi(λ), X:n eri arvoihin liittyvät todennäköisyydet lasketaan kaavalla P(X = k) = λk k! e λ, k = 0, 1, 2,..., ja e = 2.71828... λ on sekä X:n odotusarvo että varianssi ts. E(X) = λ ja D 2 (X) = λ. 0.30 λ = 1 0.30 λ = 1.5 0.25 0.25 Todennäköisyys 0.20 0.15 0.10 Todennäköisyys 0.20 0.15 0.10 0.05 0.05 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 0.30 λ = 4 0.30 λ = 7 0.25 0.25 Todennäköisyys 0.20 0.15 0.10 Todennäköisyys 0.20 0.15 0.10 0.05 0.05 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X Kuva 8: Poisson-jakauman kuvaajia erilaisilla λ:n arvoilla. 13

Poisson-jakaumaa voidaan hyödyntää myös mm. pinta-aloihin tai tilavuuksiin liittyvissä todennäköisyystehtävissä. Esim 2.2 Oletetaan, että Lapissa on keskimäärin kaksi hirveä 1000 hehtaarilla. Millä todennäköisyydellä satunnaisesti valitulla 1000 hehtaarin alueella on korkeintaan yksi hirvi? Olkoon X = hirvien lukumäärä 1000 hehtaaria. Nyt E(X) = λ = 2, joten X Poi(λ) = Poi(2) Kysytty todennäköisyys on siten P (X 1) = P (X = 0) + P (X = 1) = 20 0! e 2 + 21 1! e 2 0.1353 + 0.2707 = 0.4060 Huom. Poisson-jakaumaa voidaan käyttää binomijakauman arvioimiseen eli approksimoimiseen silloin, kun n on suuri ( 20) ja p on pieni ( 0.05). Tällöin Bin(n, p) Poi(np). Muita diskreettejä jakaumia ovat mm. hypergeometrinen jakauma, geometrinen jakauma ja multinomijakauma. (Ei käsitellä tällä kurssilla.) 2.3 Jatkuvia todennäköisyysjakaumia 2.3.1 Tasainen jakauma Tasainen jakauma on yksinkertaisin jatkuva jakauma. Satunnaismuuttuja X noudattaa tasaista jakaumaa välillä [a, b], merk. X Tas[a, b], jos X:n tiheysfunktio on muotoa { 1 f(x) = b a, kun a x b 0, muulloin Huom. Jos X on tasaisesti jakautunut välille [a, b], todennäköisyys, että X kuuluu johonkin [a, b]:n osaväliin on sama kuin todennäköisyys, että X kuuluu mihin tahansa yhtä pitkään [a, b]:n osaväliin. 14

X:n kertymäfunktio määritellään puolestaan seuraavasti: 0, kun x < a x a F (x) = P (X x) = b a, kun a x b 1, kun x > b Tas[a,b] jakauman tiheysfunktio 1/(b a) Tiheysfunktio a x b Tas[a,b] jakauman kertymäfunktio 1 Kertynäfunktio 0 a x b Kuva 9: Tasaisen jakauman Tas[a,b] tiheys-ja kertymäfunktion kuvaajat. X:n tunnusluvut: E(X) = a + b 2 ja D 2 (X) = (b a)2 12 2.3.2 Eksponenttijakauma Satunnaismuuttuja X noudattaa eksponenttijakaumaa parametrilla α (α > 0), merk. X Exp(α), jos X:n tiheysfunktio on muotoa f(x) = { αe αx, kun x 0 0, kun x < 0 Eksponenttijakaumalla on käyttöä mm. odotusaikoja koskevissa sovellutuksissa ja elinikätarkasteluissa. 15

Esimerkkejä eksponenttijakaumaa noudattavista muuttujista: Tiettyä tautia sairastavan jäljellä oleva elinaika, Tietyn laitteen toiminta-aika ennen rikkoutumista, Kahden peräkkäisen johonkin palvelupisteeseen saapuvan asiakkaan tuloaikojen ero. X:n kertymäfunktio: F (x) = P (X x) = { 1 e αx, kun x 0 0, kun x < 0 X:n tunnusluvut: E(X) = 1 α D 2 (X) = 1 α 2 Eksponenttijakauman tiheysfunktio Tiheysfunktio 0 X 1 Eksponenttijakauman kertymäfunktio Kertymäfunktio 0 X Kuva 10: Eksponenttijakauman tiheys-ja kertymäfunktion kuvaajat. Esim 2.3 Aika, joka kuluu asiakkaan saapumisesta seuraavan asiakkaan saapumiseen (= X), noudattaa eräässä pankissa eksponenttijakaumaa parametrin α arvolla 1/3 (yksikkönä minuutti). Jos asiakas on juuri saapunut, mikä on todennäköisyys, että seuraava asiakas 16

a) saapuu minuutin sisällä, b) ei saavu ainakaan kahteen minuuttiin? c) Määrää X:n odotusarvo ja mediaani. 2.3.3 χ 2 -jakauma Olkoot satunnaismuuttujat Z 1, Z 2,..., Z n riippumattomia ja N(0, 1)-jakautuneita. Tällöin satunnaismuuttujan X 2 = n i=1 Z i 2 jakaumaa sanotaan χ 2 -jakaumaksi vapausasteella n, merk. X 2 χ 2 (n). 0.4 0.3 vapausaste = 1 Tiheysfunktio 0.2 vapausaste = 3 vapausaste = 3 0.1 0.0 0 2 4 6 8 10 12 14 16 X Kuva 11: χ 2 -jakauman tiheysfunktion kuvaajia eri vapausasteilla. χ 2 -jakauman tiheysfunktion lauseke on hankala (ei esitetä). χ 2 -jakaumaan liittyviä todennäköisyyksiä P(X 2 χ 2 ) on taulukoitu (Taulukko 3, Liite 3). 17

3 KAKSIULOTTEISET JAKAUMAT Kaksiulotteisissa jakaumissa tarkastellaan kahden muuttujan samanaikaista jakautumista. Tavoitteena on tällöin yleensä selvittää, onko muuttujien välillä tilastollista riippuvuutta. Kahden muuttujan välillä sanotaan olevan tilastollista riippuvuutta, jos toisen muuttujan arvojen tuntemisesta on apua toisen muuttujan arvojen ennustamisessa. Vastaavasti kaksi muuttujaa ovat tilastollisesti riippumattomia, jos toisen muuttujan arvojen tuntemisesta ei ole apua toisen muuttujan arvojen ennustamisessa. Esimerkkejä tutkimusongelmista, joissa halutaan tutkia kahden muuttujan välistä tilastollista riippuvuutta: Onko pojan ja isän pituuksien välillä riippuvuutta? Miten työttömyysaste riippuu bruttokansantuotteen kasvuvauhdista? Miten alkoholijuomien kokonaiskulutus riippuu alkoholijuomien hintatasosta? Seuraavissa luvuissa käsitellään kahta kaksiulotteisen jakauman esitystapaa: hajontakuviota ja ristiintaulukointia sekä esitellään kahden muuttujan välisen riippuvuuden tutkimiseen sopivia tunnuslukuja eli ns. riippuvuuslukuja. 3.1 Ristiintaulukointi Käytetään, kun halutaan tutkia kahden muuttujan välistä riippuvuutta tai verrata yhden muuttujan jakaumia eri ryhmissä, Yleensä ainakin toinen muuttujista on kvalitatiivinen, Kvantitatiivinen eli määrää mittaava muuttuja on ennen ristiintaulukointia luokiteltava. 18

Esim. 3.1 Eräässä nuorten aikuisten terveyskäyttäytymistä selvitelleessä kyselytutkimuksessa saatiin sukupuolen ja energiajuomien käytön välille seuraava ristiintaulukko. Sukupuoli Energiajuomien käyttö Mies Nainen Yhteensä En koskaan tai en juuri koskaan 46 116 162 Silloin tällöin viikon mittaan 7 31 38 Joka päivä tai melkein joka päivä 37 1 38 Yhteensä 90 148 238 Ovatko ristiintaulukossa esitetyt muuttujat toisistaan riippumattomia? Onko sukupuolten välillä eroa energiajuomien käytön yleisyydessä? Yleisessä muodossa muuttujien x ja y ristiintaulukko eli kontingenssitaulu(kko) eli kaksiulotteinen (frekvenssi)jakauma on seuraavanlainen: y:n reunajakauma x y E 1... E j... E r Yhteensä F 1 f 11... f 1j... f 1r f 1...... F i f i1... f ij... f ir f i...... F m f m1... f mj... f mr f m. x:n reunajakauma Yhteensä f.1... f.j... f.r n Muuttujan y luokan F i ja muuttujan x luokan E j muodostamaa paria (F i, E j ) sanotaan soluksi (cell). Solun (F i, E j ) solufrekvenssi f ij on luku, joka ilmoittaa niiden tilastoyksiköiden lukumäärän, joilla muuttujan y luokka on F i ja muuttujan x luokka E j. Taulukon i. rivi muodostaa muuttujan x ehdollisen jakauman ehdolla, että y:n arvot kuuluvat luokkaan F i. Vastaavasti taulukon j. sarake muodostaa muuttujan y ehdollisen jakauman ehdolla, että x:n arvot kuuluvat luokkaan E j. Riippuvuutta koskevien päätelmien tekemistä varten kannattaa määrätä ns. ehdolliset prosenttijakaumat. Tällöin taulukosta lasketaan prosentit riveittäin tai sarakkeittain. Laskusuunnan ratkaisee se, mitä kysytään. Jos taulukossa on selvästi selitettävä muuttuja, lasketaan selitettävän muuttujan ehdolliset prosenttijakaumat selittävän muuttujan luokissa. 19

Esim. 3.2 Esimerkin 3.1 aineistossa energiajuomien käytön ehdolliset jakaumat sukupuolittain. Sukupuoli Energiajuomien käyttö Mies Nainen Yhteensä En koskaan tai en juuri koskaan 51.1 78.4 68.1 Silloin tällöin viikon mittaan 7.8 20.9 16.0 Joka päivä tai melkein joka päivä 41.1 0.7 16.0 Yhteensä 100.0 100.0 100.0 Yleisesti riippuvuus määritellään ehdollisten prosenttijakaumien avulla seuraavasti: Jos ehdolliset prosenttijakaumat ovat samat tai likimain samat, niin tarkasteltavien muuttujien välillä ei ole riippuvuutta. Mitä enemmän ehdolliset prosenttijakaumat poikkeavat, sitä voimakkaampi riippuvuus muuttujien välillä vallitsee. 3.2 Ristiintaulukkoon liittyvät riippuvuusluvut Kahden muuttujan välisen riippuvuuden tutkimiseen kehitetyistä tunnusluvuista eli ns. riippuvuusluvuista esitellään seuraavassa kontingenssikerroin, suhteellinen kontingenssikerroin ja ristitulosuhde. 3.2.1 Kontingenssikerroin C ja suhteellinen kontingenssikerroin C/C MAX Muuttujien x ja y mitta-asteikoksi riittää luokitteluasteikko, Perustuvat khiin neliön lausekkeeseen, merk. χ 2. χ 2 -arvon laskemisessa tarvitaan havaittujen (observed) frekvenssien f ij lisäksi ns. odotettuja (expected) frekvenssejä e ij. Odotettu frekvenssi e ij kuvaa, kuinka monta havaintoa kyseisessä solussa on, jos x ja y ovat riippumattomia ja reunafrekvenssit ovat ne, mitkä on havaittu. Odotetut frekvenssit lasketaan kaavalla e ij = f i.f.j n 20

Mitä enemmän havaitut frekvenssit f ij poikkeavat odotetuista frekvensseistä e ij, sitä voimakkaampi riippuvuus muuttujien välillä vallitsee. Khiin neliösuure lasketaan χ 2 = m r (f ij e ij ) 2 e i=1 j=1 ij Kontingenssikerroin määritellään χ C = 2 n + χ. 2 C:n maksimiarvo riippuu taulukon rivien ja sarakkeiden lukumääristä seuraavan kaavan mukaan q 1 Cmax =, q jossa q = min(m, r) ja m=rivien lkm, r= sarakkeiden lkm. Suhteellista kontingenssikerrointa laskettaessa kontingenssikerroin suhteutetaan maksimiarvoonsa eli suhteellinen kontingenssikerroin = C/Cmax. Suhteellinen kontingenssikerroin C/Cmax on aina välillä [0, 1] ja siksi tulkinnaltaan helpompi kuin kontingenssikerroin, (jota ei itse asiassa kannata lähteä tulkitsemaankaan). Mitä voimakkaampi riippuvuus muuttujien välillä vallitsee, sitä lähempänä ykköstä C/Cmax on. Riippuvuuden suuntaa näiden tunnuslukujen arvoista ei kuitenkaan voi päätellä. Jos C/Cmax on lähellä nollaa, ei muuttujien välillä ole riippuvuutta. 3.2.2 Ristitulosuhde, riskisuhde ja riskiero Seuraavaksi esitellään kolme riippuvuustunnuslukua, jotka soveltuvat vain 2 2 - ristiintaulukon tilanteeseen ts. kun sekä x että y ovat dikotomisia (2-luokkaisia) x y E 1 E 2 Yhteensä F 1 f 11 f 12 f 1. F 2 f 21 f 22 f 2. Yhteensä f.1 f.2 n 21

Ristitulosuhde (OR) OR = f 11f 22 f 12 f 21 OR:n arvo on aina välillä [0, ) ja arvo = 1 silloin ja vain silloin, kun muuttujat ovat riippumattomia. Luvut OR ja 1/OR kuvaavat yhtä voimakasta mutta vastakkaissuuntaista riippuvuutta. Nollan suhteen symmetriseen arvoalueeseen päästään, jos otetaan OR:sta logaritmi ln(or). ln(or):n arvoalue on (, + ) ja arvo = 0 tarkalleen silloin, kun muuttujat ovat riippumattomia. Kun ristiintaulukon perusteella muodostetaan y:n ehdolliset prosenttijakaumat x:n eri luokissa ja merkitään π 1 = f 11 /f.1 ja π 0 = f 12 /f.2, määritellään riskisuhde (RR) ja riskiero (RD) seuraavasti RR = π 1 /π 0 ja RD = π 1 π 0 3.3 χ 2 -riippumattomuustesti Luvussa 3.2.1 esiteltyä χ 2 -tunnuslukua voidaan käyttää myös suoraan hyväksi tilastollisessa päättelyssä. Tällöin merkitsevyystestauksen avulla pyritään selvittämään kahden luokitellun muuttujan riippumattomuutta. Merkitsevyystestauksen yleiset vaiheet on kuvattu aiemmilla tilastotieteen peruskursseilla ja ne on kerrattu lyhyesti myös tämän luentomonisteen sivulla 43. Tutkitaan kahden muuttujan x ja y riippuvuutta yhdessä populaatiossa. Päätelmät tehdään satunnaisotoksen (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) avulla. x ja y ovat luokiteltuja; x:n luokat E 1, E 2,..., E r ja y:n luokat F 1, F 2,..., F m. Yleensä ainakin toinen muuttujista on luokittelu- tai järjestysasteikkoa. (X, Y ):n jakaumasta ei tarvitse tehdä mitään oletuksia ts. kyseessä on parametriton malli. Lähtötilanne voidaan kuvata kaaviolla seuraavasti: populaatio (x,y) (X,Y) (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) 22

Asetetaan hypoteesit: { H 0 : x ja y ovat riippumattomat H 1 : x ja y riippuvat toisistaan Valitaan tilanteeseen sopiva testisuure χ 2 : F ij = havaittu frekvenssi (observed frequency) E ij = F i.f.j = odotettu frekvenssi (expected frequency) n χ 2 = m r (F ij E ij ) 2 E i=1 j=1 ij χ 2 [(r 1)(m 1)], likimain, kun H 0 on tosi. Testisuureen havaitun arvon laskemisen jälkeen P -arvo määrätään χ 2 -jakaumasta (taulukko 3, liite 3), jonka jälkeen tehdään johtopäätökset. Huom. χ 2 -riippumattomuustestiä käytettäessä seuraavien ehtojen tulee olla voimassa: 1) Jokaisen odotetun frekvenssin tulee olla ykköstä suurempi, 2) Odotetuista frekvensseistä korkeintaan 20 % saa olla alle viiden. Jos ehdot eivät ole voimassa, voi luokkia sopivasti yhdistemällä saada ne voimaan. Mikäli luokkien yhdistelykään ei tuota toivottua tulosta, on riippuvuuden testaamiseen käytettävä muita testejä. 3.4 Hajontakuvio eli sirontakuvio Engl. scatter diagram Käytetään, kun halutaan tutkia graafisesti kahden muuttujan x ja y välistä riippuvuutta, Ainakin toisen muuttujista oltava vähintään välimatka-asteikkoa, Kun molemmat muuttujat ovat vähintään välimatka-asteikkoa, voidaan kuviosta käyttää nimitystä korrelaatiodiagrammi. 23

Esim. 3.3 Alla olevassa taulukossa on esitetty Lontoon kesäolympialaisten kymmenottelun 10 parhaan yleisurheilijan pituushypyn ja korkeushypyn lopputulokset. Ottelija 1 2 3 4 5 6 7 8 9 10 Pituustulos (m) 8.03 7.53 7.52 7.64 7.54 7.21 7.55 7.45 7.17 7.15 Korkeustulos (cm) 205 199 211 205 205 190 199 199 205 196 Tutkitaan muuttujien välistä välistä riippuvuutta graafisesti. 215 210 Korkeushypyn tulos (cm) 205 200 195 190 185 7.0 7.2 7.4 7.6 7.8 8.0 8.2 Pituushypyn tulos (m) Kuva 12: Pituus- ja korkeushyppytulosten välinen sirontakuvio. Huom. Hajontakuviossa on periaatteessa sama, kumman muuttujan valitsee x-muuttujaksi. Jos kuitenkin toinen muuttujista on luonnollisempi selittävä muuttuja toiselle kuin päinvastoin, valitaan selittävä muuttuja x-muuttujaksi ja siis vaaka-akselille. Ellei kuvattavien muuttujien välillä ole selvää syy seuraussuhdetta, valitaan x-akselin muuttujaksi ajallisesti edeltävä muuttuja. 24

Kuva 13: Esimerkkejä kahden muuttujan välisistä erityyppisistä riippuvuuksista. 3.5 Korrelaatiokertoimet Jos hajontakuvion perusteella tarkasteltavien muuttujien välillä on havaittavissa joko lineaarista eli suoranmuotoista tai monotonista (esim. käyränmuotoista) riippuvuutta, voidaan riippuvuuden voimakkuutta mitata korrelaatiokertoimien avulla. Pearsonin tulomomenttikorrelaatiokerroin r mittaa lineaarisen riippuvuuden voimakkuutta ja Spearmannin järjestyskorrelaatiokerron ρ mittaa monotonisen riippuvuuden voimakkuutta. 3.5.1 Pearsonin tulomomenttikorrelaatiokerroin r Sopii kuvaamaan kahden muuttujan x ja y välistä riippuvuutta, jos 1) x ja y ovat kvantitatiivisia (vähintään välimatka-asteikkoa) ja 2) x:n ja y:n välinen riippuvuus on luonteeltaan lineaarista (ks. hajontakuviot). 25

Olkoot (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) n tilastoyksikön saamat arvot muuttujilla x ja y. Muuttujien x ja y (Pearsonin tulomomentti)korrelaatiokerroin r = r xy = s xy s x s y, jossa s xy = 1 n 1 n (x i x)(y i ȳ) on x:n ja y:n kovarianssi, s x on x:n i=1 keskihajonta ja s y on y:n keskihajonta. Huom. s xx = s 2 x ts. x:n varianssi. Voidaan osoittaa, että s xy saa positiivisia arvoja, jos x:n ja y:n välillä on positiivista lineaarista riippuvuutta ja negatiivisia arvoja, jos x:n ja y:n välillä on negatiivista lineaarista riippuvuutta. s xy on kuitenkin riippuvainen x:n ja y:n mittayksiköistä eikä sovellu sellaisenaan riippuvuusluvuksi. r sen sijaan on x:n ja y:n mittayksiköistä riippumaton. Korrelaatiokertoimen r ominaisuuksia 1) r xx = 1, 2) r xy = r yx, 3) 1 r +1, 4) r = +1 täydellinen positiivinen lineaarinen riippuvuus, 5) r = 1 täydellinen negatiivinen lineaarinen riippuvuus, 6) r = 0 muuttujien välillä ei ole lineaarista riippuvuutta, epälineaarista riippuvuutta voi kuitenkin olla, 7) Olkoot u i = ax i + b ja v i = cy i + d, i = 1,..., n, a, b, c ja d annettuja vakioita. Voidaan osoittaa, että r uv = r xy, jos ac > 0 ja r uv = r xy, jos ac < 0. Korrelaatiokertoimen väärinkäyttö ja -tulkintatilanteita 1) Käytetään korrelaatiokerrointa, vaikka muuttujien välinen riippuvuus ei ole lineaarista. 2) Korrelaatiokerroin ei ole robusti vaan herkkä poikkeaville arvoille varsinkin silloin, kun havaintoja on vähän. 26

3) Ryhmien yhdistäminen saattaa tuottaa koko joukolle hyvinkin erilaisen korrelaatiokertoimen arvon kuin mitä yhdistetyissä ryhmissä oli. 4) Jos toisen tai molempien muuttujien vaihteluväliä pienennetään, se aiheuttaa yleensä myös korrelaatiokertoimen itseisarvon pienenemisen. 5) Voimakaskaan korrelaatio ei ole riittävä edellytys kausaalisuhteelle. Korrelaatiokertoimen suuruuden hahmottamista voi harjoitella esimerkiksi nettiosoitteessa http://guessthecorrelation.com 3.5.2 Spearmannin järjestyskorrelaatiokerroin ρ Sopii kuvaamaan kahden muuttujan x ja y välistä riippuvuutta, jos 1) x ja y ovat vähintään järjestysasteikkoa ja 2) x:n ja y:n välinen riippuvuus on monotonista (tai lineaarista) (ks. hajontakuviot). Olkoot (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) n tilastoyksikön saamat arvot muuttujilla x ja y. Muuttujien x ja y Spearmannin järjestyskorrelaatiokerroin ρ on n 2 6 d i ρ = 1 i=1 n 3 n jossa d i = R(x i ) R(y i ), i = 1,..., n. R(x i ):t saadaan, kun alkuperäiset x:n arvot korvataan järjestysluvuilla. Vastaavasti R(y i ):t saadaan, kun alkuperäiset y:n arvot korvataan järjestysluvuilla. Jos aineistossa esiintyy sidoksia (ties), käytetään keskijärjestyslukuja. (Esimerkki luennolla.) ρ on aina välillä [ 1, +1] ja itseisarvoltaan sitä suurempi, mitä voimakkaammasta monotonisesta riippuvuudesta on kysymys. 27

Esim. 3.4 Jatketaan esimerkissä 3.3 esitellyn aineiston analyysiä laskemalla muuttujien välisen Spearmannin järjestyskorrelaatiokertoimen ρ arvo. - Korvataan sekä pituus- että korkeushyppytulosten havaintoarvot järjestysluvuillaan: pienimmälle pituushyppytulokselle annetaan järjestysluvuksi 1, toiseksi pienimmälle 2, jne., - Lasketaan muuttujien järjestyslukujen erotukset d i havaintoyksiköittäin, - Lasketaan neliöityjen järjestyslukujen erotusten d 2 i summa, - Sijoitetaan tarvittavat arvot ρ:n laskukaavaan, - Tulkitaan tulos. Ottelija 1 2 3 4 5 6 7 8 9 10 Pituustulos (cm), x i 8.03 7.53 7.52 7.64 7.54 7.21 7.55 7.45 7.17 7.15 Korkeustulos (cm), y i 205 199 211 205 205 190 199 199 205 196 R(x i ) 10 6 5 9 7 3 8 4 2 1 R(y i ) 7.5 4 10 7.5 7.5 1 4 4 7.5 2 d i = R(x i ) R(y i ) 2.5 2-5 1.5-0.5 2 4 0-5.5-1 d 2 i 6.25 4 25 2.25 0.25 4 16 0 30.25 1 n i=1 d i 2 = 6.25 + 4 + + 30.25 = 89 ρ = 1 6 n i=1 d i 2 n 3 n = 1 6 89 10 3 10 0.46 Tulkinta: Muuttujien välillä vallitsee kohtalainen positiivinen monotoninen riippuvuus. Edellä esiteltyjen tunnuslukujen C/C MAX, r ja ρ tulkinnassa voi käyttää apuna seuraavan sivun kaaviokuvaa. Tunnuslukua tulkittaessa on lisäksi tärkeää muistaa, että - C/C MAX ei kerro riippuvuuden suuntaa, koska 0 C C MAX 1, - r mittaa lineaarisen riippuvuuden voimakkuutta, - ρ mittaa monotonisen riippuvuuden voimakkuutta. 28

Täydellinen negatiivinen riippuvuus Voimakas negatiivinen riippuvuus Kohtalainen negatiivinen riippuvuus Heikko negatiivinen riippuvuus Ei riippuvuutta Heikko positiivinen riippuvuus Kohtalainen positiivinen riippuvuus Voimakas positiivinen riippuvuus Täydellinen positiivinen riippuvuus 1.0 0.5 0.0 0.5 1.0 Riippuvuuden voimakkuus Kuva 14: Kaavio riippuvuuslukujen C/C MAX, r ja ρ tulkintaan. 3.5.3 Korrelaatiomatriisi Havaintoaineistosta, jossa on p muuttujaa (x 1, x 2,, x p ), voidaan laskea kahden muuttujan väliset korrelaatiokertoimet kaikille mahdollisille muuttujapareille. Näiden parittaisten korrelaatiokertoimien lukumäärä kasvaa nopeasti muuttujamäärän p kasvaessa, joten korrelaatiokertoimet on tarkoituksenmukaista esittää tiiviissä muodossa. Olkoon r jk muuttujien x j ja x k välinen korrelaatiokerroin, joka on määritelty edellä siten, että r = r xj x k = s x j x k s xj s xk. Merkitään seuraavaksi muuttujien x j ja x k välistä korrelaatiokerrointa lyhyemmin merkinnällä r 12. Havaintoaineistosta, jossa on n havaintoyksikköä ja p muuttujaa, lasketut parittaiset korrelaatiokertoimet r jk (, missä j, k = 1,..., p) voidaan esittää ns. korrelaatiomatriisina R 29

Muuttujat (p kpl) x 1 x 2... x k... x p x 1 r 11 r 12... r 1k... r 1p x 2 r 21 r 22... r 2k... r 2p Muuttujat..... (p kpl) x j r j1 r j2... r jk... r jp..... x p r p1 r p2... r pk... r pp Koska muuttujan korrelaatiokerroin itsensä kanssa on aina yksi ja koska korrelaatiokerroin on symmetrinen tunnusluku (ts. r jk = r kj ), esitetään korrelaatiomatriisista R usein pelkkä alakolmio: Muuttujat (p kpl) x 1 x 2... x p x 1 1 x 2 r 21 1 x 3 r 31 r 32 1 Muuttujat.... (p kpl) x p r p1 r p2 1 Vastaavalla tavalla muuttujien x j ja x k (, missä j, k = 1,, p) väliset kovarianssit s jk voidaan esittää ns. kovarianssimatriisina S Muuttujat (p kpl) x 1 x 2... x k... x p x 1 s 11 s 12... s 1k... s 1p x 2 s 21 s 22... s 2k... s 2p Muuttujat..... (p kpl) x j s j1 s j2... s jk... s jp..... x p s p1 s p2... s pk... s pp Koska muuttujan kovarianssi itsensä kanssa on muuttujan varianssi eli s xx = 1 n 1 n (x i x)(x i x) = 1 i=1 n 1 i=1 n (x i x) 2 = s 2 x kovarianssimatriisin S diagonaalilla ovat muuttujien varianssit. 30

Esim. 3.5 Täydennetään esimerkin 3.3 aineistoa kahdella uudella muuuttujalla: kuulantyönnön ja sadan metrin juoksun lopputuloksilla. Ottelija 1 2 3 4 5 6 7 8 9 10 Pituustulos (m) 8.03 7.53 7.52 7.64 7.54 7.21 7.55 7.45 7.17 7.15 Korkeustulos (cm) 205 199 211 205 205 190 199 199 205 196 Kuulantyöntö (m) 14.66 15.28 14.50 15.48 13.73 14.87 14.45 14.42 13.79 15.67 100 metrin juoksu (s) 10.35 10.42 11.27 11.05 10.48 10.65 10.56 10.78 11.09 11.06 Alla on esitetty R-ohjelmalla tulostettu aineistoon liittyvä korrelaatiomatriisi ja kovarianssimatriisi. # Korrelaatiomatriisi > cor(ottelu) pituus kuula korkeus satanen pituus 1.0000-0.0178 0.4744-0.4918 kuula -0.0178 1.0000-0.3786 0.1212 korkeus 0.4744-0.3786 1.0000 0.3157 satanen -0.4918 0.1212 0.3157 1.0000 # Kovarianssimatriisi > cov(ottelu) pituus kuula korkeus satanen pituus 0.0689-0.0031 0.7427-0.0421 kuula -0.0031 0.4293-1.4800 0.0259 korkeus 0.7427-1.4800 35.6000 0.6140 satanen -0.0421 0.0259 0.6140 0.1063 Korrelaatiomatriisista nähdään esimerkiksi se, että pituushypyn ja 100 metrin juoksun lopputulosten välillä vallitsee kohtalainen negatiivinen lineaarinen riippuvuus (r = 0.4918). Mitä suurempi pituushypyn lopputulos on ollut sitä vähemmän aikaa ottelijalla on mennyt keskimäärin aikaa sadan metrin juoksussa. Kyseinen korrelaatiokertoimen arvo voitaisiin laskea myös kovarianssimatriisin avulla. Merkitään x = pituushypyn lopputulos ja y = 100 metrin juoksun lopputulos. Nyt r xy = sxy s xs y = sxy s 2 x = 0.0421 s 2 y 0.0689 0.1063 0.4918. 31

3.5.4 Sirontakuviomatriisi Korrelaatio- ja kovarianssimatriisien tapaan myös parittaiset sirontakuviot voidaan esittää matriisimuodossa. Alla on esitetty R-ohjelmalla piirrretty esimerkin 3.5 aineistoon liittyvä sirontakuviomatriisi. pituus 14.0 14.5 15.0 15.5 10.4 10.8 11.2 7.2 7.4 7.6 7.8 8.0 14.0 14.5 15.0 15.5 kuula korkeus 190 195 200 205 210 7.2 7.4 7.6 7.8 8.0 10.4 10.8 11.2 190 195 200 205 210 satanen Kuva 15: Kymmenotteluaineiston sirontakuviomatriisi. Esimerkiksi kuvion oikeassa yläkulmassa olevassa sirontakuviossa x-akselin muuttujana on 100 metrin juoksun lopputulos ja y-akselin muuttujana pituushypyn lopputulos. Vastaavasti kuvion vasemmassa alakulmassa ovat samat muuttujat, mutta x-akselin muuttujana on nyt pituushypyn lopputulos ja y-akselin muuttujana 100 metrin juoksun lopputulos. 32

4 REGRESSIOANALYYSIA 4.1 Yleistä Sanan regressio (regression) suomennoksiksi annetaan mm. palautuminen, taantuminen ja peräytyminen. Erityisesti psykologiassa ja psykiatriassa regressio on taantuma, (tilapäinen) palautuminen jo ohitetulle kehitysasteelle, kun taas geologiassa regressio on meren peräytyminen maalta (Uusi sivistyssanakirja. Otava, Helsinki 1981). Tilastotieteen kielenkäyttöön sanan regressio toi 1800-luvun loppupuolella vaikuttanut brittiläinen gentleman scientist Sir Francis Galton (1822-1911), joka oli Charles Darwinin serkku. Hän oli erittäin lahjakas ja monipuolinen tiedemies, joka toimi aktiivisesti mm. maantieteen, meteorologian, genetiikan, biometrian, psykologian aloilla. Galton tutki mm. ihmisten kvantitatiivisten ominaisuuksien periytyvyyttä, kuten esim. sitä, miten aikuisiän pituus riippuu vanhempien pituudesta. Hän havaitsi, että keskimääräistä pitempien vanhempien lapset ovat myös yleensä sukupolvensa keskiarvoon verrattuna pitempiä, mutta ei niin paljon kuin vanhempansa oman sukupolvensa keskipituuteen nähden. Toisaalta keskimääräistä lyhempien vanhempien lapset ovat myös sukupolvensa keskiarvoa lyhyempiä, mutta ei niin paljon kuin vanhempansa. Tätä ilmiötä Galton kuvasi aluksi käsitteellä reversion to mediocricy eli kääntyminen keskinkertaisuutta kohti, jonka hän myöhemmin kuitenkin nimesi regression to the mean eli palautuminen keskiarvoa kohti. Regressioanalyysissa tutkitaan kahden tai useamman muuttujan keskinäistä riippuvuutta. Yksi muuttujista on selitettävä eli vastemuuttuja (dependent variable, response variable) merk. y, muut ovat selittäviä muuttujia eli selittäjiä, merk. x 1, x 2,..., x k. y:n riippuvuutta x-muuttujista kuvataan ns. regressiomallin avulla. Regressiomallin valintaan vaikuttaa vastemuuttujan tyyppi (esim. kvantitatiivinen vai luokiteltu). Yleisimmät regressiomenetelmät ovat lineaarinen regressio, logistinen regressio, Poissonin regressio ja Coxin regressio. Seuraavassa rajoitutaan lineaariseen regressiomalliin ja siinäkin lähemmin vain siihen tilanteeseen, jossa selittäviä muuttujia on yksi. Lineaarista regressioanalyysia käytettäessä y-muuttujan tulee olla vähintään välimatka-asteikkoa ja luonteeltaan jatkuva. Selittäjien tulee olla vähintään välimatka-asteikkoa tai dikotomisia (kaksiluokkaisia). 33

Esimerkissä 3.3 tarkasteltiin Lontoon olympialaisten 10-ottelun pituus- ja korkeushypyn tulosten riippuvuutta graafisesti. Myöhemmin muuttujien välille laskettiin myös arvo Pearsonin tulomomenttikorrelaatiokertoimelle r, joka mittaa lineaarisen riippuvuuden voimakkuutta. Laskelmien lopputuloksena r:n arvoksi saatiin 0.47. Muuttujien välillä havaittiin siis kohtalaista positiivista riippuvuutta: mitä parempi ottelijan pituushypyn tulos oli ollut sitä parempi oli yleensä myös hänen tuloksensa korkeushypyssä. Mutta mitä jos tehtävänä olisi ennustaa ottelijan korkeushypyn tulos pituushypyn tuloksen perusteella? Entä kuinka paljon paremman korkeushyppytuloksen ennustaisimme siinä tapauksessa, jos pituushypyn tulos paranisi yhdellä sentillä? Näihin kysymyksiin ei voi vastata esim. korrelaatiokertoimen avulla, vaan tarvitsemme regressioanalyysia. Lineaarisen regressiomallin perusmuoto on y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ɛ, jossa β 0, β 1,..., β k ovat ns. regressiokertoimia ja ɛ on satunnainen virhetermi. Kertoimien β 0, β 1,..., β k määrääminen (estimointi) tapahtuu havaintoaineistosta yleensä pienimmän neliösumman menetelmällä (PNSmenetelmällä). PNS-menetelmällä määrättyjä kertoimia merkitään b 0, b 1,..., b k ja ns. sovitettu regressioyhtälö on ŷ = b 0 + b 1 x 1 + b 2 x 2 + + b k x k Jos selittäviä muuttujia on vain yksi, kuvaaja on suora. Jos selittäviä muuttujia on kaksi, yhtälön kuvaaja on taso. Regressioyhtälöä käytetään a) kuvailuun, b) ennustamiseen ja c) kontrolliin. 4.2 Yksi selittävä muuttuja Olkoot (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) n tilastoyksikön saamat arvot muuttujilla x ja y. Tässä x on selittävä muuttuja ja y selitettävä muuttuja eli vaste. Oletetaan lisäksi, että x:n ja y:n välinen riippuvuus on lineaarista. 34

Regressiomalli on nyt muotoa y = β 0 + β 1 x + ɛ 215 210 Korkeushypyn tulos (cm) 205 200 195 ε ε ε 190 185 7.0 7.2 7.4 7.6 7.8 8.0 8.2 Pituushypyn tulos (m) Kuva 16: Suoran sovitaminen kymmenotteluaineistoon. Kertoimet β 0 ja β 1 määrätään (estimoidaan) siten, että saatu suora kulkee tietyssä mielessä mahdollisimman tarkoin pistejoukon keskeltä. PNSmenetelmässä kertoimet β 0 ja β 1 määrätään siten, että neliösumma f(β 0, β 1 ) = n (y i β 0 β 1 x i ) 2 = i=1 n i=1 ɛ 2 i minimoituu. Minimointitehtävän ratkaisuna saadaan { β1 = b = sxy s = r y s 2 xy x s x β 0 = a = ȳ b x Regressiosuoran sovittamiseen sirontakuvioon tarvitsemme siis entuudestaan tuttuja tunnuslukuja: aritmeettisia keskiarvoja, keskihajontoja sekä muuttujien välisen kovarianssin s xy tai korrelaatiokertoimen r xy. 35

Saatu regressioyhtälö on siten muotoa ŷ = a + bx Esim. 4.1 Sovitetaan kymmenotteluaineistoomme regressiosuora ŷ = a+bx. Valitaan regressiomallin vastemuuttujaksi ottelijan korkeushyppytulos (= y) ja selittäjäksi pituushyppytulos (= x). Havaintojen lukumäärä n = 10 ja niistä on laskettu seuraavat tunnuslukujen arvot: x = 7.48, s x = 0.262, ȳ = 201.40, s y = 5.967, s xy = 0.743 ja r xy = 0.474. β 1 = b = sxy s 2 x = 0.743/0.262 2 10.82 ja β 0 = a = ȳ b x 201.40 10.82 7.48 120.47. Sovitesuora on siis (likimain) ŷ = 120.5 + 10.8x. Miten lasketut regressiokertoimien estimaatit tulisi tulkita? Estimaattien a ja b tulkinta sekä ennustearvon laskeminen b kertoo, miten suuri keskimääräinen muutos y:ssä tapahtuu, kun x kasvaa yhdellä yksiköllä. a kertoo puolestaan y:n keskimääräisen arvon, jos selittävän muuttujan x arvo on nolla (ts. x = 0). Jos selittävä muuttuja x saa arvokseen arvon x i (ts. x = x i ), suoran antama ennustearvo (sovite) vastemuuttujalle y on ŷ i = a + bx i. Esimerkkiaineistomme perusteella näyttäisi siis siltä, että jos pituushyppyn lopputulos kasvaa yhdellä metrillä, paranee korkeushypyn lopputulos keskimäärin noin 10.8 senttimetrillä. Jos jollain kilpailijalla pituushypyn lopputulos on ollut 7.5 metriä, ennustaa mallimme hänen korkeushyppytuloksensa olevan ŷ = a + bx = 120.5 + 10.8 7.5 = 201.5 senttimetriä. Regressioyhtälön hyvyyttä mitataan usein ns. determinaatiokertoimen (coefficient of determination) eli selitysasteen R 2 avulla. Se kertoo, kuinka paljon x selittää y:n kokonaisvaihtelusta. R 2 :n arvo on aina välillä [0, 1]. Usein se kuitenkin ilmaistaan sadalla kerrottuna eli prosentteina. Mitä lähempänä 100%:a determinaatiokerroin on, sitä luotettavammin voidaan y:n arvo ennustaa, jos tunnetaan x:n arvo. 36

Determinaatiokertoimen R 2 laskeminen Vastemuuttujan y kokonaisvaihtelua kuvaava neliösumma SS T voidaan hajottaa osiin seuraavasti: n n SS T = (y i ȳ) 2 = (y i ŷ i + ŷ i ȳ) 2 = i=1 = SS Res + SS Reg, i=1 n (y i ŷ i ) 2 + i=1 n (ŷ i ȳ) 2 i=1 jossa SS Res on ns. residuaali- eli jäännösneliösumma ja SS Reg on regressioneliösumma. Determinaatiokerroin R 2 = SS Reg SS T = 1 SS Res SS T. Huom. Edellä annettu determinaatiokertoimen kaava käy myös useamman selittäjän tapauksessa. Yhden selittäjän tapauksessa determinaatiokerroin voidaan laskea myös suoraan x:n ja y:n korrelaatiokertoimen neliönä ts. R 2 = r 2 xy. Edellä olleessa esimerkissämme regressiomallin determinaatiokertoimen arvo on siis R 2 = r 2 xy = 0.474 2 0.225. Pituushypyn lopputuloksella voi siis selittää tässä aineistossa noin 22.5 % korkeushypyn lopputulosten kokonaisvaihtelusta. 4.3 Lineaarinen regressioanalyysi ja R R-ohjelmassa lineaarinen regressioanalyysi suoritetaan funktiolla lm() (linear model). Toimiakseen funktio tarvitsee argumentikseen regressiomallin määrittelyn muodossa vastemuuttuja selittävä(t) muuttujat. Funktiolla lm aikaansaatava malliobjekti on mahdollista tallettaa R:n muistiin ja ko. objektista voidaan tulostaa jatkoanalyysin kannalta tarpeellisia tietoja useilla eri komennoilla. Mallituksen perustulokset (mm. regressiokertoimien piste-estimaatit, regressiokertoimiin liittyvät merkitsevyystestaukset ja determinaatiokertoimen arvo) saadaan tulostettua funktiolla summary(). Esim. 4.2 Tehdään esimerkissä 4.1 läpikäyty regressioanalyysi R-ohjelman avulla. Tehtävänä on siis sovittaa kymmenotteluaineistoon lineaarinen regressiosuora ŷ = a + bx, missä vastemuuttujana on ottelijan korkeushyppytulos (= y) ja selittäjänä pituushyppytulos (= x). 37

# talletetaan havaintoaineisto vektoreihin pituus ja korkeus > pituus <- c(8.03, 7.53, 7.52, 7.64, 7.54, 7.21, 7.55, 7.45, 7.17, 7.15) > korkeus <- c(205, 199, 211, 205, 205, 190, 199, 199, 205, 196) # muodostetaan malliobjekti malli1 > malli1 <- lm(korkeus ~ pituus) # tulostetaan mallituksen perustulokset summary-funktiolla > summary(malli1) Call: lm(formula = korkeus ~ pituus) Residuals: Min 1Q Median 3Q Max -8.498-2.799-1.969 2.672 9.158 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 120.705 52.966 2.279 0.0522. pituus 10.790 7.078 1.524 0.1659 --- Residual standard error: 5.571 on 8 degrees of freedom Multiple R-squared: 0.2251, Adjusted R-squared: 0.1282 F-statistic: 2.324 on 1 and 8 DF, p-value: 0.1659 Regressiokertoimien β 0 ja β 1 estimaatit a ja b löytyvät tulostuksen Coefficientstaulun Estimate-sarakkeesta. Nyt siis β 0 = a = 120.705 ja β 1 = b = 10.790. Mallin determinaatiokerroin R 2 löytyy puolestaan kohdasta Multiple R-squared, josta nähdään, että R 2 = 0.2251. (Pienet erot esimerkin 4.1 lopputuloksiin johtuvat käsinlaskujen pyöristysvirheistä.) 4.3.1 Lyhyesti regressiokertoimien luottamusväleistä Edellisen luvun esimerkissä mallin determinaatiokerroin jäi varsin matalaksi. Voisiko olla jopa niin, että pituushypyn ja korkeushypyn lopputulokset ovat todellisuudessa toisistaan täysin riippumattomia? Tällöin regressiomallin regressiokertoimen β 1 todellinen arvo olisi nolla ja mallituksessa saadun kertoimen piste-estimaatin β 1 = 10.790 poikkeama nollasta voitaisiin selittää sattuman avulla. Tähän spekulaatioon voidaan hakea vastausta mm. regressiokertoimien luottamusvälilaskennan avulla. Lineaarisen regressiomallin regressiokertoimien luottamusvälilaskennan pe- 38

riaatteita käydään tarkemmin läpi mm. Data-analyysin perusmenetelmät kurssilla. Tällä kurssilla nämä luottamusvälit otetaan valmiina tuloksina R- ohjelman tulostuksesta. Kyseinen tulostus saadaan aikaan funktiolla confint(). Esim. 4.3 Tulostetaan edellisessä esimerkissä muodostetusta malliobjektista malli1 regressiokertoimien β 0 ja β 1 95 %:n ja 99 %:n luottamusvälit. # regressiokertoimien 95 %:n luottamusvälit > confint(malli1, level=0.95) 2.5 % 97.5 % (Intercept) -1.434 242.84 pituus -5.532 27.11 # regressiokertoimien 99 %:n luottamusvälit > confint(malli1, level=0.99) 0.5 % 99.5 % (Intercept) -57.02 298.43 pituus -12.96 34.54 Tulostuksesta nähdään mm. se, että selittäjään pituus liittyvä regressiokerroin β 1 kuuluu 95 %:n varmuudella välille ( 5.532, 27.11). Koska nolla kuuluu lasketun luottamusvälin sisään, on siis mahdollista, että pituushyppytuloksen perusteella ei voi todellisuudessa selittää lainkaan korkeushypyn tulosta. Pituushyppytulos ei ole siten ko. mallissa ns. tilastollisesti merkitsevä selittäjä. 4.4 Kaksi tai useampia selittäjiä Yhden selittävän muuttujan lineaarisen regressiomallin rajat tulevat vastaan melko pian. Tärkein syy yhtä useampien selittävien muuttujien mukaan ottamiselle on se, että jos halutaan estimoida kiinnostavan selittävän muuttujan X kausaalista vaikutusta (, jota kuvaa parametri β 1 ) vasteeseen, voi ns. sekoittavien tekijöiden poissaolo mallista tuottaa harhaisen estimaatin β 1 :lle. Toisaalta selittäjän X ohella vasteen mallitukseen voi olla tarpeellista ottaa mukaan muitakin vasteeseen aidossa riippuvuussuhteessa olevia selittäjiä. Lineaarinen regressiomalli on nyt (k selittäjää) muotoa y = β 0 + β 1 x 1 + + β k x k + ɛ. Kertoimet β 0, β 1,..., β k määrätään (estimoidaan) havaintoaineistosta yleensä PNS-menetelmällä (käytännössä aina tietokoneella). 39