TILASTOTIETEEN JATKOKURSSI (806119P)

Koko: px
Aloita esitys sivulta:

Download "TILASTOTIETEEN JATKOKURSSI (806119P)"

Transkriptio

1 TILASTOTIETEEN JATKOKURSSI (806119P) Luentomoniste Jari Päkkilä Kevät 2016

2 Sisältö 1 KOKEELLINEN TUTKIMUS Yleistä Eräitä koejärjestelyjä TODENNÄKÖISYYSLASKENTAA Kokonaistodennäköisyys ja Bayesin kaava Diskreettejä todennäköisyysjakaumia Binomijakauma Poisson-jakauma Jatkuvia todennäköisyysjakaumia Tasainen jakauma Eksponenttijakauma χ 2 -jakauma KAKSIULOTTEISET JAKAUMAT Ristiintaulukointi Ristiintaulukkoon liittyvät riippuvuusluvut Kontingenssikerroin C ja suhteellinen kontingenssikerroin C/C MAX Ristitulosuhde, riskisuhde ja riskiero χ 2 -riippumattomuustesti Hajontakuvio eli sirontakuvio

3 3.5 Korrelaatiokertoimet Pearsonin tulomomenttikorrelaatiokerroin r Spearmannin järjestyskorrelaatiokerroin ρ Korrelaatiomatriisi Sirontakuviomatriisi REGRESSIOANALYYSIA Yleistä Yksi selittävä muuttuja Lineaarinen regressioanalyysi ja R Lyhyesti regressiokertoimien luottamusväleistä Kaksi tai useampia selittäjiä TILASTOLLINEN PÄÄTTELY Testaus ja luottamusvälit eräissä perusasetelmissa Kahden jakauman sijainnin vertailu Kahden suhteellisen osuuden vertailu χ 2 -yhteensopivuustesti

4 ESIPUHE Tämä opiskelumateriaali on suunniteltu käytettäväksi Oulun yliopiston luonnontieteellisen tiedekunnan Tilastotieteen jatkokurssilla (806119P). Kurssin kohderyhmänä ovat ensisijaisesti ne Oulun yliopiston opiskelijat, joiden opintoihin tilastotieteen opinnot kuuluvat, mutta jotka eivät kuitenkaan opiskele joko tilastotiedettä tai matematiikkaa pääaineenaan. Kurssin esitiedoiksi suositellaan joko opintojakson P Johdatus tilastotieteeseen tai P Tilastotiedettä kauppatieteilijöille kurssin suoritusta tai vastaavien tilastotieteen perusteiden omaksumista joko omatoimisesti tai asiasisällöltään vastaavien peruskurssien kautta. Monisteen sisällössä on suurelta osin hyödynnetty Marjatta Mankisen 2011 laatimaa luentomonistetta Tilastotieteen perusmenetelmät I -kurssia varten. Luentomonisteen sähköinen versio löytyy opintoportaali Nopasta kurssin kotisivuilta. Monistetta täydentäviä esimerkkejä käydään läpi luennoilla ja osa esimerkeistä löytyy aikanaan kurssin kotisivuilta Nopasta. Materiaalin tekijänoikeudet kuuluvat monisteen tekijälle. Kurssin opiskelijat saavat kopioida, tulostaa ja tallentaa materiaalin tai osia siitä omaan käyttöönsä. Oulussa Jari Päkkilä 3

5 1 KOKEELLINEN TUTKIMUS Aiemmilla tilastotieteen peruskursseilla on esitelty otantatutkimukseen liittyvia teemoja. Otannan avulla hankitut aineistot ovat luonteeltaan epa kokeellisia ja ta llo in tutkijalla on usein analysoitavanaan kuvaileva tutkimuskysymys. Tehta va na voi olla esim. arvioida tietyn puolueen kannatusosuutta jossain perusjoukossa tietylla ajanhetkella. Analyysin tavoitteena ei ole siten selvitta a syy-seuraussuhteita, kuten vaikkapa sita, miksi puolueen kannatusosuus on tietylla tasolla. 1.1 Yleista Kokeellisissa tutkimuksissa (experimental study, controlled experiment) havaintoaineisto saadaan soveltamalla kontrolloitujen kokeiden (experiment) periaatteita. Kokeessa kokeen kohteet, koeyksiko t (koehenkilo t, koe-ela imet, koealat yms.) alistetaan erilaisille ka sittelyille (treatment), jotta saataisiin selville, minka laisia muutoksia eri ka sittelyt aiheuttavat koeyksiko iden joissakin ominaisuuksissa: nk. selitetta vissa eli vastemuuttujissa, lyhyesti vasteissa (response). A. Halutaan tietää: Käsittelyn vaikutus B. Asetelman periaate: Vertailu Vertailuolosuhde Vastemuuttujan arvojen keskiarvo Koeolosuhde Vastemuuttujan arvojen keskiarvo Koeyksiköt C. Malli havainnoille: Ero keskimääräisissä vasteissa = käsittelyn vaikutus + harha + satunnaisvirhe D. Harhattomuuden edellytykset: - Satunnaistus - Kaksoisnaamiointi Kuva 1: Kokeellisen tutkimuksen periaate, kaksi vertailtavaa ka sittelya. Yksinkertaisimmissa kokeissa vertailtavat ka sittelyt ovat ilmaistavissa yhden selitta va n muuttujan eli tekija n eli faktorin (factor ) eri arvoina, joita 4

6 tässä yhteydessä voi kutsua myös tasoiksi (level). Ns. yhdistely- eli tekijäkokeissa (factorial experiment) sovellettavat käsittelyt ovat kahden tai useamman tekijän eri tasojen yhdistelmiä. Esimerkki 1.1 Viljelykokeessa halutaan tutkia tietyn typpilannoitteen vaikutusta heinän satomäärään. Koejärjestelyssä käytetään kolmea eri lannoitustasoa: ei lannoitusta, typpilannoitetta 100 kg/ha ja typpilannoitetta 200 kg/ha. Kyseessä on yhden tekijän koe, jossa koetekijällä on kolme tasoa. Rengasvalmistaja haluaa puolestaan testata kolmen rengastyypin (A, B ja C) pitokykyä erilaisilla alustoilla (kuiva asfaltti, märkä asfaltti ja lumi). Kyseessä on kahden tekijän koe, jossa on mahdollista tutkia rengastyypin ja alustan omavaikutuksia renkaan pitokykyyn. Sen lisäksi on mahdollista tutkia rengastyypin ja alustan yhdysvaikutusta eli interaktiota pitokykyyn. Erilaisia koeolosuhteita tässä esimerkissä on kaikkiaan yhdeksän kappaletta. Kokeellisessa tutkimuksessa eli kokeessa koeolosuhteet ovat hyvin pitkälle kokeen tekijän hallittavissa. Kokeilla pyritään selvittämään ennen kaikkea kausaali- eli syy-seuraussuhteita ja itse asiassa ankaran kausaalisuuden periaatteen mukaan syy-seuraussuhteista voidaan tehdä päätelmiä vain tekemällä kokeita. Muissa kuin kokeellisissa tutkimuksissa syy-yhteyksiä koskeviin päätelmiin tulee suhtautua hyvin varovaisesti. Kokeellisia tutkimuksia tehdään erityisesti lääketieteessä ja biologiassa. Galileo Galilei ( ) ja Isaac Newton ( ) olivat kokeellisen tieteen uranuurtajia. Kuitenkin vasta v R.A. Fisher esitti kirjassaan The making of experiments vertailevien kokeiden suunnittelun yleiset periaatteet, joista tärkeimmät ovat satunnaistus, toistaminen ja lohkojen muodostaminen. Satunnaistus (randomisation) tarkoittaa sitä, että koeyksiköt jaetaan eri käsittelyille (eri ryhmiin) arpomalla, satunnaisesti eikä millään subjektiivisella jakomenettelyllä. Satunnaistamisella ryhmistä tehdään (keskimäärin) samanlaisia. Toistaminen (replication) tarkoittaa, että eri ryhmissä on oltava riittävän useita koeyksiköitä selittäjän/selittäjien todellisten vaikutusten ja satunnaisvaihteluiden erottamiseksi toisistaan. Lohkojen muodostaminen (blocking) on koeyksikköjen jakamista ennen satunnaistamista joidenkin vasteeseen vaikuttavien taustamuut- 5

7 tujien suhteen mahdollisimman samankaltaisiin eli homogeenisiin lohkoihin, jonka ja lkeen ka sittelyt jaetaan arpomalla kunkin lohkon sisa lla. Lohkominen lisa a ryhmien samanlaisuutta. Fisher kehitti erilaisia koesuunnitelmia (koeja rjestelyja ) eli koekaavioita (experimental design) ja testeja (erityisesti yksi- ja kaksisuuntaisen varianssianalyysin, erikoistapaus yksisuuntaisesta varianssianalyysista esitelty luvussa 5.1.1) saatujen tulosten analysoimiseen. Regressioanalyysi (luku 4) on myo s ta rkea koetulosten analysointimenetelma. Kera tyn koeaineiston alustavassa tarkastelussa kannattaa ka ytta a hyva ksi peruskursseilla esiteltyja kuvailevan tilastotieteen menetelmia : graafisia esityksia, taulukointia ja tunnuslukuja. 1.2 Era ita koeja rjestelyja Oletetaan kohdissa 1) ja 2), etta selitta via muuttujia on vain yksi ja ta lla tekija lla on kaksi tai useampia tasoja (=ka sittelyja ). 1) Ta ysin satunnaistettu koe(ja rjestely) Koeyksiko t jaetaan satunnaisesti ryhmiin, joita on yhta monta kuin ka sittelyja ja kuhunkin ryhma a n sovelletaan yhta ka sittelya. käsittelyt satunnaistus Koeyksiköt Ryhmä 1 (koeolosuhde 1) Vasteen arvojen mittaaminen Ryhmä 2 (koeolosuhde 2) Vasteen arvojen mittaaminen Ryhmä 3 (koeolosuhde 3) Vasteen arvojen mittaaminen Kuva 2: Ta ysin satunnaistettu koe, selitta ja lla kolme tasoa. 2) (Arvottujen eli) satunnaistettujen lohkojen koe(ja rjestely) Ta ta koeja rjestelya kannattaa ka ytta a, jos koeyksiko iden tiedeta a n poikkeavan toisistaan sellaisten ominaisuuksien (taustamuuttujien) suhteen, joilla oletetaan olevan vaikutusta vastemuuttujaan. 6

8 Koeja rjestely suoritetaan siten, etta i) ensin koeyksiko t jaetaan taustamuuttujien perusteella mahdollisimman homogeenisiin lohkoihin. Esim. lohkon sisa lla olevat ovat samaa sukupuolta, samanika isia jne. Jokaisessa lohkossa koeyksiko ita on yhta monta kuin sovellettavia ka sittelyja ja ii) sitten kunkin lohkon sisa lla ka sittelyt jaetaan arpomalla. Koeyksiköt käsittelyt satunnaistus... Ryhmä 1 (koeolosuhde 1) Vasteen arvojen mittaaminen Ryhmä 2 (koeolosuhde 2) Vasteen arvojen mittaaminen Ryhmä 3 (koeolosuhde 3) Vasteen arvojen mittaaminen Koeyksikkö Lohko Kuva 3: Satunnaistettujen lohkojen koe, selitta ja lla kolme tasoa. Mika li koeolosuhteita eli ka sittelyja on vain kaksi, kyseessa on ns. kaltaistetut parit (matched pairs). Ta llo in lohko muodostuu kahdesta koeyksiko sta, jotka ovat keskena a n mahdollisimman samanlaiset (esim. identtiset kaksoset). 3) Yhdistely- eli tekija koe Yhdistely- eli tekija kokeessa ka sittelyt ovat kahden tai useamman eri selitta va n muuttujan (tekija n) tasojen yhdistelmia. Yksinkertaisin on ns. 2x2tekija koe, jossa kummallakin tekija lla on kaksi tasoa. Yhdistelykokeessa on mahdollista tutkia eri tekijo iden yhdysvaikutuksia eli interaktioita. Vertaa esimerkin 1.1 renkaan pitokyvyn tutkiminen. 7

9 2 TODENNÄKÖISYYSLASKENTAA Aiemmilla kursseilla on tutustuttu satunnaismuuttujan käsitteeseen sekä diskreeteistä todennäköisyysjakaumista Bernoullin jakaumaan. Jatkuvista todennäköisyysjakaumista esittelyssä ovat olleet puolestaan normaalijakauma ja t-jakauma. Seuraavaksi tutustutaan diskreeteistä jakaumista Binomijakaumaan ja Poisson-jakaumaan. Jatkuvista jakaumista käsittelyyn otetaan puolestaan tasainen jakauma sekä eksponentti- ja χ 2 -jakauma. Ennen kyseisten todennäköisyysjakaumien esittelyä palataan peruskursseilla esiteltyyn ehdolliseen todennäköisyyteen P (A B), joka määriteltiin seuraavasti: ehdolliselle todennäköisyydelle pätee, että jos P(B) > 0 P(A B) = P(A B) P(B) Laajennetaan ehdollisen todennäköisyyden ajatusta seuraavaksi ns. kokonaistodennäköisyyteen ja Bayesin kaavaan. 2.1 Kokonaistodennäköisyys ja Bayesin kaava Olkoon A ja B 1, B 2,..., B k saman satunnaisilmiön tapahtumia siten, että B 1, B 2,..., B k ovat pareittain toisensa poissulkevia ja muodostavat perusjoukon E osituksen eli B i B j = jokaisella i j, i, j = 1,..., k ja B 1 B 2 B k = E. Oletetaan, että tunnetaan todennäköisyydet P(B i ), i = 1,..., k ja ehdolliset todennäköisyydet P(A Bi), i = 1,..., k ja halutaan määrätä P(A) ja/tai P(B i A). Koska P(A B i ) = P(B i )P(A B i ), i = 1,..., k ja koska tapahtumat A B i, i = 1,..., k ovat toisensa poissulkevia (ks. seuraavan sivun kuva), on P(A) = P(A B 1 ) + P(A B 2 ) + + P(A B k ) = P(B 1 )P(A B 1 ) + P(B 2 )P(A B 2 ) + + P(B k )P(A B k ) k = P(B i )P(A B i ) i=1 = kokonaistodennäköisyys, (the law of total probability) 8

10 Na in ollen jokaisella i = 1,..., k P(A Bi ) P(A) P(Bi )P(A Bi ) = P(A) P(Bi )P(A Bi ) = k X P(Bi )P(A Bi ) P(Bi A) = (= Bayesin kaava, Bayes theorem) i=1 B3 B1 B3 A Bk B2 Kuva 4: Kokonaistodenna ko isyyteen liittyva Venn-diagrammi. B3 B1 B3 A Bk B2 B1 P(A B1) P(A B1) Kuva 5: Bayesin kaavaan liittyva kuvio. 9

11 2.2 Diskreettejä todennäköisyysjakaumia Binomijakauma Tarkastellaan toistokoetta E ja sen tapahtumia A ja A c (A:n komplementtitapahtuma). Toistetaan koetta n kertaa ja oletetaan, että toistot ovat toisistaan riippumattomat. Lisäksi oletetaan, että jokaisessa toistossa tapahtuman A todennäköisyys pysyy vakiona ts. P(A) = p jokaisessa toistossa, jolloin P(A c ) = 1 p jokaisessa toistossa. Olkoon X = A:n esiintymiskertojen lukumäärä n toistossa. X:n jakaumaa sanotaan binomijakaumaksi (binomial distribution) parametrein n ja p, merk. X Bin(n, p). X:n eri arvoihin liittyvät todennäköisyydet saadaan laskettua seuraavalla kaavalla: P(X = k) = ( ) n p k (1 p) n k, k k = 0, 1, 2,..., n Huom 1. Binomijakaumaa parametrein n ja p noudattava satunnaismuuttuja X voidaan ajatella n riippumattoman Bernoulli-jakaumaa parametrilla p noudattavan satunnaismuuttujan Y i, i = 1, 2,..., n, summamuuttujaksi. Y i = { 1, jos i:nnessä toistossa esiintyy A 0, jos i:nnessä toistossa ei esiinny A X = Y 1 + Y Y n Huom 2. Odotusarvon ja varianssin ominaisuuksia hyväksikäyttäen voidaan päätellä, että E(X) = E(Y 1 ) + E(Y 2 ) + + E(Y n ) = p + p + + p = np ja D 2 (X) = D 2 (Y 1 ) + D 2 (Y 2 ) + + D 2 (Y n ) = p(1 p) + p(1 p) + + p(1 p) = np(1 p) Ts. jos X Bin(n, p), X:n odotusarvo E(X) = np ja X:n varianssi D 2 (X) = np(1 p). 10

12 n=4, p=0.25 n=4, p= todennäköisyys todennäköisyys x x n=10, p=0.75 n=10, p= todennäköisyys todennäköisyys x x Kuva 6: Binomijakauman kuvaajia eri n:n ja p:n arvoilla. Esim 2.1 Oletetaan, että vastasyntynyt lapsi on sukupuoleltaan poika todennäköisyydellä 0.5. Millä todennäköisyydellä kymmenlapsisessa perheessä on a) kolme poikaa, b) vähintään kolme poikaa? Merkitään A = vastasyntynyt on poika, A c = vastasyntynyt ei ole poika, p = P(A) = 0.5 jokaisessa toistossa X = poikien lukumäärä kymmenlapsisessa perheessä, X Bin(10, 0.5) (Vertaa kuvan 6 oikean alanurkan tilanteeseen) Nyt P(X = k) = ( ) 10 [ (0.5 k (1 0.5) 10 k], k = 0, 1, 2,..., 10 k 11

13 a) P(X = 3) = b) P(vähintään kolme poikaa) = P(X 3) = P(X = 3) + P(X = 4) + + P(X = 10) = 1 P(X 2) = 1 [P(X = 0) + P(X = 1) + P(X = 2)] 1 ( ) = Binomijakaumaa Bin(n, p) voidaan approksimoida normaalijakaumalla, kun n on riittävän suuri ja p ei ole kovin pieni eikä kovin suuri (karkea sääntö: np > 5 ja n(1 p) > 5). Tällöin Bin(n, p) N(np, np(1 p)). Approksimaation tarkkuutta voidaan parantaa jonkin verran ns. jatkuvuuskorjauksella. Katso seuraava esimerkki. Esim 2.2 Etelän lomakohteeseen lentävässä lentokoneessa on 350 matkustajapaikkaa. Lentoyhtiön johto tietää pitkän kokemuksen perusteella, että 90% ennakkovarauksen tehneistä saapuu lennolle. Tämän takia lentokoneeseen myydään 375 varausta. Millä todennäköisyydellä jokainen lennolle paikan varannut ei pääse koneeseen? 0.08 Bin(375, 0.9) jakauma ja N(337.5, 33.75) jakauma 0.06 Todennäköisyys/tiheys Lennolle saapuvien lukumäärä Kuva 7: Binomijakauman approksimointia normaalijakauman avulla. 12

14 2.2.2 Poisson-jakauma Poisson-jakauma sopii esim. tilanteisiin, joissa ollaan kiinnostuneita tietyn tapahtuman A esiintymisten lukumäärästä (= X) aikavälillä (0, t], kun tiedossa on tapahtuman A keskimääräinen esiintymisten lukumäärä m aikayksikössä. Esimerkkejä Poisson-jakaumaa noudattavista muuttujista. Liikenneonnettomuuksien lukumäärä kuukaudessa jollakin alueella, Harvinaiseen sairauteen sairastuvien lukumäärä vuodessa, Huoltoasemalle aikavälillä saapuvien autojen lukumäärä. Jos X noudattaa Poisson-jakaumaa parametrilla λ, merk. X Poi(λ), X:n eri arvoihin liittyvät todennäköisyydet lasketaan kaavalla P(X = k) = λk k! e λ, k = 0, 1, 2,..., ja e = λ on sekä X:n odotusarvo että varianssi ts. E(X) = λ ja D 2 (X) = λ λ = λ = Todennäköisyys Todennäköisyys X X 0.30 λ = λ = Todennäköisyys Todennäköisyys X X Kuva 8: Poisson-jakauman kuvaajia erilaisilla λ:n arvoilla. 13

15 Poisson-jakaumaa voidaan hyödyntää myös mm. pinta-aloihin tai tilavuuksiin liittyvissä todennäköisyystehtävissä. Esim 2.2 Oletetaan, että Lapissa on keskimäärin kaksi hirveä 1000 hehtaarilla. Millä todennäköisyydellä satunnaisesti valitulla 1000 hehtaarin alueella on korkeintaan yksi hirvi? Olkoon X = hirvien lukumäärä 1000 hehtaaria. Nyt E(X) = λ = 2, joten X Poi(λ) = Poi(2) Kysytty todennäköisyys on siten P (X 1) = P (X = 0) + P (X = 1) = 20 0! e ! e = Huom. Poisson-jakaumaa voidaan käyttää binomijakauman arvioimiseen eli approksimoimiseen silloin, kun n on suuri ( 20) ja p on pieni ( 0.05). Tällöin Bin(n, p) Poi(np). Muita diskreettejä jakaumia ovat mm. hypergeometrinen jakauma, geometrinen jakauma ja multinomijakauma. (Ei käsitellä tällä kurssilla.) 2.3 Jatkuvia todennäköisyysjakaumia Tasainen jakauma Tasainen jakauma on yksinkertaisin jatkuva jakauma. Satunnaismuuttuja X noudattaa tasaista jakaumaa välillä [a, b], merk. X Tas[a, b], jos X:n tiheysfunktio on muotoa { 1 f(x) = b a, kun a x b 0, muulloin Huom. Jos X on tasaisesti jakautunut välille [a, b], todennäköisyys, että X kuuluu johonkin [a, b]:n osaväliin on sama kuin todennäköisyys, että X kuuluu mihin tahansa yhtä pitkään [a, b]:n osaväliin. 14

16 X:n kertymäfunktio määritellään puolestaan seuraavasti: 0, kun x < a x a F (x) = P (X x) = b a, kun a x b 1, kun x > b Tas[a,b] jakauman tiheysfunktio 1/(b a) Tiheysfunktio a x b Tas[a,b] jakauman kertymäfunktio 1 Kertynäfunktio 0 a x b Kuva 9: Tasaisen jakauman Tas[a,b] tiheys-ja kertymäfunktion kuvaajat. X:n tunnusluvut: E(X) = a + b 2 ja D 2 (X) = (b a) Eksponenttijakauma Satunnaismuuttuja X noudattaa eksponenttijakaumaa parametrilla α (α > 0), merk. X Exp(α), jos X:n tiheysfunktio on muotoa f(x) = { αe αx, kun x 0 0, kun x < 0 Eksponenttijakaumalla on käyttöä mm. odotusaikoja koskevissa sovellutuksissa ja elinikätarkasteluissa. 15

17 Esimerkkejä eksponenttijakaumaa noudattavista muuttujista: Tiettyä tautia sairastavan jäljellä oleva elinaika, Tietyn laitteen toiminta-aika ennen rikkoutumista, Kahden peräkkäisen johonkin palvelupisteeseen saapuvan asiakkaan tuloaikojen ero. X:n kertymäfunktio: F (x) = P (X x) = { 1 e αx, kun x 0 0, kun x < 0 X:n tunnusluvut: E(X) = 1 α D 2 (X) = 1 α 2 Eksponenttijakauman tiheysfunktio Tiheysfunktio 0 X 1 Eksponenttijakauman kertymäfunktio Kertymäfunktio 0 X Kuva 10: Eksponenttijakauman tiheys-ja kertymäfunktion kuvaajat. Esim 2.3 Aika, joka kuluu asiakkaan saapumisesta seuraavan asiakkaan saapumiseen (= X), noudattaa eräässä pankissa eksponenttijakaumaa parametrin α arvolla 1/3 (yksikkönä minuutti). Jos asiakas on juuri saapunut, mikä on todennäköisyys, että seuraava asiakas 16

18 a) saapuu minuutin sisällä, b) ei saavu ainakaan kahteen minuuttiin? c) Määrää X:n odotusarvo ja mediaani χ 2 -jakauma Olkoot satunnaismuuttujat Z 1, Z 2,..., Z n riippumattomia ja N(0, 1)-jakautuneita. Tällöin satunnaismuuttujan X 2 = n i=1 Z i 2 jakaumaa sanotaan χ 2 -jakaumaksi vapausasteella n, merk. X 2 χ 2 (n) vapausaste = 1 Tiheysfunktio 0.2 vapausaste = 3 vapausaste = X Kuva 11: χ 2 -jakauman tiheysfunktion kuvaajia eri vapausasteilla. χ 2 -jakauman tiheysfunktion lauseke on hankala (ei esitetä). χ 2 -jakaumaan liittyviä todennäköisyyksiä P(X 2 χ 2 ) on taulukoitu (Taulukko 3, Liite 3). 17

19 3 KAKSIULOTTEISET JAKAUMAT Kaksiulotteisissa jakaumissa tarkastellaan kahden muuttujan samanaikaista jakautumista. Tavoitteena on tällöin yleensä selvittää, onko muuttujien välillä tilastollista riippuvuutta. Kahden muuttujan välillä sanotaan olevan tilastollista riippuvuutta, jos toisen muuttujan arvojen tuntemisesta on apua toisen muuttujan arvojen ennustamisessa. Vastaavasti kaksi muuttujaa ovat tilastollisesti riippumattomia, jos toisen muuttujan arvojen tuntemisesta ei ole apua toisen muuttujan arvojen ennustamisessa. Esimerkkejä tutkimusongelmista, joissa halutaan tutkia kahden muuttujan välistä tilastollista riippuvuutta: Onko pojan ja isän pituuksien välillä riippuvuutta? Miten työttömyysaste riippuu bruttokansantuotteen kasvuvauhdista? Miten alkoholijuomien kokonaiskulutus riippuu alkoholijuomien hintatasosta? Seuraavissa luvuissa käsitellään kahta kaksiulotteisen jakauman esitystapaa: hajontakuviota ja ristiintaulukointia sekä esitellään kahden muuttujan välisen riippuvuuden tutkimiseen sopivia tunnuslukuja eli ns. riippuvuuslukuja. 3.1 Ristiintaulukointi Käytetään, kun halutaan tutkia kahden muuttujan välistä riippuvuutta tai verrata yhden muuttujan jakaumia eri ryhmissä, Yleensä ainakin toinen muuttujista on kvalitatiivinen, Kvantitatiivinen eli määrää mittaava muuttuja on ennen ristiintaulukointia luokiteltava. 18

20 Esim. 3.1 Eräässä nuorten aikuisten terveyskäyttäytymistä selvitelleessä kyselytutkimuksessa saatiin sukupuolen ja energiajuomien käytön välille seuraava ristiintaulukko. Sukupuoli Energiajuomien käyttö Mies Nainen Yhteensä En koskaan tai en juuri koskaan Silloin tällöin viikon mittaan Joka päivä tai melkein joka päivä Yhteensä Ovatko ristiintaulukossa esitetyt muuttujat toisistaan riippumattomia? Onko sukupuolten välillä eroa energiajuomien käytön yleisyydessä? Yleisessä muodossa muuttujien x ja y ristiintaulukko eli kontingenssitaulu(kko) eli kaksiulotteinen (frekvenssi)jakauma on seuraavanlainen: y:n reunajakauma x y E 1... E j... E r Yhteensä F 1 f f 1j... f 1r f F i f i1... f ij... f ir f i F m f m1... f mj... f mr f m. x:n reunajakauma Yhteensä f.1... f.j... f.r n Muuttujan y luokan F i ja muuttujan x luokan E j muodostamaa paria (F i, E j ) sanotaan soluksi (cell). Solun (F i, E j ) solufrekvenssi f ij on luku, joka ilmoittaa niiden tilastoyksiköiden lukumäärän, joilla muuttujan y luokka on F i ja muuttujan x luokka E j. Taulukon i. rivi muodostaa muuttujan x ehdollisen jakauman ehdolla, että y:n arvot kuuluvat luokkaan F i. Vastaavasti taulukon j. sarake muodostaa muuttujan y ehdollisen jakauman ehdolla, että x:n arvot kuuluvat luokkaan E j. Riippuvuutta koskevien päätelmien tekemistä varten kannattaa määrätä ns. ehdolliset prosenttijakaumat. Tällöin taulukosta lasketaan prosentit riveittäin tai sarakkeittain. Laskusuunnan ratkaisee se, mitä kysytään. Jos taulukossa on selvästi selitettävä muuttuja, lasketaan selitettävän muuttujan ehdolliset prosenttijakaumat selittävän muuttujan luokissa. 19

21 Esim. 3.2 Esimerkin 3.1 aineistossa energiajuomien käytön ehdolliset jakaumat sukupuolittain. Sukupuoli Energiajuomien käyttö Mies Nainen Yhteensä En koskaan tai en juuri koskaan Silloin tällöin viikon mittaan Joka päivä tai melkein joka päivä Yhteensä Yleisesti riippuvuus määritellään ehdollisten prosenttijakaumien avulla seuraavasti: Jos ehdolliset prosenttijakaumat ovat samat tai likimain samat, niin tarkasteltavien muuttujien välillä ei ole riippuvuutta. Mitä enemmän ehdolliset prosenttijakaumat poikkeavat, sitä voimakkaampi riippuvuus muuttujien välillä vallitsee. 3.2 Ristiintaulukkoon liittyvät riippuvuusluvut Kahden muuttujan välisen riippuvuuden tutkimiseen kehitetyistä tunnusluvuista eli ns. riippuvuusluvuista esitellään seuraavassa kontingenssikerroin, suhteellinen kontingenssikerroin ja ristitulosuhde Kontingenssikerroin C ja suhteellinen kontingenssikerroin C/C MAX Muuttujien x ja y mitta-asteikoksi riittää luokitteluasteikko, Perustuvat khiin neliön lausekkeeseen, merk. χ 2. χ 2 -arvon laskemisessa tarvitaan havaittujen (observed) frekvenssien f ij lisäksi ns. odotettuja (expected) frekvenssejä e ij. Odotettu frekvenssi e ij kuvaa, kuinka monta havaintoa kyseisessä solussa on, jos x ja y ovat riippumattomia ja reunafrekvenssit ovat ne, mitkä on havaittu. Odotetut frekvenssit lasketaan kaavalla e ij = f i.f.j n 20

22 Mitä enemmän havaitut frekvenssit f ij poikkeavat odotetuista frekvensseistä e ij, sitä voimakkaampi riippuvuus muuttujien välillä vallitsee. Khiin neliösuure lasketaan χ 2 = m r (f ij e ij ) 2 e i=1 j=1 ij Kontingenssikerroin määritellään χ C = 2 n + χ. 2 C:n maksimiarvo riippuu taulukon rivien ja sarakkeiden lukumääristä seuraavan kaavan mukaan q 1 Cmax =, q jossa q = min(m, r) ja m=rivien lkm, r= sarakkeiden lkm. Suhteellista kontingenssikerrointa laskettaessa kontingenssikerroin suhteutetaan maksimiarvoonsa eli suhteellinen kontingenssikerroin = C/Cmax. Suhteellinen kontingenssikerroin C/Cmax on aina välillä [0, 1] ja siksi tulkinnaltaan helpompi kuin kontingenssikerroin, (jota ei itse asiassa kannata lähteä tulkitsemaankaan). Mitä voimakkaampi riippuvuus muuttujien välillä vallitsee, sitä lähempänä ykköstä C/Cmax on. Riippuvuuden suuntaa näiden tunnuslukujen arvoista ei kuitenkaan voi päätellä. Jos C/Cmax on lähellä nollaa, ei muuttujien välillä ole riippuvuutta Ristitulosuhde, riskisuhde ja riskiero Seuraavaksi esitellään kolme riippuvuustunnuslukua, jotka soveltuvat vain ristiintaulukon tilanteeseen ts. kun sekä x että y ovat dikotomisia (2-luokkaisia) x y E 1 E 2 Yhteensä F 1 f 11 f 12 f 1. F 2 f 21 f 22 f 2. Yhteensä f.1 f.2 n 21

23 Ristitulosuhde (OR) OR = f 11f 22 f 12 f 21 OR:n arvo on aina välillä [0, ) ja arvo = 1 silloin ja vain silloin, kun muuttujat ovat riippumattomia. Luvut OR ja 1/OR kuvaavat yhtä voimakasta mutta vastakkaissuuntaista riippuvuutta. Nollan suhteen symmetriseen arvoalueeseen päästään, jos otetaan OR:sta logaritmi ln(or). ln(or):n arvoalue on (, + ) ja arvo = 0 tarkalleen silloin, kun muuttujat ovat riippumattomia. Kun ristiintaulukon perusteella muodostetaan y:n ehdolliset prosenttijakaumat x:n eri luokissa ja merkitään π 1 = f 11 /f.1 ja π 0 = f 12 /f.2, määritellään riskisuhde (RR) ja riskiero (RD) seuraavasti RR = π 1 /π 0 ja RD = π 1 π χ 2 -riippumattomuustesti Luvussa esiteltyä χ 2 -tunnuslukua voidaan käyttää myös suoraan hyväksi tilastollisessa päättelyssä. Tällöin merkitsevyystestauksen avulla pyritään selvittämään kahden luokitellun muuttujan riippumattomuutta. Merkitsevyystestauksen yleiset vaiheet on kuvattu aiemmilla tilastotieteen peruskursseilla ja ne on kerrattu lyhyesti myös tämän luentomonisteen sivulla 43. Tutkitaan kahden muuttujan x ja y riippuvuutta yhdessä populaatiossa. Päätelmät tehdään satunnaisotoksen (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) avulla. x ja y ovat luokiteltuja; x:n luokat E 1, E 2,..., E r ja y:n luokat F 1, F 2,..., F m. Yleensä ainakin toinen muuttujista on luokittelu- tai järjestysasteikkoa. (X, Y ):n jakaumasta ei tarvitse tehdä mitään oletuksia ts. kyseessä on parametriton malli. Lähtötilanne voidaan kuvata kaaviolla seuraavasti: populaatio (x,y) (X,Y) (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) 22

24 Asetetaan hypoteesit: { H 0 : x ja y ovat riippumattomat H 1 : x ja y riippuvat toisistaan Valitaan tilanteeseen sopiva testisuure χ 2 : F ij = havaittu frekvenssi (observed frequency) E ij = F i.f.j = odotettu frekvenssi (expected frequency) n χ 2 = m r (F ij E ij ) 2 E i=1 j=1 ij χ 2 [(r 1)(m 1)], likimain, kun H 0 on tosi. Testisuureen havaitun arvon laskemisen jälkeen P -arvo määrätään χ 2 -jakaumasta (taulukko 3, liite 3), jonka jälkeen tehdään johtopäätökset. Huom. χ 2 -riippumattomuustestiä käytettäessä seuraavien ehtojen tulee olla voimassa: 1) Jokaisen odotetun frekvenssin tulee olla ykköstä suurempi, 2) Odotetuista frekvensseistä korkeintaan 20 % saa olla alle viiden. Jos ehdot eivät ole voimassa, voi luokkia sopivasti yhdistemällä saada ne voimaan. Mikäli luokkien yhdistelykään ei tuota toivottua tulosta, on riippuvuuden testaamiseen käytettävä muita testejä. 3.4 Hajontakuvio eli sirontakuvio Engl. scatter diagram Käytetään, kun halutaan tutkia graafisesti kahden muuttujan x ja y välistä riippuvuutta, Ainakin toisen muuttujista oltava vähintään välimatka-asteikkoa, Kun molemmat muuttujat ovat vähintään välimatka-asteikkoa, voidaan kuviosta käyttää nimitystä korrelaatiodiagrammi. 23

25 Esim. 3.3 Alla olevassa taulukossa on esitetty Lontoon kesäolympialaisten kymmenottelun 10 parhaan yleisurheilijan pituushypyn ja korkeushypyn lopputulokset. Ottelija Pituustulos (m) Korkeustulos (cm) Tutkitaan muuttujien välistä välistä riippuvuutta graafisesti Korkeushypyn tulos (cm) Pituushypyn tulos (m) Kuva 12: Pituus- ja korkeushyppytulosten välinen sirontakuvio. Huom. Hajontakuviossa on periaatteessa sama, kumman muuttujan valitsee x-muuttujaksi. Jos kuitenkin toinen muuttujista on luonnollisempi selittävä muuttuja toiselle kuin päinvastoin, valitaan selittävä muuttuja x-muuttujaksi ja siis vaaka-akselille. Ellei kuvattavien muuttujien välillä ole selvää syy seuraussuhdetta, valitaan x-akselin muuttujaksi ajallisesti edeltävä muuttuja. 24

26 Kuva 13: Esimerkkejä kahden muuttujan välisistä erityyppisistä riippuvuuksista. 3.5 Korrelaatiokertoimet Jos hajontakuvion perusteella tarkasteltavien muuttujien välillä on havaittavissa joko lineaarista eli suoranmuotoista tai monotonista (esim. käyränmuotoista) riippuvuutta, voidaan riippuvuuden voimakkuutta mitata korrelaatiokertoimien avulla. Pearsonin tulomomenttikorrelaatiokerroin r mittaa lineaarisen riippuvuuden voimakkuutta ja Spearmannin järjestyskorrelaatiokerron ρ mittaa monotonisen riippuvuuden voimakkuutta Pearsonin tulomomenttikorrelaatiokerroin r Sopii kuvaamaan kahden muuttujan x ja y välistä riippuvuutta, jos 1) x ja y ovat kvantitatiivisia (vähintään välimatka-asteikkoa) ja 2) x:n ja y:n välinen riippuvuus on luonteeltaan lineaarista (ks. hajontakuviot). 25

27 Olkoot (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) n tilastoyksikön saamat arvot muuttujilla x ja y. Muuttujien x ja y (Pearsonin tulomomentti)korrelaatiokerroin r = r xy = s xy s x s y, jossa s xy = 1 n 1 n (x i x)(y i ȳ) on x:n ja y:n kovarianssi, s x on x:n i=1 keskihajonta ja s y on y:n keskihajonta. Huom. s xx = s 2 x ts. x:n varianssi. Voidaan osoittaa, että s xy saa positiivisia arvoja, jos x:n ja y:n välillä on positiivista lineaarista riippuvuutta ja negatiivisia arvoja, jos x:n ja y:n välillä on negatiivista lineaarista riippuvuutta. s xy on kuitenkin riippuvainen x:n ja y:n mittayksiköistä eikä sovellu sellaisenaan riippuvuusluvuksi. r sen sijaan on x:n ja y:n mittayksiköistä riippumaton. Korrelaatiokertoimen r ominaisuuksia 1) r xx = 1, 2) r xy = r yx, 3) 1 r +1, 4) r = +1 täydellinen positiivinen lineaarinen riippuvuus, 5) r = 1 täydellinen negatiivinen lineaarinen riippuvuus, 6) r = 0 muuttujien välillä ei ole lineaarista riippuvuutta, epälineaarista riippuvuutta voi kuitenkin olla, 7) Olkoot u i = ax i + b ja v i = cy i + d, i = 1,..., n, a, b, c ja d annettuja vakioita. Voidaan osoittaa, että r uv = r xy, jos ac > 0 ja r uv = r xy, jos ac < 0. Korrelaatiokertoimen väärinkäyttö ja -tulkintatilanteita 1) Käytetään korrelaatiokerrointa, vaikka muuttujien välinen riippuvuus ei ole lineaarista. 2) Korrelaatiokerroin ei ole robusti vaan herkkä poikkeaville arvoille varsinkin silloin, kun havaintoja on vähän. 26

28 3) Ryhmien yhdistäminen saattaa tuottaa koko joukolle hyvinkin erilaisen korrelaatiokertoimen arvon kuin mitä yhdistetyissä ryhmissä oli. 4) Jos toisen tai molempien muuttujien vaihteluväliä pienennetään, se aiheuttaa yleensä myös korrelaatiokertoimen itseisarvon pienenemisen. 5) Voimakaskaan korrelaatio ei ole riittävä edellytys kausaalisuhteelle. Korrelaatiokertoimen suuruuden hahmottamista voi harjoitella esimerkiksi nettiosoitteessa Spearmannin järjestyskorrelaatiokerroin ρ Sopii kuvaamaan kahden muuttujan x ja y välistä riippuvuutta, jos 1) x ja y ovat vähintään järjestysasteikkoa ja 2) x:n ja y:n välinen riippuvuus on monotonista (tai lineaarista) (ks. hajontakuviot). Olkoot (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) n tilastoyksikön saamat arvot muuttujilla x ja y. Muuttujien x ja y Spearmannin järjestyskorrelaatiokerroin ρ on n 2 6 d i ρ = 1 i=1 n 3 n jossa d i = R(x i ) R(y i ), i = 1,..., n. R(x i ):t saadaan, kun alkuperäiset x:n arvot korvataan järjestysluvuilla. Vastaavasti R(y i ):t saadaan, kun alkuperäiset y:n arvot korvataan järjestysluvuilla. Jos aineistossa esiintyy sidoksia (ties), käytetään keskijärjestyslukuja. (Esimerkki luennolla.) ρ on aina välillä [ 1, +1] ja itseisarvoltaan sitä suurempi, mitä voimakkaammasta monotonisesta riippuvuudesta on kysymys. 27

29 Esim. 3.4 Jatketaan esimerkissä 3.3 esitellyn aineiston analyysiä laskemalla muuttujien välisen Spearmannin järjestyskorrelaatiokertoimen ρ arvo. - Korvataan sekä pituus- että korkeushyppytulosten havaintoarvot järjestysluvuillaan: pienimmälle pituushyppytulokselle annetaan järjestysluvuksi 1, toiseksi pienimmälle 2, jne., - Lasketaan muuttujien järjestyslukujen erotukset d i havaintoyksiköittäin, - Lasketaan neliöityjen järjestyslukujen erotusten d 2 i summa, - Sijoitetaan tarvittavat arvot ρ:n laskukaavaan, - Tulkitaan tulos. Ottelija Pituustulos (cm), x i Korkeustulos (cm), y i R(x i ) R(y i ) d i = R(x i ) R(y i ) d 2 i n i=1 d i 2 = = 89 ρ = 1 6 n i=1 d i 2 n 3 n = Tulkinta: Muuttujien välillä vallitsee kohtalainen positiivinen monotoninen riippuvuus. Edellä esiteltyjen tunnuslukujen C/C MAX, r ja ρ tulkinnassa voi käyttää apuna seuraavan sivun kaaviokuvaa. Tunnuslukua tulkittaessa on lisäksi tärkeää muistaa, että - C/C MAX ei kerro riippuvuuden suuntaa, koska 0 C C MAX 1, - r mittaa lineaarisen riippuvuuden voimakkuutta, - ρ mittaa monotonisen riippuvuuden voimakkuutta. 28

30 Täydellinen negatiivinen riippuvuus Voimakas negatiivinen riippuvuus Kohtalainen negatiivinen riippuvuus Heikko negatiivinen riippuvuus Ei riippuvuutta Heikko positiivinen riippuvuus Kohtalainen positiivinen riippuvuus Voimakas positiivinen riippuvuus Täydellinen positiivinen riippuvuus Riippuvuuden voimakkuus Kuva 14: Kaavio riippuvuuslukujen C/C MAX, r ja ρ tulkintaan Korrelaatiomatriisi Havaintoaineistosta, jossa on p muuttujaa (x 1, x 2,, x p ), voidaan laskea kahden muuttujan väliset korrelaatiokertoimet kaikille mahdollisille muuttujapareille. Näiden parittaisten korrelaatiokertoimien lukumäärä kasvaa nopeasti muuttujamäärän p kasvaessa, joten korrelaatiokertoimet on tarkoituksenmukaista esittää tiiviissä muodossa. Olkoon r jk muuttujien x j ja x k välinen korrelaatiokerroin, joka on määritelty edellä siten, että r = r xj x k = s x j x k s xj s xk. Merkitään seuraavaksi muuttujien x j ja x k välistä korrelaatiokerrointa lyhyemmin merkinnällä r 12. Havaintoaineistosta, jossa on n havaintoyksikköä ja p muuttujaa, lasketut parittaiset korrelaatiokertoimet r jk (, missä j, k = 1,..., p) voidaan esittää ns. korrelaatiomatriisina R 29

31 Muuttujat (p kpl) x 1 x 2... x k... x p x 1 r 11 r r 1k... r 1p x 2 r 21 r r 2k... r 2p Muuttujat..... (p kpl) x j r j1 r j2... r jk... r jp..... x p r p1 r p2... r pk... r pp Koska muuttujan korrelaatiokerroin itsensä kanssa on aina yksi ja koska korrelaatiokerroin on symmetrinen tunnusluku (ts. r jk = r kj ), esitetään korrelaatiomatriisista R usein pelkkä alakolmio: Muuttujat (p kpl) x 1 x 2... x p x 1 1 x 2 r 21 1 x 3 r 31 r 32 1 Muuttujat.... (p kpl) x p r p1 r p2 1 Vastaavalla tavalla muuttujien x j ja x k (, missä j, k = 1,, p) väliset kovarianssit s jk voidaan esittää ns. kovarianssimatriisina S Muuttujat (p kpl) x 1 x 2... x k... x p x 1 s 11 s s 1k... s 1p x 2 s 21 s s 2k... s 2p Muuttujat..... (p kpl) x j s j1 s j2... s jk... s jp..... x p s p1 s p2... s pk... s pp Koska muuttujan kovarianssi itsensä kanssa on muuttujan varianssi eli s xx = 1 n 1 n (x i x)(x i x) = 1 i=1 n 1 i=1 n (x i x) 2 = s 2 x kovarianssimatriisin S diagonaalilla ovat muuttujien varianssit. 30

32 Esim. 3.5 Täydennetään esimerkin 3.3 aineistoa kahdella uudella muuuttujalla: kuulantyönnön ja sadan metrin juoksun lopputuloksilla. Ottelija Pituustulos (m) Korkeustulos (cm) Kuulantyöntö (m) metrin juoksu (s) Alla on esitetty R-ohjelmalla tulostettu aineistoon liittyvä korrelaatiomatriisi ja kovarianssimatriisi. # Korrelaatiomatriisi > cor(ottelu) pituus kuula korkeus satanen pituus kuula korkeus satanen # Kovarianssimatriisi > cov(ottelu) pituus kuula korkeus satanen pituus kuula korkeus satanen Korrelaatiomatriisista nähdään esimerkiksi se, että pituushypyn ja 100 metrin juoksun lopputulosten välillä vallitsee kohtalainen negatiivinen lineaarinen riippuvuus (r = ). Mitä suurempi pituushypyn lopputulos on ollut sitä vähemmän aikaa ottelijalla on mennyt keskimäärin aikaa sadan metrin juoksussa. Kyseinen korrelaatiokertoimen arvo voitaisiin laskea myös kovarianssimatriisin avulla. Merkitään x = pituushypyn lopputulos ja y = 100 metrin juoksun lopputulos. Nyt r xy = sxy s xs y = sxy s 2 x = s 2 y

33 3.5.4 Sirontakuviomatriisi Korrelaatio- ja kovarianssimatriisien tapaan myös parittaiset sirontakuviot voidaan esittää matriisimuodossa. Alla on esitetty R-ohjelmalla piirrretty esimerkin 3.5 aineistoon liittyvä sirontakuviomatriisi. pituus kuula korkeus satanen Kuva 15: Kymmenotteluaineiston sirontakuviomatriisi. Esimerkiksi kuvion oikeassa yläkulmassa olevassa sirontakuviossa x-akselin muuttujana on 100 metrin juoksun lopputulos ja y-akselin muuttujana pituushypyn lopputulos. Vastaavasti kuvion vasemmassa alakulmassa ovat samat muuttujat, mutta x-akselin muuttujana on nyt pituushypyn lopputulos ja y-akselin muuttujana 100 metrin juoksun lopputulos. 32

34 4 REGRESSIOANALYYSIA 4.1 Yleistä Sanan regressio (regression) suomennoksiksi annetaan mm. palautuminen, taantuminen ja peräytyminen. Erityisesti psykologiassa ja psykiatriassa regressio on taantuma, (tilapäinen) palautuminen jo ohitetulle kehitysasteelle, kun taas geologiassa regressio on meren peräytyminen maalta (Uusi sivistyssanakirja. Otava, Helsinki 1981). Tilastotieteen kielenkäyttöön sanan regressio toi 1800-luvun loppupuolella vaikuttanut brittiläinen gentleman scientist Sir Francis Galton ( ), joka oli Charles Darwinin serkku. Hän oli erittäin lahjakas ja monipuolinen tiedemies, joka toimi aktiivisesti mm. maantieteen, meteorologian, genetiikan, biometrian, psykologian aloilla. Galton tutki mm. ihmisten kvantitatiivisten ominaisuuksien periytyvyyttä, kuten esim. sitä, miten aikuisiän pituus riippuu vanhempien pituudesta. Hän havaitsi, että keskimääräistä pitempien vanhempien lapset ovat myös yleensä sukupolvensa keskiarvoon verrattuna pitempiä, mutta ei niin paljon kuin vanhempansa oman sukupolvensa keskipituuteen nähden. Toisaalta keskimääräistä lyhempien vanhempien lapset ovat myös sukupolvensa keskiarvoa lyhyempiä, mutta ei niin paljon kuin vanhempansa. Tätä ilmiötä Galton kuvasi aluksi käsitteellä reversion to mediocricy eli kääntyminen keskinkertaisuutta kohti, jonka hän myöhemmin kuitenkin nimesi regression to the mean eli palautuminen keskiarvoa kohti. Regressioanalyysissa tutkitaan kahden tai useamman muuttujan keskinäistä riippuvuutta. Yksi muuttujista on selitettävä eli vastemuuttuja (dependent variable, response variable) merk. y, muut ovat selittäviä muuttujia eli selittäjiä, merk. x 1, x 2,..., x k. y:n riippuvuutta x-muuttujista kuvataan ns. regressiomallin avulla. Regressiomallin valintaan vaikuttaa vastemuuttujan tyyppi (esim. kvantitatiivinen vai luokiteltu). Yleisimmät regressiomenetelmät ovat lineaarinen regressio, logistinen regressio, Poissonin regressio ja Coxin regressio. Seuraavassa rajoitutaan lineaariseen regressiomalliin ja siinäkin lähemmin vain siihen tilanteeseen, jossa selittäviä muuttujia on yksi. Lineaarista regressioanalyysia käytettäessä y-muuttujan tulee olla vähintään välimatka-asteikkoa ja luonteeltaan jatkuva. Selittäjien tulee olla vähintään välimatka-asteikkoa tai dikotomisia (kaksiluokkaisia). 33

35 Esimerkissä 3.3 tarkasteltiin Lontoon olympialaisten 10-ottelun pituus- ja korkeushypyn tulosten riippuvuutta graafisesti. Myöhemmin muuttujien välille laskettiin myös arvo Pearsonin tulomomenttikorrelaatiokertoimelle r, joka mittaa lineaarisen riippuvuuden voimakkuutta. Laskelmien lopputuloksena r:n arvoksi saatiin Muuttujien välillä havaittiin siis kohtalaista positiivista riippuvuutta: mitä parempi ottelijan pituushypyn tulos oli ollut sitä parempi oli yleensä myös hänen tuloksensa korkeushypyssä. Mutta mitä jos tehtävänä olisi ennustaa ottelijan korkeushypyn tulos pituushypyn tuloksen perusteella? Entä kuinka paljon paremman korkeushyppytuloksen ennustaisimme siinä tapauksessa, jos pituushypyn tulos paranisi yhdellä sentillä? Näihin kysymyksiin ei voi vastata esim. korrelaatiokertoimen avulla, vaan tarvitsemme regressioanalyysia. Lineaarisen regressiomallin perusmuoto on y = β 0 + β 1 x 1 + β 2 x β k x k + ɛ, jossa β 0, β 1,..., β k ovat ns. regressiokertoimia ja ɛ on satunnainen virhetermi. Kertoimien β 0, β 1,..., β k määrääminen (estimointi) tapahtuu havaintoaineistosta yleensä pienimmän neliösumman menetelmällä (PNSmenetelmällä). PNS-menetelmällä määrättyjä kertoimia merkitään b 0, b 1,..., b k ja ns. sovitettu regressioyhtälö on ŷ = b 0 + b 1 x 1 + b 2 x b k x k Jos selittäviä muuttujia on vain yksi, kuvaaja on suora. Jos selittäviä muuttujia on kaksi, yhtälön kuvaaja on taso. Regressioyhtälöä käytetään a) kuvailuun, b) ennustamiseen ja c) kontrolliin. 4.2 Yksi selittävä muuttuja Olkoot (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) n tilastoyksikön saamat arvot muuttujilla x ja y. Tässä x on selittävä muuttuja ja y selitettävä muuttuja eli vaste. Oletetaan lisäksi, että x:n ja y:n välinen riippuvuus on lineaarista. 34

36 Regressiomalli on nyt muotoa y = β 0 + β 1 x + ɛ Korkeushypyn tulos (cm) ε ε ε Pituushypyn tulos (m) Kuva 16: Suoran sovitaminen kymmenotteluaineistoon. Kertoimet β 0 ja β 1 määrätään (estimoidaan) siten, että saatu suora kulkee tietyssä mielessä mahdollisimman tarkoin pistejoukon keskeltä. PNSmenetelmässä kertoimet β 0 ja β 1 määrätään siten, että neliösumma f(β 0, β 1 ) = n (y i β 0 β 1 x i ) 2 = i=1 n i=1 ɛ 2 i minimoituu. Minimointitehtävän ratkaisuna saadaan { β1 = b = sxy s = r y s 2 xy x s x β 0 = a = ȳ b x Regressiosuoran sovittamiseen sirontakuvioon tarvitsemme siis entuudestaan tuttuja tunnuslukuja: aritmeettisia keskiarvoja, keskihajontoja sekä muuttujien välisen kovarianssin s xy tai korrelaatiokertoimen r xy. 35

37 Saatu regressioyhtälö on siten muotoa ŷ = a + bx Esim. 4.1 Sovitetaan kymmenotteluaineistoomme regressiosuora ŷ = a+bx. Valitaan regressiomallin vastemuuttujaksi ottelijan korkeushyppytulos (= y) ja selittäjäksi pituushyppytulos (= x). Havaintojen lukumäärä n = 10 ja niistä on laskettu seuraavat tunnuslukujen arvot: x = 7.48, s x = 0.262, ȳ = , s y = 5.967, s xy = ja r xy = β 1 = b = sxy s 2 x = 0.743/ ja β 0 = a = ȳ b x Sovitesuora on siis (likimain) ŷ = x. Miten lasketut regressiokertoimien estimaatit tulisi tulkita? Estimaattien a ja b tulkinta sekä ennustearvon laskeminen b kertoo, miten suuri keskimääräinen muutos y:ssä tapahtuu, kun x kasvaa yhdellä yksiköllä. a kertoo puolestaan y:n keskimääräisen arvon, jos selittävän muuttujan x arvo on nolla (ts. x = 0). Jos selittävä muuttuja x saa arvokseen arvon x i (ts. x = x i ), suoran antama ennustearvo (sovite) vastemuuttujalle y on ŷ i = a + bx i. Esimerkkiaineistomme perusteella näyttäisi siis siltä, että jos pituushyppyn lopputulos kasvaa yhdellä metrillä, paranee korkeushypyn lopputulos keskimäärin noin 10.8 senttimetrillä. Jos jollain kilpailijalla pituushypyn lopputulos on ollut 7.5 metriä, ennustaa mallimme hänen korkeushyppytuloksensa olevan ŷ = a + bx = = senttimetriä. Regressioyhtälön hyvyyttä mitataan usein ns. determinaatiokertoimen (coefficient of determination) eli selitysasteen R 2 avulla. Se kertoo, kuinka paljon x selittää y:n kokonaisvaihtelusta. R 2 :n arvo on aina välillä [0, 1]. Usein se kuitenkin ilmaistaan sadalla kerrottuna eli prosentteina. Mitä lähempänä 100%:a determinaatiokerroin on, sitä luotettavammin voidaan y:n arvo ennustaa, jos tunnetaan x:n arvo. 36

38 Determinaatiokertoimen R 2 laskeminen Vastemuuttujan y kokonaisvaihtelua kuvaava neliösumma SS T voidaan hajottaa osiin seuraavasti: n n SS T = (y i ȳ) 2 = (y i ŷ i + ŷ i ȳ) 2 = i=1 = SS Res + SS Reg, i=1 n (y i ŷ i ) 2 + i=1 n (ŷ i ȳ) 2 i=1 jossa SS Res on ns. residuaali- eli jäännösneliösumma ja SS Reg on regressioneliösumma. Determinaatiokerroin R 2 = SS Reg SS T = 1 SS Res SS T. Huom. Edellä annettu determinaatiokertoimen kaava käy myös useamman selittäjän tapauksessa. Yhden selittäjän tapauksessa determinaatiokerroin voidaan laskea myös suoraan x:n ja y:n korrelaatiokertoimen neliönä ts. R 2 = r 2 xy. Edellä olleessa esimerkissämme regressiomallin determinaatiokertoimen arvo on siis R 2 = r 2 xy = Pituushypyn lopputuloksella voi siis selittää tässä aineistossa noin 22.5 % korkeushypyn lopputulosten kokonaisvaihtelusta. 4.3 Lineaarinen regressioanalyysi ja R R-ohjelmassa lineaarinen regressioanalyysi suoritetaan funktiolla lm() (linear model). Toimiakseen funktio tarvitsee argumentikseen regressiomallin määrittelyn muodossa vastemuuttuja selittävä(t) muuttujat. Funktiolla lm aikaansaatava malliobjekti on mahdollista tallettaa R:n muistiin ja ko. objektista voidaan tulostaa jatkoanalyysin kannalta tarpeellisia tietoja useilla eri komennoilla. Mallituksen perustulokset (mm. regressiokertoimien piste-estimaatit, regressiokertoimiin liittyvät merkitsevyystestaukset ja determinaatiokertoimen arvo) saadaan tulostettua funktiolla summary(). Esim. 4.2 Tehdään esimerkissä 4.1 läpikäyty regressioanalyysi R-ohjelman avulla. Tehtävänä on siis sovittaa kymmenotteluaineistoon lineaarinen regressiosuora ŷ = a + bx, missä vastemuuttujana on ottelijan korkeushyppytulos (= y) ja selittäjänä pituushyppytulos (= x). 37

39 # talletetaan havaintoaineisto vektoreihin pituus ja korkeus > pituus <- c(8.03, 7.53, 7.52, 7.64, 7.54, 7.21, 7.55, 7.45, 7.17, 7.15) > korkeus <- c(205, 199, 211, 205, 205, 190, 199, 199, 205, 196) # muodostetaan malliobjekti malli1 > malli1 <- lm(korkeus ~ pituus) # tulostetaan mallituksen perustulokset summary-funktiolla > summary(malli1) Call: lm(formula = korkeus ~ pituus) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) pituus Residual standard error: on 8 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: Regressiokertoimien β 0 ja β 1 estimaatit a ja b löytyvät tulostuksen Coefficientstaulun Estimate-sarakkeesta. Nyt siis β 0 = a = ja β 1 = b = Mallin determinaatiokerroin R 2 löytyy puolestaan kohdasta Multiple R-squared, josta nähdään, että R 2 = (Pienet erot esimerkin 4.1 lopputuloksiin johtuvat käsinlaskujen pyöristysvirheistä.) Lyhyesti regressiokertoimien luottamusväleistä Edellisen luvun esimerkissä mallin determinaatiokerroin jäi varsin matalaksi. Voisiko olla jopa niin, että pituushypyn ja korkeushypyn lopputulokset ovat todellisuudessa toisistaan täysin riippumattomia? Tällöin regressiomallin regressiokertoimen β 1 todellinen arvo olisi nolla ja mallituksessa saadun kertoimen piste-estimaatin β 1 = poikkeama nollasta voitaisiin selittää sattuman avulla. Tähän spekulaatioon voidaan hakea vastausta mm. regressiokertoimien luottamusvälilaskennan avulla. Lineaarisen regressiomallin regressiokertoimien luottamusvälilaskennan pe- 38

40 riaatteita käydään tarkemmin läpi mm. Data-analyysin perusmenetelmät kurssilla. Tällä kurssilla nämä luottamusvälit otetaan valmiina tuloksina R- ohjelman tulostuksesta. Kyseinen tulostus saadaan aikaan funktiolla confint(). Esim. 4.3 Tulostetaan edellisessä esimerkissä muodostetusta malliobjektista malli1 regressiokertoimien β 0 ja β 1 95 %:n ja 99 %:n luottamusvälit. # regressiokertoimien 95 %:n luottamusvälit > confint(malli1, level=0.95) 2.5 % 97.5 % (Intercept) pituus # regressiokertoimien 99 %:n luottamusvälit > confint(malli1, level=0.99) 0.5 % 99.5 % (Intercept) pituus Tulostuksesta nähdään mm. se, että selittäjään pituus liittyvä regressiokerroin β 1 kuuluu 95 %:n varmuudella välille ( 5.532, 27.11). Koska nolla kuuluu lasketun luottamusvälin sisään, on siis mahdollista, että pituushyppytuloksen perusteella ei voi todellisuudessa selittää lainkaan korkeushypyn tulosta. Pituushyppytulos ei ole siten ko. mallissa ns. tilastollisesti merkitsevä selittäjä. 4.4 Kaksi tai useampia selittäjiä Yhden selittävän muuttujan lineaarisen regressiomallin rajat tulevat vastaan melko pian. Tärkein syy yhtä useampien selittävien muuttujien mukaan ottamiselle on se, että jos halutaan estimoida kiinnostavan selittävän muuttujan X kausaalista vaikutusta (, jota kuvaa parametri β 1 ) vasteeseen, voi ns. sekoittavien tekijöiden poissaolo mallista tuottaa harhaisen estimaatin β 1 :lle. Toisaalta selittäjän X ohella vasteen mallitukseen voi olla tarpeellista ottaa mukaan muitakin vasteeseen aidossa riippuvuussuhteessa olevia selittäjiä. Lineaarinen regressiomalli on nyt (k selittäjää) muotoa y = β 0 + β 1 x β k x k + ɛ. Kertoimet β 0, β 1,..., β k määrätään (estimoidaan) havaintoaineistosta yleensä PNS-menetelmällä (käytännössä aina tietokoneella). 39

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012 Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen! 8069 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2013 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOLLA 9! Ilmoittaudu Weboodissa 4.3.2013 klo

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Opiskelija viipymisaika pistemäärä

Opiskelija viipymisaika pistemäärä 806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2012 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Jatkoa harjoituksen 5 tehtävään

Lisätiedot

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä 806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2011 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Eräässä suuressa yrityksessä

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989.

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia. 806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 11.3.2011 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805306A JOHDATUS MONIMUUTTUJAMENETELMIIN, sl 2017 (Jari Päkkilä) Harjoitus 3, viikko 47 (19.20.11.): kotitehtävät Ratkaisuja 1. Floridan

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Juuri 0 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 9..08 Kertaus K. a) Alapaineiden pienin arvo on ja suurin arvo 74, joten vaihteluväli on [, 74]. b) Alapaineiden keskiarvo on 6676870774

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 6

031021P Tilastomatematiikka (5 op) viikko 6 031021P Tilastomatematiikka (5 op) viikko 6 Jukka Kemppainen Mathematics Division Odotusarvojen erotuksen testi, hajonnat σ 1 σ 2 tuntemattomia Oletetaan jälleen, että X ja Y ovat normaalijakautuneita.

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Todennäköisyyslaskun kertaus. Heliövaara 1

Todennäköisyyslaskun kertaus. Heliövaara 1 Todennäköisyyslaskun kertaus Heliövaara 1 Satunnaismuuttujat ja todennäköisyysjakaumat Heliövaara 2 Stunnaismuuttujat ja todennäköisyysjakaumat Jos satunnaisilmiötä halutaan mallintaa matemaattisesti,

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas RIIPPUVUUS ALARYHMISSÄ Riippuvuus saattaa olla erilaista jos samassa aineistossa on esim. tutkittavia molemmista sukupuolista Yhteys saattaa olla erilaista

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: 8.1 Satunnaismuuttuja Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: Esim. Nopanheitossa (d6) satunnaismuuttuja X kertoo silmäluvun arvon. a) listaa kaikki satunnaismuuttujan arvot b)

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset

Lisätiedot

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko ÌÓÒÒĐĐÓ ÝÝ ÔÖÙ ØØ Naiiveja määritelmiä Suhteellinen frekvenssi kun ilmiö toistuu Jos tehdas on valmistanut 1000000 kpl erästä tuotetta, joista 5013 ovat viallisia, niin todennäköisyys, että tuote on viallinen

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Tilastomatematiikka Kevät 2008

Tilastomatematiikka Kevät 2008 Tilastomatematiikka Kevät 2008 Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastomatematiikka p.1/19 4.3 Varianssi Satunnaismuuttuja on neliöintegroituva, jos odotusarvo

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 19.3.2019/1 MTTTP1, luento 19.3.2019 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus Mitä jäi mieleen viime viikosta? Mitä mieltä olet tehtävistä, joissa GeoGebralla työskentely yhdistetään paperilla jaettaviin ohjeisiin

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2005) 1 Johdatus regressioanalyysiin Regressioanalyysin lähtökohdat ja tavoitteet Deterministiset mallit ja regressioanalyysi

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 28. syyskuuta 2007 Antti Rasila () TodB 28. syyskuuta 2007 1 / 20 1 Jatkoa diskreeteille jakaumille Negatiivinen binomijakauma Poisson-jakauma Diskreettien

Lisätiedot

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON? SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?...7 TILASTO...7 TILASTOTIEDE...8 HISTORIAA...9 TILASTOTIETEEN NYKYINEN ASEMA...9 TILASTOLLISTEN MENETELMIEN ROOLIT ERI TYYPPISET AINEISTOT JA ONGELMAT...10

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Satunnaismuuttujat ja todennäköisyysjakaumat Mitä tänään? Jos satunnaisilmiötä halutaan mallintaa matemaattisesti, on ilmiön tulosvaihtoehdot kuvattava numeerisessa muodossa. Tämä tapahtuu liittämällä

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014 1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio Ilkka Mellin Todennäköisyyslaskenta Osa : Satunnaismuuttujat ja todennäköisyysjakaumat Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (7) 1 Momenttiemäfunktio ja karakteristinen funktio

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat TKK (c) Ilkka Mellin (2005) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Kaksiulotteiset todennäköisyysjakaumat

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot