Luokitettujen aineistojen analysointi

Koko: px
Aloita esitys sivulta:

Download "Luokitettujen aineistojen analysointi"

Transkriptio

1 Luokitettujen aineistojen analysointi (805334A/805678S) luentomuistiinpanot syksyllä 2007 Markku Rahiala

2 1 JOHDANTO 1.1 Diskreetteihin muuttujiin liittyvää todennäköisyyslaskentaa Kuten Tilastotieteen perusteet- kurssilla aikanaan määriteltiin, tarkoitetaan diskreetillä satunnaismuuttujalla muuttujaa, jolla on vain äärellinen tai korkeintaan numeroituva määrä erilaisia mahdollisia arvoja. Niinpä diskreetin satunnaismuuttujan X jakauma voidaankin esittää kaikkein luontevimmin ns. pistetodennäköisyyksien p j = P (X = x j ) j =1, 2,... avulla. Symbolit x 1,x 2,... tarkoittavat X:n mahdollisia arvoja ja niiden muodostamaa joukkoa S X = {x j } sanotaan X:n supportiksi. (Huom.: Arvot x j eivät välttämättä ole reaalilukuja.) Mikäli x j :t ovat jonkin vektoriavaruuden alkioita, voidaan X:n odotusarvo määritellä muodossa EX = j p j x j. (1.1) Samaan tapaan voidaan tietysti laskea myös X:n erilaisten funktioiden odotusarvoja Eg(X) = j p j g(x j ), (1.2) joista esimerkkinä mainittakoon var(x) = E(X EX) 2 = j p j (x j EX) 2 = j 2 p j x 2 j p j x j. j Aikaisemmilla kursseilla on jo esitelty ns. Poisson- jakauma, jonka pistetodennäköisyydet ovat muotoa p j = P (X = x j )= λj j! e λ j =0, 1, 2,... (1.3) jossa λ>0 on parametrin asemassa. Tälle jakaumaperheelle löytyy paljon käyttöä tälläkin kurssilla, sillä erilaiset havaitut frekvenssit ovat aina ei-negatiivisia kokonaislukuja. Palautettakoon mieliin, että Poisson- muuttujan X odotusarvo ja varianssi ovat EX = λ ja var(x) = λ. Toinen keskeinen jakaumatyyppi tällä kurssilla tulee olemaan ns. multinomijakauma: Ajatellaan, että n- kertaisen toistokokeen jokaisella koetoistolla on k 1

3 erilaista tulosvaihtoehtoa. Merkitään symbolein X 1,..., X k kunkin tulostyypin lukumäärää n toistossa. (Tällöin tietysti aina X X k n.)kombinatorisin perustein on helppo todeta, että ainoa tilanteeseen sopiva jakaumamalli on seuraavaa muotoa: Merkitään tulosvaihtoehtojen todennäköisyyksiä kussakin koetoistossa symbolein p 1,..., p k ( p p k =1) ja asetetaan P (X 1 = x 1,..., X k = x k ) = n! x 1! x k! px1 1 px k k (1.4) kun x x k = n, x j N, j =1,..., k. Todennäköisyydet p 1,..., p k ovat tässä tapauksessa parametrien asemassa. Jos k =2, voidaan ajatella, että toinen tulosvaihtoehdoista vastaa kokeen onnistumista ja toinen epäonnistumista. Tällöin tilanne on aivan saman kaltainen kuin binomijakaumaa johdettaessa. Näin ollen on luonnollista, että (1.4):n mukaan tällöin P (X 1 = x 1 ) = P (X 1 = x 1,X 2 = n x 1 ) = n! x 1!(n x 1 )! px1 1 (1 p 1) n x1 kun x 1 N, 0 x 1 n. Multinomijakauma on siis vain binomijakauman luonteva yleistys tilanteeseen, jossa tulosvaihtoehtoja on enemmän kuin kaksi. Binomijakauman ominaisuuksiin vedoten on helppo todeta, että EX j = np j ja var(x) =np j (1 p j ) j =1,..., k. (1.5) Lisäksi voidaan todeta, että joten EX i X j = n(n 1)p i p j cov(x i,x j )=EX i X j EX i EX j = np i p j. (1.6) Niinikään binomijakaumatulkintaan perustuen voidaan todeta, että järkevin tapa estimoida todennäköisyysparametrit p j on ilmeisesti käyttää estimaattoreita p j = X j n, j =1,..., k, (1.7) ts. eri tulosvaihtoehtojen koetoistosarjassa havaittuja suhteellisia frekvenssejä. 2

4 1.2 2 x 2 kontingenssitaulukot Ajatellaan, että n koehenkilöstä osa altistuu tekijälle A, jonka epäillään lisäävän sairauden S vaaraa. Seurataan koehenkilöiden kohtaloita jonkin aikaa ja katsotaan, ketkä sairastuvat tautiin S seuranta-ajan kuluessa. Tulokset on luontevinta esittää 2 x 2- taulukon muodossa Sairastuminen S S Altis- A N AS N A S N A tus Ā N ĀS N Ā S N Ā N S N S n Tällaisia taulukoita sanotaan kontingenssitaulukoiksi. On helppo huomata, että tilanne on juuri sellainen, jota kuvaamaan multinomijakauma konstruoitiin. Vaikka kyseessä tällä kertaa onkin kahden kaksiarvoisen muuttujan yhteisjakauma, on multinomijakauma tietysti ainoa luonteva malli tilanteelle. Jakauman todennäköisyysparametreista voidaan muodostaa vastaava taulukko Sairastuminen S S Altis- A p AS p A S p A tus Ā p ĀS p Ā S p Ā p S p S 1 Tämän yhteisjakauman puitteissa voidaan tietysti tarkastella myös ehdollisia todennäköisyyksiä p S A = p AS p AS = p A p AS + p A S ja p S Ā = pās p Ā p ĀS = p ĀS + p Ā S joita kutsutaan sairastumisriskeiksi (tai sairastumisvaaroiksi) altistuneille ja altistumattomille koehenkilöille. Riskin asemasta voidaan voidaan sairastumisalttiutta mitata myös ns. oddseilla o A = p S A = p S A = p AS p S A 1 p S A p A S ja o Ā = p S Ā = p S Ā = pās p S Ā 1 p S Ā p Ā S. 3

5 Altistuneiden ja altistumattomien henkilöiden sairastumistaipumuksia voidaan vertailla keskenään ainakin seuraavilla tunnusluvuilla: 1 o Riskiero (risk difference) RD = p S A p S Ā 2 o Riskisuhde (risk ratio) RR = p S A p S Ā 3 o Odds ratio OR = o A = p AS pā S, o Ā p A S p ĀS jota joskus kutsutaan myös ristitulosuhteeksi. Nähdään heti, että OR = RR 1 p S Ā 1 p S A, joten OR ja RR ovat hyvin lähellä toisiaan, mikäli tauti on harvinainen. Esimerkki 1.1: Tarkastellaan seurantatutkimusta, jossa runsaasta koehenkilöstä puolet arvottiin hoitoryhmään, puolet kontrolliryhmään. Hoitoryhmälle syötettiin aspiriinia, kontrolliryhmälle plaseboa. Seuranta-ajan kuluessa ilmenneet sydäninfarktitapaukset rekisteröitiin seuraavin tuloksin: Sydäninfarkti Kyllä Ei Hoi- Aspirin to Plasebo Käyttämällä sellitodennäköisyyksien estimaattoreina vastaavia suhteellisia frekvenssejä (1.7) saadaan ristitulosuhteen estimaatiksi ÔR = =0.546, joten aspiriinipotilaiden odds saada sydäninfarkti on lähes puolta pienempi kuin plaseboryhmällä. Infarktiriskien estimaatit olisivat p S A = 104 = ja p S Ā = = , joten riskisuhteeksi saadaan RR =0.549 ja riskieroksi RD =

6 Todettakoon vielä, että mikäli p S A = p S Ā, sanotaan sairastumisen olevan altistumisesta riippumatonta. Tällöin olisi tietysti RD = 0 ja RR = OR = K x L- kontingenssitaulut Ajatellaan nyt yleisemmin kahta diskreettiä satunnaismuuttujaa X ja Y, joiden mahdollisia arvoja merkitään symbolein x 1,..., x K ja y 1,..., y L. Merkitään muuttujien yhteisjakauman pistetodennäköisyyksiä symbolein p ij = P (X = x i, Y = y j ), i =1,..., K, j =1,..., L (1.8) ja reunajakaumien pistetodennäköisyyksiä symbolein L p i = P (X = x i )= j=1 K p j = P (Y = y j )= i=1 p ij, i =1,..., K, p ij, j =1,..., L. (1.9) Jos muuttujista X ja Y on saatu n toisistaan riippumatonta havaintoa, on havaintoaineisto kaikkein taloudellisimmin esitettävissä frekvenssitaulukon Y y 1... y L x 1 N N 1L N 1 X x K N K1... N KL N K N 1... N L n muodossa. Tällaisia frekvenssitaulukoita sanotaan kontingenssitaulukoiksi. Ainoa järkevä jakaumamalli frekvenssien N 11,..., N KL yhteiskäyttäytymiselle on luonnollisesti multinomijakauma (1.4) todennäköisyyksin p 11,..., p KL ja koetoistojen lukumääränä n. Mikäli yhteisjakauman pistetodennäköisyyksistä ei tehdä 5

7 p ij :t luontevinta estimoida vastaavilla suh- mitään rajoittavia lisäoletuksia, on teellisilla frekvensseillä (1.7): p ij = N ij n, i =1,..., K, j =1,..., L. Kuten Tilastotieteen perusteet- kurssilla opetettiin, sanotaan satunnaismuuttujia X ja Y toisistaan riippumattomiksi ( X Y ), joss (jos ja vain jos) p ij = p i p j i =1,..., K, j =1,..., L. (1.10) Toisaalta µ ij = E(N ij )=np ij tuloksen (1.5) mukaisesti. Logaritmoimalla µ ij saadaan siis log µ ij = log n + log p ij = log n + log p i + log p j + ξ ij kullekin i =1,..., K, j =1,..., L, (1.11) kun otetaan käyttöön merkinnät ξ ij = log ( pij p i p j ). Hajoitelma (1.11) tuo etsimättä mieleen tavallisen kaksisuuntaisen varianssianalyysimallin. Huomattakoon, että (1.10):n mukaan X:n ja Y :n välinen riippumattomuus vastaa kaikkien interaktiotermien ξ ij häviämistä. Tämä havainto tulee olemaan varsin keskeisessä asemassa tällä kurssilla, sillä sen turvin varianssianalyysistä tuttua puhe- ja ajattelutapaa voidaan käyttää hyväksi diskreettien muuttujien välisiä riippuvuuksia tutkittaessa. (Myös log p ij - lukujen profiilikuvioita voidaan tulkita paljolti samaan tapaan kuin keskiarvoprofiileita varianssianalyysin yhteydessä.) Miten sitten riippuvuuden voimakkuutta voidaan mitata? Ajatellaan aluksi, että X ja Y olisivat nominaaliasteikollisia muuttujia, ts. että luokkien välillä olisi 6

8 vain laadullisia eroja. Eräänlaiseksi assosiaatiomitaksi (riippuvuusmitaksi) kelpaisi varmasti ainakin tuttu χ 2 - testisuure χ 2 = K L i=1 j=1 (N ij n p i p j ) 2 n p i p j, (1.12) jota peruskurssilla käytettiin X:n ja Y :n välisen riippumattomuuden testaamiseen. Sillä on kuitenkin se huono puoli, että sen jakauma (ja niin ollen sen suuruusluokka) riippuu voimakkaasti luokkien lukumääristä K ja L. Herää kysymys, voitaisiinko assosiaation voimakkuutta mitata jollakin helpommin tulkittavalla, mieluiten välillä [0, 1] vaihtelevalla mittarilla. Mukavinta olisi, mikäli mittari tietyssä mielessä muistuttaisi regressioanalyysistä tuttua yhteiskorrelaatiokertoimen neliötä R 2. Kirjallisuudessa on ehdotettu kahtakin tällaista mittaria, ns. Goodmanin ja Kruskalin τ:ta τ = K L 1 i=1 j=1 p i p 2 ij L j=1 p2 j 1 L j=1 p2 j (1.13) sekä ns. epävarmuuskerrointa U = K L i=1 j=1 p ij p i p j p ij log L. (1.14) j=1 p j log p j (Mittalukuja (1.13) ja (1.14) laskettaessa p ij :t korvataan estimaattoreillaan p ij = Nij n, ts. suhteellisilla frekvensseillä.) On helppo todeta, että 0 τ 1 ja 0 U 1. Jos X Y,on τ =0 ja U = K x L- taulukot, kun luokittelijat ovat järjestysasteikollisia Jos edellä hahmotellun kaksiulotteisen taulukon muodostaneet luokittelijat X ja Y ovat nominaalisia, ei mahdollisen riippuvuuden suunnasta tai monotonisuudesta voida tietenkään sanoa mitään. Jos taas sekä X että Y ovat ordinaalisia (järjestysasteikollisia), voidaan järkevästi mitata sekä mahdollisen riippuvuuden voimakkuutta että sen suuntaa. On jopa mahdollista konstruoida riippuvuusmittoja, jotka luonteeltaan muistuttavat jonkin verran tavallista korrelaatiokerrointa. Kontingenssitaulukoiden yhteydessä käytettäväksi sopii parhaiten ns. 7

9 Goodmanin ja Kruskalin γ: Ajatellaan, että tarkasteltavasta perusjoukosta valitaan umpimähkään kaksi havaintoa, ( X 1 Y 1 ) ja ( X 2 Y 2 ). Havaintoparia sanotaan X:n ja Y :n suhteen konkordantiksi, jos joko tai X 1 <X 2 ja Y 1 <Y 2 X 1 >X 2 ja Y 1 >Y 2. Paria sanotaan vastaavasti diskordantiksi, jos joko tai X 1 <X 2 ja Y 1 >Y 2 X 1 >X 2 ja Y 1 <Y 2. Huomattakoon, että jos jompi kumpi muuttujista X ja Y saa saman arvon molemmissa havaintoyksiköissä, ei pari ole sen paremmin konkordantti kuin diskordanttikaan. Todennäköisyys, jolla umpimahkään valittu pari on konkordantti, on selvästikin muotoa K L Π C = 2 p ij p kl. i=1 j=1 k>i l>j Vastaavasti diskordantin parin valintatodennäköisyys on K L Π D = 2. i=1 j=1 p ij k>i l<j p kl Goodmanin ja Kruskalin γ määritellään seuraavasti: γ = Π C Π D Π C +Π D. (1.15) Selvästikin 1 γ 1 ja γ =0, jos X Y. Kun γ:aa estimoidaan havaintoaineiston perusteella, korvataa p ij :t vastaavilla suhteellisislla frekvensseillä p ij = Nij n. Tällöin on helppo huomata, että γ:n lauseketta voidaan supistaa 2n 2 :lla, jolloin saadaan jossa C = K L i=1 j=1 N ij k>i l>j γ = N kl C D C + D, (1.16) = konkordanttien parien lukumäärä havaintoaineistossa 8

10 ja K L D = i=1 j=1 N ij k>i l<j N kl = diskordanttien parien lukumäärä havaintoaineistossa. Esimerkki 1.2: EK (Elinkeinoelämän keskusliitto) järjestää jäsenilleen neljännesvuosittain kyselyn, jossa kysellään kaikenlaisia tuotannon määrän, työtekijämäärän, tilauskannan ym. kehitykseen liittyviä odotuksia sekä vastaavia toteutumia viimeksi kuluneen vuosineljänneksen osalta. Kysymysten vastausvaihtoehdot ovat kolmiarvoisia, kasvanut / pysynyt ennallaan / vähentynyt, joten vastausvaihtoehtojen välillä on päivänselvä järjestys. Yhdistämällä nousuhdannevuosien 1980 ja 1985 kaikki kyselyt yhteen saatiin metalliteollisuusyritysten vastauksista seuraava frekvenssitaulukko: Työvoiman määrä Kasvanut Pysynyt ennallaan Vähentynyt Tuo- Kasvanut tannon Pysynyt ennallaan määrä Vähentynyt Konkordanttien parien lukumääräksi saadaan C = 173 ( ) ( ) + 92 ( ) = ja doskordanttien parien määräksi D =43 ( ) (92 + 6) + 59 (6 + 64) = Goodmanin ja Kruskalin gammaksi saadaan siis γ = C D C + D = 0.52, joten tuotannon määrän ja työvoiman määrän kehityksen välillä näyttää vallitsevan kohtalainen positiivinen assosiaatio. Ohjelmallisesti Goodmanin ja Kruskalin gamma on kenties helpointa laskea R:n avulla esimerkiksi seuraavalla tavalla: 9

11 R-koodi: > SB<-as.matrix(read.table("c:/mr/data/SBMet.tab")) > SB V1 V2 V > concordant <- function(x) { tablowright <- function(r, c) {lr <- x[(nrows > r) & (ncols > c)] sum(lr) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowright, r = nrows, c = ncols)) } > discordant <- function(x) { tablowleft <- function(r, c) {ll <- x[(nrows > r) & (ncols < c)] sum(ll) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowleft, r = nrows, c = ncols)) } > > C <- concordant(sb) > D <- discordant(sb) > gamma <- (C - D) / (C + D) > C [1] > D [1] > gamma [1] > 10

12 1.5 Erilaiset havainnointiasetelmat Palataan nyt luvussa 1.3 esitellyn K x L- frekvenssitaulukon erilaisiin analysointitapoihin. Aluksi on tärkeätä huomata, että tällaisen aineiston syntytapa voi edustaa ainakin kolmea, toisistaan selvästi poikkeavaa tyyppiä: 1 o Jos mikään taulukon marginaalifrekvensseistä ei ole kiinnitetty, on eri ruutujen ( sellien ) frekvenssit N ij luontevinta olettaa toisistaan täysin riippumattomiksi. Ajatellaan esimerkkinä aineistoa, joka koostuu noin 550 tiepätkällä vuosina sattuneista, kuolemaan johtaneista liikenneonnettomuuksista. Jaetaan tiepätkät ryhmiin toisaalta liikennesuoritteen, toisaalta raskaan liikenteen osuuden perusteella. Tällöin mitään onnettomuusmääriä ei ole etukäteen valittu, ja eri tiepätkillä sattuneita onnettomuusmääriä voidaan epäilemättä pitää toisistaan riippumattomina. Koska frekvenssit ovat aina luonnollisia lukuja, tulee etsimättä mieleen käyttää niiden käyttäytymisen kuvaamiseen Poisson- jakaumamallia N ij Poisson(µ ij ) N ij :t toisistaan riippumattomia µ ij :t vaihtelevat jollakin tietyllä tavalla liikennesuoritteen i ja raskaan liikenteen osuuden j mukaisesti Mallin mukaan olisi P (N 11 = n 11,..., N KL = n KL ) = K L i=1 j=1 µ nij ij n ij! e µij. (1.17) 2 o Jos havaintojen kokonaismäärä n on kiinnitetty, on aikaisemmin selitettyyn tapaan luontevinta ajatella, että kukin yksilö (tai havaintoyksikkö) joutuu ruutuun i, j todennäköisyydellä p ij toisten yksilöiden kohtaloista riippumatta. Tällöin ainoa järkevä malli olisi multinomijakaumamalli n! P (N 11 = n 11,..., N KL = n KL ) = n 11! n KL! pn11 pnkl KL, kun n n KL = n. (1.18) Esimerkkinä voidaan ajatella taulukkoa, joka syntyy, kun 3242 miespuolisen koehenkilön oikean ja vasemman silmän näkökyky mitataan ja luokitetaan neljään vaihtoehtoiseen luokkaan (paras kategoria / toiseksi paras / kolmanneksi paras / huonoin kategoria): Vasen silmä paras 2. paras 3. paras huonoin Oi- paras kea 2. paras sil- 3. paras mä huonoin Yhteensä

13 3 o Kolmantena vaihtoehtona voidaan ajatella tilannetta, jossa esimerkiksi vaakarivimarginaalifrekvenssit N i = n i (i =1,..., K) on kiinnitetty. Esimerkkinä voidaan ajatella vaikkapa aineistoa, joka saatiin, kun 280 koehenkilöä jaettiin kahteen yhtä suureen ryhmään ja toiselle syötettiin C- vitamiinia yhden gramman päiväannoksina, toiselle taas plaseboa. Koehenkilöitä seurattiin kahden viikon ajan, jonka jälkeen laskettiin, kuinka monella oli ilmennyt vilustumisoireita ja kuinka monella ei. Vilustumis- Ei vilustumis- Yhoireita oireita teensä Plasebo C- vitamiini Tämän kaltaisessa tilanteessa on luontevinta käyttää omaa multinomijakaumamallia jokaisen vaakarivin frekvensseille 279 P (N i1 = n i1,..., N il = n il ) = n i! n i1! n il! pni1 pnil il, kun n i n il = n i, i =1,..., K. Lisäksi on luontevaa ajatella, että eri vaakariveillä olevat frekvenssit olisivat täysin toisistaan riippumattomia. Kaikkien frekvenssien yhteiset pistetodennäköisyydet saadaan tällöin tulosääntöä noudattaen P (N 11 = n 11,..., N KL = n KL ) = K i=1 = n 1! n K! n! n i! n i1! n il! pni1 pnil il, n! n 11! n KL! pn11 11 pnkl KL. (1.19) Syvennytään nyt hetkeksi tilastollisen päättelyn perusperiaatteisiin toteamalla, että se, mitä parametreista voidaan havaintojen perusteella päätellä, määräytyy sen mukaan, miten parametreissa tapahtuvat muutokset vaikuttavat havaintojen käyttäytymiseen. Diskreettejä muuttujia tarkasteltaessa on havaintojen käyttäytyminen helpoimmin luonnehdittavissa pistetodennäköisyyksien P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ) avulla. Se, miten nämä pistetodennäköisyydet käyttäytyvät parametrien p 11,..., p KL funktiona, ratkaisee, millaisia johtopäätöksiä parametreista voidaan havaintojen perusteella vetää. Tällä funktiolla on oma hieno nimikin, sitä sanotaan havaintojen määräämäksi likelihood- funktioksi 12

14 L n11,...,n KL (p 11,..., p KL ) = P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ). Tällä tavalla ajatellen tuntuu täysin luonnolliselta ajatella, että mikäli kahden havaintoaineiston määräämät likelihood- funktiot ovat samat (ts. suoraan verrannolliset toisiinsa), pitäisi aineistojen perusteella parametreista tehtävien päätelmien myöskin olla samoja. Tätä periaatetta kutsutaan likelihood-periaatteeksi. (Huom.: Likelihood- funktiossa on tärkeätä vain sen muoto; vakiotermillä funktion edessä ei ole mitään merkitystä.) Tämän periaatteen mukaisesti on helppo todeta, että kaikkia havainnointiasetelmia 1 o 3 o voidaan käsitellä samalla tavalla. Kaavoissa (1.18) ja (1.19) todettiin, että asetelmiin 2 o ja 3 o liittyvät likelihood- funktiot ovat keskenään saman muotoisia. Lisäksi (1.18) voidaan kirjoittaa vaihtoehtoiseen muotoon merkitsemällä µ ij = np ij : P (N 11 = n 11,..., N KL = n KL ) = n! n 11! n KL! = n! n n e n K K L i=1 j=1 L i=1 j=1 p nij ij µ nij ij n ij! e µij, (1.20) sillä µ µ KL = n (p p KL )=n. Tämä osoittaa, että myös asetelmaan 1 o liittyviä havaintoja voidaan käsitellä kohtien 2 o ja 3 o tavoin, koska havaintojen määräämät likelihood- funktiot ovat samat. 13

15 1.6 ML- ja LR- periaatteet Korostettakoon aluksi, että valitun malliperheen parametrointi voidaan aina suorittaa lukemattomilla eri tavoilla; esimerkiksi multinomijakaumien (toistojen lukumääränä n) muodostama perhe voidaan parametroida joko sellitodennäköisyyksien p 11,..., p KL (p p KL =1) avulla tai aivan yhtä hyvin selliodotusarvojen µ 11,..., µ KL (µ µ KL = n) avulla, sillä µ ij = np ij. Jatkossa käytetään ehkä eniten odotusarvoihin liittyvää parametrointia. Kaavojen yksinkertaistamiseksi otetaan käyttöön merkinnät µ =(µ 1... µ p ), µ = µ(θ), θ Θ R p jossa θ sisältää kaikki oleelliset (vapaat) parametrit. Lisäksi merkitään N =(N N KL ). Tällöin likelihood- funktiota voidaan merkitä lyhyesti symbolilla L N (θ) =L N(µ(θ)), ja se siis kertoo, kuinka suurella todennäköisyydellä kukin malliperheen jäsen voisi tuottaa juuri havaitut havainnot. Voidaan tietysti ajatella, että L N (µ) samalla kertoo, kuinka uskottavalta kukin malliperheen jäsen havaintojen valossa näyttää. (Tästä juontaa juurensa likelihood- funktion nimi.) Määritelmä 1.1: Ns. maximum likelihood- (ML-) estimointiperiaatteella tarkoitetaan seuraavaa menettelytapaa: Käytetään µ:n estimaattina (arviona) sitä malliperheeseen kuuluvaa parametriarvoa, johon liittyvä jakauma voisi tuottaa juuri saadut havainnot muita malliperheen jäseniä suuremmalla todennäköisyydellä. Tämä luontevan tuntuinen periaate johtaa seuraavaan menettelyyn: Muodostetaan havaintojen määräämä likelihood- funktio L N (µ). Haetaan L N (µ) funktion maksimi µ:n suhteen malliperheen puitteissa ja merkitään sitä µ(n):llä. Näin määriteltyä havaintojen funktiota µ = µ(n) sanotaan µ:n ML- estimaattoriksi. Määritelmä 1.2: K x L- frekvenssitaulukon kuvaamiseen käytettävää multinomijakaumamallia, jossa parametrien µ ij välille ei ole asetettu mitään muita kytkentöjä kuin ehto µ µ KL = n, sanotaan saturoiduksi (kyllästetyksi) malliksi. (Jokaista sellifrekvenssiä kohti on ikioma parametri, joten oleellisten 14

16 parametrien määrää ei tästä enää voitaisi lisätä.) Esimerkki 1.3: ovat muotoa Saturoidun multinomijakauman parametrien ML- estimaattorit µ ij = N ij ja p ij = N ij n. Tämä nähdään helpoimmin tarkastelemalla likelihood- funktion logaritmia log L N (µ) log K L i=1 j=1 ( µij ) Nij n K L = K L log n + i=1 j=1 N ij log µ ij = K L log n + (i j) (K L) N ij log µ ij + N KL log n µ ij (i j) (K L). Tällöin log L N (µ) µ ij = N ij µ ij N KL µ KL kun (i j) (K L), joten kaikki osittaisderivaatat ovat nollia, kun N ij µ ij = vakio kaikilla i =1,..., K, j =1,..., L. Tästä seuraa, että µ ij = N ij, joten samalla p ij = N ij n. Määritelmä 1.3: Olkoon x =(x 1... x p ) R p mielivaltainen vektori. Ajatellaan, että kuvauksen g : R p R q, g(x) =(g 1 (x)... g q (x)) komponenttifunktioiden ensimmäiset osittaisderivaatat ovat hyvin määriteltyjä ja jatkuvia. 15

17 Derivaattamatriisilla Dg(x) tarkoitetaan tällöin osittaisderivaatoista muodostuvaa q x p- matriisia g 1(x) x 1... Dg(x) = g q(x) x 1... g 1(x) x p g q(x) x p. Huomautus 1.1: On helppo todeta, että yhdistetyn funktion f g(x) =f(g(x)) derivaattamatriisi on muotoa Df g(x) = Df(g(x)) Dg(x), (1.21) mikäli se on hyvin määritelty. Koulusta tuttu yhdistetyn funktion derivoimissääntö pätee siis myös vektoriarvoisille funktioille! Määritelmä 1.4: Havaintojen sisältämän, parametreja koskevan informaation määrää mittaavaksi informaatiomatriisiksi sanotaan p x p- matriisia I(θ) =cov(d θ log L N(θ) ). (1.22) Huomautus 1.2: Koska helposti voidaan osoittaa, että ED θ log L N (θ) =0, on itse asiassa I(θ) = ED θ log L N(θ) D θ log L N(θ) Lisäksi I(θ) = ( E ) log L θ N(θ) log L j θ N(θ) k voidaan lausua myös muodossa I(θ) = E D 2 θ log L N (θ). (1.23) = ) ( E 2 log L N θ j θ (θ) k. (1.24) 16

18 Kuten valtaosa kuulijoista varmasti jo tietää, asettaa I(θ) 1 rajat sille, miten tarkasti θ:n estimointi (virhevarianssin mielessä) voi ylipäätään onnistua, sillä E( θ θ)( θ θ) I(θ) 1, olipa θ mikä tahansa θ:n harhaton estimaattori. Merkitään nyt I 1 (θ) = 1 n I(θ), jolloin I 1(θ) mittaa siis informaation määrää havaintoyksikköä kohti laskettuna. Koska olemme olettaneet havaintoyksiköiden kohtalot toisistaan riippumattomiksi, ei I 1 (θ) siis riipu lainkaan n:stä. Voidaan osoittaa, että lievin likelihood- funktiota koskevin säännöllisyysoletuksin pätee ML- estimaattorien otantajakaumaa koskeva asymptoottinen tulos n ( θ θ) asympt. N p (0, I 1 (θ) 1 ). (1.25) Sama tulos voidaan kirjoittaa myös hieman epätäsmällisempään muotoon θ asympt. N p ( θ, I(θ) 1 ). Tästä nähdään, että ML- estimointiperiaate hyödyntää käytettävissä olevan havaintoinformaation asymptoottisesti optimaalisella tavalla. Näin ollen ML- estimaattorien sanotaan olevan asymptoottisesti tehokkaita. Saman tien voidaan todeta, että parametrijohdannaisen f(θ) R q ML- estimaattoriksi saadaan automaattisesti f( θ), jonka asymptoottinen otantajakauma on myöskin helppo selvittää. Koska ( ) 1 n (f( θ) f(θ)) = ndf(θ) ( θ θ)+op n, on n (f( θ) f(θ)) asympt. N q (0, Df(θ)I 1 (θ) 1 Df(θ) ). (1.26) ( ) 1 Tässä geneerinen symboli O P n tarkoittaa mitä tahansa satunnaismuuttujaa ( )) 1 (tai -jonoa), jolle lim n n var (O P n on äärellinen, positiivinen vakio. Tulokseen (1.26) liittyvää mahdollisuutta approksimoida kovarianssimatriisia cov(f( θ)) matriisilla Df(θ)I(θ) 1 Df(θ) sanotaan delta- menetelmäksi. 17

19 Esimerkki 1.4: Tarkastellaan luvussa 1.2 esiteltyä 2 x 2- taulukkoa ja ajatellaan, että sekä altistettuja että altistamattomia koehenkilöitä on valittu n o = 1 2 n kappaletta. Tällöin sairastumistodennäköisyyksien ML- estimaattorit kummassakin ryhmässä ovat p AS = N AS ja p n ĀS = NĀS. o n o Nämä estimaattorit ovat tietenkin toisistaan riippumattomia, ja toisaalta var ( p AS )= p AS(1 p AS ) n o ja var ( p ĀS )= pās (1 p ĀS ) n o. Tästä voidaan päätellä, että informaatiomatriisin inverssi on muotoa I 1 (p AS,p ĀS ) 1 = 1 ( ) pas (1 p AS ) 0. n o 0 p ĀS (1 p ĀS ) Odds ration logaritmin log (OR) = log [ pas 1 ] pās = f(p AS,p 1 p AS p ĀS ) ĀS ML- estimaattoriksi saadaan [ ] log (ÔR) = log N AS no N ĀS n o N AS jonka asymptoottinen varianssi saadaan selville delta- menetelmän avulla seuraavasti: f = 1 p AS 1 p AS + p AS p AS p AS (1 p AS ) 2 1 =, p AS (1 p AS ) N ĀS, joten f p ĀS = 1 p ĀS (1 p ĀS ) ) var (log (ÔR) 1 [ ] 1 n o p AS (1 p AS ) + 1 p ĀS (1 p ĀS ).. Likelihood- funktiota L N (µ) voidaan luontevasti hyödyntää myös hypoteesien testaamisessa: Ajatellaan, että tarkastelukehikkona toimiva yleishypoteesi (yleismalli) voidaan kirjoittaa muotoon H : µ M= {µ =(µ µ KL ) µ µ KL = n + muut mahdolliset rajoitukset } ja että M o M on jokin tätä suppeampi parametriavaruuden osa. 18

20 Ns. nollahypoteesin H o : µ M o realistisuutta havaintojen valossa voidaan arvioida osamäärän Λ N = max µ M o L N (µ) max µ M L N (µ) perusteella. Merkitään H o - hypoteesin puitteissa muodostettua ML- estimaattoria symbolilla µ o. Tällöin siis Λ N = L N( µ o ) L N ( µ). Kuten Tilastollinen päättely 1- ja 2- kursseilla opetettiin, pätee lievin M o :aa ja L N (µ)- funktiota koskevin säännöllisyysoletuksin tulos 2 log Λ N asympt. χ 2 q, jossa q = dim(m) dim(m o ). Referenssijakauman vapausastemäärä määräytyy siis H o - hypoteesissa eliminoitujen parametrien lukumäärän mukaisesti. Jos nyt M vastaa saturoitua mallia (ts. µ:tä ei a priori koske muita rajoituksia kuin µ µ KL = n ), on µ ij = N ij i =1,..., K, j =1,..., L, joten Tällöin siis ja L N ( µ) = n! N 11! N KL! ( µ o Λ N = 11 N 11 ( N11 n ) N11 ( NKL n ) N11 ( ) µ o NKL KL N KL ) NKL. 2 log Λ N = 2 K L i=1 j=1 N ij log ( N ij µ o ). (1.27) ij 19

21 Tätä suuretta kutsutaan yleensä devianceksi (merkitään 2 log Λ N = dev N (H o ) ), ja se sopii sellaisenaan erinomaisesti testisuureeksi hypoteesin H o realistisuutta arvioitaessa. Mikäli kaikki sellifrekvenssit ovat riittävän suuria, voidaan deviancea luottavaisin mielin verrata χ 2 q- jakauman fraktiileihin. Suureen (1.27) rakennetta kannattaa verrata peruskurssilta tuttuun Pearsonin χ 2 - testisuureeseen K L i=1 j=1 (N ij µ o ij )2 µ o ij, (1.28) jonka asymptoottisen otantajakauman pitäisi olla niinikään χ 2 q- jakauman muotoinen hypoteesin H o vallitessa. Testisuureet (1.27) ja (1.28) saattavat erota toisistaan paljonkin ja niiden avulla voidaan joskus päätyä erilaisiin tulkintoihin H o :n uskottavuudesta havaintoaineiston N valossa. Deviancella on sekin houkutteleva ominaisuus, että jos hypoteesi M 1 M näyttää havaintojen valossa kovin uskottavalta ja yleismallia halutaan supistaa sen mukaiseksi, saadaan hypoteesin M o M 1 testaamiseen sopiva testisuure deviancien erotuksena seuraavasti: 2 [ log L N ( µ o ) log L N ( µ 1 )] = 2 [ log L N ( µ o ) log L N ( µ)] + 2 [ log L N ( µ 1 ) log L N ( µ)] (1.29) = dev N (H o ) dev N (H 1 ). 20

22 2 LOG- LINEAARISET TODENNÄKÖISYYSMALLIT 2.1 Kolmiulotteisten frekvenssitaulukoiden kuvaaminen Luvussa 1.3 todettiin jo alustavasti, että kaksiulotteisia K x L- taulukoita analysoitaessa voidaan mukavasti hyödyntää varianssianalyyttista puhetapaa, koska loglineaarisissa todennäköisyysmalleissa interaktioiden häviäminen vastasi luokittelijoiden välistä riippumattomuutta. Varianssianalyyttisen puhetavan varsinaiset edut tulevat kuitenkin näkyviin vasta kolmi- tai useampiulotteisia taulukoita analysoitaessa. Tässä luvussa esitellään tuon puhetavan tarjoamia mahdollisuuksia kolmiulotteisten taulukoiden osalta. Yleistämismahdollisuudet monimutkaisempiin tilanteisiin ovat ilmeiset. Esimerkki 2.1: Tarkastellaan esimerkkinä 2 x 2 x 2- taulukkoa, joka saatiin, kun erääseen 4.5 vuotta kestäneeseen seurantatutkimukseen osallistuneista koehenkilöistä jätettiin pois kaikki ne, joille kehittyi sydänvika seurantajakson aikana, sekä ne, jotka olivat seuranta-aikana harjoittaneet säännöllistä, voimaperäistä liikuntaa. Jäljelle jäi 2121 koehenkilöä, jotka luokitettiin persoonallisuustyypin ( A/B), veren kolesterolitason (normaali / korkea) sekä diastolisen verenpaineen (normaali / korkea) suhteen. Saatiin seuraava taulukko: Persoonallisuus- Koles- Verenpaine tyyppi teroli normaali korkea A normaali korkea B normaali korkea Kolmiulotteisten K x L x M- frekvenssitaulukoiden kuvaamiseen voidaan useimmiten soveltaa jotakin luvussa 1.5 mainittua mallia, ts. multinomijakaumamallia, tulomuotoista multinomijakaumamallia tai toisistaan riippumatomista Poissonmuuttujista koostuvaa mallia. Kuten tuolloin todettiin, ovat johtopäätökset aina samat, käytettiinpä mitä lueteltua mallityyppiä tahansa. Merkitään sellitodennäköisyyksiä nyt symbolein p ijk ja selliodotusarvoja symbolein µ ijk (i = 1,..., K, j = 1,..., L, k = 1,..., M). (Todennäköisyys- ja odotusarvoparametreihin saattaa liittyä otanta-asetelmasta johtuvia rajoitteita.) Ajatellaan, että indeksi i vastaa luokittelijan X eri tasoja, indeksi j luokittelijan Y tasoja ja indeksi k luokittelijan Z tasoja. Tällöin odotusarvoparametrit 21

23 µ ijk (tai todennäköisyysparametrit p ijk ) voidaan korvata varianssianalyyttisellä parametroinnilla log µ ijk = α + λ X i + λ Y j + λ Z k + λ XY ij + λ YZ jk + λ XZ ik + λ XY Z ijk i =1,..., K, j =1,..., L, k =1,..., M, (2.1) jossa λ- parametreja kutsutaan päävaikutuksiksi tai interaktioiksi aivan samaan tapaan kuin varianssianalyysissa on tapana. Yliparametroinnin välttämiseksi voidaan esimerkiksi edellyttää, että kunkin λ- parametrityypin summa jokaisen indeksin suhteen on =0 kaikilla muiden indeksien arvoilla, ts. M k=1 λ XY Z ijk =0 kaikilla i =1,..., K, j =1,..., L ja niin edelleen. (2.2) Nämä rajoitteet huomioon ottaen jää malliin juuri K L M vapaata parametria. (Huomautus: Otanta-asetelmasta johtuvat side-ehdot tulevat vielä rajoitteiden (2.2) lisäksi.) Mikäli λ- parametrit halutaan lausua µ- parametrien (tai p- parametrien) avulla, saadaan α = 1 KLM K L M i=1 j=1 k=1 log µ ijk, λ X i = 1 LM L M j=1 k=1 log µ ijk α, λ XY ij = 1 M M k=1 log µ ijk (α + λ X i + λ Y j ), λ XY ijk Z = log µ ijk (α + λ X i + λ Y j + λz k + λxy ij + λ XZ ik + λ YZ jk ), ja niin edelleen. 22

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

TKK @ Ilkka Mellin (2008) 1/5

TKK @ Ilkka Mellin (2008) 1/5 Mat-1.2620 Sovellettu todennäköisyyslaskenta B / Tehtävät Demo-tehtävät: 1, 3, 6, 7 Pistetehtävät: 2, 4, 5, 9 Ylimääräiset tehtävät: 8, 10, 11 Aiheet: Moniulotteiset jakaumat Avainsanat: Diskreetti jakauma,

Lisätiedot

w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1.

w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1. Kotitehtävät, tammikuu 2011 Vaikeampi sarja 1. Ratkaise yhtälöryhmä w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1. Ratkaisu. Yhtälöryhmän ratkaisut (w, x, y, z)

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 11.6.2012 klo 10 13 Ratkaisut ja pisteytysohjeet

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 11.6.2012 klo 10 13 Ratkaisut ja pisteytysohjeet Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 11.6.01 klo 10 13 t ja pisteytysohjeet 1. Ratkaise seuraavat yhtälöt ja epäyhtälöt. (a) 3 x 3 3 x 1 4, (b)

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13

Lisätiedot

7. laskuharjoituskierros, vko 10, ratkaisut

7. laskuharjoituskierros, vko 10, ratkaisut 7. laskuharjoituskierros, vko 10, ratkaisut D1. a) Oletetaan, että satunnaismuuttujat X ja Y noudattavat kaksiulotteista normaalijakaumaa parametrein E(X) = 0, E(Y ) = 1, Var(X) = 1, Var(Y ) = 4 ja Cov(X,

Lisätiedot

ATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1

ATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 ATH-koulutus: R ja survey-kirjasto THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelman kuvaaminen R:llä ja survey-kirjastolla Perustunnusluvut Regressioanalyysit 16. 2. 2011

Lisätiedot

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi Antti Rasila Aalto-yliopisto Syksy 2015 Antti Rasila (Aalto-yliopisto) MS-A0202 Syksy 2015 1

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

110. 111. 112. 113. 114. 4. Matriisit ja vektorit. 4.1. Matriisin käsite. 4.2. Matriisialgebra. Olkoon A = , B = Laske A + B, 5 14 9, 1 3 3

110. 111. 112. 113. 114. 4. Matriisit ja vektorit. 4.1. Matriisin käsite. 4.2. Matriisialgebra. Olkoon A = , B = Laske A + B, 5 14 9, 1 3 3 4 Matriisit ja vektorit 4 Matriisin käsite 42 Matriisialgebra 0 2 2 0, B = 2 2 4 6 2 Laske A + B, 2 A + B, AB ja BA A + B = 2 4 6 5, 2 A + B = 5 9 6 5 4 9, 4 7 6 AB = 0 0 0 6 0 0 0, B 22 2 2 0 0 0 6 5

Lisätiedot

Johdatus tn-laskentaan torstai 16.2.2012

Johdatus tn-laskentaan torstai 16.2.2012 Johdatus tn-laskentaan torstai 16.2.2012 Muunnoksen jakauma (ei pelkkä odotusarvo ja hajonta) Satunnaismuuttujien summa; Tas ja N Vakiokerroin (ax) ja vakiolisäys (X+b) Yleinen muunnos: neulanheittoesimerkki

Lisätiedot

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus

Lisätiedot

Reaalifunktioista 1 / 17. Reaalifunktioista

Reaalifunktioista 1 / 17. Reaalifunktioista säilyy 1 / 17 säilyy Jos A, B R, niin funktiota f : A B sanotaan (yhden muuttujan) reaalifunktioksi. Tällöin karteesinen tulo A B on (aiempia esimerkkejä luonnollisemmalla tavalla) xy-tason osajoukko,

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 31.03.2012 klo. 9.00-12.00 saleissa L1,L3 Jukka Kemppainen Mathematics

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21 säilyy Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla c b a 1 2 3 5 1 / 21 säilyy Esimerkkirelaatio R = {(1, b), (3, a), (5, a), (5, c)} c b a 1

Lisätiedot

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1 2 k -faktorikokeet Vilkkumaa / Kuusinen 1 Motivointi 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta

Lisätiedot

1.4 Funktion jatkuvuus

1.4 Funktion jatkuvuus 1.4 Funktion jatkuvuus Kun arkikielessä puhutaan jonkin asian jatkuvuudesta, mielletään asiassa olevan jonkinlaista yhtäjaksoisuutta, katkeamattomuutta. Tässä ei kuitenkaan käsitellä työasioita eikä ihmissuhteita,

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta Tuloperiaate Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta ja 1. vaiheessa valinta voidaan tehdä n 1 tavalla,. vaiheessa valinta voidaan tehdä n tavalla,

Lisätiedot

Todennäköisyysjakaumia

Todennäköisyysjakaumia 8.9.26 Kimmo Vattulainen Todennäköisyysjakaumia Seuraavassa esitellään kurssilla MAT-25 Todennäköisyyslaskenta esille tulleita diskreettejä todennäköisyysjakaumia Diskreetti tasajakauma Bernoullijakauma

Lisätiedot

Logistinen regressio, separoivat hypertasot

Logistinen regressio, separoivat hypertasot Logistinen regressio, separoivat hypertasot Topi Sikanen Logistinen regressio Aineisto jakautunut K luokkaan K=2 tärkeä erikoistapaus Halutaan mallintaa luokkien vedonlyöntikertoimia (odds) havaintojen

Lisätiedot

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 10.6.2013 klo 10-13 Ratkaisut ja pisteytysohjeet

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 10.6.2013 klo 10-13 Ratkaisut ja pisteytysohjeet Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe.6. klo - Ratkaisut ja pisteytysohjeet. Ratkaise seuraavat epäyhtälöt ja yhtälö: a) x+ x +9, b) log (x) 7,

Lisätiedot

Insinöörimatematiikka A

Insinöörimatematiikka A Insinöörimatematiikka A Demonstraatio 3, 3.9.04 Tehtävissä 4 tulee käyttää Gentzenin järjestelmää kaavojen johtamiseen. Johda kaava φ (φ ) tyhjästä oletusjoukosta. ) φ ) φ φ 3) φ 4) φ (E ) (E ) (I, ) (I,

Lisätiedot

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio: Inversio-ongelmista Craig, Brown: Inverse problems in astronomy, Adam Hilger 1986. Havaitaan oppositiossa olevaa asteroidia. Pyörimisestä huolimatta sen kirkkaus ei muutu. Projisoitu pinta-ala pysyy ilmeisesti

Lisätiedot

f(x, y) = x 2 y 2 f(0, t) = t 2 < 0 < t 2 = f(t, 0) kaikilla t 0.

f(x, y) = x 2 y 2 f(0, t) = t 2 < 0 < t 2 = f(t, 0) kaikilla t 0. Ääriarvon laatu Jatkuvasti derivoituvan funktion f lokaali ääriarvokohta (x 0, y 0 ) on aina kriittinen piste (ts. f x (x, y) = f y (x, y) = 0, kun x = x 0 ja y = y 0 ), mutta kriittinen piste ei ole aina

Lisätiedot

RISTIINTAULUKOINTI JA Χ 2 -TESTI

RISTIINTAULUKOINTI JA Χ 2 -TESTI RISTIINTAULUKOINTI JA Χ 2 -TESTI Kvantitatiiviset tutkimusmenetelmät maantieteessä Ti 27.10.2015, To 2.11.2015 Miisa Pietilä & Laura Hokkanen miisa.pietila@oulu.fi laura.hokkanen@outlook.com KURSSIKERRAN

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Jakaumien tunnusluvut TKK (c) Ilkka Mellin (2007) 1 Jakaumien tunnusluvut >> Odotusarvo Varianssi Markovin ja Tshebyshevin

Lisätiedot

1 Kannat ja kannanvaihto

1 Kannat ja kannanvaihto 1 Kannat ja kannanvaihto 1.1 Koordinaattivektori Oletetaan, että V on K-vektoriavaruus, jolla on kanta S = (v 1, v 2,..., v n ). Avaruuden V vektori v voidaan kirjoittaa kannan vektorien lineaarikombinaationa:

Lisätiedot

3.11.2006. ,ܾ jaü on annettu niin voidaan hakea funktion 0.1 0.2 0.3 0.4

3.11.2006. ,ܾ jaü on annettu niin voidaan hakea funktion 0.1 0.2 0.3 0.4 Ü µ ½ ¾Ü¾µ Ü¾Ê 3.11.2006 1. Satunnaismuuttujan tiheysfunktio on ¼ ļ ܽ ܾ ÜÒµ Ä Ü½ ÜÒµ Ò Ä Ü½ ܾ ÜÒµ ܽ µ ܾ µ ÜÒ µ Ò missä tietenkin vaaditaan, että ¼. Muodosta :n ¾Ä ܽ ÜÒµ Ò ½¾ ܾ Ò ½ ¾Ü¾½µ ½ ¾Ü¾Òµ

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

5 Osa 5: Ohjelmointikielen perusteita

5 Osa 5: Ohjelmointikielen perusteita 5 Osa 5: Ohjelmointikielen perusteita 5.1 Omat funktiot R on lausekekieli: Kaikki komennot kuten funktiokutsut ja sijoitusoperaatiot ovat lausekkeita. Lausekkeet palauttavat jonkin arvon. Lausekkeita voidaan

Lisätiedot

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö 3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö Yhtälön (tai funktion) y = a + b + c, missä a 0, kuvaaja ei ole suora, mutta ei ole yhtälökään ensimmäistä astetta. Funktioiden

Lisätiedot

Matematiikka B2 - Avoin yliopisto

Matematiikka B2 - Avoin yliopisto 6. elokuuta 2012 Opetusjärjestelyt Luennot 9:15-11:30 Harjoitukset 12:30-15:00 Tentti Kurssin sisältö (1/2) Matriisit Laskutoimitukset Lineaariset yhtälöryhmät Gaussin eliminointi Lineaarinen riippumattomuus

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 1 1 Matemaattisesta päättelystä Matemaattisen analyysin kurssin (kuten minkä tahansa matematiikan kurssin) seuraamista helpottaa huomattavasti, jos opiskelija ymmärtää

Lisätiedot

Hypoteesin testaus Alkeet

Hypoteesin testaus Alkeet Hypoteesin testaus Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Johdanto Kokeellinen tutkimus: Varmennetaan teoreettista olettamusta fysikaalisen systeemin käyttäytymisestä

Lisätiedot

Nollasummapelit ja bayesilaiset pelit

Nollasummapelit ja bayesilaiset pelit Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

STOKASTISET PROSESSIT

STOKASTISET PROSESSIT TEORIA STOKASTISET PROSESSIT Satunnaisuutta sisältävän tapahtumasarjan kulkua koskevaa havaintosarjaa sanotaan aikasarjaksi. Sana korostaa empiirisen, kokeellisesti havaitun tiedon luonnetta. Aikasarjan

Lisätiedot

2.2 Neliöjuuri ja sitä koskevat laskusäännöt

2.2 Neliöjuuri ja sitä koskevat laskusäännöt . Neliöjuuri ja sitä koskevat laskusäännöt MÄÄRITELMÄ 3: Lukua b sanotaan luvun a neliöjuureksi, merkitään a b, jos b täyttää kaksi ehtoa: 1o b > 0 o b a Esim.1 Määritä a) 64 b) 0 c) 36 a) Luvun 64 neliöjuuri

Lisätiedot

14 Jatkuva jakauma. Käsitellään kuitenkin ennen täsmällisiä määritelmiä johdatteleva

14 Jatkuva jakauma. Käsitellään kuitenkin ennen täsmällisiä määritelmiä johdatteleva 4 Jatkuva jakauma Edellä määriteltiin diskreetiksi satunnaismuuttujaksi sellainen, joka voi saada vain (hyppäyksittäin) erillisiä arvoja. Jatkuva satunnaismuuttuja voi saada mitä hyvänsä arvoja yleensä

Lisätiedot

Perusnäkymä yksisuuntaiseen ANOVAaan

Perusnäkymä yksisuuntaiseen ANOVAaan Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Aluksi. 1.1. Kahden muuttujan lineaarinen yhtälö

Aluksi. 1.1. Kahden muuttujan lineaarinen yhtälö Aluksi Matematiikan käsite suora on tarkalleen sama asia kuin arkikielen suoran käsite. Vai oliko se toisinpäin? Matematiikan luonteesta johtuu, että sen soveltaja ei tyydy pelkkään suoran nimeen eikä

Lisätiedot

renkaissa. 0 R x + x =(0 R +1 R )x =1 R x = x

renkaissa. 0 R x + x =(0 R +1 R )x =1 R x = x 8. Renkaat Tarkastelemme seuraavaksi rakenteita, joissa on määritelty kaksi assosiatiivista laskutoimitusta, joista toinen on kommutatiivinen. Vaadimme näiltä kahdella laskutoimituksella varustetuilta

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

Kvanttimekaniikan tulkinta

Kvanttimekaniikan tulkinta Kvanttimekaniikan tulkinta 20.1.2011 1 Klassisen ja kvanttimekaniikan tilastolliset formuloinnit 1.1 Klassinen mekaniikka Klassisen mekaniikan systeemin tilaa kuvaavat kappaleiden koordinaatit ja liikemäärät

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs) 9. Muita koeasetelmia 9.1 Hierarkiset asetelmat (Nested Designs) Tietyissä koetilanteissa yhden faktorin tasot ovat samanlaisia joskaan ei täysin identtisiä toisen faktorin eri tasoilla. Tällaista asetelmaa

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

Verkot ja todennäköisyyslaskenta Verkko Verkko eli graafi muodostuu pisteiden joukosta V, särmien joukosta A ja insidenssikuvauksesta : A V V jossa

Verkot ja todennäköisyyslaskenta Verkko Verkko eli graafi muodostuu pisteiden joukosta V, särmien joukosta A ja insidenssikuvauksesta : A V V jossa Mat-.6 Sovellettu todennäköisyyslaskenta B Mat-.6 Sovellettu todennäköisyyslaskenta B / Ratkaisut Aiheet: Verkot ja todennäköisyyslaskenta Satunnaismuuttujat ja todennäköisyysjakaumat Kertymäfunktio Jakaumien

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA 9.2.2011

PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA 9.2.2011 PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA 9..0 Kokeessa saa vastata enintään kymmeneen tehtävään.. Sievennä a) 9 x x 6x + 9, b) 5 9 009 a a, c) log 7 + lne 7. Muovailuvahasta tehty säännöllinen tetraedri muovataan

Lisätiedot

Preliminäärikoe Tehtävät Pitkä matematiikka 4.2.2014 1 / 3

Preliminäärikoe Tehtävät Pitkä matematiikka 4.2.2014 1 / 3 Preliminäärikoe Tehtävät Pitkä matematiikka / Kokeessa saa vastata enintään kymmeneen tehtävään Tähdellä (* merkittyjen tehtävien maksimipistemäärä on 9, muiden tehtävien maksimipistemäärä on 6 Jos tehtävässä

Lisätiedot

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking) 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää

Lisätiedot

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 Sisällysluettelo ALKUSANAT 4 ALKUSANAT E-KIRJA VERSIOON 5 SISÄLLYSLUETTELO 6 1 PERUSASIOITA JA AINEISTON SYÖTTÖ 8 11 PERUSNÄKYMÄ 8 12 AINEISTON SYÖTTÖ VERSIOSSA 9 8 Muuttujan määrittely versiossa 9 11

Lisätiedot

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta 4 Riippuvuus 1 Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta x 2 = sisaruksien luku- Tarkastellaan äidin ja lapsen pituuden välistä riippuvuutta havaintomatriisilla, joka on

Lisätiedot

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,

Lisätiedot

Mat-2.3114 Investointiteoria Laskuharjoitus 3/2008, Ratkaisut 05.02.2008

Mat-2.3114 Investointiteoria Laskuharjoitus 3/2008, Ratkaisut 05.02.2008 Korko riippuu usein laina-ajan pituudesta ja pitkille talletuksille maksetaan korkeampaa korkoa. Spot-korko s t on se korko, joka kertyy lainatulle pääomalle hetkeen t (=kokonaisluku) mennessä. Spot-korot

Lisätiedot

MAA9.2 2014 Jussi Tyni Lue ohjeet huolellisesti! Tee pisteytysruudukko konseptin yläkertaan. Muista kirjoittaa nimesi. Kysymyspaperin saa pitää.

MAA9.2 2014 Jussi Tyni Lue ohjeet huolellisesti! Tee pisteytysruudukko konseptin yläkertaan. Muista kirjoittaa nimesi. Kysymyspaperin saa pitää. MAA9. 014 Jussi Tyni Lue ohjeet huolellisesti! Tee pisteytysruudukko konseptin yläkertaan. Muista kirjoittaa nimesi. Kysymyspaperin saa pitää. A-OSIO: Ei saa käyttää laskinta. MAOL saa olla esillä. Maksimissaan

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

1.7 Gradientti ja suunnatut derivaatat

1.7 Gradientti ja suunnatut derivaatat 1.7 Gradientti ja suunnatut derivaatat Funktion ensimmäiset osittaisderivaatat voidaan yhdistää yhdeksi vektorifunktioksi seuraavasti: Missä tahansa pisteessä (x, y), jossa funktiolla f(x, y) on ensimmäiset

Lisätiedot

Kaikkia alla olevia kohtia ei käsitellä luennoilla kokonaan, koska osa on ennestään lukiosta tuttua.

Kaikkia alla olevia kohtia ei käsitellä luennoilla kokonaan, koska osa on ennestään lukiosta tuttua. 6 Alkeisfunktiot Kaikkia alla olevia kohtia ei käsitellä luennoilla kokonaan, koska osa on ennestään lukiosta tuttua. 6. Funktion määrittely Funktio f : A B on sääntö, joka liittää jokaiseen joukon A alkioon

Lisätiedot

Todennäköisyys (englanniksi probability)

Todennäköisyys (englanniksi probability) Todennäköisyys (englanniksi probability) Todennäköisyyslaskenta sai alkunsa 1600-luvulla uhkapeleistä Ranskassa (Pascal, Fermat). Nykyisin todennäköisyyslaskentaa käytetään hyväksi mm. vakuutustoiminnassa,

Lisätiedot

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma Diskreetit todennäköisyysjakaumat Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma Satunnaismuuttuja Satunnaisilmiö on ilmiö, jonka lopputulokseen sattuma vaikuttaa Satunnaismuuttuja on muuttuja,

Lisätiedot

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages 17.6.2013. Esa Virtala. etunimi.sukunimi@thl.

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages 17.6.2013. Esa Virtala. etunimi.sukunimi@thl. Health 2000/2011 Surveys Statistical Analysis using SAS and SAS-Callable SUDAAN Packages 17.6.2013 Esa Virtala etunimi.sukunimi@thl.fi Terveyden ja hyvinvoinnin laitos (THL) PL 30 00271 Helsinki Puhelin:

Lisätiedot

Pyramidi 9 Trigonometriset funktiot ja lukujonot 15.4.2011 HK1-1. Dsin3 x. 3cos3x. Dsinx. u( x) sinx ja u ( x) cosx. Dsin. Dsin

Pyramidi 9 Trigonometriset funktiot ja lukujonot 15.4.2011 HK1-1. Dsin3 x. 3cos3x. Dsinx. u( x) sinx ja u ( x) cosx. Dsin. Dsin Pyramidi 9 Trigonometriset funktiot ja lukujonot 5.4.0 HK- a) Dsin3 us ( ) cos3 3 us( ) s( ) 3cos3 s( ) 3 ja s( ) 3 u( ) sin ja u( ) cos b) Dsin 3 3 Dsin us ( ) s( ) sin ja s( ) cos 3 u( ) ja u( ) 3 3sin

Lisätiedot

2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2

2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2 .3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. Toisen asteen yhtälön a + b + c 0 ratkaisukaavassa neliöjuuren alla olevaa lauseketta b b 4ac + a b b 4ac a D b 4 ac sanotaan yhtälön

Lisätiedot

Mat-2.148 Dynaaminen optimointi, mallivastaukset, kierros 5

Mat-2.148 Dynaaminen optimointi, mallivastaukset, kierros 5 Mat-2.148 Dynaaminen optimointi, mallivastaukset, kierros 5 1. Kotitehtävä. 2. Lasketaan aluksi korkoa korolle. Jos korkoprosentti on r, ja korko maksetaan n kertaa vuodessa t vuoden ajan, niin kokonaisvuosikorko

Lisätiedot

5.2 Ensimmäisen asteen yhtälö

5.2 Ensimmäisen asteen yhtälö 5. Ensimmäisen asteen ytälö 5. Ensimmäisen asteen yhtälö Aloitetaan antamalla nimi yhtälön osille. Nyt annettavat nimet eivät riipu yhtälön tyypistä tai asteesta. Tarkastellaan seuraavaa yhtälöä. Emme

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

Helsingin, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 9.6.2014 klo 10 13

Helsingin, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 9.6.2014 klo 10 13 Helsingin, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe 9.6.014 klo 10 13 1. Ratkaise seuraavat yhtälöt ja epäyhtälöt: x + a) 3 x + 1 > 0 c) x x + 1 = 1 x 3 4 b) e x + e x 3

Lisätiedot

Aki Taanila LINEAARINEN OPTIMOINTI

Aki Taanila LINEAARINEN OPTIMOINTI Aki Taanila LINEAARINEN OPTIMOINTI 26.4.2011 JOHDANTO Tässä monisteessa esitetään lineaarisen optimoinnin alkeet. Moniste sisältää tarvittavat Excel ohjeet. Viimeisin versio tästä monisteesta ja siihen

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 8 1 Suunnattu derivaatta Aluksi tarkastelemme vektoreita, koska ymmärrys vektoreista helpottaa alla olevien asioiden omaksumista. Kun liikutaan tasossa eli avaruudessa

Lisätiedot

Empiirinen projekti. Olli-Matti Laine Kauppatieteet

Empiirinen projekti. Olli-Matti Laine Kauppatieteet Empiirinen projekti Olli-Matti Laine Kauppatieteet 1 Contents 1. Johdanto... 3 2. Kuvaileva osa... 4 3. Analyysiosa... 17 4. Yhteenveto... 35 2 1. Johdanto Tutkin projektissa tilastollisin menetelmin kansantaloudellisia

Lisätiedot

Suora 1/5 Sisältö ESITIEDOT: vektori, koordinaatistot, piste

Suora 1/5 Sisältö ESITIEDOT: vektori, koordinaatistot, piste Suora 1/5 Sisältö KATSO MYÖS:, vektorialgebra, geometriset probleemat, taso Suora geometrisena peruskäsitteenä Pisteen ohella suora on geometrinen peruskäsite, jota varsinaisesti ei määritellä. Alkeisgeometriassa

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

jakokulmassa x 4 x 8 x 3x

jakokulmassa x 4 x 8 x 3x Laudatur MAA ratkaisut kertausarjoituksiin. Polynomifunktion nollakodat 6 + 7. Suoritetaan jakolasku jakokulmassa 5 4 + + 4 8 6 6 5 4 + 0 + 0 + 0 + 0+ 6 5 ± 5 5 4 ± 4 4 ± 4 4 ± 4 8 8 ± 8 6 6 + ± 6 Vastaus:

Lisätiedot

Outoja funktioita. 0 < x x 0 < δ ε f(x) a < ε.

Outoja funktioita. 0 < x x 0 < δ ε f(x) a < ε. Outoja funktioita Differentiaalilaskentaa harjoitettiin miltei 200 vuotta ennen kuin sen perustana olevat reaaliluvut sekä funktio ja sen raja-arvo määriteltiin täsmällisesti turvautumatta geometriseen

Lisätiedot

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto Tutkimusaineistomme otantoja Hyödyt Ei tarvitse tutkia kaikkia Oikein tehty otanta mahdollistaa yleistämisen

Lisätiedot