Luokitettujen aineistojen analysointi

Koko: px
Aloita esitys sivulta:

Download "Luokitettujen aineistojen analysointi"

Transkriptio

1 Luokitettujen aineistojen analysointi (805334A/805678S) luentomuistiinpanot syksyllä 2007 Markku Rahiala

2 1 JOHDANTO 1.1 Diskreetteihin muuttujiin liittyvää todennäköisyyslaskentaa Kuten Tilastotieteen perusteet- kurssilla aikanaan määriteltiin, tarkoitetaan diskreetillä satunnaismuuttujalla muuttujaa, jolla on vain äärellinen tai korkeintaan numeroituva määrä erilaisia mahdollisia arvoja. Niinpä diskreetin satunnaismuuttujan X jakauma voidaankin esittää kaikkein luontevimmin ns. pistetodennäköisyyksien p j = P (X = x j ) j =1, 2,... avulla. Symbolit x 1,x 2,... tarkoittavat X:n mahdollisia arvoja ja niiden muodostamaa joukkoa S X = {x j } sanotaan X:n supportiksi. (Huom.: Arvot x j eivät välttämättä ole reaalilukuja.) Mikäli x j :t ovat jonkin vektoriavaruuden alkioita, voidaan X:n odotusarvo määritellä muodossa EX = j p j x j. (1.1) Samaan tapaan voidaan tietysti laskea myös X:n erilaisten funktioiden odotusarvoja Eg(X) = j p j g(x j ), (1.2) joista esimerkkinä mainittakoon var(x) = E(X EX) 2 = j p j (x j EX) 2 = j 2 p j x 2 j p j x j. j Aikaisemmilla kursseilla on jo esitelty ns. Poisson- jakauma, jonka pistetodennäköisyydet ovat muotoa p j = P (X = x j )= λj j! e λ j =0, 1, 2,... (1.3) jossa λ>0 on parametrin asemassa. Tälle jakaumaperheelle löytyy paljon käyttöä tälläkin kurssilla, sillä erilaiset havaitut frekvenssit ovat aina ei-negatiivisia kokonaislukuja. Palautettakoon mieliin, että Poisson- muuttujan X odotusarvo ja varianssi ovat EX = λ ja var(x) = λ. Toinen keskeinen jakaumatyyppi tällä kurssilla tulee olemaan ns. multinomijakauma: Ajatellaan, että n- kertaisen toistokokeen jokaisella koetoistolla on k 1

3 erilaista tulosvaihtoehtoa. Merkitään symbolein X 1,..., X k kunkin tulostyypin lukumäärää n toistossa. (Tällöin tietysti aina X X k n.)kombinatorisin perustein on helppo todeta, että ainoa tilanteeseen sopiva jakaumamalli on seuraavaa muotoa: Merkitään tulosvaihtoehtojen todennäköisyyksiä kussakin koetoistossa symbolein p 1,..., p k ( p p k =1) ja asetetaan P (X 1 = x 1,..., X k = x k ) = n! x 1! x k! px1 1 px k k (1.4) kun x x k = n, x j N, j =1,..., k. Todennäköisyydet p 1,..., p k ovat tässä tapauksessa parametrien asemassa. Jos k =2, voidaan ajatella, että toinen tulosvaihtoehdoista vastaa kokeen onnistumista ja toinen epäonnistumista. Tällöin tilanne on aivan saman kaltainen kuin binomijakaumaa johdettaessa. Näin ollen on luonnollista, että (1.4):n mukaan tällöin P (X 1 = x 1 ) = P (X 1 = x 1,X 2 = n x 1 ) = n! x 1!(n x 1 )! px1 1 (1 p 1) n x1 kun x 1 N, 0 x 1 n. Multinomijakauma on siis vain binomijakauman luonteva yleistys tilanteeseen, jossa tulosvaihtoehtoja on enemmän kuin kaksi. Binomijakauman ominaisuuksiin vedoten on helppo todeta, että EX j = np j ja var(x) =np j (1 p j ) j =1,..., k. (1.5) Lisäksi voidaan todeta, että joten EX i X j = n(n 1)p i p j cov(x i,x j )=EX i X j EX i EX j = np i p j. (1.6) Niinikään binomijakaumatulkintaan perustuen voidaan todeta, että järkevin tapa estimoida todennäköisyysparametrit p j on ilmeisesti käyttää estimaattoreita p j = X j n, j =1,..., k, (1.7) ts. eri tulosvaihtoehtojen koetoistosarjassa havaittuja suhteellisia frekvenssejä. 2

4 1.2 2 x 2 kontingenssitaulukot Ajatellaan, että n koehenkilöstä osa altistuu tekijälle A, jonka epäillään lisäävän sairauden S vaaraa. Seurataan koehenkilöiden kohtaloita jonkin aikaa ja katsotaan, ketkä sairastuvat tautiin S seuranta-ajan kuluessa. Tulokset on luontevinta esittää 2 x 2- taulukon muodossa Sairastuminen S S Altis- A N AS N A S N A tus Ā N ĀS N Ā S N Ā N S N S n Tällaisia taulukoita sanotaan kontingenssitaulukoiksi. On helppo huomata, että tilanne on juuri sellainen, jota kuvaamaan multinomijakauma konstruoitiin. Vaikka kyseessä tällä kertaa onkin kahden kaksiarvoisen muuttujan yhteisjakauma, on multinomijakauma tietysti ainoa luonteva malli tilanteelle. Jakauman todennäköisyysparametreista voidaan muodostaa vastaava taulukko Sairastuminen S S Altis- A p AS p A S p A tus Ā p ĀS p Ā S p Ā p S p S 1 Tämän yhteisjakauman puitteissa voidaan tietysti tarkastella myös ehdollisia todennäköisyyksiä p S A = p AS p AS = p A p AS + p A S ja p S Ā = pās p Ā p ĀS = p ĀS + p Ā S joita kutsutaan sairastumisriskeiksi (tai sairastumisvaaroiksi) altistuneille ja altistumattomille koehenkilöille. Riskin asemasta voidaan voidaan sairastumisalttiutta mitata myös ns. oddseilla o A = p S A = p S A = p AS p S A 1 p S A p A S ja o Ā = p S Ā = p S Ā = pās p S Ā 1 p S Ā p Ā S. 3

5 Altistuneiden ja altistumattomien henkilöiden sairastumistaipumuksia voidaan vertailla keskenään ainakin seuraavilla tunnusluvuilla: 1 o Riskiero (risk difference) RD = p S A p S Ā 2 o Riskisuhde (risk ratio) RR = p S A p S Ā 3 o Odds ratio OR = o A = p AS pā S, o Ā p A S p ĀS jota joskus kutsutaan myös ristitulosuhteeksi. Nähdään heti, että OR = RR 1 p S Ā 1 p S A, joten OR ja RR ovat hyvin lähellä toisiaan, mikäli tauti on harvinainen. Esimerkki 1.1: Tarkastellaan seurantatutkimusta, jossa runsaasta koehenkilöstä puolet arvottiin hoitoryhmään, puolet kontrolliryhmään. Hoitoryhmälle syötettiin aspiriinia, kontrolliryhmälle plaseboa. Seuranta-ajan kuluessa ilmenneet sydäninfarktitapaukset rekisteröitiin seuraavin tuloksin: Sydäninfarkti Kyllä Ei Hoi- Aspirin to Plasebo Käyttämällä sellitodennäköisyyksien estimaattoreina vastaavia suhteellisia frekvenssejä (1.7) saadaan ristitulosuhteen estimaatiksi ÔR = =0.546, joten aspiriinipotilaiden odds saada sydäninfarkti on lähes puolta pienempi kuin plaseboryhmällä. Infarktiriskien estimaatit olisivat p S A = 104 = ja p S Ā = = , joten riskisuhteeksi saadaan RR =0.549 ja riskieroksi RD =

6 Todettakoon vielä, että mikäli p S A = p S Ā, sanotaan sairastumisen olevan altistumisesta riippumatonta. Tällöin olisi tietysti RD = 0 ja RR = OR = K x L- kontingenssitaulut Ajatellaan nyt yleisemmin kahta diskreettiä satunnaismuuttujaa X ja Y, joiden mahdollisia arvoja merkitään symbolein x 1,..., x K ja y 1,..., y L. Merkitään muuttujien yhteisjakauman pistetodennäköisyyksiä symbolein p ij = P (X = x i, Y = y j ), i =1,..., K, j =1,..., L (1.8) ja reunajakaumien pistetodennäköisyyksiä symbolein L p i = P (X = x i )= j=1 K p j = P (Y = y j )= i=1 p ij, i =1,..., K, p ij, j =1,..., L. (1.9) Jos muuttujista X ja Y on saatu n toisistaan riippumatonta havaintoa, on havaintoaineisto kaikkein taloudellisimmin esitettävissä frekvenssitaulukon Y y 1... y L x 1 N N 1L N 1 X x K N K1... N KL N K N 1... N L n muodossa. Tällaisia frekvenssitaulukoita sanotaan kontingenssitaulukoiksi. Ainoa järkevä jakaumamalli frekvenssien N 11,..., N KL yhteiskäyttäytymiselle on luonnollisesti multinomijakauma (1.4) todennäköisyyksin p 11,..., p KL ja koetoistojen lukumääränä n. Mikäli yhteisjakauman pistetodennäköisyyksistä ei tehdä 5

7 p ij :t luontevinta estimoida vastaavilla suh- mitään rajoittavia lisäoletuksia, on teellisilla frekvensseillä (1.7): p ij = N ij n, i =1,..., K, j =1,..., L. Kuten Tilastotieteen perusteet- kurssilla opetettiin, sanotaan satunnaismuuttujia X ja Y toisistaan riippumattomiksi ( X Y ), joss (jos ja vain jos) p ij = p i p j i =1,..., K, j =1,..., L. (1.10) Toisaalta µ ij = E(N ij )=np ij tuloksen (1.5) mukaisesti. Logaritmoimalla µ ij saadaan siis log µ ij = log n + log p ij = log n + log p i + log p j + ξ ij kullekin i =1,..., K, j =1,..., L, (1.11) kun otetaan käyttöön merkinnät ξ ij = log ( pij p i p j ). Hajoitelma (1.11) tuo etsimättä mieleen tavallisen kaksisuuntaisen varianssianalyysimallin. Huomattakoon, että (1.10):n mukaan X:n ja Y :n välinen riippumattomuus vastaa kaikkien interaktiotermien ξ ij häviämistä. Tämä havainto tulee olemaan varsin keskeisessä asemassa tällä kurssilla, sillä sen turvin varianssianalyysistä tuttua puhe- ja ajattelutapaa voidaan käyttää hyväksi diskreettien muuttujien välisiä riippuvuuksia tutkittaessa. (Myös log p ij - lukujen profiilikuvioita voidaan tulkita paljolti samaan tapaan kuin keskiarvoprofiileita varianssianalyysin yhteydessä.) Miten sitten riippuvuuden voimakkuutta voidaan mitata? Ajatellaan aluksi, että X ja Y olisivat nominaaliasteikollisia muuttujia, ts. että luokkien välillä olisi 6

8 vain laadullisia eroja. Eräänlaiseksi assosiaatiomitaksi (riippuvuusmitaksi) kelpaisi varmasti ainakin tuttu χ 2 - testisuure χ 2 = K L i=1 j=1 (N ij n p i p j ) 2 n p i p j, (1.12) jota peruskurssilla käytettiin X:n ja Y :n välisen riippumattomuuden testaamiseen. Sillä on kuitenkin se huono puoli, että sen jakauma (ja niin ollen sen suuruusluokka) riippuu voimakkaasti luokkien lukumääristä K ja L. Herää kysymys, voitaisiinko assosiaation voimakkuutta mitata jollakin helpommin tulkittavalla, mieluiten välillä [0, 1] vaihtelevalla mittarilla. Mukavinta olisi, mikäli mittari tietyssä mielessä muistuttaisi regressioanalyysistä tuttua yhteiskorrelaatiokertoimen neliötä R 2. Kirjallisuudessa on ehdotettu kahtakin tällaista mittaria, ns. Goodmanin ja Kruskalin τ:ta τ = K L 1 i=1 j=1 p i p 2 ij L j=1 p2 j 1 L j=1 p2 j (1.13) sekä ns. epävarmuuskerrointa U = K L i=1 j=1 p ij p i p j p ij log L. (1.14) j=1 p j log p j (Mittalukuja (1.13) ja (1.14) laskettaessa p ij :t korvataan estimaattoreillaan p ij = Nij n, ts. suhteellisilla frekvensseillä.) On helppo todeta, että 0 τ 1 ja 0 U 1. Jos X Y,on τ =0 ja U = K x L- taulukot, kun luokittelijat ovat järjestysasteikollisia Jos edellä hahmotellun kaksiulotteisen taulukon muodostaneet luokittelijat X ja Y ovat nominaalisia, ei mahdollisen riippuvuuden suunnasta tai monotonisuudesta voida tietenkään sanoa mitään. Jos taas sekä X että Y ovat ordinaalisia (järjestysasteikollisia), voidaan järkevästi mitata sekä mahdollisen riippuvuuden voimakkuutta että sen suuntaa. On jopa mahdollista konstruoida riippuvuusmittoja, jotka luonteeltaan muistuttavat jonkin verran tavallista korrelaatiokerrointa. Kontingenssitaulukoiden yhteydessä käytettäväksi sopii parhaiten ns. 7

9 Goodmanin ja Kruskalin γ: Ajatellaan, että tarkasteltavasta perusjoukosta valitaan umpimähkään kaksi havaintoa, ( X 1 Y 1 ) ja ( X 2 Y 2 ). Havaintoparia sanotaan X:n ja Y :n suhteen konkordantiksi, jos joko tai X 1 <X 2 ja Y 1 <Y 2 X 1 >X 2 ja Y 1 >Y 2. Paria sanotaan vastaavasti diskordantiksi, jos joko tai X 1 <X 2 ja Y 1 >Y 2 X 1 >X 2 ja Y 1 <Y 2. Huomattakoon, että jos jompi kumpi muuttujista X ja Y saa saman arvon molemmissa havaintoyksiköissä, ei pari ole sen paremmin konkordantti kuin diskordanttikaan. Todennäköisyys, jolla umpimahkään valittu pari on konkordantti, on selvästikin muotoa K L Π C = 2 p ij p kl. i=1 j=1 k>i l>j Vastaavasti diskordantin parin valintatodennäköisyys on K L Π D = 2. i=1 j=1 p ij k>i l<j p kl Goodmanin ja Kruskalin γ määritellään seuraavasti: γ = Π C Π D Π C +Π D. (1.15) Selvästikin 1 γ 1 ja γ =0, jos X Y. Kun γ:aa estimoidaan havaintoaineiston perusteella, korvataa p ij :t vastaavilla suhteellisislla frekvensseillä p ij = Nij n. Tällöin on helppo huomata, että γ:n lauseketta voidaan supistaa 2n 2 :lla, jolloin saadaan jossa C = K L i=1 j=1 N ij k>i l>j γ = N kl C D C + D, (1.16) = konkordanttien parien lukumäärä havaintoaineistossa 8

10 ja K L D = i=1 j=1 N ij k>i l<j N kl = diskordanttien parien lukumäärä havaintoaineistossa. Esimerkki 1.2: EK (Elinkeinoelämän keskusliitto) järjestää jäsenilleen neljännesvuosittain kyselyn, jossa kysellään kaikenlaisia tuotannon määrän, työtekijämäärän, tilauskannan ym. kehitykseen liittyviä odotuksia sekä vastaavia toteutumia viimeksi kuluneen vuosineljänneksen osalta. Kysymysten vastausvaihtoehdot ovat kolmiarvoisia, kasvanut / pysynyt ennallaan / vähentynyt, joten vastausvaihtoehtojen välillä on päivänselvä järjestys. Yhdistämällä nousuhdannevuosien 1980 ja 1985 kaikki kyselyt yhteen saatiin metalliteollisuusyritysten vastauksista seuraava frekvenssitaulukko: Työvoiman määrä Kasvanut Pysynyt ennallaan Vähentynyt Tuo- Kasvanut tannon Pysynyt ennallaan määrä Vähentynyt Konkordanttien parien lukumääräksi saadaan C = 173 ( ) ( ) + 92 ( ) = ja doskordanttien parien määräksi D =43 ( ) (92 + 6) + 59 (6 + 64) = Goodmanin ja Kruskalin gammaksi saadaan siis γ = C D C + D = 0.52, joten tuotannon määrän ja työvoiman määrän kehityksen välillä näyttää vallitsevan kohtalainen positiivinen assosiaatio. Ohjelmallisesti Goodmanin ja Kruskalin gamma on kenties helpointa laskea R:n avulla esimerkiksi seuraavalla tavalla: 9

11 R-koodi: > SB<-as.matrix(read.table("c:/mr/data/SBMet.tab")) > SB V1 V2 V > concordant <- function(x) { tablowright <- function(r, c) {lr <- x[(nrows > r) & (ncols > c)] sum(lr) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowright, r = nrows, c = ncols)) } > discordant <- function(x) { tablowleft <- function(r, c) {ll <- x[(nrows > r) & (ncols < c)] sum(ll) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowleft, r = nrows, c = ncols)) } > > C <- concordant(sb) > D <- discordant(sb) > gamma <- (C - D) / (C + D) > C [1] > D [1] > gamma [1] > 10

12 1.5 Erilaiset havainnointiasetelmat Palataan nyt luvussa 1.3 esitellyn K x L- frekvenssitaulukon erilaisiin analysointitapoihin. Aluksi on tärkeätä huomata, että tällaisen aineiston syntytapa voi edustaa ainakin kolmea, toisistaan selvästi poikkeavaa tyyppiä: 1 o Jos mikään taulukon marginaalifrekvensseistä ei ole kiinnitetty, on eri ruutujen ( sellien ) frekvenssit N ij luontevinta olettaa toisistaan täysin riippumattomiksi. Ajatellaan esimerkkinä aineistoa, joka koostuu noin 550 tiepätkällä vuosina sattuneista, kuolemaan johtaneista liikenneonnettomuuksista. Jaetaan tiepätkät ryhmiin toisaalta liikennesuoritteen, toisaalta raskaan liikenteen osuuden perusteella. Tällöin mitään onnettomuusmääriä ei ole etukäteen valittu, ja eri tiepätkillä sattuneita onnettomuusmääriä voidaan epäilemättä pitää toisistaan riippumattomina. Koska frekvenssit ovat aina luonnollisia lukuja, tulee etsimättä mieleen käyttää niiden käyttäytymisen kuvaamiseen Poisson- jakaumamallia N ij Poisson(µ ij ) N ij :t toisistaan riippumattomia µ ij :t vaihtelevat jollakin tietyllä tavalla liikennesuoritteen i ja raskaan liikenteen osuuden j mukaisesti Mallin mukaan olisi P (N 11 = n 11,..., N KL = n KL ) = K L i=1 j=1 µ nij ij n ij! e µij. (1.17) 2 o Jos havaintojen kokonaismäärä n on kiinnitetty, on aikaisemmin selitettyyn tapaan luontevinta ajatella, että kukin yksilö (tai havaintoyksikkö) joutuu ruutuun i, j todennäköisyydellä p ij toisten yksilöiden kohtaloista riippumatta. Tällöin ainoa järkevä malli olisi multinomijakaumamalli n! P (N 11 = n 11,..., N KL = n KL ) = n 11! n KL! pn11 pnkl KL, kun n n KL = n. (1.18) Esimerkkinä voidaan ajatella taulukkoa, joka syntyy, kun 3242 miespuolisen koehenkilön oikean ja vasemman silmän näkökyky mitataan ja luokitetaan neljään vaihtoehtoiseen luokkaan (paras kategoria / toiseksi paras / kolmanneksi paras / huonoin kategoria): Vasen silmä paras 2. paras 3. paras huonoin Oi- paras kea 2. paras sil- 3. paras mä huonoin Yhteensä

13 3 o Kolmantena vaihtoehtona voidaan ajatella tilannetta, jossa esimerkiksi vaakarivimarginaalifrekvenssit N i = n i (i =1,..., K) on kiinnitetty. Esimerkkinä voidaan ajatella vaikkapa aineistoa, joka saatiin, kun 280 koehenkilöä jaettiin kahteen yhtä suureen ryhmään ja toiselle syötettiin C- vitamiinia yhden gramman päiväannoksina, toiselle taas plaseboa. Koehenkilöitä seurattiin kahden viikon ajan, jonka jälkeen laskettiin, kuinka monella oli ilmennyt vilustumisoireita ja kuinka monella ei. Vilustumis- Ei vilustumis- Yhoireita oireita teensä Plasebo C- vitamiini Tämän kaltaisessa tilanteessa on luontevinta käyttää omaa multinomijakaumamallia jokaisen vaakarivin frekvensseille 279 P (N i1 = n i1,..., N il = n il ) = n i! n i1! n il! pni1 pnil il, kun n i n il = n i, i =1,..., K. Lisäksi on luontevaa ajatella, että eri vaakariveillä olevat frekvenssit olisivat täysin toisistaan riippumattomia. Kaikkien frekvenssien yhteiset pistetodennäköisyydet saadaan tällöin tulosääntöä noudattaen P (N 11 = n 11,..., N KL = n KL ) = K i=1 = n 1! n K! n! n i! n i1! n il! pni1 pnil il, n! n 11! n KL! pn11 11 pnkl KL. (1.19) Syvennytään nyt hetkeksi tilastollisen päättelyn perusperiaatteisiin toteamalla, että se, mitä parametreista voidaan havaintojen perusteella päätellä, määräytyy sen mukaan, miten parametreissa tapahtuvat muutokset vaikuttavat havaintojen käyttäytymiseen. Diskreettejä muuttujia tarkasteltaessa on havaintojen käyttäytyminen helpoimmin luonnehdittavissa pistetodennäköisyyksien P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ) avulla. Se, miten nämä pistetodennäköisyydet käyttäytyvät parametrien p 11,..., p KL funktiona, ratkaisee, millaisia johtopäätöksiä parametreista voidaan havaintojen perusteella vetää. Tällä funktiolla on oma hieno nimikin, sitä sanotaan havaintojen määräämäksi likelihood- funktioksi 12

14 L n11,...,n KL (p 11,..., p KL ) = P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ). Tällä tavalla ajatellen tuntuu täysin luonnolliselta ajatella, että mikäli kahden havaintoaineiston määräämät likelihood- funktiot ovat samat (ts. suoraan verrannolliset toisiinsa), pitäisi aineistojen perusteella parametreista tehtävien päätelmien myöskin olla samoja. Tätä periaatetta kutsutaan likelihood-periaatteeksi. (Huom.: Likelihood- funktiossa on tärkeätä vain sen muoto; vakiotermillä funktion edessä ei ole mitään merkitystä.) Tämän periaatteen mukaisesti on helppo todeta, että kaikkia havainnointiasetelmia 1 o 3 o voidaan käsitellä samalla tavalla. Kaavoissa (1.18) ja (1.19) todettiin, että asetelmiin 2 o ja 3 o liittyvät likelihood- funktiot ovat keskenään saman muotoisia. Lisäksi (1.18) voidaan kirjoittaa vaihtoehtoiseen muotoon merkitsemällä µ ij = np ij : P (N 11 = n 11,..., N KL = n KL ) = n! n 11! n KL! = n! n n e n K K L i=1 j=1 L i=1 j=1 p nij ij µ nij ij n ij! e µij, (1.20) sillä µ µ KL = n (p p KL )=n. Tämä osoittaa, että myös asetelmaan 1 o liittyviä havaintoja voidaan käsitellä kohtien 2 o ja 3 o tavoin, koska havaintojen määräämät likelihood- funktiot ovat samat. 13

15 1.6 ML- ja LR- periaatteet Korostettakoon aluksi, että valitun malliperheen parametrointi voidaan aina suorittaa lukemattomilla eri tavoilla; esimerkiksi multinomijakaumien (toistojen lukumääränä n) muodostama perhe voidaan parametroida joko sellitodennäköisyyksien p 11,..., p KL (p p KL =1) avulla tai aivan yhtä hyvin selliodotusarvojen µ 11,..., µ KL (µ µ KL = n) avulla, sillä µ ij = np ij. Jatkossa käytetään ehkä eniten odotusarvoihin liittyvää parametrointia. Kaavojen yksinkertaistamiseksi otetaan käyttöön merkinnät µ =(µ 1... µ p ), µ = µ(θ), θ Θ R p jossa θ sisältää kaikki oleelliset (vapaat) parametrit. Lisäksi merkitään N =(N N KL ). Tällöin likelihood- funktiota voidaan merkitä lyhyesti symbolilla L N (θ) =L N(µ(θ)), ja se siis kertoo, kuinka suurella todennäköisyydellä kukin malliperheen jäsen voisi tuottaa juuri havaitut havainnot. Voidaan tietysti ajatella, että L N (µ) samalla kertoo, kuinka uskottavalta kukin malliperheen jäsen havaintojen valossa näyttää. (Tästä juontaa juurensa likelihood- funktion nimi.) Määritelmä 1.1: Ns. maximum likelihood- (ML-) estimointiperiaatteella tarkoitetaan seuraavaa menettelytapaa: Käytetään µ:n estimaattina (arviona) sitä malliperheeseen kuuluvaa parametriarvoa, johon liittyvä jakauma voisi tuottaa juuri saadut havainnot muita malliperheen jäseniä suuremmalla todennäköisyydellä. Tämä luontevan tuntuinen periaate johtaa seuraavaan menettelyyn: Muodostetaan havaintojen määräämä likelihood- funktio L N (µ). Haetaan L N (µ) funktion maksimi µ:n suhteen malliperheen puitteissa ja merkitään sitä µ(n):llä. Näin määriteltyä havaintojen funktiota µ = µ(n) sanotaan µ:n ML- estimaattoriksi. Määritelmä 1.2: K x L- frekvenssitaulukon kuvaamiseen käytettävää multinomijakaumamallia, jossa parametrien µ ij välille ei ole asetettu mitään muita kytkentöjä kuin ehto µ µ KL = n, sanotaan saturoiduksi (kyllästetyksi) malliksi. (Jokaista sellifrekvenssiä kohti on ikioma parametri, joten oleellisten 14

16 parametrien määrää ei tästä enää voitaisi lisätä.) Esimerkki 1.3: ovat muotoa Saturoidun multinomijakauman parametrien ML- estimaattorit µ ij = N ij ja p ij = N ij n. Tämä nähdään helpoimmin tarkastelemalla likelihood- funktion logaritmia log L N (µ) log K L i=1 j=1 ( µij ) Nij n K L = K L log n + i=1 j=1 N ij log µ ij = K L log n + (i j) (K L) N ij log µ ij + N KL log n µ ij (i j) (K L). Tällöin log L N (µ) µ ij = N ij µ ij N KL µ KL kun (i j) (K L), joten kaikki osittaisderivaatat ovat nollia, kun N ij µ ij = vakio kaikilla i =1,..., K, j =1,..., L. Tästä seuraa, että µ ij = N ij, joten samalla p ij = N ij n. Määritelmä 1.3: Olkoon x =(x 1... x p ) R p mielivaltainen vektori. Ajatellaan, että kuvauksen g : R p R q, g(x) =(g 1 (x)... g q (x)) komponenttifunktioiden ensimmäiset osittaisderivaatat ovat hyvin määriteltyjä ja jatkuvia. 15

17 Derivaattamatriisilla Dg(x) tarkoitetaan tällöin osittaisderivaatoista muodostuvaa q x p- matriisia g 1(x) x 1... Dg(x) = g q(x) x 1... g 1(x) x p g q(x) x p. Huomautus 1.1: On helppo todeta, että yhdistetyn funktion f g(x) =f(g(x)) derivaattamatriisi on muotoa Df g(x) = Df(g(x)) Dg(x), (1.21) mikäli se on hyvin määritelty. Koulusta tuttu yhdistetyn funktion derivoimissääntö pätee siis myös vektoriarvoisille funktioille! Määritelmä 1.4: Havaintojen sisältämän, parametreja koskevan informaation määrää mittaavaksi informaatiomatriisiksi sanotaan p x p- matriisia I(θ) =cov(d θ log L N(θ) ). (1.22) Huomautus 1.2: Koska helposti voidaan osoittaa, että ED θ log L N (θ) =0, on itse asiassa I(θ) = ED θ log L N(θ) D θ log L N(θ) Lisäksi I(θ) = ( E ) log L θ N(θ) log L j θ N(θ) k voidaan lausua myös muodossa I(θ) = E D 2 θ log L N (θ). (1.23) = ) ( E 2 log L N θ j θ (θ) k. (1.24) 16

18 Kuten valtaosa kuulijoista varmasti jo tietää, asettaa I(θ) 1 rajat sille, miten tarkasti θ:n estimointi (virhevarianssin mielessä) voi ylipäätään onnistua, sillä E( θ θ)( θ θ) I(θ) 1, olipa θ mikä tahansa θ:n harhaton estimaattori. Merkitään nyt I 1 (θ) = 1 n I(θ), jolloin I 1(θ) mittaa siis informaation määrää havaintoyksikköä kohti laskettuna. Koska olemme olettaneet havaintoyksiköiden kohtalot toisistaan riippumattomiksi, ei I 1 (θ) siis riipu lainkaan n:stä. Voidaan osoittaa, että lievin likelihood- funktiota koskevin säännöllisyysoletuksin pätee ML- estimaattorien otantajakaumaa koskeva asymptoottinen tulos n ( θ θ) asympt. N p (0, I 1 (θ) 1 ). (1.25) Sama tulos voidaan kirjoittaa myös hieman epätäsmällisempään muotoon θ asympt. N p ( θ, I(θ) 1 ). Tästä nähdään, että ML- estimointiperiaate hyödyntää käytettävissä olevan havaintoinformaation asymptoottisesti optimaalisella tavalla. Näin ollen ML- estimaattorien sanotaan olevan asymptoottisesti tehokkaita. Saman tien voidaan todeta, että parametrijohdannaisen f(θ) R q ML- estimaattoriksi saadaan automaattisesti f( θ), jonka asymptoottinen otantajakauma on myöskin helppo selvittää. Koska ( ) 1 n (f( θ) f(θ)) = ndf(θ) ( θ θ)+op n, on n (f( θ) f(θ)) asympt. N q (0, Df(θ)I 1 (θ) 1 Df(θ) ). (1.26) ( ) 1 Tässä geneerinen symboli O P n tarkoittaa mitä tahansa satunnaismuuttujaa ( )) 1 (tai -jonoa), jolle lim n n var (O P n on äärellinen, positiivinen vakio. Tulokseen (1.26) liittyvää mahdollisuutta approksimoida kovarianssimatriisia cov(f( θ)) matriisilla Df(θ)I(θ) 1 Df(θ) sanotaan delta- menetelmäksi. 17

19 Esimerkki 1.4: Tarkastellaan luvussa 1.2 esiteltyä 2 x 2- taulukkoa ja ajatellaan, että sekä altistettuja että altistamattomia koehenkilöitä on valittu n o = 1 2 n kappaletta. Tällöin sairastumistodennäköisyyksien ML- estimaattorit kummassakin ryhmässä ovat p AS = N AS ja p n ĀS = NĀS. o n o Nämä estimaattorit ovat tietenkin toisistaan riippumattomia, ja toisaalta var ( p AS )= p AS(1 p AS ) n o ja var ( p ĀS )= pās (1 p ĀS ) n o. Tästä voidaan päätellä, että informaatiomatriisin inverssi on muotoa I 1 (p AS,p ĀS ) 1 = 1 ( ) pas (1 p AS ) 0. n o 0 p ĀS (1 p ĀS ) Odds ration logaritmin log (OR) = log [ pas 1 ] pās = f(p AS,p 1 p AS p ĀS ) ĀS ML- estimaattoriksi saadaan [ ] log (ÔR) = log N AS no N ĀS n o N AS jonka asymptoottinen varianssi saadaan selville delta- menetelmän avulla seuraavasti: f = 1 p AS 1 p AS + p AS p AS p AS (1 p AS ) 2 1 =, p AS (1 p AS ) N ĀS, joten f p ĀS = 1 p ĀS (1 p ĀS ) ) var (log (ÔR) 1 [ ] 1 n o p AS (1 p AS ) + 1 p ĀS (1 p ĀS ).. Likelihood- funktiota L N (µ) voidaan luontevasti hyödyntää myös hypoteesien testaamisessa: Ajatellaan, että tarkastelukehikkona toimiva yleishypoteesi (yleismalli) voidaan kirjoittaa muotoon H : µ M= {µ =(µ µ KL ) µ µ KL = n + muut mahdolliset rajoitukset } ja että M o M on jokin tätä suppeampi parametriavaruuden osa. 18

20 Ns. nollahypoteesin H o : µ M o realistisuutta havaintojen valossa voidaan arvioida osamäärän Λ N = max µ M o L N (µ) max µ M L N (µ) perusteella. Merkitään H o - hypoteesin puitteissa muodostettua ML- estimaattoria symbolilla µ o. Tällöin siis Λ N = L N( µ o ) L N ( µ). Kuten Tilastollinen päättely 1- ja 2- kursseilla opetettiin, pätee lievin M o :aa ja L N (µ)- funktiota koskevin säännöllisyysoletuksin tulos 2 log Λ N asympt. χ 2 q, jossa q = dim(m) dim(m o ). Referenssijakauman vapausastemäärä määräytyy siis H o - hypoteesissa eliminoitujen parametrien lukumäärän mukaisesti. Jos nyt M vastaa saturoitua mallia (ts. µ:tä ei a priori koske muita rajoituksia kuin µ µ KL = n ), on µ ij = N ij i =1,..., K, j =1,..., L, joten Tällöin siis ja L N ( µ) = n! N 11! N KL! ( µ o Λ N = 11 N 11 ( N11 n ) N11 ( NKL n ) N11 ( ) µ o NKL KL N KL ) NKL. 2 log Λ N = 2 K L i=1 j=1 N ij log ( N ij µ o ). (1.27) ij 19

21 Tätä suuretta kutsutaan yleensä devianceksi (merkitään 2 log Λ N = dev N (H o ) ), ja se sopii sellaisenaan erinomaisesti testisuureeksi hypoteesin H o realistisuutta arvioitaessa. Mikäli kaikki sellifrekvenssit ovat riittävän suuria, voidaan deviancea luottavaisin mielin verrata χ 2 q- jakauman fraktiileihin. Suureen (1.27) rakennetta kannattaa verrata peruskurssilta tuttuun Pearsonin χ 2 - testisuureeseen K L i=1 j=1 (N ij µ o ij )2 µ o ij, (1.28) jonka asymptoottisen otantajakauman pitäisi olla niinikään χ 2 q- jakauman muotoinen hypoteesin H o vallitessa. Testisuureet (1.27) ja (1.28) saattavat erota toisistaan paljonkin ja niiden avulla voidaan joskus päätyä erilaisiin tulkintoihin H o :n uskottavuudesta havaintoaineiston N valossa. Deviancella on sekin houkutteleva ominaisuus, että jos hypoteesi M 1 M näyttää havaintojen valossa kovin uskottavalta ja yleismallia halutaan supistaa sen mukaiseksi, saadaan hypoteesin M o M 1 testaamiseen sopiva testisuure deviancien erotuksena seuraavasti: 2 [ log L N ( µ o ) log L N ( µ 1 )] = 2 [ log L N ( µ o ) log L N ( µ)] + 2 [ log L N ( µ 1 ) log L N ( µ)] (1.29) = dev N (H o ) dev N (H 1 ). 20

22 2 LOG- LINEAARISET TODENNÄKÖISYYSMALLIT 2.1 Kolmiulotteisten frekvenssitaulukoiden kuvaaminen Luvussa 1.3 todettiin jo alustavasti, että kaksiulotteisia K x L- taulukoita analysoitaessa voidaan mukavasti hyödyntää varianssianalyyttista puhetapaa, koska loglineaarisissa todennäköisyysmalleissa interaktioiden häviäminen vastasi luokittelijoiden välistä riippumattomuutta. Varianssianalyyttisen puhetavan varsinaiset edut tulevat kuitenkin näkyviin vasta kolmi- tai useampiulotteisia taulukoita analysoitaessa. Tässä luvussa esitellään tuon puhetavan tarjoamia mahdollisuuksia kolmiulotteisten taulukoiden osalta. Yleistämismahdollisuudet monimutkaisempiin tilanteisiin ovat ilmeiset. Esimerkki 2.1: Tarkastellaan esimerkkinä 2 x 2 x 2- taulukkoa, joka saatiin, kun erääseen 4.5 vuotta kestäneeseen seurantatutkimukseen osallistuneista koehenkilöistä jätettiin pois kaikki ne, joille kehittyi sydänvika seurantajakson aikana, sekä ne, jotka olivat seuranta-aikana harjoittaneet säännöllistä, voimaperäistä liikuntaa. Jäljelle jäi 2121 koehenkilöä, jotka luokitettiin persoonallisuustyypin ( A/B), veren kolesterolitason (normaali / korkea) sekä diastolisen verenpaineen (normaali / korkea) suhteen. Saatiin seuraava taulukko: Persoonallisuus- Koles- Verenpaine tyyppi teroli normaali korkea A normaali korkea B normaali korkea Kolmiulotteisten K x L x M- frekvenssitaulukoiden kuvaamiseen voidaan useimmiten soveltaa jotakin luvussa 1.5 mainittua mallia, ts. multinomijakaumamallia, tulomuotoista multinomijakaumamallia tai toisistaan riippumatomista Poissonmuuttujista koostuvaa mallia. Kuten tuolloin todettiin, ovat johtopäätökset aina samat, käytettiinpä mitä lueteltua mallityyppiä tahansa. Merkitään sellitodennäköisyyksiä nyt symbolein p ijk ja selliodotusarvoja symbolein µ ijk (i = 1,..., K, j = 1,..., L, k = 1,..., M). (Todennäköisyys- ja odotusarvoparametreihin saattaa liittyä otanta-asetelmasta johtuvia rajoitteita.) Ajatellaan, että indeksi i vastaa luokittelijan X eri tasoja, indeksi j luokittelijan Y tasoja ja indeksi k luokittelijan Z tasoja. Tällöin odotusarvoparametrit 21

23 µ ijk (tai todennäköisyysparametrit p ijk ) voidaan korvata varianssianalyyttisellä parametroinnilla log µ ijk = α + λ X i + λ Y j + λ Z k + λ XY ij + λ YZ jk + λ XZ ik + λ XY Z ijk i =1,..., K, j =1,..., L, k =1,..., M, (2.1) jossa λ- parametreja kutsutaan päävaikutuksiksi tai interaktioiksi aivan samaan tapaan kuin varianssianalyysissa on tapana. Yliparametroinnin välttämiseksi voidaan esimerkiksi edellyttää, että kunkin λ- parametrityypin summa jokaisen indeksin suhteen on =0 kaikilla muiden indeksien arvoilla, ts. M k=1 λ XY Z ijk =0 kaikilla i =1,..., K, j =1,..., L ja niin edelleen. (2.2) Nämä rajoitteet huomioon ottaen jää malliin juuri K L M vapaata parametria. (Huomautus: Otanta-asetelmasta johtuvat side-ehdot tulevat vielä rajoitteiden (2.2) lisäksi.) Mikäli λ- parametrit halutaan lausua µ- parametrien (tai p- parametrien) avulla, saadaan α = 1 KLM K L M i=1 j=1 k=1 log µ ijk, λ X i = 1 LM L M j=1 k=1 log µ ijk α, λ XY ij = 1 M M k=1 log µ ijk (α + λ X i + λ Y j ), λ XY ijk Z = log µ ijk (α + λ X i + λ Y j + λz k + λxy ij + λ XZ ik + λ YZ jk ), ja niin edelleen. 22

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Load

Load Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14

Lisätiedot

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61 3.3. Satunnaismuuttujien ominaisuuksia 61 Odotusarvo Määritelmä 3.5 (Odotusarvo) Olkoon X diskreetti satunnaismuuttuja, jonka arvojoukko on S ja todennäköisyysfunktio f X (x). Silloin X:n odotusarvo on

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista 6 Epäyhtälöitä Epäyhtälöt ovat yksi matemaatikon voimakkaimmista työvälineistä. Yhtälö a = b kertoo sen, että kaksi ehkä näennäisesti erilaista asiaa ovat samoja. Epäyhtälö a b saattaa antaa keinon analysoida

Lisätiedot

1 Rajoittamaton optimointi

1 Rajoittamaton optimointi Taloustieteen matemaattiset menetelmät 7 materiaali 5 Rajoittamaton optimointi Yhden muuttujan tapaus f R! R Muistutetaan mieleen maksimin määritelmä. Funktiolla f on maksimi pisteessä x jos kaikille y

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2 HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 208 Harjoitus 4 Ratkaisuehdotuksia Tehtäväsarja I. Satunnaismuuttuja U Exp(2) ja V = U/(3 + U). Laske f V käyttämällä muuttujanvaihtotekniikkaa.

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 21. syyskuuta 2007 Antti Rasila () TodB 21. syyskuuta 2007 1 / 19 1 Satunnaismuuttujien riippumattomuus 2 Jakauman tunnusluvut Odotusarvo Odotusarvon ominaisuuksia

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tilastollinen päättely II, kevät 2017 Harjoitus 2A Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten

Lisätiedot

TKK @ Ilkka Mellin (2008) 1/5

TKK @ Ilkka Mellin (2008) 1/5 Mat-1.2620 Sovellettu todennäköisyyslaskenta B / Tehtävät Demo-tehtävät: 1, 3, 6, 7 Pistetehtävät: 2, 4, 5, 9 Ylimääräiset tehtävät: 8, 10, 11 Aiheet: Moniulotteiset jakaumat Avainsanat: Diskreetti jakauma,

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1.

w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1. Kotitehtävät, tammikuu 2011 Vaikeampi sarja 1. Ratkaise yhtälöryhmä w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1. Ratkaisu. Yhtälöryhmän ratkaisut (w, x, y, z)

Lisätiedot

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 07 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Osa tämän viikon tehtävistä ovat varsin haastavia, joten ei todellakaan

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista? 1 Hydrobiologian tutkijaseminaari 20.3.2000 Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista? Jari Hänninen Turun yliopisto Saaristomeren

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: 4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat .9. Kaksiulotteiset satunnaismuuttujat MS-A Todennäköisslaskennan ja tilastotieteen peruskurssi Viikko Moniulotteiset satunnaismuuttujat sekä niiden jakaumat ja tunnusluvut; Moniulotteisia jakaumia Usein

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat: Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

Todennäköisyyslaskun kertaus. Heliövaara 1

Todennäköisyyslaskun kertaus. Heliövaara 1 Todennäköisyyslaskun kertaus Heliövaara 1 Satunnaismuuttujat ja todennäköisyysjakaumat Heliövaara 2 Stunnaismuuttujat ja todennäköisyysjakaumat Jos satunnaisilmiötä halutaan mallintaa matemaattisesti,

Lisätiedot

Yleistetyn lineaarisen mallin perusteita

Yleistetyn lineaarisen mallin perusteita Yleistetyt lineaariset mallit II Jarkko Isotalo - TILTS18 Kertausta syksy 2009-kevät 2010 Yleistetyn lineaarisen mallin perusteita Kaikissa yleistetyissä lineaarisissa malleissa on seuraavat kolme komponenttia:

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat TKK (c) Ilkka Mellin (2005) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Kaksiulotteiset todennäköisyysjakaumat

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

k S P[ X µ kσ] 1 k 2.

k S P[ X µ kσ] 1 k 2. HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 28 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Osa tämän viikon tehtävistä ovat varsin haastavia, joten ei todellakaan

Lisätiedot

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Inversio-ongelmien laskennallinen peruskurssi Luento 7 Inversio-ongelmien laskennallinen peruskurssi Luento 7 Kevät 2012 1 Tilastolliset inversio-ongelmat Tilastollinen ionversio perustuu seuraaviin periaatteisiin: 1. Kaikki mallissa olevat muuttujat mallinnetaan

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

D ( ) E( ) E( ) 2.917

D ( ) E( ) E( ) 2.917 Mat-2.091 Sovellettu todennäköisyyslasku 4. harjoitukset/ratkaisut Aiheet: Diskreetit jakaumat Avainsanat: Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen jakauma, Kertymäfunktio,

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (5) 1 Momenttiemäfunktio ja karakteristinen funktio Momenttiemäfunktio Diskreettien jakaumien momenttiemäfunktioita

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot