Luokitettujen aineistojen analysointi
|
|
- Anneli Jaakkola
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 Luokitettujen aineistojen analysointi (805334A/805678S) luentomuistiinpanot syksyllä 2007 Markku Rahiala
2 1 JOHDANTO 1.1 Diskreetteihin muuttujiin liittyvää todennäköisyyslaskentaa Kuten Tilastotieteen perusteet- kurssilla aikanaan määriteltiin, tarkoitetaan diskreetillä satunnaismuuttujalla muuttujaa, jolla on vain äärellinen tai korkeintaan numeroituva määrä erilaisia mahdollisia arvoja. Niinpä diskreetin satunnaismuuttujan X jakauma voidaankin esittää kaikkein luontevimmin ns. pistetodennäköisyyksien p j = P (X = x j ) j =1, 2,... avulla. Symbolit x 1,x 2,... tarkoittavat X:n mahdollisia arvoja ja niiden muodostamaa joukkoa S X = {x j } sanotaan X:n supportiksi. (Huom.: Arvot x j eivät välttämättä ole reaalilukuja.) Mikäli x j :t ovat jonkin vektoriavaruuden alkioita, voidaan X:n odotusarvo määritellä muodossa EX = j p j x j. (1.1) Samaan tapaan voidaan tietysti laskea myös X:n erilaisten funktioiden odotusarvoja Eg(X) = j p j g(x j ), (1.2) joista esimerkkinä mainittakoon var(x) = E(X EX) 2 = j p j (x j EX) 2 = j 2 p j x 2 j p j x j. j Aikaisemmilla kursseilla on jo esitelty ns. Poisson- jakauma, jonka pistetodennäköisyydet ovat muotoa p j = P (X = x j )= λj j! e λ j =0, 1, 2,... (1.3) jossa λ>0 on parametrin asemassa. Tälle jakaumaperheelle löytyy paljon käyttöä tälläkin kurssilla, sillä erilaiset havaitut frekvenssit ovat aina ei-negatiivisia kokonaislukuja. Palautettakoon mieliin, että Poisson- muuttujan X odotusarvo ja varianssi ovat EX = λ ja var(x) = λ. Toinen keskeinen jakaumatyyppi tällä kurssilla tulee olemaan ns. multinomijakauma: Ajatellaan, että n- kertaisen toistokokeen jokaisella koetoistolla on k 1
3 erilaista tulosvaihtoehtoa. Merkitään symbolein X 1,..., X k kunkin tulostyypin lukumäärää n toistossa. (Tällöin tietysti aina X X k n.)kombinatorisin perustein on helppo todeta, että ainoa tilanteeseen sopiva jakaumamalli on seuraavaa muotoa: Merkitään tulosvaihtoehtojen todennäköisyyksiä kussakin koetoistossa symbolein p 1,..., p k ( p p k =1) ja asetetaan P (X 1 = x 1,..., X k = x k ) = n! x 1! x k! px1 1 px k k (1.4) kun x x k = n, x j N, j =1,..., k. Todennäköisyydet p 1,..., p k ovat tässä tapauksessa parametrien asemassa. Jos k =2, voidaan ajatella, että toinen tulosvaihtoehdoista vastaa kokeen onnistumista ja toinen epäonnistumista. Tällöin tilanne on aivan saman kaltainen kuin binomijakaumaa johdettaessa. Näin ollen on luonnollista, että (1.4):n mukaan tällöin P (X 1 = x 1 ) = P (X 1 = x 1,X 2 = n x 1 ) = n! x 1!(n x 1 )! px1 1 (1 p 1) n x1 kun x 1 N, 0 x 1 n. Multinomijakauma on siis vain binomijakauman luonteva yleistys tilanteeseen, jossa tulosvaihtoehtoja on enemmän kuin kaksi. Binomijakauman ominaisuuksiin vedoten on helppo todeta, että EX j = np j ja var(x) =np j (1 p j ) j =1,..., k. (1.5) Lisäksi voidaan todeta, että joten EX i X j = n(n 1)p i p j cov(x i,x j )=EX i X j EX i EX j = np i p j. (1.6) Niinikään binomijakaumatulkintaan perustuen voidaan todeta, että järkevin tapa estimoida todennäköisyysparametrit p j on ilmeisesti käyttää estimaattoreita p j = X j n, j =1,..., k, (1.7) ts. eri tulosvaihtoehtojen koetoistosarjassa havaittuja suhteellisia frekvenssejä. 2
4 1.2 2 x 2 kontingenssitaulukot Ajatellaan, että n koehenkilöstä osa altistuu tekijälle A, jonka epäillään lisäävän sairauden S vaaraa. Seurataan koehenkilöiden kohtaloita jonkin aikaa ja katsotaan, ketkä sairastuvat tautiin S seuranta-ajan kuluessa. Tulokset on luontevinta esittää 2 x 2- taulukon muodossa Sairastuminen S S Altis- A N AS N A S N A tus Ā N ĀS N Ā S N Ā N S N S n Tällaisia taulukoita sanotaan kontingenssitaulukoiksi. On helppo huomata, että tilanne on juuri sellainen, jota kuvaamaan multinomijakauma konstruoitiin. Vaikka kyseessä tällä kertaa onkin kahden kaksiarvoisen muuttujan yhteisjakauma, on multinomijakauma tietysti ainoa luonteva malli tilanteelle. Jakauman todennäköisyysparametreista voidaan muodostaa vastaava taulukko Sairastuminen S S Altis- A p AS p A S p A tus Ā p ĀS p Ā S p Ā p S p S 1 Tämän yhteisjakauman puitteissa voidaan tietysti tarkastella myös ehdollisia todennäköisyyksiä p S A = p AS p AS = p A p AS + p A S ja p S Ā = pās p Ā p ĀS = p ĀS + p Ā S joita kutsutaan sairastumisriskeiksi (tai sairastumisvaaroiksi) altistuneille ja altistumattomille koehenkilöille. Riskin asemasta voidaan voidaan sairastumisalttiutta mitata myös ns. oddseilla o A = p S A = p S A = p AS p S A 1 p S A p A S ja o Ā = p S Ā = p S Ā = pās p S Ā 1 p S Ā p Ā S. 3
5 Altistuneiden ja altistumattomien henkilöiden sairastumistaipumuksia voidaan vertailla keskenään ainakin seuraavilla tunnusluvuilla: 1 o Riskiero (risk difference) RD = p S A p S Ā 2 o Riskisuhde (risk ratio) RR = p S A p S Ā 3 o Odds ratio OR = o A = p AS pā S, o Ā p A S p ĀS jota joskus kutsutaan myös ristitulosuhteeksi. Nähdään heti, että OR = RR 1 p S Ā 1 p S A, joten OR ja RR ovat hyvin lähellä toisiaan, mikäli tauti on harvinainen. Esimerkki 1.1: Tarkastellaan seurantatutkimusta, jossa runsaasta koehenkilöstä puolet arvottiin hoitoryhmään, puolet kontrolliryhmään. Hoitoryhmälle syötettiin aspiriinia, kontrolliryhmälle plaseboa. Seuranta-ajan kuluessa ilmenneet sydäninfarktitapaukset rekisteröitiin seuraavin tuloksin: Sydäninfarkti Kyllä Ei Hoi- Aspirin to Plasebo Käyttämällä sellitodennäköisyyksien estimaattoreina vastaavia suhteellisia frekvenssejä (1.7) saadaan ristitulosuhteen estimaatiksi ÔR = =0.546, joten aspiriinipotilaiden odds saada sydäninfarkti on lähes puolta pienempi kuin plaseboryhmällä. Infarktiriskien estimaatit olisivat p S A = 104 = ja p S Ā = = , joten riskisuhteeksi saadaan RR =0.549 ja riskieroksi RD =
6 Todettakoon vielä, että mikäli p S A = p S Ā, sanotaan sairastumisen olevan altistumisesta riippumatonta. Tällöin olisi tietysti RD = 0 ja RR = OR = K x L- kontingenssitaulut Ajatellaan nyt yleisemmin kahta diskreettiä satunnaismuuttujaa X ja Y, joiden mahdollisia arvoja merkitään symbolein x 1,..., x K ja y 1,..., y L. Merkitään muuttujien yhteisjakauman pistetodennäköisyyksiä symbolein p ij = P (X = x i, Y = y j ), i =1,..., K, j =1,..., L (1.8) ja reunajakaumien pistetodennäköisyyksiä symbolein L p i = P (X = x i )= j=1 K p j = P (Y = y j )= i=1 p ij, i =1,..., K, p ij, j =1,..., L. (1.9) Jos muuttujista X ja Y on saatu n toisistaan riippumatonta havaintoa, on havaintoaineisto kaikkein taloudellisimmin esitettävissä frekvenssitaulukon Y y 1... y L x 1 N N 1L N 1 X x K N K1... N KL N K N 1... N L n muodossa. Tällaisia frekvenssitaulukoita sanotaan kontingenssitaulukoiksi. Ainoa järkevä jakaumamalli frekvenssien N 11,..., N KL yhteiskäyttäytymiselle on luonnollisesti multinomijakauma (1.4) todennäköisyyksin p 11,..., p KL ja koetoistojen lukumääränä n. Mikäli yhteisjakauman pistetodennäköisyyksistä ei tehdä 5
7 p ij :t luontevinta estimoida vastaavilla suh- mitään rajoittavia lisäoletuksia, on teellisilla frekvensseillä (1.7): p ij = N ij n, i =1,..., K, j =1,..., L. Kuten Tilastotieteen perusteet- kurssilla opetettiin, sanotaan satunnaismuuttujia X ja Y toisistaan riippumattomiksi ( X Y ), joss (jos ja vain jos) p ij = p i p j i =1,..., K, j =1,..., L. (1.10) Toisaalta µ ij = E(N ij )=np ij tuloksen (1.5) mukaisesti. Logaritmoimalla µ ij saadaan siis log µ ij = log n + log p ij = log n + log p i + log p j + ξ ij kullekin i =1,..., K, j =1,..., L, (1.11) kun otetaan käyttöön merkinnät ξ ij = log ( pij p i p j ). Hajoitelma (1.11) tuo etsimättä mieleen tavallisen kaksisuuntaisen varianssianalyysimallin. Huomattakoon, että (1.10):n mukaan X:n ja Y :n välinen riippumattomuus vastaa kaikkien interaktiotermien ξ ij häviämistä. Tämä havainto tulee olemaan varsin keskeisessä asemassa tällä kurssilla, sillä sen turvin varianssianalyysistä tuttua puhe- ja ajattelutapaa voidaan käyttää hyväksi diskreettien muuttujien välisiä riippuvuuksia tutkittaessa. (Myös log p ij - lukujen profiilikuvioita voidaan tulkita paljolti samaan tapaan kuin keskiarvoprofiileita varianssianalyysin yhteydessä.) Miten sitten riippuvuuden voimakkuutta voidaan mitata? Ajatellaan aluksi, että X ja Y olisivat nominaaliasteikollisia muuttujia, ts. että luokkien välillä olisi 6
8 vain laadullisia eroja. Eräänlaiseksi assosiaatiomitaksi (riippuvuusmitaksi) kelpaisi varmasti ainakin tuttu χ 2 - testisuure χ 2 = K L i=1 j=1 (N ij n p i p j ) 2 n p i p j, (1.12) jota peruskurssilla käytettiin X:n ja Y :n välisen riippumattomuuden testaamiseen. Sillä on kuitenkin se huono puoli, että sen jakauma (ja niin ollen sen suuruusluokka) riippuu voimakkaasti luokkien lukumääristä K ja L. Herää kysymys, voitaisiinko assosiaation voimakkuutta mitata jollakin helpommin tulkittavalla, mieluiten välillä [0, 1] vaihtelevalla mittarilla. Mukavinta olisi, mikäli mittari tietyssä mielessä muistuttaisi regressioanalyysistä tuttua yhteiskorrelaatiokertoimen neliötä R 2. Kirjallisuudessa on ehdotettu kahtakin tällaista mittaria, ns. Goodmanin ja Kruskalin τ:ta τ = K L 1 i=1 j=1 p i p 2 ij L j=1 p2 j 1 L j=1 p2 j (1.13) sekä ns. epävarmuuskerrointa U = K L i=1 j=1 p ij p i p j p ij log L. (1.14) j=1 p j log p j (Mittalukuja (1.13) ja (1.14) laskettaessa p ij :t korvataan estimaattoreillaan p ij = Nij n, ts. suhteellisilla frekvensseillä.) On helppo todeta, että 0 τ 1 ja 0 U 1. Jos X Y,on τ =0 ja U = K x L- taulukot, kun luokittelijat ovat järjestysasteikollisia Jos edellä hahmotellun kaksiulotteisen taulukon muodostaneet luokittelijat X ja Y ovat nominaalisia, ei mahdollisen riippuvuuden suunnasta tai monotonisuudesta voida tietenkään sanoa mitään. Jos taas sekä X että Y ovat ordinaalisia (järjestysasteikollisia), voidaan järkevästi mitata sekä mahdollisen riippuvuuden voimakkuutta että sen suuntaa. On jopa mahdollista konstruoida riippuvuusmittoja, jotka luonteeltaan muistuttavat jonkin verran tavallista korrelaatiokerrointa. Kontingenssitaulukoiden yhteydessä käytettäväksi sopii parhaiten ns. 7
9 Goodmanin ja Kruskalin γ: Ajatellaan, että tarkasteltavasta perusjoukosta valitaan umpimähkään kaksi havaintoa, ( X 1 Y 1 ) ja ( X 2 Y 2 ). Havaintoparia sanotaan X:n ja Y :n suhteen konkordantiksi, jos joko tai X 1 <X 2 ja Y 1 <Y 2 X 1 >X 2 ja Y 1 >Y 2. Paria sanotaan vastaavasti diskordantiksi, jos joko tai X 1 <X 2 ja Y 1 >Y 2 X 1 >X 2 ja Y 1 <Y 2. Huomattakoon, että jos jompi kumpi muuttujista X ja Y saa saman arvon molemmissa havaintoyksiköissä, ei pari ole sen paremmin konkordantti kuin diskordanttikaan. Todennäköisyys, jolla umpimahkään valittu pari on konkordantti, on selvästikin muotoa K L Π C = 2 p ij p kl. i=1 j=1 k>i l>j Vastaavasti diskordantin parin valintatodennäköisyys on K L Π D = 2. i=1 j=1 p ij k>i l<j p kl Goodmanin ja Kruskalin γ määritellään seuraavasti: γ = Π C Π D Π C +Π D. (1.15) Selvästikin 1 γ 1 ja γ =0, jos X Y. Kun γ:aa estimoidaan havaintoaineiston perusteella, korvataa p ij :t vastaavilla suhteellisislla frekvensseillä p ij = Nij n. Tällöin on helppo huomata, että γ:n lauseketta voidaan supistaa 2n 2 :lla, jolloin saadaan jossa C = K L i=1 j=1 N ij k>i l>j γ = N kl C D C + D, (1.16) = konkordanttien parien lukumäärä havaintoaineistossa 8
10 ja K L D = i=1 j=1 N ij k>i l<j N kl = diskordanttien parien lukumäärä havaintoaineistossa. Esimerkki 1.2: EK (Elinkeinoelämän keskusliitto) järjestää jäsenilleen neljännesvuosittain kyselyn, jossa kysellään kaikenlaisia tuotannon määrän, työtekijämäärän, tilauskannan ym. kehitykseen liittyviä odotuksia sekä vastaavia toteutumia viimeksi kuluneen vuosineljänneksen osalta. Kysymysten vastausvaihtoehdot ovat kolmiarvoisia, kasvanut / pysynyt ennallaan / vähentynyt, joten vastausvaihtoehtojen välillä on päivänselvä järjestys. Yhdistämällä nousuhdannevuosien 1980 ja 1985 kaikki kyselyt yhteen saatiin metalliteollisuusyritysten vastauksista seuraava frekvenssitaulukko: Työvoiman määrä Kasvanut Pysynyt ennallaan Vähentynyt Tuo- Kasvanut tannon Pysynyt ennallaan määrä Vähentynyt Konkordanttien parien lukumääräksi saadaan C = 173 ( ) ( ) + 92 ( ) = ja doskordanttien parien määräksi D =43 ( ) (92 + 6) + 59 (6 + 64) = Goodmanin ja Kruskalin gammaksi saadaan siis γ = C D C + D = 0.52, joten tuotannon määrän ja työvoiman määrän kehityksen välillä näyttää vallitsevan kohtalainen positiivinen assosiaatio. Ohjelmallisesti Goodmanin ja Kruskalin gamma on kenties helpointa laskea R:n avulla esimerkiksi seuraavalla tavalla: 9
11 R-koodi: > SB<-as.matrix(read.table("c:/mr/data/SBMet.tab")) > SB V1 V2 V > concordant <- function(x) { tablowright <- function(r, c) {lr <- x[(nrows > r) & (ncols > c)] sum(lr) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowright, r = nrows, c = ncols)) } > discordant <- function(x) { tablowleft <- function(r, c) {ll <- x[(nrows > r) & (ncols < c)] sum(ll) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowleft, r = nrows, c = ncols)) } > > C <- concordant(sb) > D <- discordant(sb) > gamma <- (C - D) / (C + D) > C [1] > D [1] > gamma [1] > 10
12 1.5 Erilaiset havainnointiasetelmat Palataan nyt luvussa 1.3 esitellyn K x L- frekvenssitaulukon erilaisiin analysointitapoihin. Aluksi on tärkeätä huomata, että tällaisen aineiston syntytapa voi edustaa ainakin kolmea, toisistaan selvästi poikkeavaa tyyppiä: 1 o Jos mikään taulukon marginaalifrekvensseistä ei ole kiinnitetty, on eri ruutujen ( sellien ) frekvenssit N ij luontevinta olettaa toisistaan täysin riippumattomiksi. Ajatellaan esimerkkinä aineistoa, joka koostuu noin 550 tiepätkällä vuosina sattuneista, kuolemaan johtaneista liikenneonnettomuuksista. Jaetaan tiepätkät ryhmiin toisaalta liikennesuoritteen, toisaalta raskaan liikenteen osuuden perusteella. Tällöin mitään onnettomuusmääriä ei ole etukäteen valittu, ja eri tiepätkillä sattuneita onnettomuusmääriä voidaan epäilemättä pitää toisistaan riippumattomina. Koska frekvenssit ovat aina luonnollisia lukuja, tulee etsimättä mieleen käyttää niiden käyttäytymisen kuvaamiseen Poisson- jakaumamallia N ij Poisson(µ ij ) N ij :t toisistaan riippumattomia µ ij :t vaihtelevat jollakin tietyllä tavalla liikennesuoritteen i ja raskaan liikenteen osuuden j mukaisesti Mallin mukaan olisi P (N 11 = n 11,..., N KL = n KL ) = K L i=1 j=1 µ nij ij n ij! e µij. (1.17) 2 o Jos havaintojen kokonaismäärä n on kiinnitetty, on aikaisemmin selitettyyn tapaan luontevinta ajatella, että kukin yksilö (tai havaintoyksikkö) joutuu ruutuun i, j todennäköisyydellä p ij toisten yksilöiden kohtaloista riippumatta. Tällöin ainoa järkevä malli olisi multinomijakaumamalli n! P (N 11 = n 11,..., N KL = n KL ) = n 11! n KL! pn11 pnkl KL, kun n n KL = n. (1.18) Esimerkkinä voidaan ajatella taulukkoa, joka syntyy, kun 3242 miespuolisen koehenkilön oikean ja vasemman silmän näkökyky mitataan ja luokitetaan neljään vaihtoehtoiseen luokkaan (paras kategoria / toiseksi paras / kolmanneksi paras / huonoin kategoria): Vasen silmä paras 2. paras 3. paras huonoin Oi- paras kea 2. paras sil- 3. paras mä huonoin Yhteensä
13 3 o Kolmantena vaihtoehtona voidaan ajatella tilannetta, jossa esimerkiksi vaakarivimarginaalifrekvenssit N i = n i (i =1,..., K) on kiinnitetty. Esimerkkinä voidaan ajatella vaikkapa aineistoa, joka saatiin, kun 280 koehenkilöä jaettiin kahteen yhtä suureen ryhmään ja toiselle syötettiin C- vitamiinia yhden gramman päiväannoksina, toiselle taas plaseboa. Koehenkilöitä seurattiin kahden viikon ajan, jonka jälkeen laskettiin, kuinka monella oli ilmennyt vilustumisoireita ja kuinka monella ei. Vilustumis- Ei vilustumis- Yhoireita oireita teensä Plasebo C- vitamiini Tämän kaltaisessa tilanteessa on luontevinta käyttää omaa multinomijakaumamallia jokaisen vaakarivin frekvensseille 279 P (N i1 = n i1,..., N il = n il ) = n i! n i1! n il! pni1 pnil il, kun n i n il = n i, i =1,..., K. Lisäksi on luontevaa ajatella, että eri vaakariveillä olevat frekvenssit olisivat täysin toisistaan riippumattomia. Kaikkien frekvenssien yhteiset pistetodennäköisyydet saadaan tällöin tulosääntöä noudattaen P (N 11 = n 11,..., N KL = n KL ) = K i=1 = n 1! n K! n! n i! n i1! n il! pni1 pnil il, n! n 11! n KL! pn11 11 pnkl KL. (1.19) Syvennytään nyt hetkeksi tilastollisen päättelyn perusperiaatteisiin toteamalla, että se, mitä parametreista voidaan havaintojen perusteella päätellä, määräytyy sen mukaan, miten parametreissa tapahtuvat muutokset vaikuttavat havaintojen käyttäytymiseen. Diskreettejä muuttujia tarkasteltaessa on havaintojen käyttäytyminen helpoimmin luonnehdittavissa pistetodennäköisyyksien P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ) avulla. Se, miten nämä pistetodennäköisyydet käyttäytyvät parametrien p 11,..., p KL funktiona, ratkaisee, millaisia johtopäätöksiä parametreista voidaan havaintojen perusteella vetää. Tällä funktiolla on oma hieno nimikin, sitä sanotaan havaintojen määräämäksi likelihood- funktioksi 12
14 L n11,...,n KL (p 11,..., p KL ) = P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ). Tällä tavalla ajatellen tuntuu täysin luonnolliselta ajatella, että mikäli kahden havaintoaineiston määräämät likelihood- funktiot ovat samat (ts. suoraan verrannolliset toisiinsa), pitäisi aineistojen perusteella parametreista tehtävien päätelmien myöskin olla samoja. Tätä periaatetta kutsutaan likelihood-periaatteeksi. (Huom.: Likelihood- funktiossa on tärkeätä vain sen muoto; vakiotermillä funktion edessä ei ole mitään merkitystä.) Tämän periaatteen mukaisesti on helppo todeta, että kaikkia havainnointiasetelmia 1 o 3 o voidaan käsitellä samalla tavalla. Kaavoissa (1.18) ja (1.19) todettiin, että asetelmiin 2 o ja 3 o liittyvät likelihood- funktiot ovat keskenään saman muotoisia. Lisäksi (1.18) voidaan kirjoittaa vaihtoehtoiseen muotoon merkitsemällä µ ij = np ij : P (N 11 = n 11,..., N KL = n KL ) = n! n 11! n KL! = n! n n e n K K L i=1 j=1 L i=1 j=1 p nij ij µ nij ij n ij! e µij, (1.20) sillä µ µ KL = n (p p KL )=n. Tämä osoittaa, että myös asetelmaan 1 o liittyviä havaintoja voidaan käsitellä kohtien 2 o ja 3 o tavoin, koska havaintojen määräämät likelihood- funktiot ovat samat. 13
15 1.6 ML- ja LR- periaatteet Korostettakoon aluksi, että valitun malliperheen parametrointi voidaan aina suorittaa lukemattomilla eri tavoilla; esimerkiksi multinomijakaumien (toistojen lukumääränä n) muodostama perhe voidaan parametroida joko sellitodennäköisyyksien p 11,..., p KL (p p KL =1) avulla tai aivan yhtä hyvin selliodotusarvojen µ 11,..., µ KL (µ µ KL = n) avulla, sillä µ ij = np ij. Jatkossa käytetään ehkä eniten odotusarvoihin liittyvää parametrointia. Kaavojen yksinkertaistamiseksi otetaan käyttöön merkinnät µ =(µ 1... µ p ), µ = µ(θ), θ Θ R p jossa θ sisältää kaikki oleelliset (vapaat) parametrit. Lisäksi merkitään N =(N N KL ). Tällöin likelihood- funktiota voidaan merkitä lyhyesti symbolilla L N (θ) =L N(µ(θ)), ja se siis kertoo, kuinka suurella todennäköisyydellä kukin malliperheen jäsen voisi tuottaa juuri havaitut havainnot. Voidaan tietysti ajatella, että L N (µ) samalla kertoo, kuinka uskottavalta kukin malliperheen jäsen havaintojen valossa näyttää. (Tästä juontaa juurensa likelihood- funktion nimi.) Määritelmä 1.1: Ns. maximum likelihood- (ML-) estimointiperiaatteella tarkoitetaan seuraavaa menettelytapaa: Käytetään µ:n estimaattina (arviona) sitä malliperheeseen kuuluvaa parametriarvoa, johon liittyvä jakauma voisi tuottaa juuri saadut havainnot muita malliperheen jäseniä suuremmalla todennäköisyydellä. Tämä luontevan tuntuinen periaate johtaa seuraavaan menettelyyn: Muodostetaan havaintojen määräämä likelihood- funktio L N (µ). Haetaan L N (µ) funktion maksimi µ:n suhteen malliperheen puitteissa ja merkitään sitä µ(n):llä. Näin määriteltyä havaintojen funktiota µ = µ(n) sanotaan µ:n ML- estimaattoriksi. Määritelmä 1.2: K x L- frekvenssitaulukon kuvaamiseen käytettävää multinomijakaumamallia, jossa parametrien µ ij välille ei ole asetettu mitään muita kytkentöjä kuin ehto µ µ KL = n, sanotaan saturoiduksi (kyllästetyksi) malliksi. (Jokaista sellifrekvenssiä kohti on ikioma parametri, joten oleellisten 14
16 parametrien määrää ei tästä enää voitaisi lisätä.) Esimerkki 1.3: ovat muotoa Saturoidun multinomijakauman parametrien ML- estimaattorit µ ij = N ij ja p ij = N ij n. Tämä nähdään helpoimmin tarkastelemalla likelihood- funktion logaritmia log L N (µ) log K L i=1 j=1 ( µij ) Nij n K L = K L log n + i=1 j=1 N ij log µ ij = K L log n + (i j) (K L) N ij log µ ij + N KL log n µ ij (i j) (K L). Tällöin log L N (µ) µ ij = N ij µ ij N KL µ KL kun (i j) (K L), joten kaikki osittaisderivaatat ovat nollia, kun N ij µ ij = vakio kaikilla i =1,..., K, j =1,..., L. Tästä seuraa, että µ ij = N ij, joten samalla p ij = N ij n. Määritelmä 1.3: Olkoon x =(x 1... x p ) R p mielivaltainen vektori. Ajatellaan, että kuvauksen g : R p R q, g(x) =(g 1 (x)... g q (x)) komponenttifunktioiden ensimmäiset osittaisderivaatat ovat hyvin määriteltyjä ja jatkuvia. 15
17 Derivaattamatriisilla Dg(x) tarkoitetaan tällöin osittaisderivaatoista muodostuvaa q x p- matriisia g 1(x) x 1... Dg(x) = g q(x) x 1... g 1(x) x p g q(x) x p. Huomautus 1.1: On helppo todeta, että yhdistetyn funktion f g(x) =f(g(x)) derivaattamatriisi on muotoa Df g(x) = Df(g(x)) Dg(x), (1.21) mikäli se on hyvin määritelty. Koulusta tuttu yhdistetyn funktion derivoimissääntö pätee siis myös vektoriarvoisille funktioille! Määritelmä 1.4: Havaintojen sisältämän, parametreja koskevan informaation määrää mittaavaksi informaatiomatriisiksi sanotaan p x p- matriisia I(θ) =cov(d θ log L N(θ) ). (1.22) Huomautus 1.2: Koska helposti voidaan osoittaa, että ED θ log L N (θ) =0, on itse asiassa I(θ) = ED θ log L N(θ) D θ log L N(θ) Lisäksi I(θ) = ( E ) log L θ N(θ) log L j θ N(θ) k voidaan lausua myös muodossa I(θ) = E D 2 θ log L N (θ). (1.23) = ) ( E 2 log L N θ j θ (θ) k. (1.24) 16
18 Kuten valtaosa kuulijoista varmasti jo tietää, asettaa I(θ) 1 rajat sille, miten tarkasti θ:n estimointi (virhevarianssin mielessä) voi ylipäätään onnistua, sillä E( θ θ)( θ θ) I(θ) 1, olipa θ mikä tahansa θ:n harhaton estimaattori. Merkitään nyt I 1 (θ) = 1 n I(θ), jolloin I 1(θ) mittaa siis informaation määrää havaintoyksikköä kohti laskettuna. Koska olemme olettaneet havaintoyksiköiden kohtalot toisistaan riippumattomiksi, ei I 1 (θ) siis riipu lainkaan n:stä. Voidaan osoittaa, että lievin likelihood- funktiota koskevin säännöllisyysoletuksin pätee ML- estimaattorien otantajakaumaa koskeva asymptoottinen tulos n ( θ θ) asympt. N p (0, I 1 (θ) 1 ). (1.25) Sama tulos voidaan kirjoittaa myös hieman epätäsmällisempään muotoon θ asympt. N p ( θ, I(θ) 1 ). Tästä nähdään, että ML- estimointiperiaate hyödyntää käytettävissä olevan havaintoinformaation asymptoottisesti optimaalisella tavalla. Näin ollen ML- estimaattorien sanotaan olevan asymptoottisesti tehokkaita. Saman tien voidaan todeta, että parametrijohdannaisen f(θ) R q ML- estimaattoriksi saadaan automaattisesti f( θ), jonka asymptoottinen otantajakauma on myöskin helppo selvittää. Koska ( ) 1 n (f( θ) f(θ)) = ndf(θ) ( θ θ)+op n, on n (f( θ) f(θ)) asympt. N q (0, Df(θ)I 1 (θ) 1 Df(θ) ). (1.26) ( ) 1 Tässä geneerinen symboli O P n tarkoittaa mitä tahansa satunnaismuuttujaa ( )) 1 (tai -jonoa), jolle lim n n var (O P n on äärellinen, positiivinen vakio. Tulokseen (1.26) liittyvää mahdollisuutta approksimoida kovarianssimatriisia cov(f( θ)) matriisilla Df(θ)I(θ) 1 Df(θ) sanotaan delta- menetelmäksi. 17
19 Esimerkki 1.4: Tarkastellaan luvussa 1.2 esiteltyä 2 x 2- taulukkoa ja ajatellaan, että sekä altistettuja että altistamattomia koehenkilöitä on valittu n o = 1 2 n kappaletta. Tällöin sairastumistodennäköisyyksien ML- estimaattorit kummassakin ryhmässä ovat p AS = N AS ja p n ĀS = NĀS. o n o Nämä estimaattorit ovat tietenkin toisistaan riippumattomia, ja toisaalta var ( p AS )= p AS(1 p AS ) n o ja var ( p ĀS )= pās (1 p ĀS ) n o. Tästä voidaan päätellä, että informaatiomatriisin inverssi on muotoa I 1 (p AS,p ĀS ) 1 = 1 ( ) pas (1 p AS ) 0. n o 0 p ĀS (1 p ĀS ) Odds ration logaritmin log (OR) = log [ pas 1 ] pās = f(p AS,p 1 p AS p ĀS ) ĀS ML- estimaattoriksi saadaan [ ] log (ÔR) = log N AS no N ĀS n o N AS jonka asymptoottinen varianssi saadaan selville delta- menetelmän avulla seuraavasti: f = 1 p AS 1 p AS + p AS p AS p AS (1 p AS ) 2 1 =, p AS (1 p AS ) N ĀS, joten f p ĀS = 1 p ĀS (1 p ĀS ) ) var (log (ÔR) 1 [ ] 1 n o p AS (1 p AS ) + 1 p ĀS (1 p ĀS ).. Likelihood- funktiota L N (µ) voidaan luontevasti hyödyntää myös hypoteesien testaamisessa: Ajatellaan, että tarkastelukehikkona toimiva yleishypoteesi (yleismalli) voidaan kirjoittaa muotoon H : µ M= {µ =(µ µ KL ) µ µ KL = n + muut mahdolliset rajoitukset } ja että M o M on jokin tätä suppeampi parametriavaruuden osa. 18
20 Ns. nollahypoteesin H o : µ M o realistisuutta havaintojen valossa voidaan arvioida osamäärän Λ N = max µ M o L N (µ) max µ M L N (µ) perusteella. Merkitään H o - hypoteesin puitteissa muodostettua ML- estimaattoria symbolilla µ o. Tällöin siis Λ N = L N( µ o ) L N ( µ). Kuten Tilastollinen päättely 1- ja 2- kursseilla opetettiin, pätee lievin M o :aa ja L N (µ)- funktiota koskevin säännöllisyysoletuksin tulos 2 log Λ N asympt. χ 2 q, jossa q = dim(m) dim(m o ). Referenssijakauman vapausastemäärä määräytyy siis H o - hypoteesissa eliminoitujen parametrien lukumäärän mukaisesti. Jos nyt M vastaa saturoitua mallia (ts. µ:tä ei a priori koske muita rajoituksia kuin µ µ KL = n ), on µ ij = N ij i =1,..., K, j =1,..., L, joten Tällöin siis ja L N ( µ) = n! N 11! N KL! ( µ o Λ N = 11 N 11 ( N11 n ) N11 ( NKL n ) N11 ( ) µ o NKL KL N KL ) NKL. 2 log Λ N = 2 K L i=1 j=1 N ij log ( N ij µ o ). (1.27) ij 19
21 Tätä suuretta kutsutaan yleensä devianceksi (merkitään 2 log Λ N = dev N (H o ) ), ja se sopii sellaisenaan erinomaisesti testisuureeksi hypoteesin H o realistisuutta arvioitaessa. Mikäli kaikki sellifrekvenssit ovat riittävän suuria, voidaan deviancea luottavaisin mielin verrata χ 2 q- jakauman fraktiileihin. Suureen (1.27) rakennetta kannattaa verrata peruskurssilta tuttuun Pearsonin χ 2 - testisuureeseen K L i=1 j=1 (N ij µ o ij )2 µ o ij, (1.28) jonka asymptoottisen otantajakauman pitäisi olla niinikään χ 2 q- jakauman muotoinen hypoteesin H o vallitessa. Testisuureet (1.27) ja (1.28) saattavat erota toisistaan paljonkin ja niiden avulla voidaan joskus päätyä erilaisiin tulkintoihin H o :n uskottavuudesta havaintoaineiston N valossa. Deviancella on sekin houkutteleva ominaisuus, että jos hypoteesi M 1 M näyttää havaintojen valossa kovin uskottavalta ja yleismallia halutaan supistaa sen mukaiseksi, saadaan hypoteesin M o M 1 testaamiseen sopiva testisuure deviancien erotuksena seuraavasti: 2 [ log L N ( µ o ) log L N ( µ 1 )] = 2 [ log L N ( µ o ) log L N ( µ)] + 2 [ log L N ( µ 1 ) log L N ( µ)] (1.29) = dev N (H o ) dev N (H 1 ). 20
22 2 LOG- LINEAARISET TODENNÄKÖISYYSMALLIT 2.1 Kolmiulotteisten frekvenssitaulukoiden kuvaaminen Luvussa 1.3 todettiin jo alustavasti, että kaksiulotteisia K x L- taulukoita analysoitaessa voidaan mukavasti hyödyntää varianssianalyyttista puhetapaa, koska loglineaarisissa todennäköisyysmalleissa interaktioiden häviäminen vastasi luokittelijoiden välistä riippumattomuutta. Varianssianalyyttisen puhetavan varsinaiset edut tulevat kuitenkin näkyviin vasta kolmi- tai useampiulotteisia taulukoita analysoitaessa. Tässä luvussa esitellään tuon puhetavan tarjoamia mahdollisuuksia kolmiulotteisten taulukoiden osalta. Yleistämismahdollisuudet monimutkaisempiin tilanteisiin ovat ilmeiset. Esimerkki 2.1: Tarkastellaan esimerkkinä 2 x 2 x 2- taulukkoa, joka saatiin, kun erääseen 4.5 vuotta kestäneeseen seurantatutkimukseen osallistuneista koehenkilöistä jätettiin pois kaikki ne, joille kehittyi sydänvika seurantajakson aikana, sekä ne, jotka olivat seuranta-aikana harjoittaneet säännöllistä, voimaperäistä liikuntaa. Jäljelle jäi 2121 koehenkilöä, jotka luokitettiin persoonallisuustyypin ( A/B), veren kolesterolitason (normaali / korkea) sekä diastolisen verenpaineen (normaali / korkea) suhteen. Saatiin seuraava taulukko: Persoonallisuus- Koles- Verenpaine tyyppi teroli normaali korkea A normaali korkea B normaali korkea Kolmiulotteisten K x L x M- frekvenssitaulukoiden kuvaamiseen voidaan useimmiten soveltaa jotakin luvussa 1.5 mainittua mallia, ts. multinomijakaumamallia, tulomuotoista multinomijakaumamallia tai toisistaan riippumatomista Poissonmuuttujista koostuvaa mallia. Kuten tuolloin todettiin, ovat johtopäätökset aina samat, käytettiinpä mitä lueteltua mallityyppiä tahansa. Merkitään sellitodennäköisyyksiä nyt symbolein p ijk ja selliodotusarvoja symbolein µ ijk (i = 1,..., K, j = 1,..., L, k = 1,..., M). (Todennäköisyys- ja odotusarvoparametreihin saattaa liittyä otanta-asetelmasta johtuvia rajoitteita.) Ajatellaan, että indeksi i vastaa luokittelijan X eri tasoja, indeksi j luokittelijan Y tasoja ja indeksi k luokittelijan Z tasoja. Tällöin odotusarvoparametrit 21
23 µ ijk (tai todennäköisyysparametrit p ijk ) voidaan korvata varianssianalyyttisellä parametroinnilla log µ ijk = α + λ X i + λ Y j + λ Z k + λ XY ij + λ YZ jk + λ XZ ik + λ XY Z ijk i =1,..., K, j =1,..., L, k =1,..., M, (2.1) jossa λ- parametreja kutsutaan päävaikutuksiksi tai interaktioiksi aivan samaan tapaan kuin varianssianalyysissa on tapana. Yliparametroinnin välttämiseksi voidaan esimerkiksi edellyttää, että kunkin λ- parametrityypin summa jokaisen indeksin suhteen on =0 kaikilla muiden indeksien arvoilla, ts. M k=1 λ XY Z ijk =0 kaikilla i =1,..., K, j =1,..., L ja niin edelleen. (2.2) Nämä rajoitteet huomioon ottaen jää malliin juuri K L M vapaata parametria. (Huomautus: Otanta-asetelmasta johtuvat side-ehdot tulevat vielä rajoitteiden (2.2) lisäksi.) Mikäli λ- parametrit halutaan lausua µ- parametrien (tai p- parametrien) avulla, saadaan α = 1 KLM K L M i=1 j=1 k=1 log µ ijk, λ X i = 1 LM L M j=1 k=1 log µ ijk α, λ XY ij = 1 M M k=1 log µ ijk (α + λ X i + λ Y j ), λ XY ijk Z = log µ ijk (α + λ X i + λ Y j + λz k + λxy ij + λ XZ ik + λ YZ jk ), ja niin edelleen. 22
Regressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotTodennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1
Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotJos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden
1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella
LisätiedotJohdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle
LisätiedotIlkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
LisätiedotMoniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
LisätiedotMaximum likelihood-estimointi Alkeet
Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Lisätiedotl (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on
HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotLoad
Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotMoniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?
TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
Lisätiedot4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on
Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen
LisätiedotJohdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka
Lisätiedot3.6 Su-estimaattorien asymptotiikka
3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä
LisätiedotTestit laatueroasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten
LisätiedotMatematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14
LisätiedotOdotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61
3.3. Satunnaismuuttujien ominaisuuksia 61 Odotusarvo Määritelmä 3.5 (Odotusarvo) Olkoon X diskreetti satunnaismuuttuja, jonka arvojoukko on S ja todennäköisyysfunktio f X (x). Silloin X:n odotusarvo on
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
Lisätiedot4.0.2 Kuinka hyvä ennuste on?
Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotEpäyhtälöt ovat yksi matemaatikon voimakkaimmista
6 Epäyhtälöitä Epäyhtälöt ovat yksi matemaatikon voimakkaimmista työvälineistä. Yhtälö a = b kertoo sen, että kaksi ehkä näennäisesti erilaista asiaa ovat samoja. Epäyhtälö a b saattaa antaa keinon analysoida
Lisätiedot1 Rajoittamaton optimointi
Taloustieteen matemaattiset menetelmät 7 materiaali 5 Rajoittamaton optimointi Yhden muuttujan tapaus f R! R Muistutetaan mieleen maksimin määritelmä. Funktiolla f on maksimi pisteessä x jos kaikille y
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotJohdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Lisätiedot5.7 Uskottavuusfunktioon perustuvia testejä II
5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa
Lisätiedot1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotYleistetyistä lineaarisista malleista
Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen
LisätiedotKaksisuuntainen varianssianalyysi. Heliövaara 1
Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
Lisätiedot2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2
HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 208 Harjoitus 4 Ratkaisuehdotuksia Tehtäväsarja I. Satunnaismuuttuja U Exp(2) ja V = U/(3 + U). Laske f V käyttämällä muuttujanvaihtotekniikkaa.
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 21. syyskuuta 2007 Antti Rasila () TodB 21. syyskuuta 2007 1 / 19 1 Satunnaismuuttujien riippumattomuus 2 Jakauman tunnusluvut Odotusarvo Odotusarvon ominaisuuksia
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
LisätiedotTilastollinen päättely II, kevät 2017 Harjoitus 2A
Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten
LisätiedotTKK @ Ilkka Mellin (2008) 1/5
Mat-1.2620 Sovellettu todennäköisyyslaskenta B / Tehtävät Demo-tehtävät: 1, 3, 6, 7 Pistetehtävät: 2, 4, 5, 9 Ylimääräiset tehtävät: 8, 10, 11 Aiheet: Moniulotteiset jakaumat Avainsanat: Diskreetti jakauma,
LisätiedotTässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
LisätiedotKaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1
Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu
LisätiedotTodennäköisyyden ominaisuuksia
Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset
Lisätiedotw + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1.
Kotitehtävät, tammikuu 2011 Vaikeampi sarja 1. Ratkaise yhtälöryhmä w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1. Ratkaisu. Yhtälöryhmän ratkaisut (w, x, y, z)
LisätiedotHY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia
HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 07 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Osa tämän viikon tehtävistä ovat varsin haastavia, joten ei todellakaan
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156
Lisätiedotχ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut
Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua
LisätiedotTUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi
LisätiedotJakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?
1 Hydrobiologian tutkijaseminaari 20.3.2000 Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista? Jari Hänninen Turun yliopisto Saaristomeren
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotTässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:
4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä
LisätiedotFoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy
Lisätiedot031021P Tilastomatematiikka (5 op) kertausta 2. vk:een
031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11
LisätiedotYhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat
.9. Kaksiulotteiset satunnaismuuttujat MS-A Todennäköisslaskennan ja tilastotieteen peruskurssi Viikko Moniulotteiset satunnaismuuttujat sekä niiden jakaumat ja tunnusluvut; Moniulotteisia jakaumia Usein
LisätiedotTilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen
LisätiedotInversio-ongelmien laskennallinen peruskurssi Luento 2
Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +
LisätiedotJohdatus tn-laskentaan perjantai 17.2.2012
Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
Lisätiedotxi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =
1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista
Lisätiedot3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä
3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21
LisätiedotTestit järjestysasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten
Lisätiedottilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
LisätiedotMS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita
LisätiedotSisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4
Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9
LisätiedotMat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:
Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva
LisätiedotTilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien
LisätiedotIlkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset
Lisätiedot2. Uskottavuus ja informaatio
2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö
LisätiedotKeskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)
Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista
LisätiedotP(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
LisätiedotTodennäköisyyslaskun kertaus. Heliövaara 1
Todennäköisyyslaskun kertaus Heliövaara 1 Satunnaismuuttujat ja todennäköisyysjakaumat Heliövaara 2 Stunnaismuuttujat ja todennäköisyysjakaumat Jos satunnaisilmiötä halutaan mallintaa matemaattisesti,
LisätiedotYleistetyn lineaarisen mallin perusteita
Yleistetyt lineaariset mallit II Jarkko Isotalo - TILTS18 Kertausta syksy 2009-kevät 2010 Yleistetyn lineaarisen mallin perusteita Kaikissa yleistetyissä lineaarisissa malleissa on seuraavat kolme komponenttia:
LisätiedotJohdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat TKK (c) Ilkka Mellin (2005) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Kaksiulotteiset todennäköisyysjakaumat
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
Lisätiedotk S P[ X µ kσ] 1 k 2.
HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 28 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Osa tämän viikon tehtävistä ovat varsin haastavia, joten ei todellakaan
LisätiedotTodennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3
Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset
Lisätiedotpisteet Frekvenssi frekvenssi Yhteensä
806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-
LisätiedotTilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
LisätiedotInversio-ongelmien laskennallinen peruskurssi Luento 7
Inversio-ongelmien laskennallinen peruskurssi Luento 7 Kevät 2012 1 Tilastolliset inversio-ongelmat Tilastollinen ionversio perustuu seuraaviin periaatteisiin: 1. Kaikki mallissa olevat muuttujat mallinnetaan
LisätiedotVastepintamenetelmä. Kuusinen/Heliövaara 1
Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,
LisätiedotD ( ) E( ) E( ) 2.917
Mat-2.091 Sovellettu todennäköisyyslasku 4. harjoitukset/ratkaisut Aiheet: Diskreetit jakaumat Avainsanat: Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen jakauma, Kertymäfunktio,
LisätiedotJohdatus regressioanalyysiin. Heliövaara 1
Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
LisätiedotHarjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
LisätiedotJohdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (5) 1 Momenttiemäfunktio ja karakteristinen funktio Momenttiemäfunktio Diskreettien jakaumien momenttiemäfunktioita
Lisätiedot30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
Lisätiedot