Luokitettujen aineistojen analysointi

Koko: px
Aloita esitys sivulta:

Download "Luokitettujen aineistojen analysointi"

Transkriptio

1 Luokitettujen aineistojen analysointi (805334A/805678S) luentomuistiinpanot syksyllä 2007 Markku Rahiala

2 1 JOHDANTO 1.1 Diskreetteihin muuttujiin liittyvää todennäköisyyslaskentaa Kuten Tilastotieteen perusteet- kurssilla aikanaan määriteltiin, tarkoitetaan diskreetillä satunnaismuuttujalla muuttujaa, jolla on vain äärellinen tai korkeintaan numeroituva määrä erilaisia mahdollisia arvoja. Niinpä diskreetin satunnaismuuttujan X jakauma voidaankin esittää kaikkein luontevimmin ns. pistetodennäköisyyksien p j = P (X = x j ) j =1, 2,... avulla. Symbolit x 1,x 2,... tarkoittavat X:n mahdollisia arvoja ja niiden muodostamaa joukkoa S X = {x j } sanotaan X:n supportiksi. (Huom.: Arvot x j eivät välttämättä ole reaalilukuja.) Mikäli x j :t ovat jonkin vektoriavaruuden alkioita, voidaan X:n odotusarvo määritellä muodossa EX = j p j x j. (1.1) Samaan tapaan voidaan tietysti laskea myös X:n erilaisten funktioiden odotusarvoja Eg(X) = j p j g(x j ), (1.2) joista esimerkkinä mainittakoon var(x) = E(X EX) 2 = j p j (x j EX) 2 = j 2 p j x 2 j p j x j. j Aikaisemmilla kursseilla on jo esitelty ns. Poisson- jakauma, jonka pistetodennäköisyydet ovat muotoa p j = P (X = x j )= λj j! e λ j =0, 1, 2,... (1.3) jossa λ>0 on parametrin asemassa. Tälle jakaumaperheelle löytyy paljon käyttöä tälläkin kurssilla, sillä erilaiset havaitut frekvenssit ovat aina ei-negatiivisia kokonaislukuja. Palautettakoon mieliin, että Poisson- muuttujan X odotusarvo ja varianssi ovat EX = λ ja var(x) = λ. Toinen keskeinen jakaumatyyppi tällä kurssilla tulee olemaan ns. multinomijakauma: Ajatellaan, että n- kertaisen toistokokeen jokaisella koetoistolla on k 1

3 erilaista tulosvaihtoehtoa. Merkitään symbolein X 1,..., X k kunkin tulostyypin lukumäärää n toistossa. (Tällöin tietysti aina X X k n.)kombinatorisin perustein on helppo todeta, että ainoa tilanteeseen sopiva jakaumamalli on seuraavaa muotoa: Merkitään tulosvaihtoehtojen todennäköisyyksiä kussakin koetoistossa symbolein p 1,..., p k ( p p k =1) ja asetetaan P (X 1 = x 1,..., X k = x k ) = n! x 1! x k! px1 1 px k k (1.4) kun x x k = n, x j N, j =1,..., k. Todennäköisyydet p 1,..., p k ovat tässä tapauksessa parametrien asemassa. Jos k =2, voidaan ajatella, että toinen tulosvaihtoehdoista vastaa kokeen onnistumista ja toinen epäonnistumista. Tällöin tilanne on aivan saman kaltainen kuin binomijakaumaa johdettaessa. Näin ollen on luonnollista, että (1.4):n mukaan tällöin P (X 1 = x 1 ) = P (X 1 = x 1,X 2 = n x 1 ) = n! x 1!(n x 1 )! px1 1 (1 p 1) n x1 kun x 1 N, 0 x 1 n. Multinomijakauma on siis vain binomijakauman luonteva yleistys tilanteeseen, jossa tulosvaihtoehtoja on enemmän kuin kaksi. Binomijakauman ominaisuuksiin vedoten on helppo todeta, että EX j = np j ja var(x) =np j (1 p j ) j =1,..., k. (1.5) Lisäksi voidaan todeta, että joten EX i X j = n(n 1)p i p j cov(x i,x j )=EX i X j EX i EX j = np i p j. (1.6) Niinikään binomijakaumatulkintaan perustuen voidaan todeta, että järkevin tapa estimoida todennäköisyysparametrit p j on ilmeisesti käyttää estimaattoreita p j = X j n, j =1,..., k, (1.7) ts. eri tulosvaihtoehtojen koetoistosarjassa havaittuja suhteellisia frekvenssejä. 2

4 1.2 2 x 2 kontingenssitaulukot Ajatellaan, että n koehenkilöstä osa altistuu tekijälle A, jonka epäillään lisäävän sairauden S vaaraa. Seurataan koehenkilöiden kohtaloita jonkin aikaa ja katsotaan, ketkä sairastuvat tautiin S seuranta-ajan kuluessa. Tulokset on luontevinta esittää 2 x 2- taulukon muodossa Sairastuminen S S Altis- A N AS N A S N A tus Ā N ĀS N Ā S N Ā N S N S n Tällaisia taulukoita sanotaan kontingenssitaulukoiksi. On helppo huomata, että tilanne on juuri sellainen, jota kuvaamaan multinomijakauma konstruoitiin. Vaikka kyseessä tällä kertaa onkin kahden kaksiarvoisen muuttujan yhteisjakauma, on multinomijakauma tietysti ainoa luonteva malli tilanteelle. Jakauman todennäköisyysparametreista voidaan muodostaa vastaava taulukko Sairastuminen S S Altis- A p AS p A S p A tus Ā p ĀS p Ā S p Ā p S p S 1 Tämän yhteisjakauman puitteissa voidaan tietysti tarkastella myös ehdollisia todennäköisyyksiä p S A = p AS p AS = p A p AS + p A S ja p S Ā = pās p Ā p ĀS = p ĀS + p Ā S joita kutsutaan sairastumisriskeiksi (tai sairastumisvaaroiksi) altistuneille ja altistumattomille koehenkilöille. Riskin asemasta voidaan voidaan sairastumisalttiutta mitata myös ns. oddseilla o A = p S A = p S A = p AS p S A 1 p S A p A S ja o Ā = p S Ā = p S Ā = pās p S Ā 1 p S Ā p Ā S. 3

5 Altistuneiden ja altistumattomien henkilöiden sairastumistaipumuksia voidaan vertailla keskenään ainakin seuraavilla tunnusluvuilla: 1 o Riskiero (risk difference) RD = p S A p S Ā 2 o Riskisuhde (risk ratio) RR = p S A p S Ā 3 o Odds ratio OR = o A = p AS pā S, o Ā p A S p ĀS jota joskus kutsutaan myös ristitulosuhteeksi. Nähdään heti, että OR = RR 1 p S Ā 1 p S A, joten OR ja RR ovat hyvin lähellä toisiaan, mikäli tauti on harvinainen. Esimerkki 1.1: Tarkastellaan seurantatutkimusta, jossa runsaasta koehenkilöstä puolet arvottiin hoitoryhmään, puolet kontrolliryhmään. Hoitoryhmälle syötettiin aspiriinia, kontrolliryhmälle plaseboa. Seuranta-ajan kuluessa ilmenneet sydäninfarktitapaukset rekisteröitiin seuraavin tuloksin: Sydäninfarkti Kyllä Ei Hoi- Aspirin to Plasebo Käyttämällä sellitodennäköisyyksien estimaattoreina vastaavia suhteellisia frekvenssejä (1.7) saadaan ristitulosuhteen estimaatiksi ÔR = =0.546, joten aspiriinipotilaiden odds saada sydäninfarkti on lähes puolta pienempi kuin plaseboryhmällä. Infarktiriskien estimaatit olisivat p S A = 104 = ja p S Ā = = , joten riskisuhteeksi saadaan RR =0.549 ja riskieroksi RD =

6 Todettakoon vielä, että mikäli p S A = p S Ā, sanotaan sairastumisen olevan altistumisesta riippumatonta. Tällöin olisi tietysti RD = 0 ja RR = OR = K x L- kontingenssitaulut Ajatellaan nyt yleisemmin kahta diskreettiä satunnaismuuttujaa X ja Y, joiden mahdollisia arvoja merkitään symbolein x 1,..., x K ja y 1,..., y L. Merkitään muuttujien yhteisjakauman pistetodennäköisyyksiä symbolein p ij = P (X = x i, Y = y j ), i =1,..., K, j =1,..., L (1.8) ja reunajakaumien pistetodennäköisyyksiä symbolein L p i = P (X = x i )= j=1 K p j = P (Y = y j )= i=1 p ij, i =1,..., K, p ij, j =1,..., L. (1.9) Jos muuttujista X ja Y on saatu n toisistaan riippumatonta havaintoa, on havaintoaineisto kaikkein taloudellisimmin esitettävissä frekvenssitaulukon Y y 1... y L x 1 N N 1L N 1 X x K N K1... N KL N K N 1... N L n muodossa. Tällaisia frekvenssitaulukoita sanotaan kontingenssitaulukoiksi. Ainoa järkevä jakaumamalli frekvenssien N 11,..., N KL yhteiskäyttäytymiselle on luonnollisesti multinomijakauma (1.4) todennäköisyyksin p 11,..., p KL ja koetoistojen lukumääränä n. Mikäli yhteisjakauman pistetodennäköisyyksistä ei tehdä 5

7 p ij :t luontevinta estimoida vastaavilla suh- mitään rajoittavia lisäoletuksia, on teellisilla frekvensseillä (1.7): p ij = N ij n, i =1,..., K, j =1,..., L. Kuten Tilastotieteen perusteet- kurssilla opetettiin, sanotaan satunnaismuuttujia X ja Y toisistaan riippumattomiksi ( X Y ), joss (jos ja vain jos) p ij = p i p j i =1,..., K, j =1,..., L. (1.10) Toisaalta µ ij = E(N ij )=np ij tuloksen (1.5) mukaisesti. Logaritmoimalla µ ij saadaan siis log µ ij = log n + log p ij = log n + log p i + log p j + ξ ij kullekin i =1,..., K, j =1,..., L, (1.11) kun otetaan käyttöön merkinnät ξ ij = log ( pij p i p j ). Hajoitelma (1.11) tuo etsimättä mieleen tavallisen kaksisuuntaisen varianssianalyysimallin. Huomattakoon, että (1.10):n mukaan X:n ja Y :n välinen riippumattomuus vastaa kaikkien interaktiotermien ξ ij häviämistä. Tämä havainto tulee olemaan varsin keskeisessä asemassa tällä kurssilla, sillä sen turvin varianssianalyysistä tuttua puhe- ja ajattelutapaa voidaan käyttää hyväksi diskreettien muuttujien välisiä riippuvuuksia tutkittaessa. (Myös log p ij - lukujen profiilikuvioita voidaan tulkita paljolti samaan tapaan kuin keskiarvoprofiileita varianssianalyysin yhteydessä.) Miten sitten riippuvuuden voimakkuutta voidaan mitata? Ajatellaan aluksi, että X ja Y olisivat nominaaliasteikollisia muuttujia, ts. että luokkien välillä olisi 6

8 vain laadullisia eroja. Eräänlaiseksi assosiaatiomitaksi (riippuvuusmitaksi) kelpaisi varmasti ainakin tuttu χ 2 - testisuure χ 2 = K L i=1 j=1 (N ij n p i p j ) 2 n p i p j, (1.12) jota peruskurssilla käytettiin X:n ja Y :n välisen riippumattomuuden testaamiseen. Sillä on kuitenkin se huono puoli, että sen jakauma (ja niin ollen sen suuruusluokka) riippuu voimakkaasti luokkien lukumääristä K ja L. Herää kysymys, voitaisiinko assosiaation voimakkuutta mitata jollakin helpommin tulkittavalla, mieluiten välillä [0, 1] vaihtelevalla mittarilla. Mukavinta olisi, mikäli mittari tietyssä mielessä muistuttaisi regressioanalyysistä tuttua yhteiskorrelaatiokertoimen neliötä R 2. Kirjallisuudessa on ehdotettu kahtakin tällaista mittaria, ns. Goodmanin ja Kruskalin τ:ta τ = K L 1 i=1 j=1 p i p 2 ij L j=1 p2 j 1 L j=1 p2 j (1.13) sekä ns. epävarmuuskerrointa U = K L i=1 j=1 p ij p i p j p ij log L. (1.14) j=1 p j log p j (Mittalukuja (1.13) ja (1.14) laskettaessa p ij :t korvataan estimaattoreillaan p ij = Nij n, ts. suhteellisilla frekvensseillä.) On helppo todeta, että 0 τ 1 ja 0 U 1. Jos X Y,on τ =0 ja U = K x L- taulukot, kun luokittelijat ovat järjestysasteikollisia Jos edellä hahmotellun kaksiulotteisen taulukon muodostaneet luokittelijat X ja Y ovat nominaalisia, ei mahdollisen riippuvuuden suunnasta tai monotonisuudesta voida tietenkään sanoa mitään. Jos taas sekä X että Y ovat ordinaalisia (järjestysasteikollisia), voidaan järkevästi mitata sekä mahdollisen riippuvuuden voimakkuutta että sen suuntaa. On jopa mahdollista konstruoida riippuvuusmittoja, jotka luonteeltaan muistuttavat jonkin verran tavallista korrelaatiokerrointa. Kontingenssitaulukoiden yhteydessä käytettäväksi sopii parhaiten ns. 7

9 Goodmanin ja Kruskalin γ: Ajatellaan, että tarkasteltavasta perusjoukosta valitaan umpimähkään kaksi havaintoa, ( X 1 Y 1 ) ja ( X 2 Y 2 ). Havaintoparia sanotaan X:n ja Y :n suhteen konkordantiksi, jos joko tai X 1 <X 2 ja Y 1 <Y 2 X 1 >X 2 ja Y 1 >Y 2. Paria sanotaan vastaavasti diskordantiksi, jos joko tai X 1 <X 2 ja Y 1 >Y 2 X 1 >X 2 ja Y 1 <Y 2. Huomattakoon, että jos jompi kumpi muuttujista X ja Y saa saman arvon molemmissa havaintoyksiköissä, ei pari ole sen paremmin konkordantti kuin diskordanttikaan. Todennäköisyys, jolla umpimahkään valittu pari on konkordantti, on selvästikin muotoa K L Π C = 2 p ij p kl. i=1 j=1 k>i l>j Vastaavasti diskordantin parin valintatodennäköisyys on K L Π D = 2. i=1 j=1 p ij k>i l<j p kl Goodmanin ja Kruskalin γ määritellään seuraavasti: γ = Π C Π D Π C +Π D. (1.15) Selvästikin 1 γ 1 ja γ =0, jos X Y. Kun γ:aa estimoidaan havaintoaineiston perusteella, korvataa p ij :t vastaavilla suhteellisislla frekvensseillä p ij = Nij n. Tällöin on helppo huomata, että γ:n lauseketta voidaan supistaa 2n 2 :lla, jolloin saadaan jossa C = K L i=1 j=1 N ij k>i l>j γ = N kl C D C + D, (1.16) = konkordanttien parien lukumäärä havaintoaineistossa 8

10 ja K L D = i=1 j=1 N ij k>i l<j N kl = diskordanttien parien lukumäärä havaintoaineistossa. Esimerkki 1.2: EK (Elinkeinoelämän keskusliitto) järjestää jäsenilleen neljännesvuosittain kyselyn, jossa kysellään kaikenlaisia tuotannon määrän, työtekijämäärän, tilauskannan ym. kehitykseen liittyviä odotuksia sekä vastaavia toteutumia viimeksi kuluneen vuosineljänneksen osalta. Kysymysten vastausvaihtoehdot ovat kolmiarvoisia, kasvanut / pysynyt ennallaan / vähentynyt, joten vastausvaihtoehtojen välillä on päivänselvä järjestys. Yhdistämällä nousuhdannevuosien 1980 ja 1985 kaikki kyselyt yhteen saatiin metalliteollisuusyritysten vastauksista seuraava frekvenssitaulukko: Työvoiman määrä Kasvanut Pysynyt ennallaan Vähentynyt Tuo- Kasvanut tannon Pysynyt ennallaan määrä Vähentynyt Konkordanttien parien lukumääräksi saadaan C = 173 ( ) ( ) + 92 ( ) = ja doskordanttien parien määräksi D =43 ( ) (92 + 6) + 59 (6 + 64) = Goodmanin ja Kruskalin gammaksi saadaan siis γ = C D C + D = 0.52, joten tuotannon määrän ja työvoiman määrän kehityksen välillä näyttää vallitsevan kohtalainen positiivinen assosiaatio. Ohjelmallisesti Goodmanin ja Kruskalin gamma on kenties helpointa laskea R:n avulla esimerkiksi seuraavalla tavalla: 9

11 R-koodi: > SB<-as.matrix(read.table("c:/mr/data/SBMet.tab")) > SB V1 V2 V > concordant <- function(x) { tablowright <- function(r, c) {lr <- x[(nrows > r) & (ncols > c)] sum(lr) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowright, r = nrows, c = ncols)) } > discordant <- function(x) { tablowleft <- function(r, c) {ll <- x[(nrows > r) & (ncols < c)] sum(ll) } nrows <- row(x) ncols <- col(x) sum(x * mapply(tablowleft, r = nrows, c = ncols)) } > > C <- concordant(sb) > D <- discordant(sb) > gamma <- (C - D) / (C + D) > C [1] > D [1] > gamma [1] > 10

12 1.5 Erilaiset havainnointiasetelmat Palataan nyt luvussa 1.3 esitellyn K x L- frekvenssitaulukon erilaisiin analysointitapoihin. Aluksi on tärkeätä huomata, että tällaisen aineiston syntytapa voi edustaa ainakin kolmea, toisistaan selvästi poikkeavaa tyyppiä: 1 o Jos mikään taulukon marginaalifrekvensseistä ei ole kiinnitetty, on eri ruutujen ( sellien ) frekvenssit N ij luontevinta olettaa toisistaan täysin riippumattomiksi. Ajatellaan esimerkkinä aineistoa, joka koostuu noin 550 tiepätkällä vuosina sattuneista, kuolemaan johtaneista liikenneonnettomuuksista. Jaetaan tiepätkät ryhmiin toisaalta liikennesuoritteen, toisaalta raskaan liikenteen osuuden perusteella. Tällöin mitään onnettomuusmääriä ei ole etukäteen valittu, ja eri tiepätkillä sattuneita onnettomuusmääriä voidaan epäilemättä pitää toisistaan riippumattomina. Koska frekvenssit ovat aina luonnollisia lukuja, tulee etsimättä mieleen käyttää niiden käyttäytymisen kuvaamiseen Poisson- jakaumamallia N ij Poisson(µ ij ) N ij :t toisistaan riippumattomia µ ij :t vaihtelevat jollakin tietyllä tavalla liikennesuoritteen i ja raskaan liikenteen osuuden j mukaisesti Mallin mukaan olisi P (N 11 = n 11,..., N KL = n KL ) = K L i=1 j=1 µ nij ij n ij! e µij. (1.17) 2 o Jos havaintojen kokonaismäärä n on kiinnitetty, on aikaisemmin selitettyyn tapaan luontevinta ajatella, että kukin yksilö (tai havaintoyksikkö) joutuu ruutuun i, j todennäköisyydellä p ij toisten yksilöiden kohtaloista riippumatta. Tällöin ainoa järkevä malli olisi multinomijakaumamalli n! P (N 11 = n 11,..., N KL = n KL ) = n 11! n KL! pn11 pnkl KL, kun n n KL = n. (1.18) Esimerkkinä voidaan ajatella taulukkoa, joka syntyy, kun 3242 miespuolisen koehenkilön oikean ja vasemman silmän näkökyky mitataan ja luokitetaan neljään vaihtoehtoiseen luokkaan (paras kategoria / toiseksi paras / kolmanneksi paras / huonoin kategoria): Vasen silmä paras 2. paras 3. paras huonoin Oi- paras kea 2. paras sil- 3. paras mä huonoin Yhteensä

13 3 o Kolmantena vaihtoehtona voidaan ajatella tilannetta, jossa esimerkiksi vaakarivimarginaalifrekvenssit N i = n i (i =1,..., K) on kiinnitetty. Esimerkkinä voidaan ajatella vaikkapa aineistoa, joka saatiin, kun 280 koehenkilöä jaettiin kahteen yhtä suureen ryhmään ja toiselle syötettiin C- vitamiinia yhden gramman päiväannoksina, toiselle taas plaseboa. Koehenkilöitä seurattiin kahden viikon ajan, jonka jälkeen laskettiin, kuinka monella oli ilmennyt vilustumisoireita ja kuinka monella ei. Vilustumis- Ei vilustumis- Yhoireita oireita teensä Plasebo C- vitamiini Tämän kaltaisessa tilanteessa on luontevinta käyttää omaa multinomijakaumamallia jokaisen vaakarivin frekvensseille 279 P (N i1 = n i1,..., N il = n il ) = n i! n i1! n il! pni1 pnil il, kun n i n il = n i, i =1,..., K. Lisäksi on luontevaa ajatella, että eri vaakariveillä olevat frekvenssit olisivat täysin toisistaan riippumattomia. Kaikkien frekvenssien yhteiset pistetodennäköisyydet saadaan tällöin tulosääntöä noudattaen P (N 11 = n 11,..., N KL = n KL ) = K i=1 = n 1! n K! n! n i! n i1! n il! pni1 pnil il, n! n 11! n KL! pn11 11 pnkl KL. (1.19) Syvennytään nyt hetkeksi tilastollisen päättelyn perusperiaatteisiin toteamalla, että se, mitä parametreista voidaan havaintojen perusteella päätellä, määräytyy sen mukaan, miten parametreissa tapahtuvat muutokset vaikuttavat havaintojen käyttäytymiseen. Diskreettejä muuttujia tarkasteltaessa on havaintojen käyttäytyminen helpoimmin luonnehdittavissa pistetodennäköisyyksien P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ) avulla. Se, miten nämä pistetodennäköisyydet käyttäytyvät parametrien p 11,..., p KL funktiona, ratkaisee, millaisia johtopäätöksiä parametreista voidaan havaintojen perusteella vetää. Tällä funktiolla on oma hieno nimikin, sitä sanotaan havaintojen määräämäksi likelihood- funktioksi 12

14 L n11,...,n KL (p 11,..., p KL ) = P (p11,...,pkl) (N 11 = n 11,..., N KL = n KL ). Tällä tavalla ajatellen tuntuu täysin luonnolliselta ajatella, että mikäli kahden havaintoaineiston määräämät likelihood- funktiot ovat samat (ts. suoraan verrannolliset toisiinsa), pitäisi aineistojen perusteella parametreista tehtävien päätelmien myöskin olla samoja. Tätä periaatetta kutsutaan likelihood-periaatteeksi. (Huom.: Likelihood- funktiossa on tärkeätä vain sen muoto; vakiotermillä funktion edessä ei ole mitään merkitystä.) Tämän periaatteen mukaisesti on helppo todeta, että kaikkia havainnointiasetelmia 1 o 3 o voidaan käsitellä samalla tavalla. Kaavoissa (1.18) ja (1.19) todettiin, että asetelmiin 2 o ja 3 o liittyvät likelihood- funktiot ovat keskenään saman muotoisia. Lisäksi (1.18) voidaan kirjoittaa vaihtoehtoiseen muotoon merkitsemällä µ ij = np ij : P (N 11 = n 11,..., N KL = n KL ) = n! n 11! n KL! = n! n n e n K K L i=1 j=1 L i=1 j=1 p nij ij µ nij ij n ij! e µij, (1.20) sillä µ µ KL = n (p p KL )=n. Tämä osoittaa, että myös asetelmaan 1 o liittyviä havaintoja voidaan käsitellä kohtien 2 o ja 3 o tavoin, koska havaintojen määräämät likelihood- funktiot ovat samat. 13

15 1.6 ML- ja LR- periaatteet Korostettakoon aluksi, että valitun malliperheen parametrointi voidaan aina suorittaa lukemattomilla eri tavoilla; esimerkiksi multinomijakaumien (toistojen lukumääränä n) muodostama perhe voidaan parametroida joko sellitodennäköisyyksien p 11,..., p KL (p p KL =1) avulla tai aivan yhtä hyvin selliodotusarvojen µ 11,..., µ KL (µ µ KL = n) avulla, sillä µ ij = np ij. Jatkossa käytetään ehkä eniten odotusarvoihin liittyvää parametrointia. Kaavojen yksinkertaistamiseksi otetaan käyttöön merkinnät µ =(µ 1... µ p ), µ = µ(θ), θ Θ R p jossa θ sisältää kaikki oleelliset (vapaat) parametrit. Lisäksi merkitään N =(N N KL ). Tällöin likelihood- funktiota voidaan merkitä lyhyesti symbolilla L N (θ) =L N(µ(θ)), ja se siis kertoo, kuinka suurella todennäköisyydellä kukin malliperheen jäsen voisi tuottaa juuri havaitut havainnot. Voidaan tietysti ajatella, että L N (µ) samalla kertoo, kuinka uskottavalta kukin malliperheen jäsen havaintojen valossa näyttää. (Tästä juontaa juurensa likelihood- funktion nimi.) Määritelmä 1.1: Ns. maximum likelihood- (ML-) estimointiperiaatteella tarkoitetaan seuraavaa menettelytapaa: Käytetään µ:n estimaattina (arviona) sitä malliperheeseen kuuluvaa parametriarvoa, johon liittyvä jakauma voisi tuottaa juuri saadut havainnot muita malliperheen jäseniä suuremmalla todennäköisyydellä. Tämä luontevan tuntuinen periaate johtaa seuraavaan menettelyyn: Muodostetaan havaintojen määräämä likelihood- funktio L N (µ). Haetaan L N (µ) funktion maksimi µ:n suhteen malliperheen puitteissa ja merkitään sitä µ(n):llä. Näin määriteltyä havaintojen funktiota µ = µ(n) sanotaan µ:n ML- estimaattoriksi. Määritelmä 1.2: K x L- frekvenssitaulukon kuvaamiseen käytettävää multinomijakaumamallia, jossa parametrien µ ij välille ei ole asetettu mitään muita kytkentöjä kuin ehto µ µ KL = n, sanotaan saturoiduksi (kyllästetyksi) malliksi. (Jokaista sellifrekvenssiä kohti on ikioma parametri, joten oleellisten 14

16 parametrien määrää ei tästä enää voitaisi lisätä.) Esimerkki 1.3: ovat muotoa Saturoidun multinomijakauman parametrien ML- estimaattorit µ ij = N ij ja p ij = N ij n. Tämä nähdään helpoimmin tarkastelemalla likelihood- funktion logaritmia log L N (µ) log K L i=1 j=1 ( µij ) Nij n K L = K L log n + i=1 j=1 N ij log µ ij = K L log n + (i j) (K L) N ij log µ ij + N KL log n µ ij (i j) (K L). Tällöin log L N (µ) µ ij = N ij µ ij N KL µ KL kun (i j) (K L), joten kaikki osittaisderivaatat ovat nollia, kun N ij µ ij = vakio kaikilla i =1,..., K, j =1,..., L. Tästä seuraa, että µ ij = N ij, joten samalla p ij = N ij n. Määritelmä 1.3: Olkoon x =(x 1... x p ) R p mielivaltainen vektori. Ajatellaan, että kuvauksen g : R p R q, g(x) =(g 1 (x)... g q (x)) komponenttifunktioiden ensimmäiset osittaisderivaatat ovat hyvin määriteltyjä ja jatkuvia. 15

17 Derivaattamatriisilla Dg(x) tarkoitetaan tällöin osittaisderivaatoista muodostuvaa q x p- matriisia g 1(x) x 1... Dg(x) = g q(x) x 1... g 1(x) x p g q(x) x p. Huomautus 1.1: On helppo todeta, että yhdistetyn funktion f g(x) =f(g(x)) derivaattamatriisi on muotoa Df g(x) = Df(g(x)) Dg(x), (1.21) mikäli se on hyvin määritelty. Koulusta tuttu yhdistetyn funktion derivoimissääntö pätee siis myös vektoriarvoisille funktioille! Määritelmä 1.4: Havaintojen sisältämän, parametreja koskevan informaation määrää mittaavaksi informaatiomatriisiksi sanotaan p x p- matriisia I(θ) =cov(d θ log L N(θ) ). (1.22) Huomautus 1.2: Koska helposti voidaan osoittaa, että ED θ log L N (θ) =0, on itse asiassa I(θ) = ED θ log L N(θ) D θ log L N(θ) Lisäksi I(θ) = ( E ) log L θ N(θ) log L j θ N(θ) k voidaan lausua myös muodossa I(θ) = E D 2 θ log L N (θ). (1.23) = ) ( E 2 log L N θ j θ (θ) k. (1.24) 16

18 Kuten valtaosa kuulijoista varmasti jo tietää, asettaa I(θ) 1 rajat sille, miten tarkasti θ:n estimointi (virhevarianssin mielessä) voi ylipäätään onnistua, sillä E( θ θ)( θ θ) I(θ) 1, olipa θ mikä tahansa θ:n harhaton estimaattori. Merkitään nyt I 1 (θ) = 1 n I(θ), jolloin I 1(θ) mittaa siis informaation määrää havaintoyksikköä kohti laskettuna. Koska olemme olettaneet havaintoyksiköiden kohtalot toisistaan riippumattomiksi, ei I 1 (θ) siis riipu lainkaan n:stä. Voidaan osoittaa, että lievin likelihood- funktiota koskevin säännöllisyysoletuksin pätee ML- estimaattorien otantajakaumaa koskeva asymptoottinen tulos n ( θ θ) asympt. N p (0, I 1 (θ) 1 ). (1.25) Sama tulos voidaan kirjoittaa myös hieman epätäsmällisempään muotoon θ asympt. N p ( θ, I(θ) 1 ). Tästä nähdään, että ML- estimointiperiaate hyödyntää käytettävissä olevan havaintoinformaation asymptoottisesti optimaalisella tavalla. Näin ollen ML- estimaattorien sanotaan olevan asymptoottisesti tehokkaita. Saman tien voidaan todeta, että parametrijohdannaisen f(θ) R q ML- estimaattoriksi saadaan automaattisesti f( θ), jonka asymptoottinen otantajakauma on myöskin helppo selvittää. Koska ( ) 1 n (f( θ) f(θ)) = ndf(θ) ( θ θ)+op n, on n (f( θ) f(θ)) asympt. N q (0, Df(θ)I 1 (θ) 1 Df(θ) ). (1.26) ( ) 1 Tässä geneerinen symboli O P n tarkoittaa mitä tahansa satunnaismuuttujaa ( )) 1 (tai -jonoa), jolle lim n n var (O P n on äärellinen, positiivinen vakio. Tulokseen (1.26) liittyvää mahdollisuutta approksimoida kovarianssimatriisia cov(f( θ)) matriisilla Df(θ)I(θ) 1 Df(θ) sanotaan delta- menetelmäksi. 17

19 Esimerkki 1.4: Tarkastellaan luvussa 1.2 esiteltyä 2 x 2- taulukkoa ja ajatellaan, että sekä altistettuja että altistamattomia koehenkilöitä on valittu n o = 1 2 n kappaletta. Tällöin sairastumistodennäköisyyksien ML- estimaattorit kummassakin ryhmässä ovat p AS = N AS ja p n ĀS = NĀS. o n o Nämä estimaattorit ovat tietenkin toisistaan riippumattomia, ja toisaalta var ( p AS )= p AS(1 p AS ) n o ja var ( p ĀS )= pās (1 p ĀS ) n o. Tästä voidaan päätellä, että informaatiomatriisin inverssi on muotoa I 1 (p AS,p ĀS ) 1 = 1 ( ) pas (1 p AS ) 0. n o 0 p ĀS (1 p ĀS ) Odds ration logaritmin log (OR) = log [ pas 1 ] pās = f(p AS,p 1 p AS p ĀS ) ĀS ML- estimaattoriksi saadaan [ ] log (ÔR) = log N AS no N ĀS n o N AS jonka asymptoottinen varianssi saadaan selville delta- menetelmän avulla seuraavasti: f = 1 p AS 1 p AS + p AS p AS p AS (1 p AS ) 2 1 =, p AS (1 p AS ) N ĀS, joten f p ĀS = 1 p ĀS (1 p ĀS ) ) var (log (ÔR) 1 [ ] 1 n o p AS (1 p AS ) + 1 p ĀS (1 p ĀS ).. Likelihood- funktiota L N (µ) voidaan luontevasti hyödyntää myös hypoteesien testaamisessa: Ajatellaan, että tarkastelukehikkona toimiva yleishypoteesi (yleismalli) voidaan kirjoittaa muotoon H : µ M= {µ =(µ µ KL ) µ µ KL = n + muut mahdolliset rajoitukset } ja että M o M on jokin tätä suppeampi parametriavaruuden osa. 18

20 Ns. nollahypoteesin H o : µ M o realistisuutta havaintojen valossa voidaan arvioida osamäärän Λ N = max µ M o L N (µ) max µ M L N (µ) perusteella. Merkitään H o - hypoteesin puitteissa muodostettua ML- estimaattoria symbolilla µ o. Tällöin siis Λ N = L N( µ o ) L N ( µ). Kuten Tilastollinen päättely 1- ja 2- kursseilla opetettiin, pätee lievin M o :aa ja L N (µ)- funktiota koskevin säännöllisyysoletuksin tulos 2 log Λ N asympt. χ 2 q, jossa q = dim(m) dim(m o ). Referenssijakauman vapausastemäärä määräytyy siis H o - hypoteesissa eliminoitujen parametrien lukumäärän mukaisesti. Jos nyt M vastaa saturoitua mallia (ts. µ:tä ei a priori koske muita rajoituksia kuin µ µ KL = n ), on µ ij = N ij i =1,..., K, j =1,..., L, joten Tällöin siis ja L N ( µ) = n! N 11! N KL! ( µ o Λ N = 11 N 11 ( N11 n ) N11 ( NKL n ) N11 ( ) µ o NKL KL N KL ) NKL. 2 log Λ N = 2 K L i=1 j=1 N ij log ( N ij µ o ). (1.27) ij 19

21 Tätä suuretta kutsutaan yleensä devianceksi (merkitään 2 log Λ N = dev N (H o ) ), ja se sopii sellaisenaan erinomaisesti testisuureeksi hypoteesin H o realistisuutta arvioitaessa. Mikäli kaikki sellifrekvenssit ovat riittävän suuria, voidaan deviancea luottavaisin mielin verrata χ 2 q- jakauman fraktiileihin. Suureen (1.27) rakennetta kannattaa verrata peruskurssilta tuttuun Pearsonin χ 2 - testisuureeseen K L i=1 j=1 (N ij µ o ij )2 µ o ij, (1.28) jonka asymptoottisen otantajakauman pitäisi olla niinikään χ 2 q- jakauman muotoinen hypoteesin H o vallitessa. Testisuureet (1.27) ja (1.28) saattavat erota toisistaan paljonkin ja niiden avulla voidaan joskus päätyä erilaisiin tulkintoihin H o :n uskottavuudesta havaintoaineiston N valossa. Deviancella on sekin houkutteleva ominaisuus, että jos hypoteesi M 1 M näyttää havaintojen valossa kovin uskottavalta ja yleismallia halutaan supistaa sen mukaiseksi, saadaan hypoteesin M o M 1 testaamiseen sopiva testisuure deviancien erotuksena seuraavasti: 2 [ log L N ( µ o ) log L N ( µ 1 )] = 2 [ log L N ( µ o ) log L N ( µ)] + 2 [ log L N ( µ 1 ) log L N ( µ)] (1.29) = dev N (H o ) dev N (H 1 ). 20

22 2 LOG- LINEAARISET TODENNÄKÖISYYSMALLIT 2.1 Kolmiulotteisten frekvenssitaulukoiden kuvaaminen Luvussa 1.3 todettiin jo alustavasti, että kaksiulotteisia K x L- taulukoita analysoitaessa voidaan mukavasti hyödyntää varianssianalyyttista puhetapaa, koska loglineaarisissa todennäköisyysmalleissa interaktioiden häviäminen vastasi luokittelijoiden välistä riippumattomuutta. Varianssianalyyttisen puhetavan varsinaiset edut tulevat kuitenkin näkyviin vasta kolmi- tai useampiulotteisia taulukoita analysoitaessa. Tässä luvussa esitellään tuon puhetavan tarjoamia mahdollisuuksia kolmiulotteisten taulukoiden osalta. Yleistämismahdollisuudet monimutkaisempiin tilanteisiin ovat ilmeiset. Esimerkki 2.1: Tarkastellaan esimerkkinä 2 x 2 x 2- taulukkoa, joka saatiin, kun erääseen 4.5 vuotta kestäneeseen seurantatutkimukseen osallistuneista koehenkilöistä jätettiin pois kaikki ne, joille kehittyi sydänvika seurantajakson aikana, sekä ne, jotka olivat seuranta-aikana harjoittaneet säännöllistä, voimaperäistä liikuntaa. Jäljelle jäi 2121 koehenkilöä, jotka luokitettiin persoonallisuustyypin ( A/B), veren kolesterolitason (normaali / korkea) sekä diastolisen verenpaineen (normaali / korkea) suhteen. Saatiin seuraava taulukko: Persoonallisuus- Koles- Verenpaine tyyppi teroli normaali korkea A normaali korkea B normaali korkea Kolmiulotteisten K x L x M- frekvenssitaulukoiden kuvaamiseen voidaan useimmiten soveltaa jotakin luvussa 1.5 mainittua mallia, ts. multinomijakaumamallia, tulomuotoista multinomijakaumamallia tai toisistaan riippumatomista Poissonmuuttujista koostuvaa mallia. Kuten tuolloin todettiin, ovat johtopäätökset aina samat, käytettiinpä mitä lueteltua mallityyppiä tahansa. Merkitään sellitodennäköisyyksiä nyt symbolein p ijk ja selliodotusarvoja symbolein µ ijk (i = 1,..., K, j = 1,..., L, k = 1,..., M). (Todennäköisyys- ja odotusarvoparametreihin saattaa liittyä otanta-asetelmasta johtuvia rajoitteita.) Ajatellaan, että indeksi i vastaa luokittelijan X eri tasoja, indeksi j luokittelijan Y tasoja ja indeksi k luokittelijan Z tasoja. Tällöin odotusarvoparametrit 21

23 µ ijk (tai todennäköisyysparametrit p ijk ) voidaan korvata varianssianalyyttisellä parametroinnilla log µ ijk = α + λ X i + λ Y j + λ Z k + λ XY ij + λ YZ jk + λ XZ ik + λ XY Z ijk i =1,..., K, j =1,..., L, k =1,..., M, (2.1) jossa λ- parametreja kutsutaan päävaikutuksiksi tai interaktioiksi aivan samaan tapaan kuin varianssianalyysissa on tapana. Yliparametroinnin välttämiseksi voidaan esimerkiksi edellyttää, että kunkin λ- parametrityypin summa jokaisen indeksin suhteen on =0 kaikilla muiden indeksien arvoilla, ts. M k=1 λ XY Z ijk =0 kaikilla i =1,..., K, j =1,..., L ja niin edelleen. (2.2) Nämä rajoitteet huomioon ottaen jää malliin juuri K L M vapaata parametria. (Huomautus: Otanta-asetelmasta johtuvat side-ehdot tulevat vielä rajoitteiden (2.2) lisäksi.) Mikäli λ- parametrit halutaan lausua µ- parametrien (tai p- parametrien) avulla, saadaan α = 1 KLM K L M i=1 j=1 k=1 log µ ijk, λ X i = 1 LM L M j=1 k=1 log µ ijk α, λ XY ij = 1 M M k=1 log µ ijk (α + λ X i + λ Y j ), λ XY ijk Z = log µ ijk (α + λ X i + λ Y j + λz k + λxy ij + λ XZ ik + λ YZ jk ), ja niin edelleen. 22

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Load

Load Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35 Numeeriset menetelmät TIEA381 Luento 8 Kirsi Valjus Jyväskylän yliopisto Luento 8 () Numeeriset menetelmät 11.4.2013 1 / 35 Luennon 8 sisältö Interpolointi ja approksimointi Funktion approksimointi Tasainen

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 8 1 Funktion kuperuussuunnat Derivoituva funktio f (x) on pisteessä x aidosti konveksi, jos sen toinen derivaatta on positiivinen f (x) > 0. Vastaavasti f (x) on aidosti

Lisätiedot

Injektio. Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim.

Injektio. Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim. Injektio Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim. Funktio f on siis injektio mikäli ehdosta f (x 1 ) = f (x 2 ) seuraa, että x 1 = x 2.

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 1 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a

Lisätiedot

Injektio (1/3) Funktio f on injektio, joss. f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f )

Injektio (1/3) Funktio f on injektio, joss. f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f ) Injektio (1/3) Määritelmä Funktio f on injektio, joss f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f ) Seurauksia: Jatkuva injektio on siis aina joko aidosti kasvava tai aidosti vähenevä Injektiolla on enintään

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio Ilkka Mellin Todennäköisyyslaskenta Osa : Satunnaismuuttujat ja todennäköisyysjakaumat Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (7) 1 Momenttiemäfunktio ja karakteristinen funktio

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

Matematiikan tukikurssi, kurssikerta 3

Matematiikan tukikurssi, kurssikerta 3 Matematiikan tukikurssi, kurssikerta 3 1 Epäyhtälöitä Aivan aluksi lienee syytä esittää luvun itseisarvon määritelmä: { x kun x 0 x = x kun x < 0 Siispä esimerkiksi 10 = 10 ja 10 = 10. Seuraavaksi listaus

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat. Approbatur 3, demo 1, ratkaisut 1.1. A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat. Käydään kaikki vaihtoehdot läpi. Jos A on rehti, niin B on retku, koska muuten

Lisätiedot

Matematiikan peruskurssi 2

Matematiikan peruskurssi 2 Matematiikan peruskurssi Tentti, 9..06 Tentin kesto: h. Sallitut apuvälineet: kaavakokoelma ja laskin, joka ei kykene graaseen/symboliseen laskentaan Vastaa seuraavista viidestä tehtävästä neljään. Saat

Lisätiedot

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset

Lisätiedot

isomeerejä yhteensä yhdeksän kappaletta.

isomeerejä yhteensä yhdeksän kappaletta. Tehtävä 2 : 1 Esitetään aluksi eräitä havaintoja. Jokaisella n Z + symbolilla H (n) merkitään kaikkien niiden verkkojen joukkoa, jotka vastaavat jotakin tehtävänannon ehtojen mukaista alkaanin hiiliketjua

Lisätiedot

Epäyhtälöt 1/7 Sisältö ESITIEDOT: yhtälöt

Epäyhtälöt 1/7 Sisältö ESITIEDOT: yhtälöt Epäyhtälöt 1/7 Sisältö Epäyhtälö Epäyhtälöllä tarkoitetaan ehtoa, missä kahdesta lausekkeesta toinen on suurempi tai mahdollisesti yhtä suuri kuin toinen: f(x) < g(x), f(x) g(x).merkit voidaan luonnollisesti

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

A250A0050 Ekonometrian perusteet Tentti

A250A0050 Ekonometrian perusteet Tentti A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 10 1 Funktion monotonisuus Derivoituva funktio f on aidosti kasvava, jos sen derivaatta on positiivinen eli jos f (x) > 0. Funktio on aidosti vähenevä jos sen derivaatta

Lisätiedot

2 Osittaisderivaattojen sovelluksia

2 Osittaisderivaattojen sovelluksia 2 Osittaisderivaattojen sovelluksia 2.1 Ääriarvot Yhden muuttujan funktiolla f(x) on lokaali maksimiarvo (lokaali minimiarvo) pisteessä a, jos f(x) f(a) (f(x) f(a)) kaikilla x:n arvoilla riittävän lähellä

Lisätiedot

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012 Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Kertymäfunktio TKK (c) Ilkka Mellin (2007) 1 Kertymäfunktio >> Kertymäfunktio: Määritelmä Diskreettien jakaumien

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30. FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120 Tehtävä 1 : 1 Merkitään jatkossa kirjaimella H kaikkien solmujoukon V sellaisten verkkojen kokoelmaa, joissa on tasan kolme särmää. a) Jokainen verkko G H toteuttaa väitteen E(G) [V]. Toisaalta jokainen

Lisätiedot

Tenttiin valmentavia harjoituksia

Tenttiin valmentavia harjoituksia Tenttiin valmentavia harjoituksia Alla olevissa harjoituksissa suluissa oleva sivunumero viittaa Juha Partasen kurssimonisteen siihen sivuun, jolta löytyy apua tehtävän ratkaisuun. Funktiot Harjoitus.

Lisätiedot

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5. Tekijä Pitkä matematiikka 5 7..017 31 Kirjoitetaan yhtälö keskipistemuotoon ( x x ) + ( y y ) = r. 0 0 a) ( x 4) + ( y 1) = 49 Yhtälön vasemmalta puolelta nähdään, että x 0 = 4 ja y 0 = 1, joten ympyrän

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Satunnaismuuttujat ja todennäköisyysjakaumat Mitä tänään? Jos satunnaisilmiötä halutaan mallintaa matemaattisesti, on ilmiön tulosvaihtoehdot kuvattava numeerisessa muodossa. Tämä tapahtuu liittämällä

Lisätiedot

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Kertymäfunktio TKK (c) Ilkka Mellin (2005) 1 Kertymäfunktio Kertymäfunktio: Määritelmä Diskreettien jakaumien kertymäfunktiot Jatkuvien jakaumien kertymäfunktiot TKK (c)

Lisätiedot

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1, Todennäköisyyslaskenta, 2. kurssikoe 7.2.22 Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu.. Satunnaismuuttujien X ja Y yhteistiheysfunktio on

Lisätiedot

Matematiikan tukikurssi, kurssikerta 1

Matematiikan tukikurssi, kurssikerta 1 Matematiikan tukikurssi, kurssikerta 1 1 Joukko-oppia Matematiikassa joukko on mikä tahansa kokoelma objekteja. Esimerkiksi joukkoa A, jonka jäseniä ovat numerot 1, 2 ja 5 merkitään A = {1, 2, 5}. Joukon

Lisätiedot

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi. Algoritmien DP ja MF vertaileminen tapahtuu suoraviivaisesti kirjoittamalla kummankin leskimääräinen kustannus eksplisiittisesti todennäköisyyksien avulla. Lause T MF ave = 1 + 2 1 i

Lisätiedot

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi Antti Rasila Aalto-yliopisto Syksy 2015 Antti Rasila (Aalto-yliopisto) MS-A0202 Syksy 2015 1

Lisätiedot

Näihin harjoitustehtäviin liittyvä teoria löytyy Adamsista: Ad6, Ad5, 4: 12.8, ; Ad3: 13.8,

Näihin harjoitustehtäviin liittyvä teoria löytyy Adamsista: Ad6, Ad5, 4: 12.8, ; Ad3: 13.8, TKK, Matematiikan laitos Gripenberg/Harhanen Mat-1.432 Matematiikan peruskurssi K2 Harjoitus 4, (A=alku-, L=loppuviikko, T= taulutehtävä, P= palautettava tehtävä, W= verkkotehtävä ) 12 16.2.2007, viikko

Lisätiedot

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Esimerkki otteluvoiton todennäköisyys A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Yksittäisessä pelissä A voittaa todennäköisyydellä p ja B todennäköisyydellä q =

Lisätiedot

1. Logiikan ja joukko-opin alkeet

1. Logiikan ja joukko-opin alkeet 1. Logiikan ja joukko-opin alkeet 1.1. Logiikkaa 1. Osoita totuusarvotauluja käyttäen, että implikaatio p q voidaan kirjoittaa muotoon p q, ts. että propositio (p q) ( p q) on identtisesti tosi. 2. Todista

Lisätiedot

1 Määrittelyjä ja aputuloksia

1 Määrittelyjä ja aputuloksia 1 Määrittelyjä ja aputuloksia 1.1 Supremum ja infimum Aluksi kerrataan pienimmän ylärajan (supremum) ja suurimman alarajan (infimum) perusominaisuuksia ja esitetään muutamia myöhemmissä todistuksissa tarvittavia

Lisätiedot

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos: 8 Kanta Tässä luvussa tarkastellaan aliavaruuden virittäjävektoreita, jotka muodostavat lineaarisesti riippumattoman jonon. Merkintöjen helpottamiseksi oletetaan luvussa koko ajan, että W on vektoreiden

Lisätiedot

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on 13 Pistetulo Avaruuksissa R 2 ja R 3 on totuttu puhumaan vektorien pituuksista ja vektoreiden välisistä kulmista. Kuten tavallista, näiden käsitteiden yleistäminen korkeampiulotteisiin avaruuksiin ei onnistu

Lisätiedot

110. 111. 112. 113. 114. 4. Matriisit ja vektorit. 4.1. Matriisin käsite. 4.2. Matriisialgebra. Olkoon A = , B = Laske A + B, 5 14 9, 1 3 3

110. 111. 112. 113. 114. 4. Matriisit ja vektorit. 4.1. Matriisin käsite. 4.2. Matriisialgebra. Olkoon A = , B = Laske A + B, 5 14 9, 1 3 3 4 Matriisit ja vektorit 4 Matriisin käsite 42 Matriisialgebra 0 2 2 0, B = 2 2 4 6 2 Laske A + B, 2 A + B, AB ja BA A + B = 2 4 6 5, 2 A + B = 5 9 6 5 4 9, 4 7 6 AB = 0 0 0 6 0 0 0, B 22 2 2 0 0 0 6 5

Lisätiedot

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisia peruskäsitteitä ja Monte Carlo Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1 TEKNILLINEN KORKEAKOULU Systeemianalyysin laboratorio Mat-.39 Optimointioppi Kimmo Berg 8. harjoitus - ratkaisut. a)huomataan ensinnäkin että kummankin jonon raja-arvo r on nolla. Oletetaan lisäksi että

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Reaalilukuvälit, leikkaus ja unioni (1/2)

Reaalilukuvälit, leikkaus ja unioni (1/2) Luvut Luonnolliset luvut N = {0, 1, 2, 3,... } Kokonaisluvut Z = {..., 2, 1, 0, 1, 2,... } Rationaaliluvut (jaksolliset desimaaliluvut) Q = {m/n m, n Z, n 0} Irrationaaliluvut eli jaksottomat desimaaliluvut

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1 2 k -faktorikokeet Vilkkumaa / Kuusinen 1 Motivointi 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta

Lisätiedot

Matemaattinen Analyysi, k2012, L1

Matemaattinen Analyysi, k2012, L1 Matemaattinen Analyysi, k22, L Vektorit Merkitsemme koulumatematiikasta tuttua vektoria v = 2 i + 3 j sarake matriisilla ( ) 2 v = v = = ( 2 3 ) T 3 Merkintätavan muutos helpottaa jatkossa siirtymistä

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Derivaatan sovellukset (ääriarvotehtävät ym.)

Derivaatan sovellukset (ääriarvotehtävät ym.) Derivaatan sovellukset (ääriarvotehtävät ym.) Tehtävät: 1. Tutki derivaatan avulla funktion f kulkua. a) f(x) = x 4x b) f(x) = x + 6x + 11 c) f(x) = x4 4 x3 + 4 d) f(x) = x 3 6x + 1x + 3. Määritä rationaalifunktion

Lisätiedot

1 Lineaariavaruus eli Vektoriavaruus

1 Lineaariavaruus eli Vektoriavaruus 1 Lineaariavaruus eli Vektoriavaruus 1.1 Määritelmä ja esimerkkejä Olkoon K kunta, jonka nolla-alkio on 0 ja ykkösalkio on 1 sekä V epätyhjä joukko. Oletetaan, että joukossa V on määritelty laskutoimitus

Lisätiedot

3.7 Todennäköisyysjakaumia

3.7 Todennäköisyysjakaumia MAB5: Todennäköisyyden lähtökohdat 4 Luvussa 3 Tunnusluvut perehdyimme jo jakauman käsitteeseen yleensä ja normaalijakaumaan vähän tarkemmin. Lähdetään nyt tutustumaan binomijakaumaan ja otetaan sen jälkeen

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3 Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Verkot todennäköisyyslaskennassa Satunnaismuuttujat ja todennäköisyysjakaumat Jakaumien tunnusluvut Kertymäfunktio, Momentit, Odotusarvo,

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016 Antti Rasila

Lisätiedot

12. Hessen matriisi. Ääriarvoteoriaa

12. Hessen matriisi. Ääriarvoteoriaa 179 12. Hessen matriisi. Ääriarvoteoriaa Tarkastelemme tässä luvussa useamman muuttujan (eli vektorimuuttujan) n reaaliarvoisia unktioita : R R. Edellisessä luvussa todettiin, että riittävän säännöllisellä

Lisätiedot

Yleistetyn lineaarisen mallin perusteita

Yleistetyn lineaarisen mallin perusteita Yleistetyt lineaariset mallit II Jarkko Isotalo - TILTS18 Kertausta syksy 2009-kevät 2010 Yleistetyn lineaarisen mallin perusteita Kaikissa yleistetyissä lineaarisissa malleissa on seuraavat kolme komponenttia:

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

Y ja

Y ja 1 Funktiot ja raja-arvot Y100 27.10.2008 ja 29.10.2008 Aki Hagelin aki.hagelin@helsinki.fi Department of Psychology / Cognitive Science University of Helsinki 2 Funktiot (Lue Häsä & Kortesharju sivut 4-9)

Lisätiedot

f(x, y) = x 2 y 2 f(0, t) = t 2 < 0 < t 2 = f(t, 0) kaikilla t 0.

f(x, y) = x 2 y 2 f(0, t) = t 2 < 0 < t 2 = f(t, 0) kaikilla t 0. Ääriarvon laatu Jatkuvasti derivoituvan funktion f lokaali ääriarvokohta (x 0, y 0 ) on aina kriittinen piste (ts. f x (x, y) = f y (x, y) = 0, kun x = x 0 ja y = y 0 ), mutta kriittinen piste ei ole aina

Lisätiedot

Vastauksia. Topologia Syksy 2010 Harjoitus 1

Vastauksia. Topologia Syksy 2010 Harjoitus 1 Topologia Syksy 2010 Harjoitus 1 (1) Olkoon X joukko ja (T j ) j J perhe X:n topologioita. Osoita, että T = {T j : j J} on X:n topologia. (2) Todista: Välit [a, b) muodostavat R 1 :n erään topologian kannan.

Lisätiedot