TILASTOMATEMATIIKKA. Keijo Ruohonen

Koko: px
Aloita esitys sivulta:

Download "TILASTOMATEMATIIKKA. Keijo Ruohonen"

Transkriptio

1 TILASTOMATEMATIIKKA Keijo Ruohonen 20

2 Sisältö I PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET. Satunnaisotanta.2 Tärkeitä otossuureita 2.3 Datan esitykset ja graafiset metodit 6.4 Otosjakaumat 6.4. Otoskeskiarvon jakauma Otosvarianssin jakauma t-jakauma F-jakauma 4 II YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 4 2. Piste-estimointi ja väliestimointi Yksi otos: Odotusarvon väliestimointi Ennustevälit Toleranssivälit Kaksi otosta: Odotusarvojen erotuksen estimointi Parittaiset havainnot Suhdeluvun estimointi Yksi otos: Varianssin estimointi Kaksi otosta: Varianssien suhteen estimointi 29 III HYPOTEESIEN TESTAUS Tilastolliset hypoteesit Hypoteesien testaus Kaksipuoliset ja toispuoliset testit Testisuureet P-arvot Odotusarvojen testaus Varianssien testaus Odotusarvojen vertailu graafisesti 40 IVχ 2 -TESTIT Jakauman sopivuustesti Riippumattomuustesti. Kontingenssitaulut Homogeenisuustesti 46 V SUURIMMAN USKOTTAVUUDEN ESTIMOINTI Suurimman uskottavuuden estimointi Esimerkkejä i

3 ii 50 VI MONEN MUUTTUJAN LINEAARINEN REGRESSIO Regressiomalli Parametrien estimointi. Matriisiesitys Parametriestimaattorien ominaisuuksia Regression tilastollinen käsittely Sovitetun mallin tutkiminen Kategoriset regressorit Residuaalin tutkiminen Logistinen regressio 68 VII PARAMETRITTOMAT MENETELMÄT Merkkitesti Merkityn järjestyksen testi Mann Whitney-testi Kruskal Wallis-testi Järjestyskorrelaatiokerroin 79 VIII STOKASTINEN SIMULOINTI Satunnaislukujen generointi Diskreettien jakaumien generointi Jatkuvien jakaumien generointi käänteiskertymämenetelmällä Jatkuvien jakaumien generointi hyväksy hylkää-menetelmällä Uudelleenotanta Monte Carlo -integrointi 86 Liite: TOLERANSSIVÄLITAULUKKO Esipuhe Tämä moniste on alunperin tarkoitettu TTY:n peruskurssin MAT-3330 Tilastomatematiikka luentotiivistelmäksi. Sopivin osin se on nyt käytössä peruskurssin MAT-333 Tilastomatematiikka luentotiivistelmänä. Moniste on kirjoitettu jotakuinkin vastaamaan kirjan WALPO- LE, R.E. & MYERS, R.H. & MYERS, S.L. & YE, K.: Probability & Statistics for Engineers & Scientists. Pearson Prentice Hall (2007) Lukujen 8, 9, 0, 2 ja 6 sisältöä. Kirja (jatkossa lyhyesti WMMY) on maailmanlaajuisesti yksi suosituimpia tilastomatematiikan alkeiskirjoja. Lisäksi on käsitelty stokastista simulointia. WMMYn vastinpykälät on merkitty oikeaan marginaaliin. Tämä moniste on kuitenkin huomattavasti tiiviimpi kuin WMMY, eikä näin varsinaisesti korvaa sitä tai esimerkiksi sovellu yhtä hyvin itseopiskeluun. Monin paikoin asian käsittely myöskin poikkeaa kirjan WMMY vastaavasta, esitystä on osin täydennetty ja korjattu ja eräät nykykäsityksen mukaan liian epätarkat menetelmät on korvattu toisilla. Monisteessa esitettävät esimerkit ovat pääosin kirjasta WMMY. Näiden esimerkkien numerot WMMYssä on merkitty oikeaan marginaaliin. Ne on kuitenkin kaikki ajettu uudelleen käyttäen MATLAB-ohjelmaa tai tilasto-ohjelmaa JMP tai nettilaskimia. Esimerkkejä ei myöskään ole käsitelty yhtä perusteellisesti kuin kirjassa ja monet niistä on lisäksi käsitelty eri tavoin. Kurssin MAT-333 Tilastomatematiikka ehdoton esitieto on kurssi MAT-2050 Todennäköisyyslaskenta, tai vastaavasti kirjan WMMY Luvut 8. Nämä kurssit käsittävät vain

4 tilastomatematiikan alkeet. Tarjolla onkin myös moneen suuntaan huomattavasti pidemmälle meneviä syventäviä kursseja. Mainittakoon esimerkiksi alan matemaattista puolta perusteellisemmin käsittelevä MAT-5800 Matemaattinen tilastotiede, Bayes-tyyppistä tilastomatematiikkaa käsittelevä MAT-5706 Bayesian methods, monimuuttujamenetelmiä (joihin kuuluu mm. regressio) käsittelevä kurssi MAT-4280 Tilastolliset monimuuttujamenetelmät sekä nimenomaan teknisillä aloilla käytettäviä menetelmiä käsittelevä kurssi MAT Tilastomatematiikka 2. iii Keijo Ruohonen

5 Luku PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET Tämä luku on paljolti kertausta kurssilta Todennäköisyyslaskenta. Uutena asiana tulevat otoksen graafiset eli deskriptiiviset esitykset.. Satunnaisotanta [8.] Populaatio on kaikkien mahdollisesti otokseen tulevien arvojen kokoelma. Arvo, numeerinen tai luokitteluarvo, voi esiintyä populaatiossa monta kertaa. Otos on tiettyjen populaatiosta valittujen arvojen kokoelma. Näiden lukumäärä on otoskoko, jota merkitään usein n:llä. Jos ko. arvot valitaan satunnaisesti, kyseessä on satunnaisotos. Otos voidaan ajatella ensinnäkin jonona satunnaismuuttujia: X, X 2,..., X n ( ensimmäinen otosalkio, toinen otosalkio,... ). Näillä satunnaismuuttujilla on sama jakauma ( satunnaisuus ) ja ne ovat riippumattomat. Konkreettinen otannan tuloksena saatu realisoitunut otos puolestaan on jono arvoja (numeerisia tai luokitteluarvoja): x, x 2,..., x n. Huomaa merkintä: satunnaismuuttujia merkitään isoin kirjaimin, arvoja pienin. Tässä tarkoitettu otanta on tarkemmin ottaen ns. otanta palauttaen, ts. jos populaatio on äärellinen (tai numeroituvasti ääretön), ajatellaan otettu alkio palautetuksi ennen seuraavan otokseen tulevan alkion ottamista. sample random sample IID: independent, identically distributed. Otantaa palauttamatta ei tässä sen kummemmin käsitellä, ks. esimerkiksi moniste RUOHONEN, K.: Tilastollinen kokeiden suunnittelu ja otanta..2 Tärkeitä otossuureita [8.2] Otossuure eli statistika on jokin otoksesta laskettu yksittäinen arvo: f(x,..., X n ) (satunnaismuuttuja) tai f(x,..., x n ) (realisoitunut arvo). Tuttu otossuure on otoskeskiarvo statistic sample mean X = n n X i tai x = n i= n x i, i= edellinen on satunnaismuuttuja, jälkimmäinen realisoitunut otoskeskiarvo.

6 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 2 Toinen tuttu otossuure on otosvarianssi S 2 = n n i= (X i X) 2 tai s 2 = n n (x i x) 2, i= sample variance jälleen edellinen on satunnaismuuttuja ja jälkimmäinen realisoitunut numeerinen arvo. Otosvarianssi voidaan myös kirjoittaa muotoon S 2 = n n Xi 2 n n X 2 i= (vastaavasti s 2 ). Ottamalla neliöjuuret saadaan otoshajonnat S ja s. Muita tärkeitä otossuureita ovat otosmaksimi ja -minimi. X max = max(x,..., X n ) tai x max = max(x,..., x n ), X min = min(x,..., X n ) tai x min = min(x,..., x n ) sekä näiden erotus, otosvaihteluväli. Avataan vain neliö (X i X) 2. sample standard deviation, sample maximum, sample minimum sample range R = X max X min tai r = x max x min..3 Datan esitykset ja graafiset metodit [8.3] Tutun pylväsdiagrammin eli histogrammin lisäksi on useita muitakin hyvin tavallisia tapoja havainnollistaa dataa. Esimerkki. Tässä esimerkissä otos muodostuu n = 40 satunnaisesti va- [8.3] litun savukkeen mitatusta nikotiinipitoisuudesta: JMP-ohjelma tulostaa seuraavan (vähän siistityn) graafisen esityksen: Desimaalierottimena käytetään pistettä, ettei se sekaannu jonoerottimena käytettävään pilkkuun. Nicotinedata: Distribution Pa Distributions Content Quantiles 00.0% 99.5% 97.5% 90.0% 75.0% 50.0% 25.0% 0.0% 2.5% 0.5% 0.0% maximum quartile median quartile minimum Moments Mean Std Dev Std Err Mean upper 95% Mean lower 95% Mean N Vasemmalla ylhäällä oleva ns. laatikko viikset-kuvio antaa tiivistetyn box and whiskers

7 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 3 kuvan datan jakaumasta. Laatikko-osa on alakvartiilin q(0.25) ja yläkvartiilin q(0.75) välinen osa otosarvoista (ks. alla). Laatikon sisällä on myös pystyviivalla merkitty otosmediaani (ks. alla). Viikset taas osoittavat otosmaksimin ja -minimin. Viiksiin voidaan merkitä muitakin kvantiileja (ks. alla). (Laatikon sisällä on myös luottamusvälin antava ns. keskiarvoruutu, johon palataan myöhemmin Pykälässä 3.8.) Usein otoksesta poistetaan yksi tai useampia ns. vieraita eli ulkolaisia, otosarvoja, jotka poikkeavat niin paljon tavallisesta, että niiden katsotaan syntyneen virheen seurauksena. Vieraiksi havaintoja voidaan luokitella erilaisin kriteerein. Vieraat on kuvaan merkitty pisteillä (tässä on kaksi vierasta). Pylväsdiagrammin sijasta jotkut haluavat käyttävää ns. runko lehtidiagrammia. Jos käytetään d desimaalin esitystä, valitaan d ensimmäistä desimaalia ns. rungoksi ja viimeiset desimaalit ovat ns. lehtiä. Data esitetään tyypillisesti muodossa , outlier stem and leaf diagram joka tässä tapauksessa tarkoittaa sitä, että runko-osa on.2, otoksessa on yksi arvo.20, kaksi arvoa.22, kolme arvoa.27 ja yksi arvo.29 (eikä siis esimerkiksi yhtään arvoa.2). Lehtiosaa voidaan tilasyistä jakaa monellekin riville. Esimerkki. (Jatkoa) JMP tulostaa seuraavan runko lehti-diagrammin [8.3] (jälleen vähän siistittynä oletustulostukseen verrattuna): Nicotinedata: Distribution Page Distributions Content Quantiles 00.0% 99.5% 97.5% 90.0% 75.0% 50.0% 25.0% 0.0% 2.5% 0.5% 0.0% maximum quartile median quartile minimum Stem and Leaf Stem Leaf Count Tässä arvot on ensin pyöristetty kaksidesimaalisiksi. 0 7 represents 0.7 Otoskvantiili q(f) on kirjan WMMY määrittelyn mukaan sellainen lukuarvo, että otosarvoista 00f % on q(f). Erityisesti sovitaan, että q(0) = x min ja q() = x max. Minimin ja maksimin lisäksi muita tavallisia otoskvantiileja ovat otosmediaani q(0.5) sekä alakvartiili q(0.25) ja yläkvartiili q(0.75). Edelleen usein esiintyvät kvintiilit sample quantile q(0.2), q(0.4), q(0.6), q(0.8)

8 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 4 sekä desiilit q(0.), q(0.2), q(0.3), q(0.4), q(0.5), q(0.6), q(0.7), q(0.8), q(0.9) ja sentiilit q(0.0), q(0.02), q(0.03),..., q(0.99). Erotus q(0.75) q(0.25) on ns. kvartiiliväli. Ehkäpä parempi määrittely otoskvantiilille q(f) on seuraava: q(f) on sellainen luku, että enintään 00f % otosarvoista on < q(f) ja enintään ( f)00 % otosarvoista on > q(f). Näinkin määriteltynä otoskvantiilit eivät aina ole yksikäsitteisiä. On useita tapoja määritellä otoskvantiilit niin, että niistä tulee yksikäsitteisiä (ks. harjoitukset). Ohjelmistot tulostavat yleensä jonkin kokoelman otoskvantiileja jonkin tällaisen määrittelytavan mukaisesti. Ks. edellinen esimerkki. Yo. otoskvantiilit ovat realisoituneita arvoja. Tietysti voidaan määritellä myös vastaavat satunnaismuuttujat Q(f), esimerkiksi otosmediaani Q(0.5). Näiden jakaumat ovat hyvin mutkikkaita. Ns. kvantiilikuva saadaan järjestämällä ensin otosarvot x, x 2,..., x n kasvavaan järjestykseen: interquartile range quantile plot x (), x (2),..., x (n) (missä siis x (i) on i:nneksi pienin otosarvo). Sen jälkeen pyritään saamaan otosarvoa x (i) mahdollisimman hyvin vastaava luku f. Tällaiseksi valitaan usein f i = i 3/8 n + /4. Lopuksi piirretään pisteet (f i, x (i) ) (i =,..., n) pistekuviona tai porrasviivana. Tulos on kvantiilikuva. Jos piirretäänkin pisteet (x (i), f i ) porrasviivana saadaan ns. otoskertymä eli empiirinen kertymä. empirical cumulative distribution function Esimerkki. (Jatkoa) JMP piirtää nimenomaan otoskertymän (kuva oi- [8.3] kealla): Nicotinedata: Distribution Page of Distributions Content Normal Quantile Plot Quantiles 00.0% 99.5% 97.5% 90.0% 75.0% 50.0% 25.0% 0.0% 2.5% 0.5% 0.0% maximum quartile median quartile minimum CDF Plot Cum Prob Content

9 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 5 Populaatioarvoilla on oma jakaumansa, joka voi olla tarkasti hyvin vaikea selville saatava. Usein on kuitenkin hyviä syitä olettaa, että ko. jakauma olisi jotakuinkin normaalijakauma, ts. että jakauman kertymäfunktio olisi melko tarkasti jonkin normaalijakauman N(µ, σ 2 ) kertymäfunktio. Jos asiasta on kuitenkin epäilyksiä, voi ensimmäisenä temppuna yrittää katsoa tilannetta graafisesti. Tämä voidaan tehdä vertailemalla otoskvantiileja normaalijakauman vastaaviin. Jos jakauman kertymäfunktio on F, niin sen kvantiili q(f) on sellainen luku, että F ( q(f) ) = f. Jos merkitään normaalijakauman N(µ, σ 2 ) kvantiileja q µ,σ (f):llä, niin q µ,σ (f) = µ + σφ (f), missä Φ on standardinormaalijakauman N(0, ) kertymäfunktio. Piirtämällä pisteet ( x (i), q 0, (f i ) ) (i =,..., n) pistekuviona tai porrasviivana saadaan ns. normaalikvantiilikuva. Mikäli populaatiojakauma todella on N(µ, σ 2 ), niin kuvion pitäisi olla jotakuinkin suora, sillä ideaalisesti silloin q 0, (f i ) = Φ (f i ) = q µ,σ(f i ) µ σ x (i) µ =. σ Kuvaajan päissä saa olla joidenkin havaintojen osalta vähän isompiakin heittoja, mutta ainakin keskivaiheilla sen pitäisi olla melko suora. Ellei näin ole, voidaan ainakin alustavasti päätellä, ettei populaatiojakauma ole normaali. Edellisessä esimerkissä vasemmalla oleva kuva on normaalikvantiilikuva. Populaatiojakaumaa voitaneen tämän kuvan perusteella pitää normaalina, vaikkakin tiettyä poikkeamaa on havaittavissa. Usein myös viimeisenä! Huomaa, että jakauman kvantiili ja otoskvantiili ovat eri asioita, vaikka niitä tässä merkitäänkin samalla tavalla. Varsin hyvän approksimaation antaa muuten Φ (f) = 4.9f ( f) 0.4. normal quantile plot Esimerkki. Tässä esimerkissä on mitattu n = 28 kertaa tiettyjen or- [8.5] ganismien lukumääriä. JMP tulostaa alla olevan normaalikvantiilikuvan, Akselit ovat toisinpäin! josta nähdään, ettei populaatiojakaumaa voida mitenkään pitää normaalina. Tämä näkyy tietysti selvästi myös pylväsdiagrammissa. Organisms: Distribution Page of Distributions Number_of_organisms Normal Quantile Plot

10 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 6 Muitakin tapoja tutkia normaalisuutta graafisesti on, esimerkiksi ns. normaalitodennäköisyyskuva. normal probability plot.4 Otosjakaumat [8.4] Otossuureen (satunnaismuuttujan) jakauma on ns. otosjakauma. Joidenkin otossuureiden jakaumat ovat hyvin hankalia, vaikka populaatiojakauma olisikin mukava (esimerkiksi normaali). Tällaisia ovat erityisesti otoskvantiilit satunnaismuuttujiksi ajateltuina. sample distribution.4. Otoskeskiarvon otosjakauma [8.5] Jos populaatiojakauman odotusarvo on µ ja varianssi σ 2, niin otoskeskiarvon odotusarvo on E(X) = µ ja varianssi var(x) = σ2 n (n on otoskoko). Otoskeskiarvon hajonta eli sen ns. keskivirhe on σ/ n standard error ja se pienenee otoskoon kasvaessa. Jos populaatiojakauma on normaalijakauma N(µ, σ 2 ), niin otoskeskiarvon jakauma on myös normaalijakauma, nimittäin N(µ, σ 2 /n). X:n jakauma on kuitenkin ainakin likimain normaali myös muuten, jos vain n on kyllin iso (ja populaatiojakaumalla on olemassa odotusarvo ja ää- Kaikilla jakaumilla ei ole odotusarvoa. Joillakin taas rellinen varianssi). Tämän takaa klassinen approksimaatiotulos: on vain odotusarvo, mutta ei äärellistä varianssia. Keskeinen raja-arvolause (otoskeskiarvoille). Jos populaatiojakauman odotusarvo on µ ja (äärellinen) varianssi σ 2, niin standardoidun satunnaismuuttujan Z = X µ σ/ n kertymäfunktio on likimain standardinormaalijakauman kertymäfunktio Φ, sitä tarkemmin mitä suurempi n on. Yleensä katsotaan, että otoskoko n = 30 jo riittää tekemään X:n jakauman hyvin tarkasti normaaliksi. Jos populaatiojakauma on jo lähtiessä hyvää muotoa (yksihuippuinen, likimain symmetrinen jne.), niin pienempikin arvo riittää (esimerkiksi n = 5). Esimerkki. Lähtien vahvasti epäsymmetrisestä jakaumasta saadaan eri otoskoille alla olevan kuvan mukaisia summan X + + X n tiheysfunktioita (laskettu Maple-ohjelmistolla). Jos taas lähdetään symmetrisestä, mutta vahvasti kaksihuippuisesta jakaumasta, saadaan vastaavasti toisen kuvasarjan mukaiset summan X + + X n tiheysfunktiot. Otoskoko n = 7 riittää siis jo tekemään ensimmäisen kuvasarjan X:n jakaumasta melko tarkasti normaalin, mutta vasta otoskoko n = 20 riittää toiselle kuvasarjalle. Central Limit Theorem Lauseesta on myös versioita, joissa otosalkioille ei oleteta samaa jakaumaa, vain riippumattomuus. Tällöin, jos otosalkioiden X,..., X n odotusarvot ovat µ,..., µ n ja hajonnat σ,..., σ n, niin valitaan µ = n (µ + + µ n ), σ 2 = n (σ2 + + σ 2 n). Silloin lause pitää paikkansa, kunhan asetetaan vielä jokin (heikohko) lisäoletus. Kuuluisa tällainen on ns. Lindebergin ehto. Jarl Lindeberg ( ) muuten oli suomalainen matemaatikko!

11 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET x n = n = x n = x n = x n = x n = x 0.. kuvasarja: n = n = x x kuvasarja: n = x n = e x n = x 5. n = 20.5e x 20.

12 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 8 Esimerkki. Koneenosan halkaisijan pitäisi olla µ = 5.0 mm (odotusar- [8.7] vo). Aikaisemman tiedon perusteella halkaisijan populaatiohajonta on σ = 0. mm. Asiaa tutkitaan n = 00 osan otoksella, jonka otoskeskiarvo on x = mm. Lasketaan todennäköisyys ( X 5.0 ) P( X µ mm) = 2P 0./ = (saadaan standardinormaalijakaumasta Keskeisen raja-arvolauseen nojalla). Tämä on aika pieni, mikä herättää epäilyksiä: Sangen luultavasti todellinen µ on isompi. MATLAB-ohjelmistolla laskut menevät seuraavasti: >> mu=5.0; sigma=0.; n=00; x_viiva=5.027; >> 2*(-normcdf(x_viiva,mu,sigma/sqrt(n))) ans = Kahden riippumattoman otoksen otoskeskiarvojen X ja X 2 erotukselle saadaan vastaavasti odotusarvo ja varianssi E(X X 2 ) = µ µ 2 ja var(x X 2 ) = σ2 n + σ2 2 n 2, missä µ, µ 2 sekä σ, 2 σ2 2 ovat vastaavat populaatiojakaumien odotusarvot ja varianssit ja n, n 2 ovat otoskoot. Jos otoskoot ovat kyllin isot, standardoidulla satunnaismuuttujalla Jos satunnaismuuttujat X ja Y ovat riippumattomat, niin var(x ± Y ) = var(x) + var(y ). Z = X X 2 (µ µ 2 ) σ 2 /n + σ 2 2/n 2 on Keskeisen raja-arvolauseen mukaisesti (kertymämielessä) likimain normaalijakauma N(µ µ 2, σ/n 2 + σ2/n 2 2 ). (Ja tarkastikin, jos populaatiojakaumat ovat normaaleja.) Kahden riippumattoman normaalijakautuneen satunnaismuuttujan summa ja erotus ovat myös normaalijakautuneita. Esimerkki. Kahden maalin A ja B kuivumisaikoja verrattiin n = 8 [8.8] näytteen avulla. Molempien maalien kuivumisaikojen populaatiohajonnan tiedetään olevan σ A = σ B =.0 h. Otoskeskiarvojen erotukseksi saatiin x A x B =.0 h. Voisiko tällainen tulos tulla, vaikka populaatioodotusarvot ovat samat (eli µ A = µ B )? Lasketaan ( X A X B 0 ) P(X A X B.0 h) = P.02 / /8 3.0 = Todennäköisyys on niin pieni, että tulos ei varmaankaan ole tullut sattumalta, vaan todella µ A > µ B. Jos olisikin saatu x A x B = 5 min, saataisiin vastaavasti P(X A X B 0.25 h) = Tämä tulos taas on hyvinkin voinut tulla sattumalta. MATLAB-ohjelmistolla tällaiset laskut menevät seuraavasti:

13 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 9 >> mu=0; % Maaleilla samat odotusarvot sigma_a=.0; sigma_b=.0; n_a=8; n_b=8; erotus=.0; % Maalin A otoskeskiarvo - maalin B otoskeskiarvo > -normcdf(erotus,mu,sqrt(sigma_a/n_a+sigma_b/n_b)) ans = >> erotus=0.25; >> -normcdf(erotus,mu,sqrt(sigma_a/n_a+sigma_b/n_b)) ans = Otosvarianssin jakauma [8.6] Otosvarianssin jakauma on hankala, ellei voida olettaa, että populaatiojakauma on normaali. Tehdäänkin tämä oletus, jolloin ko. jakauma saadaan ns. χ 2 -jakauman avulla. Jos satunnaismuuttujat U,..., U v ovat standardinormaalisti jakautuneet ja riippumattomat, niin satunnaismuuttujalla V = U U 2 v Asiaan liittyvät todistukset ovat jo varsin hankalia ja ne sivuutetaan tässä. Ne löytyvät mm. monisteesta RUOHONEN, K. & POHJA- VIRTA, A.: Laaja tilastomatematiikka. on χ 2 -jakauma. Tässä v on jakauman parametri, ns. vapausasteiden lukumäärä. Jakauman tiheysfunktio on )xv 2 g(x) = 2 v 2 Γ( v 2 e x 2, kun x > 0 2 0, kun x 0, (k)hii-toiseen-jakauma missä Γ on gammafunktio Γ(y) = t y e t dt. Hankalahkosta muodos- Gammafunktio on kertoman n! jatkuva yleistys. 0 taan huolimatta χ 2 -jakauman todennäköisyydet ovat numeerisesti hyvin Helposti näkee nimittäin, laskettavissa. Alla muutamia χ 2 -jakaumien tiheysfunktioita (vapausasteiden lukumäärää on merkitty tässä n:llä, laskettu MATLAB-ohjelmistolla): että Γ() = ja (osittaisintegroinnilla) että Γ(y + ) = yγ(y) χ 2 (n)-jakaumien tiheysfunktioita Siispä Γ(n) = (n )!, kun n on positiivinen kokonaisluku. Hankalampi on todeta, että Γ( 2 ) = π n = 0 n = n = 5 n = 20 0 n = x Helposti näkee, että E(V ) = v ja voidaan näyttää, että var(v ) = 2v.

14 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 0 Keskeisen raja-arvolauseen seurauksena suurille v:n arvoille (noin v 30) χ 2 -jakauma on näin likimain normaalijakauma N(v, 2v). Ilmeisesti, jos X,..., X n on otos N(µ, σ 2 )-jakautuneesta populaatiosta, niin satunnaismuuttujat (X i µ)/σ ovat standardinormaaleja ja riippumattomia ja summalla n (X i µ) 2 i= on χ 2 -jakauma n vapausasteella. Mutta ko. summahan ei ole otosvarianssi! Toisaalta samantapaisella otosvarianssista saatavalla satunnaismuuttujalla (n )S 2 n (X i X) 2 = σ 2 σ 2 σ 2 i= on myös χ 2 -jakauma, mutta n vapausasteella. Tärkeää on huomata, että mitään Keskeisen raja-arvolauseen tapaista approksimaatiota ei ole tässä käytettävissä, vaan populaatiojakauman on oltava normaali. Tästä johtuu, että χ 2 -jakauma yleensä taulukoidaan vain enintään vapausasteille Tämä on hankala näyttää! Esimerkki. Kestoiät on merkitty ylös n = 5 akulle. Arvellaan, että ko. [8.0] akkumallille kestoiän (populaatio)hajonta olisi σ =.0 v. Otokseen saatiin kestoiät.9 v, 2.4 v, 3.0 v, 3.5 v ja 4.2 v. Laskien saadaan otosvarianssiksi s 2 = 0.85 v 2. Edelleen saadaan ( (n )S P(S v 2 2 ) ) = P = σ 2 (käyttäen χ 2 -jakaumaa n = 4 vapausasteella). Saatu arvo s 2 on siis hyvin tavallinen (likellä mediaania). Mitään syytä epäillä oletettua populaatiohajontaa.0 v ei tässä ole. Laskut MATLABilla: >> mu=3; sigma=; n=5; otos=[ ]; >> s=std(otos) s = >> -chi2cdf((n-)*s^2/sigma^2,n-) ans = t-jakauma [8.7] Edellä käsiteltäessä otoskeskiarvoa piti tietää populaatiohajonta σ. Jos sitä ei tiedetä, voidaan edelleen edetä, mutta normaalijakauman tilalle tulee ns. t-jakauma (eli Studentin jakauma). Lisäksi Keskeinen rajaarvolause ei ole tässäkään käytössä, vaan populaatiojakauman pitää silloin olla normaali. Jos satunnaismuuttujat U ja V ovat riippumattomat, U:lla on standardinormaalijakauma ja V :llä on χ 2 -jakauma v vapausasteella, niin satunnaismuuttujalla T = U V/v Jälleen asiaan liittyvät todistukset ovat hankalat ja löytyvät mm. monisteesta RUOHONEN, K. & POHJAVIRTA, A.: Laaja tilastomatematiikka.

15 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET on t-jakauma v vapausasteella. Jakauman tiheysfunktio on v+ Γ( 2 g(x) = ) πv Γ( v ( ) + v ) v+ 2 x2. 2 Alla on muutamia esimerkkejä t-jakaumien tiheysfunktioista (vapausastein n, laskut MATLABilla): Jakauman otti käyttöön kemisti William Gosset ( ), nimimerkki Student. t(n)-jakaumien tiheysfunktioita n = 0.3 n = n = n = t t-jakauma on yksihuippuinen ja symmetrinen arvon 0 suhteen, ja muistuttaa näin vähän standardinormaalijakaumaa. Suurille v:n arvoille se onkin varsin tarkasti standardinormaalijakauma, mutta tämä ei seuraa Keskeisestä raja-arvolauseesta. Jos populaatiojakauma on normaali, niin otoskeskiarvo X ja otosvarianssi S 2 ovat riippumattomat satunnaismuuttujat. Tästä seuraa, että myös näistä laskien saatavat satunnaismuuttujat U = X µ σ/ n ja V = (n )S2 σ 2 ovat riippumattomat. Edellisellä on standardinormaalijakauma ja jälkimmäisellä χ 2 -jakauma n vapausasteella. Siispä satunnaismuuttujalla T = on t-jakauma n vapausasteella. U = X µ V/(n ) S/ n Vaan mistä? Tämä riippumattomuus on vaikeasti osoitettava ja jonkin verran yllättävä juttu! Esimerkki. Erään kemiallisen prosessin tuottoa mitataan grammoissa [8.4] raaka-ainemillilitraa kohti. Mainitun tuoton pitäisi olla µ = 500 g/ml (oletettu populaatio-odotusarvo). Asiaa tutkittiin n = 25 alkion otoksella, jolloin saatiin otoskeskiarvo x = 58 g/ml ja otoshajonta s = 40 g/ml. Lasketaan ( X µ P S/ n ) 40/ = P(T 2.25) = (käyttäen t-jakaumaa n = 24 vapausasteella). Tämä todennäköisyys on pieni, joten tulos ei luultavastikaan syntynyt sattumalta ja tuotto taitaakin olla parempi kuin luultiin. Laskut MATLABilla:

16 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 2 >> mu=500; n=25; x_viiva=58; s=40; >> -tcdf((x_viiva-mu)/(s/sqrt(n)),n-) ans = Vaikka t-jakauma onkin johdettu sillä oletuksella, että populaatiojakauma on normaali, se on siinä mielessä robusti, että satunnaismuuttuja T yllä on likimain t-jakautunut kunhan vain populaatiojakauma on normaalinkaltainen (yksihuippuinen, likimain symmetrinen). Tämä johtuu siitä, että tällaisille populaatiojakaumille otoshajonta S on isohkoille otoskoille n jo niin tarkasti = σ, että Keskeinen raja-arvolause tulee jossain mielessä käyttöön. Näin t-jakauma on hyvin käyttökelpoinen monissa tilanteissa..4.4 F-jakauma [8.8] Kahden eri otoksen hajontojen vertailu onnistuu niiden otosvarianssien avulla käyttäen ns. F-jakaumaa eli Fisherin jakaumaa eli Snedecorin jakaumaa. Jos satunnaismuuttujat V ja V 2 ovat riippumattomat ja niillä on χ 2 -jakaumat v ja v 2 vapausasteella, vastaavasti, niin satunnaismuuttujalla F = V /v V 2 /v 2 on F-jakauma vapausastein v ja v 2. Tällöin satunnaismuuttujalla /F on myös F-jakauma, nimittäin vapausastein v 2 ja v. F-jakauman tiheysfunktio on varsin mutkikas: ( v ) v 2 Γ( v +v 2 ) ( 2 g(x) = v 2 Γ( v 2 )Γ( v 2 2 ) x v 2 2 0, kun x 0. + v v 2 x ) v +v 2 2, kun x > 0 Muutamia esimerkkejä F-jakaumien tiheysfunktioista (vapausastein n ja n 2, laskut MATLABilla): Ronald Fisher ( ), tilastomatematiikan uranuurtajia George Snedecor (88 974) F(n,n 2 )-jakaumien tiheysfunktioita 0.9 n = 5, n 2 = n = 5, n 2 = n = 20, n 2 = n = 20, n 2 = v

17 LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 3 Jos S 2 ja S 2 2 ovat kahden riippumattoman otoksen otosvarianssit, vastaavat populaatiot ovat normaalijakautuneet hajonnoin σ ja σ 2 ja otoskoot ovat n sekä n 2, niin satunnaismuuttujat V = (n )S 2 σ 2 ja V 2 = (n 2 )S 2 2 σ 2 2 ovat riippumattomat ja χ 2 -jakautuneet vapausastein n sekä n 2. Niinpä satunnaismuuttujalla F = V /(n ) V 2 /(n 2 ) = S2 /σ 2 S 2 2/σ 2 2 on silloin F-jakauma vapausastein n ja n 2. F-jakaumaa voidaan käyttää populaatiovarianssien vertailuun otosten avulla, ks. Pykälät 2.9 ja 3.7. Se tosin ei ole siihen tarkoitukseen kovinkaan vahva työkalu. Parempiakin on ja ohjelmistot käyttävätkin yleensä niitä. Mm. Bartlettin testi tai Levenen testi. Esimerkki. Otetaan tapaus, jossa on saatu realisoituneet otosvarianssit s 2 = 0.20 sekä s 2 2 = 0.4 ja otoskoot ovat n = 25 ja n 2 = 30. Lisäksi arvellaan, että vastaavat populaatiohajonnat ovat samat eli σ = σ 2. Lasketaan ( S 2 P /σ 2 S2/σ s2 /σ 2 ) = P(F.429) = s 2 2/σ2 2 (käyttäen F-jakaumaa vapausastein n = 24 ja n 2 = 29). Häntätodennäköisyys on siis melko iso, liikutaan jakauman tavallisella alueella eikä mitään kummempaa syytä epäillä populaatiohajontojen samuutta ole. Laskut MATLABilla: >> n_=25; n_2=30; s toiseen=0.20; s_2_toiseen=0.4; >> -fcdf(s toiseen/s_2_toiseen,n_-,n_2-) ans = Varsinaisesti F-jakauma tulee käyttöön ns. varianssianalyysissä, josta lisää myöhemmin. ANOVA, analysis of variance

18 Luku 2 YHDEN JA KAHDEN OTOKSEN ESTIMOINTI Estimointi eli populaatiojakaumaan liittyvän numeerisen arvon eli para- classical statistical inference metrin arviointi on hypoteesin testauksen ohella ns. klassisen tilastollisen päättelyn perusmenetelmä. Toinen tilastomenetelmien peruslaji on ns. Bayesin menetelmät, joita ei tässä käsitellä. 2. Piste-estimointi ja väliestimointi [9.3] Piste-estimoinnin tarkoituksena on saada arvioiduksi jokin populaatioon liittyvä numeerinen arvo, ns. parametri, θ käyttäen otosta. Tällainen parametri on esimerkiksi populaatio-odotusarvo µ, jota voidaan estimoida otoskeskiarvolla x. Otoksesta laskettu realisoitunut θ:a arvioiva numeerinen arvo on nimeltään estimaatti, merkitään ˆθ. Estimaatti lasketaan otokseen tulleista arvoista jollain kaavalla tai numeerisella algoritmilla. Toisaalta, jos otosta ajatellaankin satunnaismuuttujajonona X,..., X n, on siitä estimointikaavalla tai -algoritmilla laskettu arvokin satunnaismuuttuja. Sitä merkitään ˆΘ:lla. Tätä satunnaismuuttujaa kutsutaan estimaattoriksi. Yhdelle ja samalle parametrille voi olla erilaisia estimaattoreita. Esimerkiksi populaatio-odotusarvoa voitaisiin myös estimoida otosmediaanilla. Tuloksen eli saatujen estimaattien hyvyys riippuu sitten siitä miten symmetrinen populaatiojakauma on odotusarvonsa suhteen. Vastaavasti otoskeskiarvo on myös populaatiomediaanin eräs estimaattori parempi sellainen on tietysti otosmediaani. Populaatiokeskiarvon µ, -varianssin σ 2 ja -mediaanin m estimoinnissa yo. käsitteet ovat seuraavat: point estimation Muista merkintä: satunnaismuuttujia merkitään isoilla kirjaimilla, realisoituneita arvoja pienillä. Parametri θ Estimaatti ˆθ Estimaattori ˆΘ µ ˆµ = x X σ 2 σ 2 = s 2 S 2 m ˆm = q(0.5) Q(0.5) Piste-estimaattori on satunnaismuuttuja. Jos siinä ei ole systemaattista virhettä, ts. sen odotusarvo E( ˆΘ) on oikea parametrin arvo θ, sanotaan estimaattoria harhattomaksi. Jos taas E( ˆΘ) θ, sanotaan esti- unbiased 4

19 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 5 maattoria E( ˆΘ) harhaiseksi. (Tämä kaikki olettaen tietysti, että E( ˆΘ) on olemassa!) Jos populaatio-odotusarvo on µ, niin estimaattori X (otoskeskiarvo satunnaismuuttujana) on harhaton estimaattori, sillä E(X) = µ. Myös otosvarianssi S 2 on populaatiovarianssin σ 2 harhaton estimaattori. Ensinnäkin S 2 voidaan kirjoittaa muotoon Siispä S 2 = n n i= (X i X) 2 = n n i= (X i µ) 2 n n (X µ)2. biased Lavennetaan mukaan µ X i X = (X i µ) (X µ) ja avataan neliö. E(S 2 ) = n n E ( (X i µ) 2) n n E( (X µ) 2) i= = n n σ2 n σ 2 n n = σ2. Mitä pienempi harhattoman piste-estimaattorin ˆΘ varianssi var( ˆΘ) = E ( ( ˆΘ θ) 2) on, sitä todennäköisempää on, että se osuu lähelle odotusarvoaan. Sanotaankin, että estimaattori on sitä tehokkaampi mitä pienempi sen varianssi on. Harhainenkin estimaattori voi olla hyvä siinä mielessä, että sen keskineliövirhe E ( ( ˆΘ θ) 2) on pieni. Väliestimoinnin tarkoituksena on otoksesta laskien tuottaa väli, jolla oikea parametrin θ arvo on, ainakin tietyllä suurella todennäköisyydellä. Kyseessä voi olla kaksipuolinen tai toispuolinen väli. Kaksipuolisessa välissä estimoidaan molemmat välin päätepisteet θ L (vasen eli alempi) ja θ U (oikea eli ylempi), yksipuolisessa vain toinen (se toinen on silloin muuten selvä, esimerkiksi ± tai 0). Katsotaan ensin kaksipuolisia välejä. Tässäkin estimaatit ˆθ L ja ˆθ U ovat realisoituneesta otoksesta laskien saatavia lukuja. Estimaattorit ˆΘ L ja ˆΘ U puolestaan ovat satunnaismuuttujia. Perusidea on saattaa tavalla tai toisella tilanne sellaiseksi, että efficient mean square(d) error interval estimation Siis välin päätepisteet ˆΘ L ja ˆΘ U ovat satunnaismuuttujia, ei parametri θ! P( ˆΘ L < θ < ˆΘ U ) = α, missä α on annettu luku (usein 0.0, 0.05 tai 0.0). Realisoitunutta väliä (ˆθ L, ˆθ U ) sanotaan silloin 00( α) % luottamusväliksi. Luku α on välin luottamusaste ja päätepisteet ovat alempi ja ylempi luottamusraja. Mitä suurempaa luottamusastetta vaaditaan, sitä leveämmäksi luottamusväli tulee ja hyvin lähellä 00 % oleva luottamusaste johtaa yleensä väleihin, jotka ovat liian leveitä ollakseen kovin mielenkiintoisia. Lisäksi esitetty ehto P( ˆΘ L < θ < ˆΘ U ) = α ei kerro miten väli oikein valitaan. Usein vaaditaankin, että väli on symmetrinen, ts. confidence interval degree of confidence, lower confidence limit, upper confidence limit P(θ ˆΘ L ) = P(θ ˆΘ U ) = α 2. (Toinen aika luonnollinen vaatimus voisi olla, että väli on lyhin mahdollinen, mutta se johtaa monesti hankaliin laskuihin.)

20 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI Yksi otos: Odotusarvon väliestimointi [9.4] Populaatio-odotusarvon µ piste-estimoinnissa luonnollinen harhaton estimaattori on otoskeskiarvo X, jonka varianssi on σ 2 /n. Tässä σ 2 on populaatiovarianssi, joka oletetaan ensin tunnetuksi. Suurilla otoskoilla n tällainen estimointi on varsin tarkkaa. Odotusarvon väliestimointi lähtee siitä, että satunnaismuuttujalla Z = X µ σ/ n on vähänkään suuremmille otoskoille Keskeisen raja-arvolauseen nojalla melko tarkasti standardinormaalijakauma N(0, ). Valitaan nyt jakauman kvantiili z α/2 siten, että P(Z z α/2 ) = Φ(z α/2 ) = α/2, jolloin (symmetria) myös P(Z z α/2 ) = Φ( z α/2 ) = α/2. Silloin Φ on standardinormaalijakauman kertymäfunktio. Toisaalta kaksoisepäyhtälö on ekvivalentti kaksoisepäyhtälön P( z α/2 < Z < z α/2 ) = α. z α/2 < X µ σ/ n < z α/2 X z α/2 σ n < µ < X + z α/2 σ n kanssa. Näin ollen, jos realisoitunut otoskeskiarvo on x, valitaan 00( α) % luottamusrajoiksi ˆµ L = x z α/2 σ n ja ˆµ U = x + z α/2 σ n. Alla on esitetty simuloimalla (MATLAB) saadut 00 kpl 90 %, 95 % sekä 99 % odotusarvon luottamusvälejä standardinormaalijakaumalle. Lähdetään 90 % luottamusväleistä: Generoidaan 00 kertaa n standardinormaalia satunnaislukua ja käytetään niitä otoksina. Piirretään välit päällekkäisinä janoina kpl N(0,) jakauman odotusarvon luottamusvälejä (90%)

21 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 7 Huomaa miten noin kymmenesosa väleistä ei sisällä oikeaa odotusarvoa µ = 0. Iso osa väleistä on jopa erillisiä. Siirryttäessä korkeampaan luottamusasteeseen välit pitenevät, mutta peittävät samalla todennäköisemmin oikean odotusarvon: kpl N(0,) jakauman odotusarvon luottamusvälejä (95%) kpl N(0,) jakauman odotusarvon luottamusvälejä (99%) Esimerkki. Tässä kyse on näytteiden sinkkipitoisuudesta n = 36 mit- [9.2] tauspisteessä. Saatujen mittausten otoskeskiarvo on x = 2.6 g/ml. Populaatiohajonnaksi tiedetään σ = 0.3 g/ml. Jos α = 0.05, jolloin z =.960, laskien saadaan ˆµ L = 2.50 g/ml sekä ˆµ U = 2.70 g/ml. Jos taas α = 0.0, jolloin z = 2.575, saadaan ˆµ L = 2.47 g/ml sekä ˆµ U = 2.73 g/ml eli väli on pidempi. Jos luottamusväli määräytyy symmetrisestä jakaumasta, kuten on asian laita odotusarvolle, rajat ovat muotoa ˆθ ± b, missä ˆθ on pisteestimaatti. Lukua b kutsutaan tällöin estimointivirheeksi. Odotusarvolle ilmeisesti b = z α/2 σ/ n. Jos siis halutaan estimointivirheen olevan enin-

22 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 8 tään annettu luku b 0, pitää valita otoskoko n siten, että σ ( zα/2 σ ) 2. z α/2 n b 0 eli n b 0 Näin ollen, jos yo. esimerkissä haluttaisiin estimointivirheen olevan enintään b 0 = 0.05 g/ml, pitäisi otoskoon olla ainakin n = 39. Edellä luottamusvälit ovat olleet kaksipuolisia. Jos halutaan odotusarvolle µ pelkkä alapuolinen luottamusraja, valitaan standardinormaalijakauman kvantiili z α, jolle P(Z z α ) = Φ(z α ) = α, jolloin myös P(Z z α ) = Φ( z α ) = α. Nyt epäyhtälö on ekvivalentti epäyhtälön X µ σ/ n < z α µ > X z α σ n kanssa ja saadaan haluttu 00( α) % luottamusalaraja ˆµ L = x z α σ n. Vastaavasti saadaan 00( α) % luottamusyläraja ˆµ U = x + z α σ/ n. Esimerkki. n = 25 koehenkilöltä mitataan tietty reagointiaika. Aiem- [9.4] mat testit osoittavat, että reaktioaikojen hajonta on σ = 2.0 s ja sitä voidaan pitää tunnettuna. Saatu näytteiden otoskeskiarvo on x = 6.2 s. Nyt z 0.05 =.645 ja 95 % luottamusyläraja reaktioaikojen odotusarvolle on ˆµ U = 6.86 s. Edellä piti tietää populaatiovarianssi σ 2. Jos sitä ei tiedetä, voidaan edelleen edetä, mutta standardinormaalijakauman tilalle tulee silloin t-jakauma. (Eikä Keskeinen raja-arvolause ole käytössä, vaan populaatiojakauman pitää olla normaali.) Nyt lähdetään satunnaismuuttujasta T = X µ S/ n, jolla on t-jakauma n vapausasteella. Etsitään jakauman kvantiili t α/2, jolle on P(T t α/2 ) = α/2. Silloin t-jakauman symmetrisyyden vuoksi on myös P(T t α/2 ) = α/2 ja P( t α/2 < T < t α/2 ) = α, aivan kuten standardinormaalijakaumallekin. Edeten aivan kuten edelläkin saadaan populaatio-odotusarvon µ 00( α) % luottamusrajoiksi s s ˆµ L = x t α/2 ja ˆµ U = x + t α/2. n n Estimaatin x estimointivirhe on tässä ilmeisesti b = t α/2 s/ n. Vastaavat toispuoliset luottamusrajat ovat s s ˆµ L = x t α ja ˆµ U = x + t α, n n Mutta se ei ole etukäteen tunnettu. missä kvantiili t α on valittu siten, että P(T t α ) = α. Esimerkki. Seitsemän rikkihappoa sisältävän samanlaisen astian rikki- [9.5] happomäärät mitattiin. Määrien keskiarvo on x = 0.0 l ja hajonta s = l. Nyt t = ja saadaan 95 % luottamusväli (9.74 l, 0.26 l).

23 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI Ennustevälit [9.6] Usein väliestimoinnin jälkeen halutaan vastaava väli, ns. ennusteväli, seuraavalle mittaukselle x 0. Luonnollisesti ajatellaan vastaavan satunnaismuuttujan X 0 olevan riippumattoman käytetyistä otoksessa olleista satunnaismuuttujista X,..., X n ja niiden kanssa samoin jakautunut. Olettaen populaatiojakauman olevan normaalijakauman N(µ, σ 2 ) tiedetään erotuksella X 0 X olevan myös normaalijakauman ja sekä E(X 0 X) = E(X 0 ) E(X) = µ µ = 0 var(x 0 X) = var(x 0 ) + var(x) = σ 2 + ( σ2 n = + ) σ 2. n Siispä satunnaismuuttujalla prediction interval Kahden riippumattoman normaalijakautuneen satunnaismuuttujan summa ja erotus ovat myös normaalijakautuneita. Jos satunnaismuuttujat X ja Y ovat riippumattomat, niin var(x ± Y ) = var(x) + var(y ). Z = X 0 X σ + /n on standardinormaalijakauma. Tässä siis taas oletetaan populaatiovarianssi σ 2 tunnetuksi. Menetellen aivan kuten edellä, korvaten vain σ/ n lausekkeella σ + /n, saadaan x 0 :lle 00( α) % ennusteväli x z α/2 σ + n < x 0 < x + z α/2 σ + n, jolla se todennäköisyydellä α on. Vm. todennäköisyys on tulkittava siten, että se on tapahtuman X z α/2 σ + n < X 0 < X + z α/2 σ + n, todennäköisyys. Ennusteväli ottaa näin mukaan sekä odotusarvon estimoinnissa olevan että satunnaismuuttujassa X 0 olevan epävarmuuden. Jälleen, jos populaatiohajontaa σ ei tunneta, pitää vain käyttää otoshajontaa s sen sijasta ja standardinormaalijakauman sijasta t-jakaumaa vapausastein n. Satunnaismuuttuja X 0 X on nimittäin myös riippumaton otosvarianssista S 2, joten Jälleen hankalasti todistettava fakta. T = Z (n )S 2 σ 2 (n ) = X 0 X S + /n on t-jakautunut vapausastein n. Arvolle x 0 saatu 00( α) % ennusteväli on silloin x t α/2 s + n < x 0 < x + t α/2 s + n.

24 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 20 Esimerkki. n = 30 vähärasvaista lihaa sisältävän pakkauksen lihapi- [9.7] toisuus (muu kuin rasva) tarkastettiin. Jakauma oletettiin normaaliksi. Otoskeskiarvo on x = 96.2 % ja -hajonta s = 0.8 %. t-kvantiilia t = (vapausastein 29) käyttäen saadaan seuraavan paketin li- Älä sekoita pitoisuus- ja todennäköisyysprosentteja! hapitoisuudelle 99 % ennusteväli (93.96 %, %). Eräs ennustevälien käyttötapa on vieraiden otosarvojen etsiminen. Havainto katsotaan vieraaksi, jos se ei osu siihen ennusteväliin, joka otoksesta saadaan, kun ko. havainto on siitä ensin poistettu. Vastaavalla tavalla voitaisiin myös laatia toispuolisia ennustevälejä. Ks. Pykälän.3 esimerkki. 2.4 Toleranssivälit [9.7] Eräs estimoitava välityyppi on ns. toleranssiväli, joka esiintyy mm. prosessien tilastollisen käyttäytymisen määrittelyssä. Jos populaatiojakauma on tunnettu normaalijakauma N(µ, σ 2 ), sen 00( α) % toleranssiväli on sellainen väli (µ kσ, µ + kσ), jolla jakaumasta on 00( α) %. Väli annetaan antamalla vastaava k:n arvo ja esitetään yleensä muodossa µ ± kσ. Näin ollen esimerkiksi 95 % toleranssiväli on µ ±.96σ. Tämä siis edellyttää, että µ ja σ tiedetään. Mutta yleensä populaation µ ja σ ovat tuntemattomat. Toleranssiväli annetaan silloin ottamalla käyttöön otoksesta saadut vastaavat otossuureet x ja s ja se on x ± ks. Nämä ovat kuitenkin satunnaismuuttujien X ± ks realisoituneet arvot ja näin saatu toleranssiväli onkin oikea vain tietyllä todennäköisyydellä γ, joka riippuu valitusta k:n arvosta (ja otoskoosta n). k valitaankin siten, että väli X ± ks sisältää todennäköisyydellä γ (merkitsevyys) jakaumasta ainakin 00( α) %. Toleranssivälien päätepisteiden jakauma on jonkin verran hankala. Joskus x ± k s n. Ihan vain niille, joita asia ehkä syvällisemmin kiinnostaa! Vähän miettien voi todeta, että yläpuolisen toleranssivälin konstruoinnissa pitää etsiä sellainen luku k, että ( X + ks µ ) P z α = γ. σ Jos merkitään, kuten edellä, Z = X µ σ/ n ja V = (n )S2 σ 2, niin Z on standardinormaalijakautunut ja V on χ 2 -jakautunut vapausastein n ja ne ovat riippumattomat. Tehtävä voidaan näin pukea muotoon, jossa ei esiinny populaatioparametreja: Kun on annettu α, γ ja n, etsittävä sellainen luku k, että ( Z n P + k V ) z α = γ. n Riippumattomuudesta johtuen Z:n ja V :n yhteisjakauman tiheysfunktio on φ(z)g(v), missä g on χ 2 -jakauman (n vapausasteella) ja φ on standardinormaalijakauman tiheysfunktio. Sitä käyttäen vasemman puolen todennäköisyys saadaan integraalilausekkeena ja k:lle saadaan yhtälö. Ei liene ihme, että tämä on vaikeaa ja johtaa numeeriseen ratkaisuun! Kaksipuolisen toleranssivälin tapauksessa tilanne on vieläkin hankalampi.

25 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 2 Siihen liittyviä kvantiileja (k:n valinta) löytyy taulukoituina kirjoissa (mm. WMMYssä). Nettilaskimiakin näille väleille löytyy. Tarkkoja k:n arvoja on taulukoituna Liitteessä. Nämä saattavat kuitenkin olla approksimatiivisia eivätkä kovin tarkkoja. Esimerkki. n = 9 työstettyä metalliosaa mitataan ja saadaan otos- [9.8] suureet x =.0056 cm ja s = cm. Silloin todennäköisyydellä 0.99 mitatun suureen populaatioarvoista vähintään 95 % on toleranssivälillä.0056 ± k cm, missä k = (ks. Liite), eli siis välillä ( cm,.83 cm). Vastaava 99 % luottamusväli olisi muuten (0.978 cm,.033 cm) ja se on lyhyempi. Myös toispuoliset toleranssivälit ovat mahdollisia. 2.5 Kaksi otosta: Odotusarvojen erotuksen estimointi [9.8] Kahden populaation odotusarvot ja varianssit ovat µ ja µ 2 sekä σ 2 ja σ2, 2 vastaavasti. Kummastakin otetaan otos, otoskokoina n ja n 2. Keskeisen raja-arvolauseen mukaisesti saadut otoskeskiarvot X ja X 2 (satunnaismuuttujina) ovat likimain normaalijakautuneet. Näin ollen myös niiden erotus X X 2 on (likimain) normaalijakautunut, odotusarvona µ µ 2 ja varianssina σ/n 2 + σ2/n 2 2. Edelleen satunnaismuuttujalla Z = (X X 2 ) (µ µ 2 ) σ 2 /n + σ 2 2/n 2 Otokset ovat luonnollisesti tässäkin riippumattomat. on silloin (likimain) standardinormaalijakauma. Käyttäen standardinormaalijakauman kvantiilia z α/2 kuten edellä ja huomaten, että kaksoisepäyhtälöt ja z α/2 < (X X 2 ) (µ µ 2 ) σ 2 /n + σ 2 2/n 2 < z α/2 (X X 2 ) z α/2 σ 2 n + σ2 2 n 2 < µ µ 2 < (X X 2 ) + z α/2 σ 2 n + σ2 2 n 2 ovat ekvivalentit, saadaan erotukselle µ µ 2 näin 00( α) % luottamusrajat σ 2 (x x 2 ) ± z α/2 + σ2 2, n n 2 missä x ja x 2 ovat realisoituneet otoskeskiarvot. Tässä jälleen oletettiin, että populaatiovarianssit σ 2 ja σ 2 2 tunnetaan. Esimerkki. Kahden moottorityypin A ja B polttoaineen kulutusta verrat- [9.9] tiin ajamalla niillä varustetuilla autoilla, n A = 50 kertaa moottorilla A ja n B = 75 kertaa moottorilla B. Saadut otoskeskiarvot ovat x A = 5.30 km/l ja x B = 7.85 km/l. Populaatiohajonnat tiedetään: σ A = 2.55 Kirjan WMMY esimerkin km/l ja σ B = 3.40 km/l. Käyttäen standardinormaalijakauman kvantiilia z 0.02 = saadaan erotukselle µ B µ A laskien 96 % luottamusrajat.455 km/l ja km/l. mittayksikkö mile/gal on tässä muutettu.

26 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 22 ovat riippumattomat χ 2 -jakautuneet satunnaismuuttujat vapausastein v ja v 2, niin niiden summa V + V 2 on myös χ 2 -jakautunut, vapausastein v +v 2. Ajatellen otosvariansseja satunnaismuuttujina S 2 ja S 2 2 tiedetään, että satunnaismuuttujilla V = (n )S 2 σ 2 ja V 2 = (n 2 )S 2 2 σ 2 2 on χ 2 -jakaumat vapausastein n ja n 2, ja ne ovat myös riippumattomat. Siispä satunnaismuuttujalla V = V + V 2 = (n )S 2 σ 2 + (n 2 )S 2 2 σ 2 2 on χ 2 -jakauma vapausastein n + n 2 2. Katsotaan ensin tapausta, missä tiedetään, että σ 2 ja σ 2 2 ovat samat (= σ 2 ), vaikkakaan ei tiedetä mikä σ 2 on. Silloin V = σ 2 ( (n )S 2 + (n 2 )S 2 2 ) Mikäli populaatiovariansseja σ 2 ja σ2 2 ei tunneta, tilanne muuttuu mutkikkaammaksi. Luonnollisesti tällöin pyritään käyttämään otoksista saatuja otosvariansseja s 2 ja s 2 2. Eräs χ 2 -jakauman mukavia ominaisuuksia on se, että jos V ja V 2 Tämä on hankalahko todistettava. Asia on kuitenkin melko ilmeinen, jos V ja V 2 voidaan esittää riippumattomien standardinormaalien satunnaismuuttujien neliöiden summana. ja se siis on χ 2 -jakautunut vapausastein n + n 2 2. Merkitään lyhyyden vuoksi Sp 2 = (n )S 2 + (n 2 )S2 2, n + n 2 2 ns. yhteisotosvarianssi. Vastaavasti saadaan s 2 p realisoituneista otosvariansseista s 2 ja s 2 2. Koska satunnaismuuttujat Z (ks. edellä) ja V ovat riippumattomat, on satunnaismuuttujalla T = Z V/(n + n 2 2) = (X X 2 ) (µ µ 2 ) S p /n + /n 2 t-jakauma vapausastein n + n 2 2. Käyttäen t-jakauman kvantiilia t α/2 (vapausastein n + n 2 2) ja todeten kaksoisepäyhtälöt pooled sample variance Tämäkin on vaikeasti todistettava asia. Huomaa miten populaatiohajontoja σ ja σ 2 ei saada häviämään T :n lausekkeesta, elleivät ne ole samat tai ainakin suhdetta σ /σ 2 tiedetä. t α/2 < (X X 2 ) (µ µ 2 ) S p /n + /n 2 < t α/2 sekä (X X 2 ) t α/2 S p n + n 2 < µ µ 2 < (X X 2 ) + t α/2 S p n + n 2 ekvivalenteiksi saadaan erotukselle µ µ 2 nyt 00( α) % luottamusrajat (x x 2 ) ± t α/2 s p n + n 2, missä x ja x 2 ovat realisoituneet otoskeskiarvot.

27 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 23 Esimerkki. Kahdesta paikasta mitattiin eräiden eliöiden ns. moninai- [9.0] suusindeksi kuukausittain, paikasta vuoden ajan (n = 2) ja paikasta 2 kymmenen kuukauden ajan (n 2 = 0). Saadut otossuureet olivat x = 3., s = 0.77, x 2 = 2.04 ja s 2 = Näistä laskien saadaan yhteisvarianssiksi s 2 p = 0.47, joten s p = Tarvittava t-kvantiili (vapausastein 20) on t 0.05 =.725, jota käyttäen saadaan erotukselle µ µ 2 lasketuksi 90 % luottamusväli (0.593,.547). Jos populaatiovariansseja ei tunneta eikä sitäkään, että ne ovat samat, Tämä vaikeus tunnetaan ns. Behrens Fisher-probleemana. Sitä ei ole varsi- tilanne muuttuu vaikeaksi. Usein kuitenkin todetaan, että jos populaatiovarianssit eivät kovin paljon poikkea toisistaan, yllä olevaa menettelyä voidaan käyttää. (Varianssien samuus on myös testattavissa vaikkapa naisesti ratkaistu. F-jakaumaa käyttäen, ks. Pykälä 3.7.) Samoin usein todetaan, että vaikka Tämä on jo kuitenkin aika epävarmalla pohjalla. populaatiovarianssit ovat erilaisetkin, menettelyä voi käyttää, jos otoskoot ovat samat (tai melkein samat). Paljon käytetty menettely tässä tapauksessa, missä ei voida olettaa populaatiovariansseja edes likimain samoiksi, on seuraava ns. Welch Bernard Welch (9 989), Franklin Satterthwaite Satterthwaite-approksimaatio: Satunnaismuuttujalla on likimain t-jakauma vapausastein W = (X X 2 ) (µ µ 2 ) S 2 /n + S 2 2/n 2 v = (a + a 2 ) 2 a 2 /(n ) + a 2 2/(n 2 ), missä a = s 2 /n ja a 2 = s 2 2/n 2. Tämä v ei yleensä ole kokonaisluku, mut- Taulukoita käytettäessä pitää kylläkin pyöristää v lähimpään kokonaislukuun tai interpoloida. ta se ei haittaa, t-jakauma kun on määritelty silloinkin, kun sen vapausasteluku ei ole kokonaisluku. Tätä tietoa käyttäen saadaan erotukselle µ µ 2 approksimatiiviset 00( α) % luottamusrajat (x x 2 ) ± t α/2 s 2 n + s2 2 n 2, missä jälleen x ja x 2 ovat realisoituneet otoskeskiarvot. Tämän approksimaation tarkkuudesta ollaan eri mieltä. Jotkut suosittelevat sen käyttöä aina, kun on vähänkään epävarmuutta populaatiovarianssien samuudesta, toiset taas varoittavat approksimaation epätarkkuudesta, jos populaatiovarianssit ovat kovin erilaiset. Esimerkki. Joesta mitattiin kahdella mittausasemalla veden ortofosfo- [9.] rimääriä, asemalla tämä tehtiin n = 5 kertaa ja asemalla 2 n 2 = 2 kertaa. Populaatiovariansseista ei ole tietoa. Saadut otossuureet olivat (yksikkönä mg/l) x = 3.84, s = 3.07, x 2 =.49 ja s 2 = Käyttäen (approksimatiivista) t-kvantiilia t = 2.7 vapausastein v = 6.3 saadaan erotukselle µ µ 2 (approksimatiivinen) 95 % luottamusväli (0.60 mg/l, 4.0 mg/l). Vapausasteluvun pyöristäminen arvoon 6 antaa tässä itse asiassa käytetyllä tarkkuudella saman välin.

28 LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI Parittaiset havainnot [9.9] Usein tutkittavat kaksi populaatiota liittyvät alkio alkiolta toisiinsa. Kyseessä voisi olla vaikkapa yksi ja sama koehenkilö kahdessa eri tilanteessa, jokin tuote ennen ja jälkeen tietyn käsittelyn, jokin tuote nyt ja sitten vuoden päästä jne. Merkitään. populaation odotusarvoa µ :llä ja 2. populaation odotusarvoa µ 2 :lla. Otetaan satunnaisotos kummastakin populaatiosta, mutta ottaen mukaan mainitut vastinalkiot: Lasketaan vastinalkioiden erotukset X,,..., X,n ja X 2,,..., X 2,n. D = X, X 2,,..., D n = X,n X 2,n. Vastaavalla tavalla saadaan realisoituneet erotukset d = x, x 2,,..., d n = x,n x 2,n. lisen analyysin tekemiseksi oletetaan, että populaatioarvojen erotuksien jakauma on (kyllin tarkasti) normaali. Aivan kuten edellä Pykälässä 2.2, todetaan, että satunnaismuuttujalla T = D (µ µ 2 ) S/ n on t-jakauma vapausastein n. Näin saadaan realisoituneista otoksista populaatioiden odotusarvojen erotukselle µ µ 2 00( α) % luottamusrajat s d ± t α/2. n Varsinaiseksi otokseksi ajatellaankin nyt nämä erotukset, joko satunnaismuuttujina tai realisoituneina. Näin saadaan otoskeskiarvot D ja d sekä otosvarianssit S 2 ja s 2. Ilmeisesti E(D) = µ µ 2. Vastinalkiot X,i ja X 2,i eivät toisaalta ilmeisestikään nyt ole yleisesti riippumattomat (tai korreloimattomat), joten D:n varianssista ei oikeastaan voi olla paljoakaan tietoa. Tilastol- Tämä ei sano mitään varsinaisista populaatiojakaumista, niiden ei tarvitse olla lähelläkään normaalia. Esimerkki. n = 20 Vietnam-veteraanilta, jotka olivat sodassa altistu- [9.2] neet Agent Orange -kasvimyrkylle, mitattiin TCDD-tasot (dioksiini) veriplasmasta (populaatio ) sekä rasvakudoksesta (populaatio 2). Arvojen erotuksien otoskeskiarvoksi saatiin d = 0.87 ja otoshajonnaksi s = Vapausastein 9 käytettävä t-kvantiili on t = ja näin saadaan erotukselle µ µ 2 95 % luottamusväli ( 2.265, 0.525). 2.7 Suhdeluvun estimointi [9.0] Suhdeluvun estimoinnissa otokseen tulleista alkioista saadaan selville ainoastaan se ovatko ne tiettyä tyyppiä ( suotuisa ) vai ei ( epäsuotuisa ). Suotuisien alkioiden lukumäärää merkitään X:llä (satunnaismuuttujana) tai x:llä (realisoitunut lukumäärä). Jos otoskoko on n ja suotuisan

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). KÄSITTEITÄ POPULAATIO Joukko, jota tutkitaan (äärellinen, ääretön). Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). Näiden välillä ei aina tehdä eroa, kun puhutaan

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

Hypoteesin testaus Alkeet

Hypoteesin testaus Alkeet Hypoteesin testaus Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Johdanto Kokeellinen tutkimus: Varmennetaan teoreettista olettamusta fysikaalisen systeemin käyttäytymisestä

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 31.03.2012 klo. 9.00-12.00 saleissa L1,L3 Jukka Kemppainen Mathematics

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisia peruskäsitteitä ja Monte Carlo Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

riippumattomia ja noudattavat samaa jakaumaa.

riippumattomia ja noudattavat samaa jakaumaa. 12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 4

031021P Tilastomatematiikka (5 op) viikko 4 031021P Tilastomatematiikka (5 op) viikko 4 Jukka Kemppainen Mathematics Division Tilastollinen aineisto Tilastolliset menetelmät ovat eräs keino tutkia numeerista havaintoaineistoa todennäköisyyslaskentaa

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5 MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

1. JOHDANTO. SIS LLYSLUETTELO sivu 1. JOHDANTO 3

1. JOHDANTO. SIS LLYSLUETTELO sivu 1. JOHDANTO 3 1 2 22.10.2001 Tilastollisten menetelmien perusteet I Syksy 2001 Opintojakson www-sivu: http://www.uta.fi/~strale/p2syksy.html Huom. 1. Luentomateriaali on tarkoitettu ko. opintojakson opiskelijoille.

Lisätiedot

Todennäköisyysjakaumia

Todennäköisyysjakaumia 8.9.26 Kimmo Vattulainen Todennäköisyysjakaumia Seuraavassa esitellään kurssilla MAT-25 Todennäköisyyslaskenta esille tulleita diskreettejä todennäköisyysjakaumia Diskreetti tasajakauma Bernoullijakauma

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa? 21.3.2019/1 MTTTP1, luento 21.3.2019 7 TILASTOLLISEN PÄÄTTELYN PERUSTEITA Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä

Lisätiedot

Todennäköisyyslaskenta sivuaineopiskelijoille

Todennäköisyyslaskenta sivuaineopiskelijoille Todennäköisyyslaskenta sivuaineopiskelijoille Tentit: 4.11.2013 ja 2.12.2013. Loput kaksi tenttiä (vuonna 2014) ilmoitetaan myöhemmin. Tentissä on 4 tehtävää á 8 pistettä, aikaa 4 tuntia. Arvostelu 0 5.

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014 1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Väliestimointi TKK (c) Ilkka Mellin (2007) 1 Väliestimointi >> Todennäköisyysjakaumien parametrien estimointi Luottamusväli

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

KURSSIN TILASTOMATEMATIIKKA KAAVOJA KURSSIN TILASTOMATEMATIIKKA KAAVOJA X = S = s = Otossuureita X i tai x = x i (otoskeskiarvo) (X i X) = (x i x) = Xi x i E(X) =µ, var(x) = σ X x tai, E(S )=σ (otosvariassi) Normaalijakautuee populaatio

Lisätiedot

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025 26.3.2019/1 MTTTP1, luento 26.3.2019 7.4 Normaalijakauma (kertausta ja täydennystä) Z ~ N(0, 1), tiheysfunktion kuvaaja 0,5 0,4 0,3 0,2 0,1 Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96)

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

2. Keskiarvojen vartailua

2. Keskiarvojen vartailua 2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena

Lisätiedot

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) MTTTP5, luento 7.12.2017 7.12.2017/1 6.1.3 Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) y = lepopulssi x = sukupuoli y = musikaalisuus x = sukupuoli

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Estimointi. Otantajakauma

Estimointi. Otantajakauma Otantajakauma Otantajakauma kuvaa jonkin parametrin arvojen (esim. keskiarvon) jakauman kaikille tietyn kokoisille otoksille. jotka perusjoukosta voidaan muodostaa Histogrammissa otantajakauman parametrin

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia. Tehtävien ratkaisuja 4. Palloja yhteensä 60 kpl. a) P(molemmat vihreitä) = P((1. pallo vihreä) ja (. pallo vihreä)) = P(1. pallo vihreä) P(. pallo vihreä 1. pallo vihreä) = 0.05 (yleinen kertolaskusääntö)

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

Batch means -menetelmä

Batch means -menetelmä S-38.148 Tietoverkkojen simulointi / Tulosten keruu ja analyysi 1(9) Batch means -menetelmä Batch means -menetelmää käytetään hyvin yleisesti Simulointi suoritetaan tässä yhtenä pitkänä ajona olkoon simuloinnin

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

10. laskuharjoituskierros, vko 14, ratkaisut

10. laskuharjoituskierros, vko 14, ratkaisut 10. laskuharjoituskierros, vko 14, ratkaisut D1. Eräässä kokeessa verrattiin kahta sademäärän mittaukseen käytettävää laitetta. Kummallakin laitteella mitattiin sademäärät 10 sadepäivän aikana. Mittaustulokset

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3A Satunnaismuuttujien summa ja keskihajonta Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka Kemometriasta Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka Mistä puhutaan? Määritelmiä Määritys, rinnakkaismääritys Mittaustuloksen luotettavuus Kalibrointi Mittausten

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 4 Tilastollisen datan kuvaileminen, mallintaminen ja estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

2. Keskiarvojen vartailua

2. Keskiarvojen vartailua Havaintoaineiston perusteella näyttää ilmeiseltä, että alkuperäisen laastin sidoslujuus on suurempi. Ero sattumasta johtuvaa? Palataan tuonnempana. Tension bond strength data for Portland Cement formulation

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 4 Tilastollisen aineiston kuvaileminen, mallintaminen ja estimointi Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin

Lisätiedot