TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman ilmiöitä koskevia havaintoja. Tavoitteeseen pyritään rakentamalla tutkimuksen kohteena olevaa ilmiötä koskevat havainnot generoineelle prosessille tilastollinen malli. Koska tilastollisissa tutkimusasetelmissa tutkimuksen kohteena olevia reaalimaailman ilmiöitä koskeviin havaintoihin liittyy aina satunnaisuutta tai epävarmuutta, tilastolliset mallit ovat luonteeltaan todennäköisyysmalleja. Tilastollinen malli havainnot generoineelle prosessille on täysin määrätty, jos havaintojen todennäköisyysjakauma tunnetaan. Mitä opimme? 2/4 Havaintojen todennäköisyysjakauman määräävät jakauman karakteristisia ominaisuuksia kuvaavat parametrit, joiden arvoja ei sovellustilanteessa yleensä tunneta. Jos jakauman tuntemattomille parametreille ei löydetä hyviä estimaatteja eli arvioita, jakaumaa ei voida käyttää mallina tutkimuksen kohteena olevaa ilmiötä koskevat havainnot generoineelle prosessille. Tilastollisen tutkimuksen tärkeimpiä osatehtäviä on estimoida eli arvioida tutkimuksen kohteena olevaa ilmiötä koskevat havainnot generoineen prosessin mallina käytettävän todennäköisyysjakauman tuntemattomat parametrit ilmiötä koskevien havaintojen perusteella. TKK (c) Ilkka Mellin (2004) 3 TKK (c) Ilkka Mellin (2004) 4 Mitä opimme? 3/4 Havaintojen funktiota, joka tuottaa estimaatteja eli arvioita todennäköisyysjakauman tuntemattoman parametrin todelliselle arvolle, kutsutaan parametrin estimaattoriksi. Tilastotieteen tärkeimpiä osatehtäviä on hyvien estimaattoreiden johtaminen todennäköisyysjakauman parametreille. Ks. lukua menetelmät. Koska todennäköisyysjakauman parametreille voidaan muodostaa erilaisia estimaattoreita, estimaattoreille on esitetty erilaisia hyvyyskriteereitä, joita käytetään apuna estimaattorin valinnassa. Tavalliset vaatimukset hyvälle estimaattorille: Hyvän estimaattorin on oltava harhaton, tehokas, tyhjentävä ja tarkentuva. Mitä opimme? 4/4 Todennäköisyysjakauman tuntemattomien parametrien arvojen määräämistä kutsutaan tavallisesti piste-estimoinniksi. Jokaiseen todennäköisyysjakauman parametrin estimaattiin on aina syytä liittää luottamusväliksi kutsuttu väli, joka sisältää parametrin todellisen arvon, tietyllä, soveltajan valittavissa olevalla todennäköisyydellä. Ks. lukua Väliestimointi. TKK (c) Ilkka Mellin (2004) 5 TKK (c) Ilkka Mellin (2004) 6
TKK (c) Ilkka Mellin (2004) 7 Esitiedot Esitiedot: ks. seuraavia lukuja: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Otos ja otosjakaumat Satunnaismuuttujat ja todennäköisyysjakaumat Jakaumien tunnusluvut Lisätiedot Todennäköisyysjakaumien parametrien estimaattoreiden johtamista käsitellään luvussa menetelmät Luottamusvälin määräämistä todennäköisyysjakaumien parametreille käsitellään luvussa Väliestimointi Todennäköisyysjakaumien parametreja koskevien tilastollisten hypoteesien testaamista käsitellään luvussa Tilastolliset testit Jakaumaoletuksien testaamista käsitellään luvussa Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen TKK (c) Ilkka Mellin (2004) 8 >> Todennäköisyysjakaumien parametrit ja niiden estimointi Avainsanat Estimaatti Estimaattori Havainto Havaintoarvo Otosjakauma Parametri Piste-estimointi Tilastollinen aineisto Tilastollinen malli Todennäköisyysjakauma Yksinkertainen satunnaisotos Luottamusväli TKK (c) Ilkka Mellin (2004) 9 TKK (c) Ilkka Mellin (2004) 10 Todennäköisyysjakaumat tilastollisten aineistojen kuvaajina Tilastollinen aineisto koostuu tutkimuksen kohteita kuvaavien muuttujien havaituista arvoista. Tilastollisissa tutkimusasetelmissa havaintoarvoihin liittyy aina epävarmuutta ja satunnaisuutta. Tilastollisissa tutkimusasetelmissa tutkimuksen kohteita kuvaavat muuttujat tulkitaan satunnaismuuttujiksi, jotka generoivat muuttujien havaitut arvot. Tilastollinen malli tarkoittaa havaintoarvot generoineiden satunnaismuuttujien todennäköisyysjakaumaa. Todennäköisyysjakaumien parametrit 1/2 Tarkastellaan jotakin tutkimuksen kaikkien mahdollisten kohteiden muodostaman perusjoukon S alkioiden ominaisuutta kuvaavaa satunnaismuuttujaa X. Oletetaan, että satunnaismuuttuja X noudattaa todennäköisyysjakaumaa, jonka pistetodennäköisyys-tai tiheysfunktio riippuu parametrista θ. Merkintä: X ~ f( x; θ ) TKK (c) Ilkka Mellin (2004) 11 TKK (c) Ilkka Mellin (2004) 12
TKK (c) Ilkka Mellin (2004) 13 Todennäköisyysjakaumien parametrit 2/2 Yksinkertainen satunnaisotos Satunnaismuuttujan X pistetodennäköisyys- tai tiheysfunktio kuvaa satunnaismuuttujan X todennäköisyysjakaumaa ja parametri θ kuvaa jotakin jakauman karakteristista ominaisuutta. Koska parametrin θ arvoa ei yleensä tunneta, tilastollisen tutkimuksen tärkeimpiä osatehtäviä on estimoida eli arvioida parametrin θ tuntematon arvo jakaumasta poimitun otoksen perusteella. Olkoon yksinkertainen satunnaisotos jakaumasta, jonka pistetodennäköisyys- tai tiheysfunktio riippuu parametrista θ. Tällöin havainnot ovat riippumattomia, identtisesti jakautuneita satunnaismuuttujia, joilla on sama pistetodennäköisyys- tai tiheysfunktio : X1, X2,, Xn X ~ f( x; θ ), i = 1,2,, n i TKK (c) Ilkka Mellin (2004) 14 Havainnot ja havaintoarvot Estimaattorit ja estimaatit 1/2 Oletetaan, että satunnaismuuttujat (havainnot) saavat poimitussa otoksessa havaituiksi arvoikseen luvut Havaintoarvot vaihtelevat satunnaisesti otoksesta toiseen jakaumasta saatavin todennäköisyyksin. Oletetaan, että todennäköisyysjakauman parametrin θ estimoimiseen käytetään satunnaismuuttujien funktiota eli tunnuslukua Tällöin funktiota kutsutaan parametrin θ estimaattoriksi ja funktion g havaintoarvoista laskettua arvoa t = g( ) kutsutaan parametrin θ estimaatiksi. TKK (c) Ilkka Mellin (2004) 15 TKK (c) Ilkka Mellin (2004) 16 Estimaattorit ja estimaatit 2/2 Olkoon jakauman parametrin θ estimaattori. Tällöin estimaattorin T havaintoarvoista laskettu arvo eli estimaatti t = g( ) on satunnaismuuttujan T arvon realisaatio otoksessa. Estimaattorit ja estimaatit: Kommentti Todennäköisyysjakauman parametrin θ estimaattorilla tarkoitetaan siis sellaista jakaumaa noudattavien satunnaismuuttujien funktiota, joka generoi muuttujien havaittuihin arvoihin sovellettuna estimaatteja eli arvioita t = g( ) parametrille θ. TKK (c) Ilkka Mellin (2004) 17 TKK (c) Ilkka Mellin (2004) 18
TKK (c) Ilkka Mellin (2004) 19 Estimaattorin otosjakauma Estimaattoreiden johtaminen Estimaattorin havaintoarvoista lasketut arvot eli estimaatit t = g( ) vaihtelevat satunnaisesti otoksesta toiseen. Estimaattorin T arvojen satunnaista vaihtelua otoksesta toiseen voidaan kuvata estimaattorin T otosjakaumalla. Hyvien estimaattoreiden johtaminen todennäköisyysjakaumien tuntemattomille parametreille on teoreettisen tilastotieteen keskeisiä ongelmia. Tärkeimmät estimaattoreiden johtamiseen käytettävät menetelmät: Suurimman uskottavuuden menetelmä Momenttimenetelmä Ks. lukua menetelmät. TKK (c) Ilkka Mellin (2004) 20 Piste-estimointi ja väliestimointi Todennäköisyysjakauman parametrin arvon estimointia kutsutaan usein piste-estimoinniksi. Parametrin estimaattiin on aina syytä liittää luottamusväliksi kutsuttu väli, joka sisältää estimoidun parametrin todellisen, mutta tuntemattoman arvon tietyllä, soveltajan valittavissa olevalla todennäköisyydellä. Luottamusvälin määräämistä kutsutaan väliestimoinniksi. Ks. lukua Väliestimointi. >> TKK (c) Ilkka Mellin (2004) 21 TKK (c) Ilkka Mellin (2004) 22 Hyvä estimaattori Avainsanat Estimaattori Harha Harhattomuus Hyvyyskriteeri Keskineliövirhe Parametri Tarkentuvuus Tehokkuus Tyhjentävyys Todennäköisyysjakauman parametreille on tavallisesti tarjolla useita vaihtoehtoisia estimaattoreita. Estimaattorin valintaa ohjaavat hyvyyskriteerit, joilla pyritään takamaan se, että valittu estimaattori tuottaa järkeviä arvoja estimoitavalle parametrille. Estimaattoreiden hyvyyskriteereitä: Harhattomuus Tyhjentävyys Tehokkuus Tarkentuvuus TKK (c) Ilkka Mellin (2004) 23 TKK (c) Ilkka Mellin (2004) 24
TKK (c) Ilkka Mellin (2004) 25 Harhattomuus ja tyhjentävyys Tehokkuus ja tarkentuvuus Harhattomuus: Estimaattori T on parametrin θ harhaton estimaattori, jos sen odotusarvo yhtyy parametrin θ arvoon: E(T) = θ Tyhjentävyys: Estimaattori T on tyhjentävä parametrille θ, jos se käyttää parametrin arvon estimoimiseen kaiken otoksessa olevan informaation. Tehokkuus: Estimaattori T on parametrin θ tehokas estimaattori, jos sen varianssi on pienempi kuin minkä tahansa muun estimaattorin. Tarkentuvuus: Estimaattori T on parametrin θ tarkentuva estimaattori, jos se konvergoi melkein varmasti kohti parametrin oikeata arvoa, kun otoskoon n annetaan kasvaa rajatta: Pr(T n θ) = 1, kun n + Ks. lukua Konvergenssikäsitteet ja raja-arvolauseet. TKK (c) Ilkka Mellin (2004) 26 Estimaattorin harha Estimaattorin keskineliövirhe Parametrin θ estimaattorin θˆ harha on Bias( ˆ θ ) = θ E( ˆ θ) Jos θˆ on parametrin θ harhaton estimaattori eli E( ˆ θ ) = θ niin Bias( ˆ θ ) = 0 Parametrin θ estimaattorin θˆ keskineliövirhe on 2 MSE( ˆ θ) = E ( ˆ θ θ) 2 = Var( ˆ θ ) + Bias( ˆ θ ) Jos θˆ on parametrin θ harhaton estimaattori eli Bias( ˆ θ) = θ E( ˆ θ) = 0 niin MSE( ˆ θ ) = Var( ˆ θ ) Estimaattoria sanotaan tarkaksi, jos se on harhaton ja sen varianssi on pieni. TKK (c) Ilkka Mellin (2004) 27 TKK (c) Ilkka Mellin (2004) 28