Tilastollisen analyysin perusteet Luento 1: ja hajonta
Sisältö
Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman graafinen esitys: Diskreetti muuttuja: frekvenssijakauma ja pylväsdiagrammi. Jatkuva muuttuja: luokiteltu frekvenssijakauma ja histogrammi. Muita: piirakkadiagrammi, kumulatiivinen frekvenssi polygoni,...
Havaittujen arvojen jakauma Jakauman yleiset tunnusluvut: lukuja: keskiarvo, mediaani, moodi. lukuja: varianssi, vaihteluväli ja sen pituus, mediaanin keskipoikkeama (MAD). Muita: vinous, huipukkuus.
Yleisimmin käytettyjä lokaatiolukuja ovat keskiarvo, mediaani ja moodi.
Keskiarvo Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoskeskiarvo x = 1 n n i=1 x i estimoi muuttujan x odotusarvoa E[x] = µ.
Mediaani Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Olkoot y 1 < y 2 <... < y n arvot asetettuna suuruusjärjestykseen. Tällöin otoksen mediaani on suuruusjärjestykseen asetettujen havaintojen keskimmäinen arvo. Jos havaintoja on parillinen määrä, otetaan kaksi keskimmäistä ja lasketaan näitten keskiarvo. Otosmediaani estimoi populaatiomediaania, joka määritellään seuraavasti. Satunnaismuuttujan x mediaani m x on luku joka toteuttaa ehdot P(x < m x ) 1 2, ja P(x m x) 1 2.
Kvantiili Satunnaismuuttujan x β-kvantiili k β, 0 < β < 1, on luku joka toteuttaa ehdot P(x < k β ) β, ja P(x k β ) β.
Moodi Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoksen moodi on se muuttujan arvo, jolla on suurin frekvenssi. Moodi estimoi kvalitatiivisen muuttujan tai diskreetin kvantitatiivisen muuttujan sitä arvoa, jolla on suurin todennäköisyys muihin mahdollisiin arvoihin verrattuna.
Missä tilanteissa on perusteltua käyttää lokaatiolukuna keskiarvoa, entäpä mediaania tai moodia?
Muita lokaatiolukuja ovat esim. painotettu keskiarvo, vaihteluvälin keskipiste (midrange),...
Yleisimmin käytettyjä hajontalukuja ovat varianssi, keskihajonta, mediaanin absoluuttinen keskipoikkeama (median absolute deviation, MAD) ja vaihteluväli.
Varianssi Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otosvarianssi s 2 = 1 n 1 n (x i x) 2 i=1 estimoi muuttujan x populaatiovarianssia E[(x E[x]) 2 ].
Keskihajonta Otoksen x 1, x 2,..., x n keskihajonta on sen otosvarianssin neliöjuuri. s = s 2.
Chebychevin epäyhtälö Olkoon x satunnaismuuttuja, jolla on äärellinen odotusarvo E[x] = µ ja äärellinen varianssi E[(x E[x]) 2 ] = σ 2. Olkoon k > 1. Tällöin P( x µ kσ) 1 k 2.
Chebychevin epäyhtälö Kun k = 2, niin 1 1 k 2 = 75%. Kun k = 3, niin 1 1 k 2 88, 9%.
Chebychevin epäyhtälö Käytännössä odotusarvo ja varianssi joudutaan estimoimaan, mutta Chebychevin epäyhtälöä käytetään kun arvioidaan yksittäisen havaintoarvon yleisyyttä. Yleisesti havaintoja, jotka sijaitsee yli kahden keskihajonnan päässä keskiarvosta, pidetään harvinaisina ja havaintoja, jotka sijaitsevat yli kolmen keskihajonnan etäisyydellä keskiarvosta pidetään hyvin harvinaisina.
Chebychevin epäyhtälö Jos tiedetään, että havainnot tulevat normaalijakaumasta, niin saadaan Chebychevin epäyhtälöä tarkemmat rajat. Tällöin tiedetään, että todennäköisyys sille, että havainto sijaitsee yhden keskihajonnan sisällä odotusarvosta on noin 68 %. Todennäköisyys sille, että havainto sijaitsee kahden keskihajonnan sisällä odotusarvosta on noin 95 % ja todennäköisyys sille, että havainto sijaitsee kolmen keskihajonnan sisällä odotusarvosta on noin 99,7 %.
Mediaanin absoluuttinen keskipoikkeama Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot ja olkoon m x otoksesta laskettu mediaani. Tällöin mediaanin absoluuttinen keskipoikkeama, MAD, on otoksen x 1 m x, x 2 m x,..., x n m x mediaani.
Vaihteluväli Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Olkoon Max x otoksen suurin arvo ja olkoon Min x otoksen pienin arvo. Tällöin otoksen vaihteluväli on väli [Min x, Max x ] ja vaihteluvälin pituus on Max x Min x.
Missä tilanteissa on perusteltua käyttää hajontalukuna varianssia, entäpä mediaanin absoluuttista keskipoikkeamaa tai vaihteluväliä?
Muita hajontalukuja ovat esim. keskiarvon keskivirhe (standard error, s.e. = s n ),...
Parametrin estimaattiin on hyvä liittää väli, joka sisältää estimoidun parametrin todellisen, mutta tuntemattoman arvon tietyllä todennäköisyydellä. Tällaista väliä kutsutaan luottamusväliksi ja valittua todennäköisyyttä kutsutaan luottamustasoksi.
Olkoon x satunnaismuuttuja jakaumasta F x. Olkoon θ jokin jakauman F x parametri ja olkoon ˆθ tuon parametrin estimaatti. Olkoon (l, u) estimaattiin ˆθ liittyvä luottamustason p luottamusväli. Tällöin, ennen kuin otos on generoitu, estimaattiin ˆθ (joka on tässä satunnaismuuttuja) liittyvä väli (l, u) sisältää parametrin θ todennäköisyydellä p. Kun otos on generoitu, estimaatin arvo ja luottamusväli laskettu, niin estimaattiin liitetty luottamusväli joko sisältää todellisen parametrin arvon tai sitten ei. Jos generoidaan sata otosta jakaumasta F x, ja lasketaan estimaatti ˆθ ja siihen liittyvä luottamusväli jokaisesta otoksesta, niin noin p 100 luottamusväleistä sisältää parametrin θ ja noin (1 p) 100 ei sisällä parametria θ. n pituus riippuu otoskoosta. Jos otoskoko on pieni, niin luottamusväli on pitkä. Otoskoon kasvaessa luottamusväli lyhenee.
, normaalijakauma Normaalijakautuneen muuttujan tiheysfunktio f (x) = 1 σ µ)2 exp( (x 2π 2σ 2 ). Normaalijakauman parametrit ovat odotusarvo µ ja varianssi σ.
, normaalijakauma Normaalijakauman odotusarvon µ luottamusvali luottamustasolla (1 α) on muotoa ( s s x t n 1,α/2 n, x + t n 1,α/2 n ), missä t n 1,α/2 on Studentin t-jakauman, vapausasteella n 1, luottamuskerroin α/2, P(t > t n 1,α/2 ) = α/2. (Huomaa, että t-jakauman luottamuskerroin t n 1,α/2 on sen 1 t n 1,α/2 kvantiili.) Kun n on suuri, niin lukua t n 1,α/2 voidaan estimoida standardinormaalijakauman N(µ = 0, σ 2 = 1) luottamuskertoimella α 2 (kvantiililla 1 α 2 ). Kun α = 0.05, niin tämä luku on 1.96 ja kun α = 0.01, niin tämä luku on 2.5758.
t-jakauma You tube video
, normaalijakauma Normaalijakauman varianssin σ 2 luottamusvali luottamustasolla (1 α) on muotoa ( (n 1)s 2 (n 1)s 2, χ 2 n 1,α/2 χ 2 n 1,1 α/2 ), missä χ 2 n 1,α/2 on χ2 -jakauman, vapausasteella n 1, luottamuskerroin α/2 (kvantiili 1 α/2), ja missä χ 2 n 1,1 α/2 on luottamuskerroin 1 α/2 (kvantiili α/2).
χ 2 -jakauma Wikipediasta
, Bernoulli jakauma Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Oletetaan, että P(x i = 1) = p ja että P(x i = 0) = 1 p. Tällöin sanotaan, että satunnaismuuttuja x noudattaa Bernoulli jakaumaa. Muuttujan x odotusarvo E[x] = p ja varianssi E[(x E[x]) 2 ] = p(1 p). Odotusarvon p harhaton estimaatti on keskiarvo ˆp = 1 n n x i. i=1
, Bernoulli jakauma Kun n on suuri, Bernoulli jakauman odotusarvon luottamusvälin estimaatti luottamustasolla (1 α) on muotoa ( ˆp(1 ˆp) ˆp(1 ˆp) ˆp z α/2, ˆp + z α/2 ), n n missä z α/2 on standardinormaalijakauman luottamuskerroin α 2 (kvantiili 1 α 2 ). (Kirjallisuudessa esitetään useita vaihtoehtoisia estimaatteja Bernoulli jakauman odotusarvon luottamusvälille. Jos otoskoko on pieni, pelastuksen tarjoaa esim. Wilson score interval, josta löytyy tietoa vaikkapa ihan googlettamalla.)
Vinous Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otosvinouskerroin missä m 3 = 1 n v = m 3 s 3, n (x i x) 3. i=1 Otosvinouskerroin estimoi populaatiosuuretta E[( x µ σ )3 ].
Vinous Jos vinouskerroin v > 0, niin jakauma oikealle vino. Jos taas v < 0, niin jakauma on vasemmalle vino. Oikealle vinon jakauman oikea häntä on vasenta häntää paksumpi ja vasemmalle vinon jakauman vasen häntä on oikeaa häntää paksumpi. Puhutaan myös negatiivisesti vinoista ja positiivisesti vinoista jakaumista. Normaalijakautuneen muuttujan vinouskerroin on 0.
Vinous Vaihtoehtoinen vinousluku v 2 : Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin myös v 2 = 3( x m x) s kertoo jakauman vinoudesta. (Tässä yhteydessä merkinnällä m x tarkoitetaan otosmediaania.) Symmetrisen jakauman tapauksessa otoskeskiarvo ja otosmediaani estimoivat samaa populaatiosuuretta!
Huipukkuus Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoshuipukkuuskerroin missä m 4 = 1 n k = m 4 s 4 3, n (x i x) 4. i=1 Otoshuipukkuuskerroin estimoi populaatiosuuretta E[( x µ σ )4 3].
Huipukkuus Normaalijakautuneen muuttujan huipukkuuskerroin on 0. Jos huipukkuuskerroin k > 0, niin jakauma on normaalijakaumaa huipukkaampi. Jos taas k < 0, niin jakauma on normaalijakaumaa vähemmän huipukas. Huipukkaalla jakaumalla on yleensä terävä huippu ja paksut hännät kun taas vähemmän huipukkaalla jakaumalla on usein pyöreähkö huippu ja ohuet hännät. Huipukkuuden voidaan myös ajatella mittaavan jakauman "hartioiden"vankkuutta (jos k > 0, niin hartiat uupuvat).
-, hajonta-, vinous- ja huipukkuuslukujen lisäksi aineistoista voidaan laskea monia muitakin tunnuslukuja, esimerkiksi momentteja,...
Esimerkkinä opiskelijoiden pituus.
Esimerkkinä opiskelijoiden silmien väri.
Esimerkkinä keskipalkka.
Esimerkkinä tuotantoprosessin viallisten tuotteiden osuus.
J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.