Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta



Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollinen aineisto Luottamusväli

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Harjoitus 2: Matlab - Statistical Toolbox

Väliestimointi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

7. laskuharjoituskierros, vko 10, ratkaisut

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Teema 8: Parametrien estimointi ja luottamusvälit

Tilastollisten aineistojen kuvaaminen

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Testejä suhdeasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

9. laskuharjoituskierros, vko 12-13, ratkaisut

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

031021P Tilastomatematiikka (5 op) viikko 4

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Sovellettu todennäköisyyslaskenta B

Johdatus todennäköisyyslaskentaan Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2005) 1

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kvantitatiiviset tutkimusmenetelmät maantieteessä

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Mat Tilastollisen analyysin perusteet, kevät 2007

Luottamusvälit. Normaalijakauma johnkin kohtaan

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Testit laatueroasteikollisille muuttujille

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Regressioanalyysi. Vilkkumaa / Kuusinen 1

031021P Tilastomatematiikka (5 op) viikko 3

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

MTTTP1, luento KERTAUSTA

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

riippumattomia ja noudattavat samaa jakaumaa.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Testit järjestysasteikollisille muuttujille

Tutkimustiedonhallinnan peruskurssi

031021P Tilastomatematiikka (5 op) viikko 5

Mat Sovellettu todennäköisyyslasku A

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Regressioanalyysi. Kuusinen/Heliövaara 1

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Til.yks. x y z

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

6. laskuharjoitusten vastaukset (viikot 10 11)

Mat Tilastollisen analyysin perusteet, kevät 2007

pisteet Frekvenssi frekvenssi Yhteensä

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Verkot ja todennäköisyyslaskenta Verkko Verkko eli graafi muodostuu pisteiden joukosta V, särmien joukosta A ja insidenssikuvauksesta : A V V jossa

Normaalijakaumasta johdettuja jakaumia

Havaintoaineiston trimmauksen vaikutus otoskeskiarvoon

Transkriptio:

Tilastollisen analyysin perusteet Luento 1: ja hajonta

Sisältö

Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman graafinen esitys: Diskreetti muuttuja: frekvenssijakauma ja pylväsdiagrammi. Jatkuva muuttuja: luokiteltu frekvenssijakauma ja histogrammi. Muita: piirakkadiagrammi, kumulatiivinen frekvenssi polygoni,...

Havaittujen arvojen jakauma Jakauman yleiset tunnusluvut: lukuja: keskiarvo, mediaani, moodi. lukuja: varianssi, vaihteluväli ja sen pituus, mediaanin keskipoikkeama (MAD). Muita: vinous, huipukkuus.

Yleisimmin käytettyjä lokaatiolukuja ovat keskiarvo, mediaani ja moodi.

Keskiarvo Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoskeskiarvo x = 1 n n i=1 x i estimoi muuttujan x odotusarvoa E[x] = µ.

Mediaani Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Olkoot y 1 < y 2 <... < y n arvot asetettuna suuruusjärjestykseen. Tällöin otoksen mediaani on suuruusjärjestykseen asetettujen havaintojen keskimmäinen arvo. Jos havaintoja on parillinen määrä, otetaan kaksi keskimmäistä ja lasketaan näitten keskiarvo. Otosmediaani estimoi populaatiomediaania, joka määritellään seuraavasti. Satunnaismuuttujan x mediaani m x on luku joka toteuttaa ehdot P(x < m x ) 1 2, ja P(x m x) 1 2.

Kvantiili Satunnaismuuttujan x β-kvantiili k β, 0 < β < 1, on luku joka toteuttaa ehdot P(x < k β ) β, ja P(x k β ) β.

Moodi Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoksen moodi on se muuttujan arvo, jolla on suurin frekvenssi. Moodi estimoi kvalitatiivisen muuttujan tai diskreetin kvantitatiivisen muuttujan sitä arvoa, jolla on suurin todennäköisyys muihin mahdollisiin arvoihin verrattuna.

Missä tilanteissa on perusteltua käyttää lokaatiolukuna keskiarvoa, entäpä mediaania tai moodia?

Muita lokaatiolukuja ovat esim. painotettu keskiarvo, vaihteluvälin keskipiste (midrange),...

Numeerinen esimerkki lokaatioluvuista Olkoot 3, 1, 2, 3, 7, 8, 3, 4, 4, 6 satunnaismuuttujan x toisistaan riippumattomat havainnot. Tällöin otoksen keskiarvo on x = 1 41 (3 + 1 + 2 + 3 + 7 + 8 + 3 + 4 + 4 + 6) = 10 10 = 4.1, mediaani ja moodi luku 3. m x = 3 + 4 2 = 7 2 = 3.5

Yleisimmin käytettyjä hajontalukuja ovat varianssi, keskihajonta, mediaanin absoluuttinen keskipoikkeama (median absolute deviation, MAD) ja vaihteluväli.

Varianssi Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otosvarianssi s 2 = 1 n 1 n (x i x) 2 i=1 estimoi muuttujan x populaatiovarianssia E[(x E[x]) 2 ] = σ 2.

Keskihajonta Otoksen x 1, x 2,..., x n keskihajonta on sen otosvarianssin neliöjuuri. s = s 2.

Chebychevin epäyhtälö Olkoon x satunnaismuuttuja, jolla on äärellinen odotusarvo E[x] = µ ja äärellinen varianssi E[(x E[x]) 2 ] = σ 2. Olkoon k > 1. Tällöin P( x µ kσ) 1 k 2.

Chebychevin epäyhtälö Kun k = 2, niin 1 1 k 2 = 75%. Kun k = 3, niin 1 1 k 2 88, 9%.

Chebychevin epäyhtälö Käytännössä odotusarvo ja varianssi joudutaan estimoimaan, mutta Chebychevin epäyhtälöä käytetään, kun arvioidaan yksittäisen havaintoarvon yleisyyttä. Yleisesti havaintoja, jotka sijaitsee yli kahden keskihajonnan päässä keskiarvosta, pidetään harvinaisina ja havaintoja, jotka sijaitsevat yli kolmen keskihajonnan etäisyydellä keskiarvosta pidetään hyvin harvinaisina.

Chebychevin epäyhtälö Jos tiedetään, että havainnot tulevat normaalijakaumasta, niin saadaan Chebychevin epäyhtälöä tarkemmat rajat. Tällöin tiedetään, että todennäköisyys sille, että havainto sijaitsee yhden keskihajonnan sisällä odotusarvosta on noin 68 %. Todennäköisyys sille, että havainto sijaitsee kahden keskihajonnan sisällä odotusarvosta on noin 95 % ja todennäköisyys sille, että havainto sijaitsee kolmen keskihajonnan sisällä odotusarvosta on noin 99,7 %.

Mediaanin absoluuttinen keskipoikkeama Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot ja olkoon m x otoksesta laskettu mediaani. Tällöin mediaanin absoluuttinen keskipoikkeama, MAD, on otoksen x 1 m x, x 2 m x,..., x n m x mediaani kerrottuna vakiolla 1.4826.

Vaihteluväli Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Olkoon Max x otoksen suurin arvo ja olkoon Min x otoksen pienin arvo. Tällöin otoksen vaihteluväli on väli [Min x, Max x ] ja vaihteluvälin pituus on Max x Min x.

Missä tilanteissa on perusteltua käyttää hajontalukuna varianssia, entäpä mediaanin absoluuttista keskipoikkeamaa tai vaihteluväliä?

Numeerinen esimerkki hajontaluvuista Olkoot 3, 1, 2, 3, 7, 8, 3, 4, 4, 6 satunnaismuuttujan x toisistaan riippumattomat ja samoin jakautuneet havainnoit. Otoskeskiarvo on 4.1. Tällöin otoksen varianssi s 2 = 1 n 1 n (x i x) 2 = 1 9 i=1 10 i=1 (x i 4.1) 2 = 4.9888... ja keskihajonta s 2 = 4.9888... = 2.233... MAD on mediaani havaintojen ja havaintojen mediaanin erotuksista. Havaintojen mediaani on 3.5. MAD = median(x i 3.5) = 1.4826. Vaihteluväli saadaan havaintojen minimin ja maksimin avulla: [min(x), max(x)] = [1, 8]. Vaihteluvälin pituus on 8 1 = 7.

Parametrin estimaattiin on hyvä liittää väli, joka sisältää estimoidun parametrin todellisen, mutta tuntemattoman arvon tietyllä todennäköisyydellä. Tällaista väliä kutsutaan luottamusväliksi ja valittua todennäköisyyttä kutsutaan luottamustasoksi.

Olkoon x satunnaismuuttuja jakaumasta F x. Olkoon θ jokin jakauman F x parametri ja olkoon ˆθ tuon parametrin estimaatti. Olkoon (l, u) estimaattiin ˆθ liittyvä luottamustason p luottamusväli. Tällöin, ennen kuin otos on generoitu, estimaattiin ˆθ (joka on tässä satunnaismuuttuja) liittyvä satunnainen väli (l, u) sisältää parametrin θ todennäköisyydellä p. Kun otos on generoitu, estimaatin arvo ja luottamusväli laskettu, niin estimaattiin liitetty luottamusväli joko sisältää todellisen parametrin arvon tai sitten ei. Jos generoidaan sata otosta jakaumasta F x, ja lasketaan estimaatti ˆθ ja siihen liittyvä luottamusväli jokaisesta otoksesta, niin noin p 100 luottamusväleistä sisältää parametrin θ ja noin (1 p) 100 ei sisällä parametria θ. n pituus riippuu otoskoosta. Jos otoskoko on pieni, niin luottamusväli on pitkä. Otoskoon kasvaessa luottamusväli lyhenee.

, normaalijakauma Normaalijakautuneen muuttujan tiheysfunktio f (x) = 1 σ µ)2 exp( (x 2π 2σ 2 ). Normaalijakauman parametrit ovat odotusarvo µ ja varianssi σ. Kuva: Standardoitu normaalijakauma.

, normaalijakauma Normaalijakauman odotusarvon µ luottamusväli luottamustasolla (1 α) on muotoa ( s s x t n 1,α/2 n, x + t n 1,α/2 n ), missä t n 1,α/2 on Studentin t-jakauman, vapausasteella n 1, luottamuskerroin α/2, P(t > t n 1,α/2 ) = α/2. (Huomaa, että t-jakauman luottamuskerroin t n 1,α/2 on sen 1 t n 1,α/2 kvantiili.) Kun n on suuri, niin lukua t n 1,α/2 voidaan estimoida standardinormaalijakauman N(µ = 0, σ 2 = 1) luottamuskertoimella α 2 (kvantiililla 1 α 2 ). Kun α = 0.05, niin tämä luku on 1.96 ja kun α = 0.01, niin tämä luku on 2.5758.

t-jakauma You tube video

, normaalijakauma Normaalijakauman varianssin σ 2 luottamusvali luottamustasolla (1 α) on muotoa ( (n 1)s 2 (n 1)s 2, χ 2 n 1,α/2 χ 2 n 1,1 α/2 missä χ 2 n 1,α/2 on χ2 -jakauman, vapausasteella n 1, luottamuskerroin α/2 (kvantiili 1 α/2), ja missä χ 2 n 1,1 α/2 on luottamuskerroin 1 α/2 (kvantiili α/2). ),

χ 2 -jakauma Juttua χ 2 -jakaumasta esim. Wikipediasta Kuva: Eri vapausasteilla piirreetyjä χ 2 -jakaumia.

, Bernoulli jakauma Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Oletetaan, että P(x i = 1) = p ja että P(x i = 0) = 1 p. Tällöin sanotaan, että satunnaismuuttuja x noudattaa Bernoulli jakaumaa. Muuttujan x odotusarvo E[x] = p ja varianssi E[(x E[x]) 2 ] = p(1 p). Odotusarvon p harhaton estimaatti on keskiarvo ˆp = 1 n n x i. i=1

, Bernoulli jakauma Kun n on suuri, Bernoulli jakauman odotusarvon luottamusvälin estimaatti luottamustasolla (1 α) on muotoa ( ˆp(1 ˆp) ˆp(1 ˆp) ˆp z α/2, ˆp + z α/2 ), n n missä z α/2 on standardinormaalijakauman luottamuskerroin α 2 (kvantiili 1 α 2 ). (Kirjallisuudessa esitetään useita vaihtoehtoisia estimaatteja Bernoulli jakauman odotusarvon luottamusvälille. Jos otoskoko on pieni, pelastuksen tarjoaa esim. Wilson score interval, josta löytyy tietoa vaikkapa ihan googlettamalla.)

Numeerinen esimerkki luottamusväleille Kallen superkeksipakettien massa grammoissa noudattaa likimain normaalijakaumaa odotusarvolla µ. Kymmenen keksipakettia on valittu satunnaisesti ja valitut keksipaketit on punnittu. Keksipakettien massat grammoissa ovat seuraavat: 397.3, 399.6, 401.0, 392.9, 396.8, 400.0, 397.6, 392.1, 400.8, 400.6. Massojen keskiarvo on 397.87g ja otoskeskihajonta s = 1 10 (x i 397.87) 10 1 2 3.2128. i=1 Studentin t-jakaumasta vapausasteella ((10 1) = 9) 95%:n luottamustasolla kriittinen arvo on t = 2.262. superkeksipakettien massan odotusarvolle on näin ollen s ( x ± t ) = (397.87g ± 2.262 3.2128g ) = (395.6g, 400.3g) n 10

Vinous Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otosvinouskerroin missä m 3 = 1 n v = m 3 s 3, n (x i x) 3. i=1 Otosvinouskerroin estimoi populaatiosuuretta E[( x µ σ )3 ]. Kuva: Symmetrinen normaalijakauma ja vino χ 2 3-jakauma.

Vinous Jos vinouskerroin v > 0, niin jakauma oikealle vino. Jos taas v < 0, niin jakauma on vasemmalle vino. Oikealle vinon jakauman oikea häntä on vasenta häntää paksumpi, ja vasemmalle vinon jakauman vasen häntä on oikeaa häntää paksumpi. Puhutaan myös negatiivisesti vinoista ja positiivisesti vinoista jakaumista. Normaalijakautuneen muuttujan vinouskerroin on 0. Kuva: Oikealle ja vasemmalle vinot jakaumat.

Vinous Vaihtoehtoinen vinousluku v 2 : Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin myös v 2 = 3( x m x) s kertoo jakauman vinoudesta. (Tässä yhteydessä merkinnällä m x tarkoitetaan otosmediaania.) Symmetrisen jakauman tapauksessa otoskeskiarvo ja otosmediaani estimoivat samaa populaatiosuuretta!

Huipukkuus Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoshuipukkuuskerroin missä m 4 = 1 n k = m 4 s 4 3, n (x i x) 4. i=1 Otoshuipukkuuskerroin estimoi populaatiosuuretta E[( x µ σ )4 3].

Huipukkuus Normaalijakautuneen muuttujan huipukkuuskerroin on 0. Jos huipukkuuskerroin k > 0, niin jakauma on normaalijakaumaa huipukkaampi. Jos taas k < 0, niin jakauma on normaalijakaumaa vähemmän huipukas. Huipukkaalla jakaumalla on yleensä terävä huippu ja paksut hännät, kun taas vähemmän huipukkaalla jakaumalla on usein pyöreähkö huippu ja ohuet hännät. Huipukkuuden voidaan myös ajatella mittaavan jakauman "hartioiden"vankkuutta (jos k > 0, niin hartiat uupuvat).

Huipukkuus Kuva: Kaksi normaalijakaumaa eri parametrein. Huipukkuus on kuitenkin molemmille sama.

Huipukkuus Kuva: Huipukas ja leveäharteinen jakauma.

Lineaarinen riippuvuus Olkoot (x 1, y 1 ), (x 2, y 2 )..., (x n, y n ) kaksiulotteisen satunnaismuuttujan (x, y) toisistaan riippumattomat havaitut arvot. Tällöin otoskovarianssi s xy = 1 n 1 n (x i x)(y i ȳ) i=1 estimoi populaatiokovarianssia E[(x E[x])(y E[y])] = σ xy, ja Pearsonin otoskorrelaatiokerroin ˆρ(x, y) = s xy s x s y = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) 2 estimoi Pearsonin korrelaatiokerrointa ρ(x, y) = σ xy σ x σ y.

Numeerinen esimerkki lineaarisesta riippuvuudesta Halutaan tutkia korrelaatiota Kallen superkeksien syömisen ja lasten pituuskasvun välillä. Tutkimukseen valittiin satunnaisesti kymmenen lasta. Otoksessa on ensin ilmoitettu syötyjen keksien määrä satunnaisesti valittuna viikonloppuna ja toisena on ilmoitettu pituuskasvu senteissä. Mittausparit ovat seuraavat: (2,3),(3,4),(4,8),(3,7),(5,2),(4,1),(5,3),(3,6),(7,4) ja (1,4).

Numeerinen esimerkki lineaarisesta riippuvuudesta Syötyjen keksien otoskeskiarvo on 3.7 keskiä ja kasvettujen senttien otoskeskiarvo on 4.2 senttimetriä. 1 10 Otosvarianssi kekseille s k = 9 i=1 (k i 3.7) 2 1.70. 10 Otosvarianssi pituuskasvulle s p = i=1 (p i 4.2) 2 2.01 1 9 10 i=1 (k i 3.7)(p i 4.2) = 0.6 Otoskovarianssi s kp 1 9 Pearsonin otoskorrelaatiokerroin keksien määrän ja pituuskasvun välillä on näin ollen: ˆρ(k, p) = s kp 0.6 s k s p 1.70 2.01 = 0.16008

Onkohan negatiivinen korrelaatio lasten pituuskasvun ja keksien syönnin välillä sattumaa?

-, hajonta-, vinous- ja huipukkuuslukujen lisäksi aineistoista voidaan laskea monia muitakin tunnuslukuja, esimerkiksi momentteja,...

Esimerkkinä opiskelijoiden pituus.

Esimerkkinä opiskelijoiden silmien väri.

Esimerkkinä keskipalkka.

Esimerkkinä tuotantoprosessin viallisten tuotteiden osuus.

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. J. Crawshaw, J. Chambers: A Concise Course in Advanced Level Statistics, Nelson Thornes Ltd 2013. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.