Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta



Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollinen aineisto Luottamusväli

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Harjoitus 2: Matlab - Statistical Toolbox

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Väliestimointi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

7. laskuharjoituskierros, vko 10, ratkaisut

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Teema 8: Parametrien estimointi ja luottamusvälit

Tilastollisten aineistojen kuvaaminen

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Testejä suhdeasteikollisille muuttujille

031021P Tilastomatematiikka (5 op) viikko 4

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Johdatus todennäköisyyslaskentaan Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Luottamusvälit. Normaalijakauma johnkin kohtaan

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit laatueroasteikollisille muuttujille

MTTTP5, luento Luottamusväli, määritelmä

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Havaintoaineiston trimmauksen vaikutus otoskeskiarvoon

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Testit järjestysasteikollisille muuttujille

Verkot ja todennäköisyyslaskenta Verkko Verkko eli graafi muodostuu pisteiden joukosta V, särmien joukosta A ja insidenssikuvauksesta : A V V jossa

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

031021P Tilastomatematiikka (5 op) viikko 3

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Tilastollisia peruskäsitteitä ja Monte Carlo

031021P Tilastomatematiikka (5 op) viikko 5

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Otoskoko 107 kpl. a) 27 b) 2654

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

riippumattomia ja noudattavat samaa jakaumaa.

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Normaalijakaumasta johdettuja jakaumia

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

dx=5&uilang=fi&lang=fi&lvv=2014

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

pisteet Frekvenssi frekvenssi Yhteensä

Transkriptio:

Tilastollisen analyysin perusteet Luento 1: ja hajonta

Sisältö

Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman graafinen esitys: Diskreetti muuttuja: frekvenssijakauma ja pylväsdiagrammi. Jatkuva muuttuja: luokiteltu frekvenssijakauma ja histogrammi. Muita: piirakkadiagrammi, kumulatiivinen frekvenssi polygoni,...

Havaittujen arvojen jakauma Jakauman yleiset tunnusluvut: lukuja: keskiarvo, mediaani, moodi. lukuja: varianssi, vaihteluväli ja sen pituus, mediaanin keskipoikkeama (MAD). Muita: vinous, huipukkuus.

Yleisimmin käytettyjä lokaatiolukuja ovat keskiarvo, mediaani ja moodi.

Keskiarvo Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoskeskiarvo x = 1 n n i=1 x i estimoi muuttujan x odotusarvoa E[x] = µ.

Mediaani Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Olkoot y 1 < y 2 <... < y n arvot asetettuna suuruusjärjestykseen. Tällöin otoksen mediaani on suuruusjärjestykseen asetettujen havaintojen keskimmäinen arvo. Jos havaintoja on parillinen määrä, otetaan kaksi keskimmäistä ja lasketaan näitten keskiarvo. Otosmediaani estimoi populaatiomediaania, joka määritellään seuraavasti. Satunnaismuuttujan x mediaani m x on luku joka toteuttaa ehdot P(x < m x ) 1 2, ja P(x m x) 1 2.

Kvantiili Satunnaismuuttujan x β-kvantiili k β, 0 < β < 1, on luku joka toteuttaa ehdot P(x < k β ) β, ja P(x k β ) β.

Moodi Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoksen moodi on se muuttujan arvo, jolla on suurin frekvenssi. Moodi estimoi kvalitatiivisen muuttujan tai diskreetin kvantitatiivisen muuttujan sitä arvoa, jolla on suurin todennäköisyys muihin mahdollisiin arvoihin verrattuna.

Missä tilanteissa on perusteltua käyttää lokaatiolukuna keskiarvoa, entäpä mediaania tai moodia?

Muita lokaatiolukuja ovat esim. painotettu keskiarvo, vaihteluvälin keskipiste (midrange),...

Yleisimmin käytettyjä hajontalukuja ovat varianssi, keskihajonta, mediaanin absoluuttinen keskipoikkeama (median absolute deviation, MAD) ja vaihteluväli.

Varianssi Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otosvarianssi s 2 = 1 n 1 n (x i x) 2 i=1 estimoi muuttujan x populaatiovarianssia E[(x E[x]) 2 ].

Keskihajonta Otoksen x 1, x 2,..., x n keskihajonta on sen otosvarianssin neliöjuuri. s = s 2.

Chebychevin epäyhtälö Olkoon x satunnaismuuttuja, jolla on äärellinen odotusarvo E[x] = µ ja äärellinen varianssi E[(x E[x]) 2 ] = σ 2. Olkoon k > 1. Tällöin P( x µ kσ) 1 k 2.

Chebychevin epäyhtälö Kun k = 2, niin 1 1 k 2 = 75%. Kun k = 3, niin 1 1 k 2 88, 9%.

Chebychevin epäyhtälö Käytännössä odotusarvo ja varianssi joudutaan estimoimaan, mutta Chebychevin epäyhtälöä käytetään kun arvioidaan yksittäisen havaintoarvon yleisyyttä. Yleisesti havaintoja, jotka sijaitsee yli kahden keskihajonnan päässä keskiarvosta, pidetään harvinaisina ja havaintoja, jotka sijaitsevat yli kolmen keskihajonnan etäisyydellä keskiarvosta pidetään hyvin harvinaisina.

Chebychevin epäyhtälö Jos tiedetään, että havainnot tulevat normaalijakaumasta, niin saadaan Chebychevin epäyhtälöä tarkemmat rajat. Tällöin tiedetään, että todennäköisyys sille, että havainto sijaitsee yhden keskihajonnan sisällä odotusarvosta on noin 68 %. Todennäköisyys sille, että havainto sijaitsee kahden keskihajonnan sisällä odotusarvosta on noin 95 % ja todennäköisyys sille, että havainto sijaitsee kolmen keskihajonnan sisällä odotusarvosta on noin 99,7 %.

Mediaanin absoluuttinen keskipoikkeama Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot ja olkoon m x otoksesta laskettu mediaani. Tällöin mediaanin absoluuttinen keskipoikkeama, MAD, on otoksen x 1 m x, x 2 m x,..., x n m x mediaani.

Vaihteluväli Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Olkoon Max x otoksen suurin arvo ja olkoon Min x otoksen pienin arvo. Tällöin otoksen vaihteluväli on väli [Min x, Max x ] ja vaihteluvälin pituus on Max x Min x.

Missä tilanteissa on perusteltua käyttää hajontalukuna varianssia, entäpä mediaanin absoluuttista keskipoikkeamaa tai vaihteluväliä?

Muita hajontalukuja ovat esim. keskiarvon keskivirhe (standard error, s.e. = s n ),...

Parametrin estimaattiin on hyvä liittää väli, joka sisältää estimoidun parametrin todellisen, mutta tuntemattoman arvon tietyllä todennäköisyydellä. Tällaista väliä kutsutaan luottamusväliksi ja valittua todennäköisyyttä kutsutaan luottamustasoksi.

Olkoon x satunnaismuuttuja jakaumasta F x. Olkoon θ jokin jakauman F x parametri ja olkoon ˆθ tuon parametrin estimaatti. Olkoon (l, u) estimaattiin ˆθ liittyvä luottamustason p luottamusväli. Tällöin, ennen kuin otos on generoitu, estimaattiin ˆθ (joka on tässä satunnaismuuttuja) liittyvä väli (l, u) sisältää parametrin θ todennäköisyydellä p. Kun otos on generoitu, estimaatin arvo ja luottamusväli laskettu, niin estimaattiin liitetty luottamusväli joko sisältää todellisen parametrin arvon tai sitten ei. Jos generoidaan sata otosta jakaumasta F x, ja lasketaan estimaatti ˆθ ja siihen liittyvä luottamusväli jokaisesta otoksesta, niin noin p 100 luottamusväleistä sisältää parametrin θ ja noin (1 p) 100 ei sisällä parametria θ. n pituus riippuu otoskoosta. Jos otoskoko on pieni, niin luottamusväli on pitkä. Otoskoon kasvaessa luottamusväli lyhenee.

, normaalijakauma Normaalijakautuneen muuttujan tiheysfunktio f (x) = 1 σ µ)2 exp( (x 2π 2σ 2 ). Normaalijakauman parametrit ovat odotusarvo µ ja varianssi σ.

, normaalijakauma Normaalijakauman odotusarvon µ luottamusvali luottamustasolla (1 α) on muotoa ( s s x t n 1,α/2 n, x + t n 1,α/2 n ), missä t n 1,α/2 on Studentin t-jakauman, vapausasteella n 1, luottamuskerroin α/2, P(t > t n 1,α/2 ) = α/2. (Huomaa, että t-jakauman luottamuskerroin t n 1,α/2 on sen 1 t n 1,α/2 kvantiili.) Kun n on suuri, niin lukua t n 1,α/2 voidaan estimoida standardinormaalijakauman N(µ = 0, σ 2 = 1) luottamuskertoimella α 2 (kvantiililla 1 α 2 ). Kun α = 0.05, niin tämä luku on 1.96 ja kun α = 0.01, niin tämä luku on 2.5758.

t-jakauma You tube video

, normaalijakauma Normaalijakauman varianssin σ 2 luottamusvali luottamustasolla (1 α) on muotoa ( (n 1)s 2 (n 1)s 2, χ 2 n 1,α/2 χ 2 n 1,1 α/2 ), missä χ 2 n 1,α/2 on χ2 -jakauman, vapausasteella n 1, luottamuskerroin α/2 (kvantiili 1 α/2), ja missä χ 2 n 1,1 α/2 on luottamuskerroin 1 α/2 (kvantiili α/2).

χ 2 -jakauma Wikipediasta

, Bernoulli jakauma Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Oletetaan, että P(x i = 1) = p ja että P(x i = 0) = 1 p. Tällöin sanotaan, että satunnaismuuttuja x noudattaa Bernoulli jakaumaa. Muuttujan x odotusarvo E[x] = p ja varianssi E[(x E[x]) 2 ] = p(1 p). Odotusarvon p harhaton estimaatti on keskiarvo ˆp = 1 n n x i. i=1

, Bernoulli jakauma Kun n on suuri, Bernoulli jakauman odotusarvon luottamusvälin estimaatti luottamustasolla (1 α) on muotoa ( ˆp(1 ˆp) ˆp(1 ˆp) ˆp z α/2, ˆp + z α/2 ), n n missä z α/2 on standardinormaalijakauman luottamuskerroin α 2 (kvantiili 1 α 2 ). (Kirjallisuudessa esitetään useita vaihtoehtoisia estimaatteja Bernoulli jakauman odotusarvon luottamusvälille. Jos otoskoko on pieni, pelastuksen tarjoaa esim. Wilson score interval, josta löytyy tietoa vaikkapa ihan googlettamalla.)

Vinous Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otosvinouskerroin missä m 3 = 1 n v = m 3 s 3, n (x i x) 3. i=1 Otosvinouskerroin estimoi populaatiosuuretta E[( x µ σ )3 ].

Vinous Jos vinouskerroin v > 0, niin jakauma oikealle vino. Jos taas v < 0, niin jakauma on vasemmalle vino. Oikealle vinon jakauman oikea häntä on vasenta häntää paksumpi ja vasemmalle vinon jakauman vasen häntä on oikeaa häntää paksumpi. Puhutaan myös negatiivisesti vinoista ja positiivisesti vinoista jakaumista. Normaalijakautuneen muuttujan vinouskerroin on 0.

Vinous Vaihtoehtoinen vinousluku v 2 : Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin myös v 2 = 3( x m x) s kertoo jakauman vinoudesta. (Tässä yhteydessä merkinnällä m x tarkoitetaan otosmediaania.) Symmetrisen jakauman tapauksessa otoskeskiarvo ja otosmediaani estimoivat samaa populaatiosuuretta!

Huipukkuus Olkoot x 1, x 2,..., x n satunnaismuuttujan x toisistaan riippumattomat havaitut arvot. Tällöin otoshuipukkuuskerroin missä m 4 = 1 n k = m 4 s 4 3, n (x i x) 4. i=1 Otoshuipukkuuskerroin estimoi populaatiosuuretta E[( x µ σ )4 3].

Huipukkuus Normaalijakautuneen muuttujan huipukkuuskerroin on 0. Jos huipukkuuskerroin k > 0, niin jakauma on normaalijakaumaa huipukkaampi. Jos taas k < 0, niin jakauma on normaalijakaumaa vähemmän huipukas. Huipukkaalla jakaumalla on yleensä terävä huippu ja paksut hännät kun taas vähemmän huipukkaalla jakaumalla on usein pyöreähkö huippu ja ohuet hännät. Huipukkuuden voidaan myös ajatella mittaavan jakauman "hartioiden"vankkuutta (jos k > 0, niin hartiat uupuvat).

-, hajonta-, vinous- ja huipukkuuslukujen lisäksi aineistoista voidaan laskea monia muitakin tunnuslukuja, esimerkiksi momentteja,...

Esimerkkinä opiskelijoiden pituus.

Esimerkkinä opiskelijoiden silmien väri.

Esimerkkinä keskipalkka.

Esimerkkinä tuotantoprosessin viallisten tuotteiden osuus.

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.