TILASTO-OPPIA
Tilastolliset jakaumat, niiden esittäminen ja tunnusluvut Diskreetit jakaumat ja niiden esittäminen frekvenssitauluna ja kaaviona Jakauma on diskreetti jos tilastomuuttuja voi saada vain äärellisen määrän arvoja. Esim. Erääseen kokeeseen osallistui 28 opiskelijaa. Maksimipistemäärä oli 20 Kokeen arvosanat jakautuivat seuraavasti: Arvosanat Frekvenssitaulu Pylväskaavio (muodostetaan frekvenssitaulusta)
Diskreetit jakaumat / tunnusluvut Tunnuslukuja ovat : keskiarvo, keskihajonta, prosenttipisteet (joista tärkeimpinä mediaanit ja kvartiilit). Helpointa tunnusluvut on laskea alkuperäisestä aineistosta. Arvosanat Excelin A-sarakkeessa Tavallisimmat tunnusluvut ja vastaavat Excel-kaavat Keskiarvon kaava: Keskihajonnan kaava: ns. populaatiokeskihajonta P90- arvo eli 90% prosenttipiste on sellainen arvo, jota pienempiä on 90% havaintoarvoista ja suurempia 10% niistä. Tarkka arvo P90 määritetään interpoloimalla. Listassa esiintyvä mediaani on 50% prosenttipiste, alaneljännes ja yläneljännes ovat 25% ja 75% prosenttipisteet. Näihin ei tarvitsisi omaa funktiota, vaan voitaisiin käyttää percentile funktiota.
Luokitellun diskreetin aineiston tunnusluvut: Mikäli alkuperäistä dataa ei ole enää käytössä, voidaan tunnuslukuja määrittää myös frekvenssitaulukosta. Alla kaava keskiarvon ja keskihajonnan laskemisesta frekvenssitaulukon avulla Keskiarvon kaava: μ = f ix i n Keskihajonnan kaava: = 1 5 + 3 7 + + 2 19 28 = 12.3 σ = f i(x i μ) 2 n = 1 5 12.3 2 + + 2 19 12.3 2 28 = 3.8 Keskihajonta kuvaa sitä, kuinka laajalle muuttujan arvot ovat jakautuneet keskiarvon ympärille. Keskihajonta = muuttujan arvojen ja keskiarvon etäisyyksien neliöiden keskiarvon neliöjuuri. Yht 28
Jatkuvat jakaumat ja niiden esittäminen Jakauma on jatkuva jos tilastomuuttuja voi saada mitä tahansa arvoja tietyltä väliltä (periaatteessa mahdollisia arvoja voi olla ääretön määrä, käytännössä ei ääretön, mutta hyvin suuri määrä, koska mittaustarkkuus on rajallinen). Frekvenssitaulu laaditaan siten, että muuttujien arvojen alue jaetaan osaväleihin eli luokkiin, ja lasketaan luokkien frekvenssit Grafiikaksi sopii pylväsgrafiikka tai histogrammi
Jatkuvat jakaumat / tunnusluvut Helpointa tunnusluvut on laskea alkuperäisestä aineistosta. (funktiot: average, stdev.p, median, quartile, percentile) Tunnusluvut: Keskihajontoja on Excelissä kaksi, kuten laskimissakin: Populaatiokeskihajontaa stdev.p käytetään, kun on tutkittu koko populaatio Otoskeskihajontaa stdev.s, kun on tutkittu vain otos populaatiosta Ero tuloksissa on mitättömän pieni, jos havaintojen määrä n on suuri. σ = (x μ)2 n s = (x μ)2 n 1 populaatiokeskihajonta otoskeskihajonta σ n laskimissa σ n-1
Jatkuvat jakaumat / tunnusluvut Helpointa tunnusluvut on laskea alkuperäisestä aineistosta. Muutoin: MIKÄLI AINEISTOSTA ON JÄLJELLÄ VAIN LUOKAT JA FREKVENSSIT VOIDAAN TUNNUSLUKUJEN LIKIARVOJA LASKEA KÄYTTÄMÄLLÄ KOKO LUOKAN MUUTTUJAN ARVONA X i LUOKKAKESKUKSIA: (usein kyselytutkimuksessa tilanne on juuri tämä, koska kysymyksen asettelussa on jo luokittelu mukana: esim. valitse ikäryhmä... ) Keskiarvon kaava: μ = f ix i n = 5 650 + 7 750 + + 8 1050 30 870 8 Keskihajonnan kaava: σ = f i(x i μ) 2 n = 5 650 870 2 + + 8 1050 870 2 30 146 vrt. edellisen kalvon ka = 861 ja kh =153 kun kaikki alkuperäiset x arvot olivat käyttävissä. Ero ei ole suuri.
- Todennäköisyys - Todennäköisyysjakaumat Odotusarvo Keskihajonta
Todennäköisyyden määritelmä KLASSINEN TODENNÄKÖISYYS E = tapahtuma-avaruus eli otosavaruus, joka koostuu alkeistapauksista, joiden tiedetään olevan yhtä todennäköisiä A = tapahtuma, joka on E:n osajoukko, jonka todennäköisyys halutaan laskea. Tapahtuman A todennäköisyys P(A) = k n n = kaikkien mahdollisten alkeistapausten lukumäärä k = tapahtuman A kannalta suotuisten alkeistapausten lukumäärä Esim. Laatikossa on 8 palloa, joista 4 sinistä, 3 punaista ja 1 keltainen. Laatikosta otetaan umpimähkään yksi pallo. Millä todennäköisyydellä se on punainen? P(punainen) = 3 8
TILASTOLLINEN TODENNÄKÖISYYS Tilastollista todennäköisyyttä hyödyntävät mm. vakuutusyhtiöt määrittäessään vakuutusmaksun suuruutta sekä autonvalmistajat määrittäessään takuuaikaa. on tapahtuman A suhteellisen frekvenssin raja-arvo, n jota se lähestyy kun satunnaista koetta toistetaan äärettömän monta kertaa. Tapahtuman A tilastollinen todennäköisyys P(A) = n(a) Esim1. Kolikkoa heitettäessä kruunan tilastollinen todennäköisyys on 0.5 (Mitä enemmän heittokertoja on, sitä lähemmäs 50% arvoa päästään). Esim2. Vakuutusyhtiö voi laskea esim. lappilaiselle 28 65 vuotiaalle kuljettajalle tilastollisen todennäköisyyden joutua porokolariin seuraavan vuoden aikana.
Diskreetti todennäköisyysjakauma Esimerkki: Heitetään yhtäaikaa 4 kolikkoa. Määritä eri kruunien määrän todennäköisyydet Symmetristen alkeistapausten joukossa on 16 tapausta: (0 = klaava, 1 = kruuna) Kaikkien tapausten todennäköisyyksien summa = 1 p i = 1 DISKREETISTI JAKAUTUNEEN MUUTTUJAN ODOTUSARVO LASKETAAN KAAVALLA μ = p i x i µ = 1 16 0 + 4 16 1 + 6 16 2 + 4 16 3 + 1 16 4 = 2 Odotusarvo 2 kruunaa tarkoittaa, että jos 4 kolikkoa heitettäisiin jatkuvasti, tilastollinen kruunien määrän keskiarvo lähestyisi 2 kruunaa. DISKREETISTI JAKAUTUNEEN MUUTTUJAN KESKIHAJONTA LASKETAAN KAAVALLA σ = p i (x i μ) 2 Σ= ( 1 16 0 2 2 + 4 16 1 2 2 + + 1 16 4 2 2 ) = 1
Esim1 odotusarvon laskemisesta. Erään ulkoilmatapahtuman tuotto riippuu sääolosuhteista seuraavalla tavalla. Sää Todennäköisyys P Tuotto x Aurinkoinen 40% 40000 Eur Pilvipouta, tuulinen 35% 10000 Eur Sateinen 25% - 20000 Eur Laske tuoton odotusarvo ( = keskimääräinen voitto jos tapahtumaa toistettaisiin äärettömän monta kertaa) μ = p i x i μ = 0.4*40000 + 0.35*10000 + 0.25*(-20000) = 14 500 Eur Tuoton odotusarvo on positiivinen, joten tapahtuman järjestämistä voi pitää kannattavana liiketoimena.
Jatkuvat todennäköisyysjakaumat Jatkuvassa jakaumassa satunnaismuuttuja x voi saada mitä tahansa arvoja tietyltä väliltä. x:n arvoja ja niiden todennäköisyyksiä kuvaavan taulukon tilalle tulee tiheysfunktio f(x) (engl. probability density function) Tiheysfunktio f(x) tai pdf(x) f(x):n arvo kuvaa muuttujan arvon x todennäköisyyttä f(x) f(x) 0 (saa vain positiivisia arvoja) Pinta-ala käyrän f(x) ja x akselin välissä = 1 muuttuja x cumulative density function Kertymäfunktio ϕ(x)= cdf(x) Pinta-ala edustaa arvoa ϕ(x) Kertymäfunktion arvo ϕ(x 0 ) = P(x x 0 ) ts. Kertymäfunktion arvo tietyssä kohdassa x 0 antaa todennäköisyyden sille, että muuttujan x arvo x 0 Keskiarvo ja -hajonta määritellään integraaleina μ = න xf x dx σ = න x μ 2 f x dx
Gaussin normaalijakauma Tärkein jatkuva jakauma on Gaussin normaalijakauma, jonka tiheyden ja kertymäfunktion määräävät kaksi parametria: keskiarvo μ ja keskihajonta σ f(x) f(x) = ϕ(x) = ϕ(x) =pintaala Laskuissa tarvitaan vain kertymäfunktiota ϕ(x). Kaavaa ei tarvitse käyttää, sillä funktiosta on MaOL:n taulukoissa taulukko ja Excelissä funktio NORMAL.DIST. Harjoituksissa käytetään Exceliä. Normaalijakaumaa noudattavan tilastomuuttujan x odotusarvo (keskiarvo) = μ ja keskihajonta σ Merkintä: Jos muuttuja x noudattaa normaalijakaumaa, jossa keskiarvo on μ ja keskihajonta σ, merkitään tätä yleisesti x ~ N(μ, σ) tai pitemmässä muodossa x ~ normal(μ, σ) Sanotaan myös: x on normaalijakautunut parametrein μ ja σ
Kertymäfunktion ja sen käänteisfunktion käyttö: PERUSTAPAUKSET 1. Lasketaan todennäköisyys sille, että muuttujan x arvo a P(x a) = ϕ(a) Excel: NORM.DIST 2. Lasketaan todennäköisyys sille, että muuttujan x arvo a P(x a) = 1 - ϕ(a) 3. Lasketaan TN sille, että a x b P(a x b) = ϕ(b) -ϕ(a) 4. Lasketaan annettua todennäköisyyttä P vastaava prosenttipiste x ϕ(x) = P => x = ϕ -1 (P) Excel: NORM.INV
Esim2. Suomen miespuolisen väestön keskipituus on 180.7 cm ja keskihajonta 7.4 cm. Oletetaan, että pituus noudattaa normaalijakaumaa. a) Mikä on todennäköisyys sille, että pituus 213 cm ( Lauri Markkanen) b) Mikä on pituuden P90 prosenttiarvo? c) Millä todennäköisyydellä pituus on välillä 190 cm 200 cm? a) P(x 213) = 1 - ϕ(213) = 1-0,99999364= 0,00000636 (ts. 6.4 miljoonasta b) P90 arvo saadaan ratkaisemalla x yhtälöstä ϕ(x) = 0.90 Tässä tarvitaan kertymäfunktion käänteisfunktiota ϕ -1 : x = ϕ -1 (0.9) = 190.2 cm => Siten pituuden 190.2 cm ylittäviä on 10% c) P(190 x 200) = ϕ(200)-ϕ(190) =0.996 0.899 = 0.097 = 9.7% Excelillä laskettu ϕ(213): =NORM.DIST(213;180,7;7;4;1) (argumentit: x, keskiarvo, keskihajonta, cumulative=1) antaa 0,99999517 Excelissä ϕ -1 on NORM.INV: =NORM.INV(90%;180,7;7;4) (argumentit: prosenttiluku, keskiarvo, keskihajonta) antaa 190,2 cm Excelissä ϕ -1 on NORM.INV: =NORM.DIST(200;180,7;7;4;1)- NORM.DIST(190;180,7;7;4;1)
Esim.3 Useiden sisäilman haitallisten yhdisteiden viitearvoina THL:n dokumenteissa ovat ns. P90 arvoja (ts. arvoja, joita suurempia tavataan vain 10% mittauksissa). Seuraavassa on 144 mitattua sisäilman formaldehydipitoisuutta eri puolilta Suomea. Yksikkönä on 1 μg/m 3 Mikä olisi niiden perusteella formaldehydin P90 arvo pyöristettynä kokonaisluvuksi? Arvot eivät noudata normaalijakaumaa, joten älä käytä normaalijakaumaan liittyviä funktioita. 1 A Tehtävä ratkeaa helposti käyttäen Excelin PERCENTILE funktiota: =PERCENTILE(A1:N14;90%) antaa arvon 14 (yksikkö on μg/m 3 )
Esim.4 Eräs sepelimurske on kelvollista käyttötarkoitukseensa, jos enintään 2.5% sen kivistä ylittää maksimiläpimitaltaan arvon 30 mm. Alla olevassa taulukossa on satunnaisesti valittujen 80 kivenkappaleen maksimiläpimitat työntömitalla mitattuna. Täyttääkö murske laatukriteerin? Oletetaan, että kyseisen murskeen kivien läpimitat noudattavat normaalijakaumaa. 1 A Lasketaan jakaumaparametrit: Keskiarvo μ = 20.1 (=average(a1:h10)) Keskihajonta σ = 6.8 (=stdev.s(a1:h10)) Lasketaan kuinka monta prosenttia kivistä on läpimitaltaan alle kriteerinä olevan 30 mm yläraja: = NORM.DIST(30;20,1;6,8;1) antaa 0,927 eli prosentteina 92,7% Johtopäätös: Sepelimurskeesta 92,7% alittaa kooltaan 30 mm rajan => 7,3% ylittää sen. Murske ei ole siten kelvollista. Toinen mahdollinen tapa olisi laskea suoraan 97.5% :ia vastaava läpimitta. =NORM.INV(97,5%; 20,1 ; 6,8) antaa 33,4 mm, joka selvästi ylittää 30 mm rajan.