Aki Taanila MATEMAATTISIA MALLEJA



Samankaltaiset tiedostot
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila AIKASARJAENNUSTAMINEN

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma

Aki Taanila TOIMITUSKETJUN HALLINNAN TYÖKALUJA

Jatkuvat satunnaismuuttujat

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Otoskoko 107 kpl. a) 27 b) 2654

3 Eksponentiaalinen malli

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

LIITE 1 VIRHEEN ARVIOINNISTA

Aki Taanila AIKASARJOJEN ESITTÄMINEN

4. laskuharjoituskierros, vko 7, ratkaisut

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

6. laskuharjoitusten vastaukset (viikot 10 11)

Testejä suhdeasteikollisille muuttujille

Mat Tilastollisen analyysin perusteet, kevät 2007

LIITE 1 VIRHEEN ARVIOINNISTA

Regressioanalyysi. Kuusinen/Heliövaara 1

Aki Taanila LINEAARINEN OPTIMOINTI

Dynaamiset regressiomallit

c) Määritä paraabelin yhtälö, kun tiedetään, että sen huippu on y-akselilla korkeudella 6 ja sen nollakohdat ovat x-akselin kohdissa x=-2 ja x=2.

Aki Taanila TODENNÄKÖISYYSLASKENTAA JA -JAKAUMIA

MAY1 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Julkaiseminen sallittu vain koulun suljetussa verkossa.

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

LABORAATIOSELOSTUSTEN OHJE H. Honkanen

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

1 MATEMAATTISIA VÄLINEITÄ TALOUSELÄMÄN ONGELMIIN Algebran perusteita 8 Potenssit Juuret 15 Tuntematon ja muuttuja 20 Lausekkeen käsittely 24

Testit järjestysasteikollisille muuttujille

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

6.8 Erityisfunktioiden sovelluksia

5.6.3 Matematiikan lyhyt oppimäärä

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Moniulotteisia todennäköisyysjakaumia

Esimerkki 1: auringonkukan kasvun kuvailu

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

y=-3x+2 y=2x-3 y=3x+2 x = = 6

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

LIITE 1 VIRHEEN ARVIOINNISTA

1. Tilastollinen malli??

D ( ) E( ) E( ) 2.917

1 Ensimmäisen asteen polynomifunktio

MONISTE 2 Kirjoittanut Elina Katainen

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

3.7 Todennäköisyysjakaumia

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Lukuväleistä. MB 3 Funktio. -2 < x < 5 tai ]-2,5] x < 3 tai ]-,3]

805306A Johdatus monimuuttujamenetelmiin, 5 op

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Aluksi Kahden muuttujan lineaarinen yhtälö

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

10 Liiketaloudellisia algoritmeja

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

riippumattomia ja noudattavat samaa jakaumaa.

MAB3 - Harjoitustehtävien ratkaisut:

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

f(x, y) = x 2 y 2 f(0, t) = t 2 < 0 < t 2 = f(t, 0) kaikilla t 0.

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Harjoitus 2: Matlab - Statistical Toolbox

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

} {{ } kertaa jotain

KESKEISET SISÄLLÖT Keskeiset sisällöt voivat vaihdella eri vuositasoilla opetusjärjestelyjen mukaan.

1. Matikan kurssin arvosanat jakautuivat seuraavalla tavalla:

, tuottoprosentti r = X 1 X 0

Demo 1: Simplex-menetelmä

Matematiikka vuosiluokat 7 9

Sovellettu todennäköisyyslaskenta B

Koontitehtäviä luvuista 1 9

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

pitkittäisaineistoissa

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Johdatus tn-laskentaan perjantai

Sovellettu todennäköisyyslaskenta B

Yleistetyistä lineaarisista malleista

Kaikkiin tehtäviin ratkaisujen välivaiheet näkyviin! Lue tehtävänannot huolellisesti. Tee pisteytysruudukko B-osion konseptin yläreunaan!

Väliestimointi (jatkoa) Heliövaara 1

YLEISKUVA - Kysymykset

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Oma nimesi Tehtävä (5)

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Harjoitus 7: NCSS - Tilastollinen analyysi

HAVAITUT JA ODOTETUT FREKVENSSIT

Ilkka Mellin (2008) 1/5

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Transkriptio:

Aki Taanila MATEMAATTISIA MALLEJA 7.2.2010

SISÄLLYS 1 ORIENTAATIO... 1 1.1 Matemaattiset mallit... 1 1.2 Kriittinen ajattelu... 2 2 YHDEN SELITTÄJÄN REGRESSIO... 3 2.1 Lineaarinen malli... 3 2.2 Selityskerroin... 5 2.3 Excelin funktioita... 6 2.4 Eksponentiaalinen malli... 6 2.5 Mallin käyttäminen ennustamiseen... 7 3 AIKASARJAENNUSTAMINEN... 8 3.1 Aikasarjassa ei ole systemaattista vaihtelua... 8 3.2 Aikasarjassa on trendi... 11 3.3 Aikasarjassa on trendi ja kausivaihtelu... 11 4 TODENNÄKÖISYYSJAKAUMAT... 15 4.1 Kertymätodennäköisyys... 16 4.2 Odotusarvo... 17 4.3 Binomijakauma... 19 4.4 Poisson-jakauma... 21 4.5 Normaalijakauma... 22 4.6 Eksponentiaalinen jakauma... 26

MATEMAATTISIA MALLEJA 1 1 ORIENTAATIO Numeromuotoisen tiedon käyttöön liittyvät menetelmät voidaan karkeasti jaotella seuraavasti: Tiedon esittäminen ja kuvailu kuvioina, taulukoina ja tunnuslukuina. Matemaattisten mallien käyttö ennustamiseen ja epävarmuuden hallintaan. Tilastollisen päättelyn käyttö yleistettäessä tuloksia otoksesta laajempaan joukkoon. Numerotiedon rajoittuneisuus: Numerot ovat vain numeroita. Numerotiedon lukijan on nähtävä numeroiden takana olevia reaalimaailman asioita ja ilmiöitä, joita numeroilla pyritään mittaamaan. Samalla on pyrittävä huomioimaan näkökohdat, joita ei voida numeroilla ilmaista ja mitata. On myös huomattava, että numeroiden tarkkuus on usein vain näennäistä. Numerotiedon käyttö on kyseenalaista, jos asia tai käsite, jota numeroilla yritetään mitata, on huonosti määritelty tai sen muuttaminen numeerisesti mitattavaan muotoon on huonosti onnistunut. Numerot eivät koskaan voi olla tarkempia kuin taustalla olevat käsitteet, joiden mittaamiseen numeroita käytetään. 1.1 Matemaattiset mallit Tarkasteltavan ilmiön osatekijöitä ja niiden välisiä riippuvuuksia voidaan mallintaa matemaattisia malleja käyttäen. Malleihin pyritään pelkistämään vain olennaiset ilmiöön vaikuttavat tekijät ja niiden väliset yhteydet. Mallien avulla voidaan mm. ennakoida tulevaa arvioida miten päätösmuuttujat (muuttujia, joiden arvoihin päätöksentekijä voi päätöksillään suoraan vaikuttaa) vaikuttavat tavoitemuuttujiin (kiinnostuksen kohteena olevat muuttujat, kuten kannattavuus, asiakastyytyväisyys jne.).

MATEMAATTISIA MALLEJA 2 Yleisesti käytettyjä matemaattisia malleja ovat: Regressio: esim. tuotteen hinnan ja myynnin välistä riippuvuutta voidaan kuvata regressiomallilla, jota käyttäen voidaan ennustaa tiettyä hintaa seuraava myynti. Aikasarjaennustaminen: esim. jos myyntiä kuvaava aikasarja on säännöllinen, niin mallintamalla aikasarja, voidaan ennustaa myyntiä. Todennäköisyysmallit epävarmuuden mallintamisessa: esim. vakuutus voidaan hinnoitella mallintamalla onnettomuuksien lukumäärää todennäköisyysjakauman avulla. 1.2 Kriittinen ajattelu Kriittinen ajattelu on taitoa arvioida ja eritellä väitteiden ja johtopäätösten perusteluita sekä taustalla vaikuttavia oletuksia. Kriittisen ajattelun keskeisiä tekijöitä ovat: erottelu väitteen tai johtopäätöksen ja sitä tukevan todistusaineiston välillä todistusaineistona käytettyjen tosiasioiden ja uskomusten paikkansapitävyyden arviointi muiden asiaan vaikuttavien oletusten, myös auki kirjoittamattomien, arviointi perusteluista johtopäätöksiin johtavien päätelmien pätevyyden arviointi. Päätelmien pätevyyttä arvioitaessa on hyvä erottaa toisistaan deduktiiviset ja induktiiviset päätelmät deduktiivisessa päätelmässä johtopäätös seuraa loogisesti perusteluista ja olettamuksista (jos perustelut ja olettamukset ovat totta, niin johtopäätöskin on totta) induktiivisessa päätelmässä johtopäätös seuraa perusteluista ja olettamuksista jollain todennäköisyydellä. Kriittinen ajattelija kyseenalaistaa toisten esittämät väitteet ja johtopäätökset kunnes riittävät perustelut ja käytetyt taustaoletukset ovat selvillä. Kriittinen ajattelija esittää omien väitteidensä ja johtopäätöstensä tueksi riittävät perustelut ja selittää taustalla vaikuttavat olettamukset. Tämä helpottaa ajatusten "myymistä" esim. esimiehelle, alaiselle tai rahoittajille. Usein on paikallaan myös käytettyjen laskenta- ja analyysimenetelmien selittäminen ja perustelu. Kohderyhmän tietotaso täytyy aina huomioida. Kun esität ajatuksia, johtopäätöksiä, väitteitä jne. toisille, niin esitä perusteluita ja taustaolettamuksia siinä määrin kuin arvelet kohderyhmän niitä kaipaavan. Erityisesti matemaattisia laskenta- ja analyysimenetelmiä selitettäessä täytyy huomioida kohderyhmän tietotaso.

Palkkio (euroa) MATEMAATTISIA MALLEJA 3 2 YHDEN SELITTÄJÄN REGRESSIO 2.1 Lineaarinen malli Riippuvuudesta voidaan rakentaa matemaattinen malli. Kahden muuttujan riippuvuutta kuvaava matemaattinen malli on lauseke, jonka avulla voidaan laskea toisen muuttujan arvoja ensimmäisen muuttujan arvojen perusteella. Jos muuttujien välinen riippuvuus on lineaarinen, niin mallina käytetään suoraa. Suoraa voidaan kuvata lausekkeella y = b 1 x + b 0. Lauseke kertoo miten y saadaan laskettua, kun x:n arvo tunnetaan. Termiä b 0 kutsutaan vakiotermiksi. Vakiotermi kertoo, missä kohdassa suora leikkaa y-akselia (tämä nähdään asettamalla x:lle arvo 0, jolloin lausekkeesta jää jäljelle y=b 0 ). Termiä b 1 kutsutaan kulmakertoimeksi. Kulmakerroin ilmoittaa minkä verran y muuttuu, kun x kasvaa yhdellä yksiköllä. Laskevaan suoraan liittyy negatiivinen kulmakerroin ja nousevaan suoraan positiivinen kulmakerroin. Oletetaan, että konsultti perii palkkiota paikalle saapumisesta 100 euroa ja jokaiselta tehdyltä työtunnilta 80 euroa. Tällöin konsultin kokonaispalkkiota voidaan kuvata lausekkeella y=80x+100, missä x on työtuntien määrä. Kyseisessä suoran yhtälössä vakioterminä on 100 ja se ilmoittaa y:n arvon, kun x=0 (eli esimerkissämme palkkio ilman varsinaisia työtunteja) kulmakerroin 80 ilmoittaa palkkion muutoksen, kun työtunnit lisääntyvät yhdellä. 600 500 y = 80x + 100 400 300 200 100 0 0 1 2 3 4 5 6 Työtunnit Voit lisätä Excelin hajontakuvioon riippuvuutta kuvaavan mallin kuvaajan, lausekkeen ja selityskertoimen: 1. Napsauta hiiren oikeaa painiketta jonkin hajontakuvion pisteen päällä. 2. Valitse esiin tulevasta valikosta Insert Trendline/Lisää trendiviiva. 3. Valitse haluamasi malli (esim. Linear/Lineaarinen).

Myynti (1000 euroa) MATEMAATTISIA MALLEJA 4 4. Valitse tulostettavaksi mallin kaava Display Equation on Chart/Näytä kaava kaaviossa (huom. Excel2003 ja vanhemmissa tämä asetus Options/Asetukset välilehdeltä). 5. Valitse tulostettavaksi mallin selityskerroin kohdasta Display R-squared Value on Chart/Näytä korrelaatiokertoimen arvo kaaviossa (huom. Excel2003 ja vanhemmissa tämä asetus Options/Asetukset välilehdeltä). Huomaa, että Excelin suomenkielisissä versioissa puhutaan virheellisesti korrelaatiokertoimesta vaikka kyseessä on korrelaatiokertoimen neliö eli selityskerroin. 130 120 110 y = 52,568x + 46,486 R² = 0,7664 100 90 80 70 60 0,4 0,6 0,8 1,0 1,2 1,4 Mainoskulut (1000 euroa) Yllä olevaan kuvioon on lisätty malli mainoskulujen ja myynnin väliseen hajontakuvioon. Mallia voidaan tulkita seuraavasti: Kulmakertoimesta 52,568 voidaan päätellä, että tuhat euroa mainoskuluissa merkitsee keskimäärin 52568 euroa myynnissä. Vakiotermi 46,486 taas ilmoittaa myynnin olevan 46486 euroa, jos mainoskuluja ei ole lainkaan. Tässä tapauksessa vakiotermin antama tieto ei ole käyttökelpoinen eikä luotettava, koska mainoskulujen arvo 0 sijaitsee selvästi havaintoalueen ulkopuolella. Yleensäkään mallin käyttöaluetta ei voi laajentaa kovin paljon havaintoalueen ulkopuolelle. Mallin avulla voidaan laskea esimerkiksi seuraavat ennusteet: Jos mainontaan aiotaan käyttää 900 euroa, niin mallin mukainen myyntiennuste saadaan laskemalla 52,568*0,9+46,486 93,8 eli 93 800 euroa. Jos tavoitteena on 90 000 euron myynti, niin mallin mukaan mainontaan pitäisi käyttää (90-46,486)/52,568 0,83 eli 830 euroa.

MATEMAATTISIA MALLEJA 5 2.2 Selityskerroin Äskeisessä esimerkissä selityskerroin on 0,7664 eli 76,64%. Tämä tulkitaan seuraavasti: 76,64% myynnin vaihtelusta voidaan selittää mainoskulujen vaihtelulla. Regression tarkoituksena on selittää y:n arvojen vaihtelua x:n arvojen vaihtelulla. Selityskertoimella mitataan kuinka hyvin tässä on onnistuttu. Tarkastellaan seuraavaksi, mihin selityskertoimen laskenta perustuu. Kunkin havainnon y-arvon kokonaispoikkeama y-arvojen keskiarvosta koostuu kahdesta osasta: regression selittämästä poikkeamasta ja poikkeamasta, jota regressio ei selitä. Seuraavassa kuviossa havaintopisteen kokonaispoikkeama on jaettu regression selittämään poikkeamaan ja selittämättä jäävään poikkeamaan. y Kokonaispoikkeama Selittämättä jäävä poikkeama Regression selittämä poikkeama y-arvojen keskiarvo Regressiosuora Jos merkitään regression selittämien poikkeamien neliöiden summaa SSR (sum of squares due to regression) ja selittämättömien poikkeamien neliöiden summaa SSE (sum of squares due to error), niin kokonaispoikkeamien neliöiden summa SST (total sum of squares) jakaantuu kahteen komponenttiin SST = SSR + SSE Selityskerroin r 2 on regression selittämän vaihtelun osuus kokonaisvaihtelusta eli r 2 SSR SST Jos käytetään lineaarista mallia, niin selityskerroin voidaan laskea myös korrelaatiokertoimen neliönä. Regressiosuoran laskentamenetelmä liittyy sekin neliösummiin. Regressiosuora lasketaan pienimmän neliösumman menetelmää käyttäen. Kaikkien mahdollisten pistejoukon läpi kulkevien suorien joukosta valitaan se, jonka kohdalla neliösumma SSE (vaihtelu, jota regressio ei selitä) saa pienimmän mahdollisen arvon.

Kysyntä MATEMAATTISIA MALLEJA 6 2.3 Excelin funktioita =FORECAST(x;tunnetut y;tunnetut x)-funktiolla (suom. ENNUSTE) voit kätevästi laskea lineaariseen malliin liittyviä ennusteita. Funktio laskee x-arvoon liittyvän y-arvon regressiosuoran yhtälöä käyttäen (taustalla Excel laskee tunnettujen y:n arvojen ja tunnettujen x-arvojen perusteella regressiosuoran yhtälön). =INTERCEPT(tunnetut y;tunnetut x)-funktiolla (suom. LEIKKAUSPISTE) voit laskea regressiosuoran vakiotermin. =SLOPE(tunnetut y;tunnetut x)-funktiolla (suom. KULMAKERROIN) voit laskea regressiosuoran kulmakertoimen. 2.4 Eksponentiaalinen malli Liiketaloudessa esiintyy usein riippuvuus, jonka kuvaamiseen sopii eksponentiaalinen malli. Eksponentiaalinen malli on muotoa y=b 0 e bx e on luonnollisen logaritmijärjestelmän kantaluku, jonka likiarvo on 2,718 Kerroin b 0 ilmoittaa y:n suuruuden, kun x=0. Kerroin b ilmoittaa y:n prosentuaalisen muutoksen, kun x kasvaa yhdellä yksiköllä. Huomaa, että lineaarisessa mallissa kulmakerroin ilmoittaa y:n absoluuttisen muutoksen x:n kasvaessa yhdellä yksiköllä, mutta eksponentiaalisessa mallissa y:n muutos on prosentuaalinen. Seuraavassa kuviossa x:n kasvaessa yhdellä yksiköllä y:n arvo pienenee 19,97 %. Selityskertoimen mukaan 99,12 % kysynnän vaihtelusta voidaan selittää hinnan vaihteluilla. 6000 5000 4000 3000 y = 8 043,3172e -0,1997x R² = 0,9912 2000 1000 0 0 5 10 15 Hinta Kun käytät eksponentiaalista mallia ennusteiden laskemiseen Excelissä, niin tarvitset EXP/EKSPONENTTI -funktiota. Edelliseen hajontakuvioon lasketussa mallissa voit ennustaa 6 euron hintaan liittyvää kysyntää, kirjoittamalla Exceliin kaava =8043,3172*EXP(-0,1997*6)

MATEMAATTISIA MALLEJA 7 2.5 Mallin käyttäminen ennustamiseen Mallin sopivuus Poikkeavat havainnot Mallin avulla voidaan ennustaa y, kun x tunnetaan tai x, kun y tunnetaan. Olipa sitten kyseessä lineaarinen tai eksponentiaalinen malli (tai jokin muu), niin mallin soveltuvuus ennustamiseen riippuu selittämättömän vaihtelun osuudesta. Hajontakuviosta voit arvioida selittämättömän, epäsäännöllisen vaihtelun suuruutta ja yli päätään mallin sopivuutta havaintoaineistoon. Mitä enemmän havainnot "pomppivat" mallin molemmin puolin sitä enemmän ennusteeseen sisältyy epävarmuutta. Mallit ovat herkkiä poikkeaville arvoille. Jos kuviosta erottuu selvästi muista poikkeavia havaintoja, niin niiden alkuperä on selvitettävä: ovatko poikkeavat havainnot virheellisiä tietoja ovatko poikkeavat havainnot väärin syötettyjä tietoja jos kyse ei ole virheestä, niin löytyykö poikkeaville arvoille luonnollinen selitys? Kun poikkeavien havaintojen alkuperä selviää, niin seuraavaksi mietitään onko hyvä pitää havainnot mukana vai olisiko perusteltua jättää ne pois tarkasteluista. Mallin käyttöalue jos virheelliset tai väärin syötetyt tiedot voidaan korjata, niin ne voidaan pitää tarkasteluissa mukana jos virheellisille tai väärin syötetyille tiedoille ei syystä tai toisesta saada korjattuja arvoja, niin ne on syytä pudottaa pois tarkasteluista jos poikkeavuudelle löytyy luonnollinen selitys, niin asiaa on ajateltava tarkasteltavan ilmiön kannalta. Havaintoaineistoa on käytettävissä vain tietyiltä muuttujan arvoilta ja mallin pätevyyttä voidaan arvioida vain havaintoalueella. Havaintoalueen ulkopuolella olevien muuttujan arvojen kohdalla ei voida tietää, onko malli pätevä. Tämän vuoksi mallia ei ole perusteltua käyttää havaintoalueen ulkopuolella.

MATEMAATTISIA MALLEJA 8 3 AIKASARJAENNUSTAMINEN Aikasarjaennustamisessa oletetaan, että toteutuneiden havaintojen muodostama aikasarja sisältää informaatiota, joka auttaa tulevien havaintojen ennustamisessa. Käytettävä ennustusmenetelmä riippuu siitä, minkälaista systemaattista vaihtelua aikasarjassa havaitaan. Seuraavassa tarkasteltavat tapaukset ovat: aikasarja ilman systemaattista vaihtelua aikasarja, jossa on trendi (pitkän aikavälin kehityssuunta) aikasarja, jossa on trendi ja kausivaihtelu (yleensä vuodenaikoihin liittyvä). Olipa käytetty menetelmä mikä tahansa, niin ennusteet poikkeavat enemmän tai vähemmän toteutuvasta. Ennustusmenetelmän valinnassa pyritään siihen, että ennusteiden keskimääräinen virhe saadaan mahdollisimman pieneksi. Virhe voidaan yksinkertaisimmin laskea ennusteen ja toteutuneen erotuksena. Tällöin keskimääräinen virhe saadaan virheiden itseisarvojen keskiarvona. Vaihtoehtoisten ennustusmenetelmien vertailu voidaan toteuttaa seuraavasti: 1. lasketaan menetelmän mukaisia ennusteita jo toteutuneita havaintoja vastaaville periodeille 2. lasketaan kuhunkin periodiin liittyvä virhe 3. lasketaan keskimääräinen virhe 4. valitaan ennustusmenetelmäksi se, joka tuottaa pienimmän keskimääräisen virheen. 3.1 Aikasarjassa ei ole systemaattista vaihtelua Aikasarja ei ole ennustamisen kannalta hyödytön vaikka siinä esiintyykin ainoastaan satunnaista vaihtelua. Esim. Jos tuotteen kysyntä vaihtelee satunnaisesti, niin viimeisin toteutunut kysyntä ei ole yleensä paras mahdollinen ennuste seuraavan periodin kysynnälle. Viimeisin toteutunut kysyntähän voi sattumalta poiketa paljonkin kysynnän keskimääräisestä tasosta. Parempi ennuste saadaan laskemalla keskiarvo useamman periodin kysynnästä. Menetelmää kutsutaan liukuvan keskiarvon menetelmäksi. Liukuvan keskiarvon menetelmä Jos ennuste lasketaan toteutuneiden havaintojen keskiarvona, niin laskijan on valittava, kuinka monen havainnon keskiarvoa käytetään. Mitä useamman havainnon keskiarvoa lasketaan sitä enemmän aikasarjassa esiintyvää vaihtelua tasoitetaan. Valinta tehdään yleensä siten että keskimääräinen ennustusvirhe saadaan mahdollisimman pieneksi. Seuraavassa taulukossa on käytetty 5 viikon keskiarvoja.

Kysyntä MATEMAATTISIA MALLEJA 9 Solussa C10 on kaava =AVERAGE(B5:B9) (suom. KESKIARVO) Solussa D10 on kaava =ABS(C10-B10) (suom. ITSEISARVO) Solussa D21 on kaava =AVERAGE(D10:D19) (suom. KESKIARVO) Kuviosta nähdään, miten keskiarvojen käyttö on tasoittanut aikasarjassa esiintynyttä epäsäännöllistä vaihtelua. 265000 260000 255000 250000 245000 240000 235000 Toteutunut kysyntä 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Viikko Eksponentiaalinen tasoitus Vaihtoehtoinen ennustusmenetelmä on eksponentiaalinen tasoitus. Eksponentiaalisessa tasoituksessa ennuste lasketaan kaavalla: alfa*edellinen havainto + (1 - alfa)*edellinen ennuste Ennuste saadaan viimeisimmän tunnetun havainnon ja siihen liittyneen ennusteen painotettuna summana. Painokerroin alfa on välillä 0-1 oleva luku, joka ilmaisee, kuinka suurella painolla edellistä havaintoa painotetaan ennustetta laskettaessa. Jos alfa on 0, niin ennuste on sama kuin edellinen ennuste. Jos alfa on 1, niin ennuste on sama kuin edellinen toteutunut havainto. Suuret alfan arvot antavat ennusteita, jotka reagoivat herkästi aikasarjassa esiintyviin muutoksiin, koska viimeisimmillä havainnoilla on suurempi paino. Pienet alfan arvot tasoittavat voimakkaasti aikasarjan vaihtelua. Alfan arvo valitaan yleensä siten että keskimääräinen ennustusvirhe saadaan mahdollisimman pieneksi.

Kysyntä MATEMAATTISIA MALLEJA 10 Ennusteen kaava voidaan kirjoittaa myös toiseen muotoon: edellinen ennuste + alfa*(edellinen havainto edellinen ennuste) = edellinen ennuste + alfa*virhe Ennustetta siis korjataan jokaisen toteutuneen havainnon jälkeen korjaustermillä alfa*virhe. Seuraavan taulukossa ensimmäinen ennuste (viikko 1) on keskiarvo viikkojen 1-15 toteutuneista kysynnöistä. Solussa C5 on siis kaava =AVERAGE(B5:B19) (suom. KESKIARVO). Solussa C6 on kaava =$F$4*B5+(1-$F$4)*C5. Sopiva alfan arvo, joka tuottaa pienimmän keskimääräisen ennustevirheen, löydetään helposti kokeilemalla. Kuviosta nähdään, miten eksponentiaalinen tasoitus alfan arvolla 0,24 on tasoittanut alkuperäistä aikasarjaa. 265000 260000 255000 250000 245000 240000 235000 Toteutunut kysyntä 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Viikko

Kysyntä MATEMAATTISIA MALLEJA 11 3.2 Aikasarjassa on trendi Jos aikasarjassa on trendi, niin ennusteita voidaan laskea tapaukseen sopivaa regressiomallia käyttäen. Jos trendi on lineaarinen, niin ennusteena käytetään lineaarisen regressiomallin antamalta suoralta laskettuja pisteitä. 180 160 140 120 100 80 60 40 20 0 Toteutunut kysyntä Trendi 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 Viikko Excelissä on helppo laskea regressiosuoran pisteitä funktiolla =FORECAST(x; tunnetut x;tunnetut y) (suom. ENNUSTE) Funktion ensimmäinen lähtötieto x tarkoittaa sen periodin järjestysnumeroa, jolle lasketaan ennuste. Funktion toinen lähtötieto tunnetut x tarkoittaa niiden periodien järjestysnumeroita, joista on käytettävissä havainnot. Funktion kolmas lähtötieto tunnetut y tarkoittaa käytettävissä olevia havaintoja. Tarkempia ennusteita saadaan yhdistämällä eksponentiaaliseen tasoitukseen trendi, jota korjataan jokaisen toteutuneen havainnon jälkeen. Mallia kutsutaan kehittäjänsä mukaan Holtin malliksi. Excel esimerkeistä löytyy laskettu esimerkki myös Holtin mallista. 3.3 Aikasarjassa on trendi ja kausivaihtelu Trendin ja kausivaihtelun huomiointi voidaan toteuttaa seuraavassa kuvattavien vaiheiden kautta: Lasketaan kausivaihtelusta puhdistettu aikasarja Lasketaan kausivaihtelusta puhdistettu aikasarja liukuvia keskiarvoja käyttäen. Jos havainnot ovat vuosineljänneksittäin, niin kausivaihtelu puhdistuu neljän vuosineljänneksen keskiarvoilla (vastaavasti kuukausittaisista havainnoista puhdistetaan kausivaihtelu 12 kuukauden keskiarvoilla). Seuraavassa solun D7 liukuva keskiarvo on laskettu kaavalla =AVERAGE(C5:C8) (suom. KESKIARVO)

MATEMAATTISIA MALLEJA 12 ja solun D8 liukuva keskiarvo kaavalla =AVERAGE(C6:C9) (suom. KESKIARVO) Lasketaan trendi Koska soluun D7 sijoitettu keskiarvo on neljännesten 1-4 keskiarvo, niin sen oikea paikka olisi neljännesten 2 ja 3 puolivälissä. Koska soluun D8 sijoitettu keskiarvo on neljännesten 2-5 keskiarvo, niin sen oikea paikka olisi neljännesten 3 ja 4 puolivälissä. Jotta keskiarvot voidaan sijoittaa taulukkoon asianmukaisesti, lasketaan vielä kahden liukuvan keskiarvon keskiarvot (keskistetyt liukuvat keskiarvot). Solujen D7 ja D8 keskiarvon oikea paikka on neljänneksen 3 kohdalla. Näin ollen soluun E7 on laskettu keskistetty liukuva keskiarvo kaavalla =AVERAGE(D7:D8) (suom. KESKIARVO) Keskistettyjen liukuvien keskiarvojen muodostamaa aikasarjaa voidaan pitää kausivaihtelusta puhdistettuna aikasarjana. Trendi lasketaan kausivaihtelusta puhdistetun aikasarjan avulla. Esimerkissämme periodiin 1 liittyvä trendi saadaan Excelissä kaavalla =FORECAST(B5;$B$7:$B$14;$E$7:$E$14) (suom. ENNUSTE) Kaavaa alaspäin kopioimalla saadaan muihin periodeihin liittyvät trendit. Lasketaan kausivaihtelun suuruus Kausivaihtelun suuruuden laskemisessa voidaan soveltaa summamallia tai tulomallia. Summamalli soveltuu hyvin tilanteisiin, joissa kausivaihtelun absoluuttinen suuruus on ennustettavan muuttujan arvoista riippumaton. Tulomalli taas soveltuu tilanteisiin, joissa kausivaihtelun absoluuttinen suuruus on sitä suurempi, mitä suurempi on ennustettavan muuttujan arvo. Seuraavista kuvista vasemmanpuoleiseen sopii summamalli, kun taas oikeanpuoleiseen tulomalli on sopivampi.

MATEMAATTISIA MALLEJA 13 Summamallissa lasketaan kutakin havaintoa vastaava kausivaihtelu toteutuneen havainnon ja trendin erotuksena. Tulomallissa lasketaan kausivaihtelu toteutuneen havainnon ja trendin osamääränä. Seuraavassa taulukossa solun G5 kausivaihtelu on laskettu kaavalla =C5/F5 (tulomalli). Jos samasta periodista (esim. samasta vuosineljänneksestä) on käytettävissä useampia arvoja, niin lopullinen kausivaihtelu saadaan keskiarvona. Seuraavassa taulukossa solun K5 ensimmäisen neljänneksen kausivaihtelu on laskettu kaavalla =AVERAGE(G5;G9;G13) (suom. KESKIARVO). Korjataan trendiä kausivaihtelun verran Lopulliset ennusteet saadaan korjaamalla trendiä kausivaihtelun verran. Summamallissa trendiin lisätään kyseessä olevan periodin kausivaihtelu. Tulomallissa trendi kerrotaan kyseessä olevan periodin kausivaihtelulla. Seuraavassa taulukossa solun H17 ennuste on laskettu kaavalla =F17*K5 (tulomalli). Tarkempia ennusteita saadaan laajentamalla Holtin malli Holt-Winterin malliksi, jossa kausivaihtelua korjataan uusien havaintojen myötä. Excel esimerkeistä löytyy laskettu esimerkki myös Holt-Winterin mallista.

Kysyntä MATEMAATTISIA MALLEJA 14 Aikasarjaennusteissa huomioitavaa Edellä kuvatun kaltaiset ennusteet ovat usein vasta lähtökohta lopulliselle ennusteelle. Ennustetta voidaan korjata esimerkiksi ennustettavaan ilmiöön liittyvän kokemustiedon pohjalta tutkimuslaitoksilta saatavien suhdanne-ennusteiden pohjalta suunniteltujen kampanjoiden tai hinnanmuutosten johdosta. Ennustusvirheeseen on kiinnitettävä huomiota muutoinkin kuin ennustusmenetelmää valittaessa. Keskimääräinen ennustusvirhe antaa hyvä kuvan siitä kuinka tarkkoja ennusteita menetelmän voidaan odottaa antavan. Ennusteiden tarkkuutta kannattaa aina arvioida myös kuvion avulla. Seuraava kuvio kuvaa aiemmin esitettyyn esimerkkilaskelmaan liittyviä ennusteita. 50 45 40 35 30 25 20 15 10 5 0 Toteutunut kysyntä Trendi Ennuste 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Neljännes Valmisohjelmat Kuvion mukaan ennusteet näyttävät seuraavan hyvin toteutunutta kysyntää ja näin ollen voidaan odottaa ennusteiden toteutuvan hyvin myös jatkossa (olettaen, että toimintaympäristössä ei tapahdu olennaisia muutoksia). Aikasarjaennustamiseen on olemassa valmiita tietokoneohjelmia. Esimerkiksi moniin toiminnanohjausjärjestelmiin liittyy aikasarjaennustamisen osio. Vaikka ohjelmat suorittavatkin tarvittavat laskutoimitukset, niin käyttäjän vastuulle jää tilanteeseen sopivan mallin valinta ja määrittely.

MATEMAATTISIA MALLEJA 15 4 TODENNÄKÖISYYSJAKAUMAT Jos heitetään kahta kolikkoa, niin tuloksena voi olla kaksi kruunua, kaksi klaavaa tai kruunu ja klaava. Jos kahta kolikkoa heitetään 100 kertaa ja kirjataan muistiin klaavojen lukumäärä kullakin heittokerralla, niin tuloksena voi olla esimerkiksi: klaavoja % heitoista 0 29 % 1 53 % 2 18 % Yllä olevaa jakaumaa voidaan kutsua empiiriseksi jakaumaksi. Mahdollisia tuloksia kahden kolikon heitossa ovat 'kruunu-kruunu' 'kruunu-klaava' 'klaava-kruunu' 'klaava-klaava'. Koska jokainen tulosvaihtoehto on yhtä todennäköinen, niin voimme päätellä klaavojen määrän teoreettiseksi jakaumaksi: klaavoja todennäköisyys 0 25% 1 50% 2 25% Kyseistä jakaumaa voidaan kutsua todennäköisyysjakaumaksi. Jos kahta kolikkoa heitetään kerta toisensa jälkeen, niin empiirinen jakauma alkaa vääjäämättä lähestyä todennäköisyysjakaumaa. Jos todennäköisyysjakauma ei ole pääteltävissä tai laskettavissa kuten edellä, niin todennäköisyysjakauman approksimaationa voidaan käyttää empiiristä jakaumaa tai todennäköisyysjakauman todennäköisyydet voidaan määrittää asiantuntija-arvioiden pohjalta (subjektiivisina todennäköisyyksinä). Esim. Pitkävedossa voi olla yhtenä kohteena ottelu HIFK - Jokerit. Pitkävedossa veikataan ottelun lopputulosta jaotuksella kotivoitto, tasapeli tai vierasvoitto. Kertoimien määrittämiseksi Veikkaus Oy määrittänee todennäköisyysjakauman lopputulokselle (esim. kotivoitto 35 %, tasapeli 25 %, vierasvoitto 40 %). Todennäköisyydet pohjautuvat yhtäältä aiemmin pelattuihin peleihin ja toisaalta asiantuntija-arvioihin. Todennäköisyysjakaumien yhteydessä käytetään käsitteitä: satunnaismuuttuja: muuttuja, jonka arvoihin liittyviä todennäköisyyksiä jakauma esittää (esim. klaavojen lukumäärä) satunnaisilmiö: tarkastelun kohteena oleva tapahtuma tai ilmiö (esim. kahden kolikon heitto) diskreetti todennäköisyysjakauma: satunnaismuuttujan mahdolliset arvot ja niiden todennäköisyydet.

MATEMAATTISIA MALLEJA 16 4.1 Kertymätodennäköisyys Kertymätodennäköisyys tarkoittaa todennäköisyyttä saada korkeintaan tietty satunnaismuuttujan arvo. Esim. Kahden nopan heitossa (satunnaisilmiö) silmälukujen summa (satunnaismuuttuja) voi saada arvokseen 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 tai 12. Silmälukujen summan todennäköisyysjakauma selviää seuraavan ruudukon avulla: Ruudukon yläreunassa on ensimmäisen nopan silmäluvut ja vasemmassa reunassa toisen nopan silmäluvut. Ruudukon soluihin on laskettu eri tulosvaihtoehtoihin liittyvät silmälukujen summat. Silmälukujen summa 2 voi ruudukon mukaan sattua vain yhdellä tavalla, siis todennäköisyys on 1/36. Silmälukujen summa 3 voi puolestaan sattua kahdella eri tavalla, siis todennäköisyys on 2/36 jne. Näin jatkaen voimme muodostaa todennäköisyysjakauman: Silmälukujen summa 2 3 4 5 6 7 8 9 10 11 12 Todennäköisyys 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 Kertymätodennäköisyys 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36 Kertymätodennäköisyys voidaan laskea satunnaismuuttujan arvon ja kaikkien sitä edeltävien satunnaismuuttujan arvojen todennäköisyyksien summana. Kertymätodennäköisyydet ovat keskeisessä asemassa todennäköisyysjakaumia käytettäessä. Eri jakaumien kertymätodennäköisyyksiä löytyy tilastotieteen kirjoista taulukoituna ja niitä voidaan laskea taulukkolaskennan funktioilla. Tämän vuoksi onkin syytä harjoitella erilaisten tapahtumien todennäköisyyksien laskemista kertymätodennäköisyyksien avulla. Edellä kuvatussa kahden nopan silmälukujen jakaumassa: P(X<7) = 15/36 = 5/12 (todennäköisyys saada vähemmän kuin jotain selviää suoraan kertymätodennäköisyyden avulla) P(X>9) = 1 30/36 = 6/36 = 1/6 (todennäköisyys saada enemmän kuin jotain selviää kertymätodennäköisyyden komplementtina) P(4<X<9) = 26/36 6/36 = 20/36 = 5/9 (todennäköisyys saada jotain joltain väliltä selviää kertymätodennäköisyyksien erotuksena)

MATEMAATTISIA MALLEJA 17 4.2 Odotusarvo Empiiriselle jakaumalle voidaan laskea keskiarvo. Palataan aiempaan esimerkkiin, jossa heitettiin kahta kolikkoa 100 kertaa ja klaavojen lukumäärän jakaumaksi saatiin: klaavoja % heitoista 0 29 % 1 53 % 2 18 % Koska heittoja oli 100 kappaletta, niin klaavojen kappalemäärät ovat samoja kuin prosenttiosuudet. Näin ollen keskiarvoksi saadaan 290 531182 0,89 100 Voimme myös määrittää keskiarvon eli odotusarvon todennäköisyysjakaumalle. Jos todennäköisyysjakauma tunnetaan, niin odotusarvo on satunnaismuuttujan arvojen todennäköisyyksillä painotettu summa. Esim. Aiemmin totesimme kahden kolikon heitossa klaavojen lukumäärän todennäköisyysjakaumaksi: klaavoja todennäköisyys 0 25 % 1 50 % 2 25 % Klaavojen lukumäärän odotusarvo on klaavojen lukumäärien todennäköisyyksillä painotettu summa: 0,25 0+0,5 1+0,25 2=1 Odotusarvot ovat keskeisiä monissa sovelluksissa. Esimerkiksi vakuutusyhtiöt ovat kiinnostuneita tulevan vuoden vakuutuskorvausten odotusarvoista eri vakuutustyyppien kohdalla, sijoittajat ovat kiinnostuneita sijoitusten tuottojen odotusarvoista ja kauppiaat ovat kiinnostuneita tuotteiden kysynnän odotusarvoista. Esim. Suunnitelmissa olevan investoinnin osalta arvioidaan: investoinnin kustannukset ovat seuraavan 10 vuoden aikana 100 000 euroa vuodessa korkeasuhdanteessa saadaan tuottoja noin 180 000 euroa vuodessa matalasuhdanteessa saadaan tuottoja 110 000 euroa vuodessa korkeasuhdanteen todennäköisyys on tilastojen mukaan 0,40 ja matalasuhdanteen 0,60 Tietojen pohjalta voimme laskea investoinnin vuosituoton odotusarvon: 0,40 180 000+0,60 110 000=138 000 Tuoton odotusarvon avulla voidaan sitten arvioida onko investointi riittävän kannattava.

MATEMAATTISIA MALLEJA 18 Esim. Arpajaisissa on 1000 arpaa. Voittoarpoja on 31: 500 euron voittoja on yksi 300 euron voittoja on 10 100 euron voittoja on 20 Määritä arvan hinta siten, että voiton odotusarvo on 55 % arvan hinnasta. Lasketaan voiton odotusarvo: 1 1000 500 10 1000 300 20 1000 100 5,50 Jotta voiton odotusarvo 5,50 euroa olisi 55 % arvan hinnasta, täytyy arvan hinnaksi asettaa 10 euroa. Esim. Maahantuojalla on tilasto (perustuen aiemmin tehtyihin korjauksiin) automalliin takuuaikana tehtävistä korjauksista: 50% autoista ei tarvitse tehdä takuun piiriin kuuluvia korjauksia 20% autoista joudutaan tekemään keskimäärin 150 euroa maksavat korjaukset 25% keskimäärin 400 euroa maksavat korjaukset loppuihin 600 euroa maksavat korjaukset. Tietojen pohjalta voidaan määrittää, kuinka paljon takuun pitäisi lisätä uuden auton hintaa. Riittää, kun laskemme korjauksiin kuluvan euromäärän odotusarvon: 0,20 150+0,25 400+0,05 600=160 Esim. Vakuutusyhtiöissä hyödynnetään laajasti erilaisiin ilmiöihin liittyviä odotusarvoja vakuutuksia hinnoiteltaessa. Tarkastellaan esimerkkinä yksinkertaista ulkoilmatapahtuman järjestäjälle myönnettävää sadevakuutusta. Ulkoilmatapahtuman järjestäjä ottaa tällaisen vakuutuksen lieventääkseen mahdollisen sateen aiheuttamia tappioita. Kiinnekohta, jonka perusteella vakuutus voidaan hinnoitella, on kyseisen ajankohdan sateen todennäköisyysjakauma. Jos laskelmat tehdään taulukkolaskentaa käyttäen, niin yllä olevan taulukon tapauksessa odotusarvo voidaan laskea kaavalla =SUMPRODUCT(B3:B5;C3:C5) (suom. TULOJEN.SUMMA). Taulukkolaskentamallissa on helppo kokeilla erilaisia korvaussummia eri sademäärille ja seurata odotusarvon muutoksia. Vakuutusyhtiö tietenkin lisää odotusarvoon oman katteensa.

MATEMAATTISIA MALLEJA 19 4.3 Binomijakauma Oletetaan onnenpyörä, jota pyöräyttämällä voittaa 15 % todennäköisyydellä. Useampaan onnenpyörän pyöräytykseen voidaan liittää todennäköisyysjakauma käyttäen voittojen lukumäärää satunnaismuuttujana. Esim. viidelle pyöräytykselle saadaan jakaumaksi: voittojen määrä todennäköisyys 0 44,3705 % 1 39,1505 % 2 13,8178 % 3 2,4384 % 4 0,2152 % 5 0,0076 % Jakauman todennäköisyyksien laskeminen perustuu binomijakaumaan. Binomijakaumaa voidaan soveltaa, jos satunnaisilmiö ja satunnaismuuttuja toteuttavat seuraavat ehdot: Satunnaisilmiötä toistetaan useita kertoja (toistojen määrää merkitään n) Satunnaismuuttujan arvot voidaan jakaa täsmälleen kahteen luokkaan, joiden todennäköisyydet tiedetään. Jos toisen todennäköisyyttä merkitään p, niin toisen todennäköisyys on 1-p. Satunnaismuuttujan arvojen todennäköisyydet pysyvät vakioina toistokerrasta toiseen. Edellä tarkasteltu onnenpyörä toteuttaa mainitut ehdot: Satunnaisilmiötä toistetaan 5 kertaa Satunnaismuuttujalla on kaksi arvoa: voitto, ei voittoa Voiton todennäköisyys on vakio p=15 %. Binomijakauma-kaavalla voidaan laskea todennäköisyys sille, että satunnaisilmiötä n kertaa toistettaessa saadaan k kappaletta onnistumisia (onnistumisella tarkoittaa jompaakumpaa satunnaismuuttujan luokista). Binomijakauma-kaava on: n! p k!( n k)! k (1 p) nk Esimerkiksi todennäköisyys saada täsmälleen 2 voittoa onnenpyörän viidessä pyörityksessä lasketaan seuraavasti (n=5, k=2, p=0,15):! 0,15 2!(5 2)! 5 2 3 0,85 0,138178 13,8178% Kaava voi näyttää mutkikkaalta, mutta sille löytyy selitys. Edellä kaavan alussa lasketaan kombinaatio-kaavalla kuinka monella tavalla 2 voittoa voi esiintyä 5 pyörityksen joukossa. Kaavan jälkimmäisessä osassa lasketaan yksittäisen kahden voiton kombinaation todennäköisyys tuloperiaatteella (2 voittoa, 3 ei-voittoa). Muita esimerkkejä binomijakautuneista satunnaismuuttujista: klaavojen määrä heitettäessä kolikkoa 10 kertaa kuutosten määrä heitettäessä kahta noppaa 24 kertaa voittojen määrä ostettaessa 6 arpaa arpajaisista, joissa joka kolmas arpa voittaa punaisten lukumäärä 15 ruletin pyörityksessä

MATEMAATTISIA MALLEJA 20 viallisten lukumäärä viiden tuotteen erässä ydinvoiman kannattajien määrä 1000 henkilön otoksessa ostavien asiakkaiden määrä sisään saapuneista 100 asiakkaasta. Esim. Joka kolmas arpa voittaa. Katsotaanpa miten käy, kun ostetaan kuusi arpaa. Voittojen lukumäärä noudattaa binomijakaumaa: arvan osto toistetaan 6 kertaa (n=6) arpa voi voittaa tai sitten ei, voiton todennäköisyys p=1/3 Voiton todennäköisyys pysyy vakiona (oletetaan, että arpaerä on niin iso, ettei voittoarvon nostaminen olennaisesti muuta voiton todennäköisyyttä seuraavilla arvoilla). Edellä olevassa Excel-taulukossa solun C7 todennäköisyys voidaan laskea funktiolla =BINOMDIST(B7;$B$3;$B$4;0) (suom. BINOMIJAKAUMA) ja solun D7 todennäköisyys funktiolla =BINOMDIST(B7;$B$3;$B$4;1). Viimeinen argumentti siis määrittää lasketaanko todennäköisyyttä vai kertymätodennäköisyyttä. Funktioita alaspäin kopioimalla saadaan muiden rivien todennäköisyydet. Esim. Kyselytutkimuksessa käytettävään otokseen voi sattumalta tulla hyvinkin erilainen koostumus kuin kiinnostuksen kohteena olevassa perusjoukossa. Binomijakaumaa käyttäen voidaan helposti laskea kuinka todennäköistä on saada kiinnostuksen kohteena olevaa joukkoa vastaava otos. Oletetaan, että 50 % perusjoukosta vastustaa uutta ydinvoimalaa. Nyt voimme laskea esim. kuinka suuri on todennäköisyys, että 1000 henkilön satunnaisotokseen sattuu 47 %-53 % ydinvoiman vastustajia? Funktiolla =BINOMDIST(530;1000;50%;1) selviää, että todennäköisyys korkeintaan 53 prosentille on noin 97,3%. Funktiolla =BINOMDIST(470;1000;50%;1) selviää, että todennäköisyys korkeintaan 47 prosentille on noin 3,1%. Näiden erotuksena saadaan todennäköisyys 94,2% sille että vastustajia sattuu otokseen 47 %-53 %. Esim. Hotellit ja lentoyhtiöt ottavat yleisesti varauksia enemmän kuin paikkoja on tarjolla. Tämä perustuu kokemukseen siitä, että kaikki paikan varanneet eivät kuitenkaan saavu paikalle. No show -tapausten määrä vaihtelee, joten varmuudella ei voida laskea soveliasta ylimääräisten varausten lukumäärää. Todennäköisyysjakaumaa käyttäen voidaan kuitenkin laskea ylimääräisten varausten sovelias lukumäärä, jos esim. halutaan 95 % varmuus paikkojen riittävyydelle.

MATEMAATTISIA MALLEJA 21 4.4 Poisson-jakauma Edellä olevaa taulukkoa käyttäen voidaan laskea riski paikkojen riittämättömyydelle. Taulukon lähtötietoja (paikkojen määrä, no-show todennäköisyys) voi vaihdella. Taulukon solussa B11 on funktio =BINOMDIST(B4;B9;B7;1) ja solussa B12 kaava =1- B11. Kun binomijakauman toistojen määrää n kasvatetaan ja todennäköisyyttä p pienennetään, niin binomijakauman todennäköisyyden kaava lähestyy raja-arvoa: e k k! Yllä olevan kaavan määrittelemää Poisson-jakaumaa voidaan käyttää jos toistojen määrä n on suuri ja tarkasteltava tapahtuma on harvinainen (todennäköisyys p on pieni). Toistojen määrän ei itse asiassa tarvitse edes olla tiedossa. Ainoa kaavassa tarvittava tieto on odotusarvo, joka on tapahtumien keskimääräinen lukumäärä (kuinka monta kertaa tapahtuma keskimäärin on sattunut tarkasteltavana olevassa erässä, aikavälissä jne.). Kaavassa esiintyvä e on luonnollisen logaritmijärjestelmän kantaluku, jonka likiarvo on 2,718. Yleisimmin Poisson-jakaumaa sovelletaan tietyssä aikavälissä sattuvien tapahtumien lukumäärän tarkasteluun. Esim. Pankin konttoriin lounasaikana viiden minuutin aikana saapuvien asiakkaiden määrän voidaan olettaa olevan Poisson-jakautunut. Toistojen määrä on suuri (kaikki pankin asiakkaat) ja todennäköisyys, että tietty satunnaisesti valittu pankin asiakas saapuu juuri kyseisen viiden minuutin aikana, on pieni. Poisson-jakauman käyttämiseksi lounasaikana saapuvien asiakkaiden määrää pitää tarkkailla viiden minuutin ajanjaksoissa, josta saadaan laskettua keskimäärin viidessä minuutissa saapuvien asiakkaiden määrä. Esim. Tieliikenteessä vuosittain kuolevien lukumäärää voidaan mallintaa Poissonjakaumalla. Toistojen määrä on suuri (kaikki tieliikenteessä liikkuvat) ja todennäköisyys, että tietty satunnaisesti valittu henkilö kuolee juuri kyseisen vuoden aikana tieliikenteessä, on pieni. Poisson-jakauman käyttämiseksi tarvitaan historiatietoja, joiden perusteella voidaan laskea keskimäärin vuodessa tieliikenteessä kuolleiden lukumäärä.

MATEMAATTISIA MALLEJA 22 Esim. Ensiapuaseman johtajaa saattaa kiinnostaa tietää kuinka suurta potilasmäärää ensiapuasemalle voidaan tietyssä työvuorossa lauantai-iltana odottaa, jotta henkilökunnan määrä voitaisiin mitoittaa sopivaksi. Aikaisempien viikkojen ja kuukausien tietoja selailemalla selviää, että keskimäärin ensiapuasemalle on saapunut lauantai-iltaisin 3 potilasta tunnissa. Johtaja ajattelee, että juurihan viime viikolla varauduttiin kolmen potilaan käsittelyyn tunnissa, mutta tuloksena oli täysi kaaos ja joukko vihaisia odotushuoneessa odottavia potilaita. Tarkastellaanpa pelkän keskiarvon sijasta todennäköisyysjakaumaa: Tietyssä aikavälissä saapuvien asiakkaiden määrän voidaan olettaa noudattavan Poisson-jakaumaa. 4.5 Normaalijakauma Taulukon solussa C7 on funktio =POISSON(B7;$B$4;0) ja solussa D7 funktio =POISSON(B7;$B$4;1). Huomaa, että funktion viimeinen argumentti ilmaisee sen lasketaanko yksittäiseen lukumäärään liittyvä todennäköisyys (0) vai kertymätodennäköisyys (1). Funktioita alaspäin kopioimalla saadaan muiden rivien todennäköisyydet. Jos varaudutaan 6 potilaan vastaanottoon, niin taulukon mukaan riski isommalle potilasmäärälle on 3,4 %. Esim. Kodinkoneliike haluaa arvioida kuinka monta tietyn mallista TV:tä kannattaa pitää varastossa, kun tiedetään keskimääräiseksi viikkomyynniksi 5 kpl. Edellisen esimerkin taulukosta saadaan pienin muutoksin tähän esimerkkiin sopiva taulukko. Keskimääräisen potilasmäärän 3 tilalle kirjoitetaan TV:n keskimääräinen myyntimäärä 5. Taulukosta voidaan tämän jälkeen etsiä esim. lukumäärä, joka takaa riittävyyden 90 % varmuudella. Tähtitiede kehittyi ripein askelin 1500-luvulta lähtien. Tutkimusta haittasivat kuitenkin epätarkat mittaustulokset (esim. taivaankappaleiden etäisyyksiä, sijaintia ja liikkeitä mitattaessa). Epätarkkuus johtui mm. mittauslaitteiden kehittymättömyydestä ja inhimillisistä tekijöistä. Jo Galileo Galilei tuli tulokseen, että mittausvirheet noudattavat symmetristä jakaumaa ja että pieniä virheitä esiintyy useammin kuin suuria. Gauss niminen saksalainen matemaatikko ja tähtitieteilijä esitti vuonna 1809 lausekkeen jakaumalle, jota mittausvirheet noudattivat. Nykyään kyseistä jakaumaa kutsutaan normaalijakaumaksi.

MATEMAATTISIA MALLEJA 23 Normaalijakauman lauseke määrittelee funktion, jolla on seuraavia ominaisuuksia: se on satunnaismuuttujan arvon funktio funktion arvojen laskemiseksi täytyy tietää jakauman keskiarvo (odotusarvo) ja keskihajonta funktion kuvaaja on symmetrinen ns. Gaussin kellokäyrä, jonka huippu on keskiarvon kohdalla funktion alle jäävä pinta-ala voidaan samaistaa todennäköisyyteen. On tärkeää huomata, että normaalijakauman yhteydessä ei ole mielekästä puhua yksittäisen satunnaismuuttujan arvon todennäköisyydestä. Normaalijakaumaa noudattava satunnaismuuttujahan on jatkuva eli voi saada mitä tahansa arvoja tietyltä väliltä. Tällöin yksittäiseen arvoon liittyvä todennäköisyys on ainakin teoreettisesti ajatellen 0. Yksittäisten arvojen todennäköisyyksien sijasta on mielekästä puhua kertymätodennäköisyyksistä ja kertymätodennäköisyyksien avulla voidaan edelleen laskea erilaisten välien todennäköisyyksiä. Käytännössä normaalijakaumaa hyödynnetään kertymätodennäköisyyksien avulla. Satunnaismuuttujan arvoon x liittyvä kertymätodennäköisyys on kohdan x vasemmalle puolella oleva käyrän alapuolelle jäävä pinta-ala. Eri satunnaismuuttujan arvoihin liittyviä kertymätodennäköisyyksiä voidaan laskea taulukkolaskentafunktiolla =NORMDIST(x;odotusarvo;keskihajonta;1) (suom. NORM.JAKAUMA). Kertymätodennäköisyyksiä on myös taulukoitu tilastotieteen kirjoihin.

MATEMAATTISIA MALLEJA 24 Esim. Älykkyysosamäärää voidaan mitata tarkoitusta varten laaditulla testillä. Testin pisteytys on skaalattu sellaiseksi, että amerikkalaisten älykkyysosamäärä noudattaa normaalijakaumaa N(100,16) (merkintä tarkoittaa normaalijakaumaa, jonka odotusarvo on 100 ja keskihajonta 16). Älykkyysosamäärään 80 liittyvä kertymätodennäköisyys on noin 10,6 %. Tämä selviää taulukkolaskentafunktiolla =NORMDIST(80;100;16;1). Siis 10,6 % amerikkalaisista on älykkyysosamäärältään alle 80. Vastaavasti 89,4 % amerikkalaisista on älykkyysosamäärältään yli 80. Todennäköisyys, että henkilön älykkyysosamäärä on täsmälleen 80, on ainakin teoreettisesti ajatellen 0. Käytännössä näin ei ehkä ole, koska älykkyysosamäärätestin pisteytys ei ole mielivaltaisen tarkkaa. Jos esim. testi pisteytetään pisteen tarkkuudella, niin todennäköisyys älykkyysosamäärälle 80 on varmasti selvästi nollasta poikkeava. Normaalijakaumaa käytettäessä kuitenkin oletetaan yksittäiseen satunnaismuuttujan arvoon liittyväksi todennäköisyydeksi 0. Todennäköisyys, että henkilön älykkyysosamäärä on välillä 80-110 saadaan selville vähentämällä arvoon 110 liittyvästä kertymätodennäköisyydestä (noin 73,4 %) arvoon 80 liittyvä kertymätodennäköisyys (noin 10,6 %). Tulokseksi saadaan noin 62,8 %. Entäpä jos halutaan tietää minkä älykkyysosamäärän ylittää älykkäin kymmenesosa amerikkalaisista? Kysytään siis satunnaismuuttujan arvoa, kun todennäköisyys tunnetaan. Tällaisten ongelmien ratkaisuun voidaan käyttää taulukkolaskentafunktiota =NORMINV(kertymätodennäköisyys,odotusarvo,keskihajonta) (suom. NORM.JAKAUMA.KÄÄNT). Funktio =NORMINV(90%;100;16) antaa vastauksen 120,5. Esim. Oletetaan, että aikaisemmista myyntitilastoista voidaan todeta, että päivittäistavaran kysynnällä lauantaisin on ollut keskiarvo 120 ja keskihajonta 15. Kauppias voi käyttää normaalijakaumaa määrittäessään seuraavan lauantain tilausmäärää kyseisen päivittäistavaran kohdalla: Ylläkuvatussa laskentamallissa voidaan käyttää solussa B5 funktiota =NORMINV(B3;B1;B2), joka palauttaa 145. Jos kauppias haluaa 95 % varmuuden tavaran riittävyydelle, niin hänen kannattaa tilata 145 kappaletta. Kauppias voi tietenkin käyttää varmuusprosenttina muutakin kuin 95 %. Käytettyyn taulukkolaskentamalliin on helppo muuttaa lähtötietoja ja laskea tilausmääriä myös muille päivittäistavaroille. Esim. Paperikone voidaan säätää valmistamaan eri painoisia paperilaatuja (80 grammaa/neliömetri, 85 grammaa/neliömetri jne.). Teollisesti valmistetun tuotteen ominaisuudet kuitenkin vaihtelevat monien satunnaisten tekijöiden takia. Vaikka kone on säädetty valmistamaan 80 g paperia, niin paperi ei ole kauttaaltaan 80 g. Oletetaan, että paperin tilaaja vaatii, että 90 % paperista täytyy olla yli 80 g. Minkälaista paperia paperikone pitäisi säätää valmistamaan (paperin neliömetripainon odotusarvo on siis säädettävissä). Oletetaan, että valmistusprosessiin ja kyseiseen paperikoneeseen liittyvä

MATEMAATTISIA MALLEJA 25 keskihajonta on 2,5 grammaa/neliömetri. Tehtävä voidaan ratkaista taulukkolaskentamallilla: Solussa B5 on funktio =NORMDIST(B4;B1;B2;1) ja solussa B6 kaava =1-B5. Solun B5 arvoja vaihtelemalla voidaan etsiä arvoa, joka antaa 90 % todennäköisyyden saada yli 80 g paperia. Yllä kokeilulla on etsitty sopiva keskiarvo kahden desimaalin tarkkuudella. Jos käytännön sovelluksessa vaaditaan suurempaa tarkkuutta, niin voidaan jatkaa kokeilua kolmannen desimaalin kohdalla. Esim. Var eli Value at risk on yleisesti käytetty työkalu sijoituskohteiden riskin arviointiin. Jos tarkastellaan päiväkohtaisia Var-lukuja, niin esim. 5 % Var-luku on sellainen päivätuotto, jota heikomman päivätuoton todennäköisyys on 5 %. Jos sijoituskohteen päivätuottojen oletetaan noudattavan normaalijakaumaa, niin Var-arvo voidaan määrittää jakaumasta. Monilla sijoitusrahastoilla on kirjattu rahaston sääntöihin rajoituksia Var-luvuille (esim. rahaston 5 % Var-luku ei saa olla pienempi kuin -2 %). Tällaiset säännöt sitovat sijoitusrahaston hoitajaa. Jos jonain päivänä Var-luku ei ole sääntöjen mukainen, niin sijoitusrahaston kokoonpanoa joudutaan vaihtamaan vähäriskisempiin. Oletetaan, että sijoitusrahaston päivätuotto noudattaa normaalijakaumaa N(0,06 %;2 %-yksikköä). Tällöin 5 % Var-luku saadaan taulukkolaskentafunktiolla =NORMINV(5%;0,06;2). Tulokseksi tulee noin -3,2 %. Sijoitusrahaston päivätappio voi siis 5 % todennäköisyydellä olla -3.2% tai enemmän. Jos rahaston sääntöjen mukaan Var-luku ei saa alittaa -2 %, niin rahaston hoitajan on ryhdyttävä toimenpiteisiin riskin pienentämiseksi. Edellä olleista esimerkeistä nähdään normaalijakauman soveltuvan malliksi hyvin erilaisiin käytännön tilanteisiin. Yhteistä edellä tarkastelluille satunnaismuuttujille on, että niiden arvoihin vaikuttavat monet satunnaiset tekijät. Tämä pätee yleisemminkin: jos satunnaismuuttujan arvo määräytyy satunnaisesti lukuisten eri tekijöiden vaikutuksesta, niin muuttuja yleensä noudattaa likimain normaalijakaumaa. Normitettu normaalijakauma Normaalijakaumaa, jonka keskiarvo on 0 ja keskihajonta 1 kutsutaan normitetuksi normaalijakaumaksi. Jos normaalijakauman todennäköisyyksiä määritetään tilastotieteen kirjoihin taulukoitujen kertymätodennäköisyyksien avulla, niin normitetun jakauman tunteminen on tärkeää. Taulukoidut todennäköisyydet ovat nimenomaan normitetun jakauman todennäköisyyksiä. Eri keskiarvon ja keskihajonnan omaavien jakaumien välillä on yhteys: Jos kahdessa normaalijakaumassa ollaan yhtä monen keskihajonnan päässä keskiarvosta, niin kertymätodennäköisyydet ovat samat.

MATEMAATTISIA MALLEJA 26 Esim. Normitetussa jakaumassa N(0,1) todennäköisyys saada korkeintaan -1 on noin 15,9 %. Tämän perusteella jakaumassa N(120,20) todennäköisyys saada korkeintaan 100 on myös 15,9 %. Molemmissa jakaumissahan tarkastellaan jakauman kohtaa, joka on yhden keskihajonnan päässä jakauman keskiarvosta. Joitain kaikille normaalijakaumille päteviä todennäköisyyksiä: Todennäköisyys saada jotain väliltä keskiarvo +/- keskihajonta on noin 68 % Todennäköisyys saada jotain väliltä keskiarvo +/- 2 keskihajontaa on noin 95 % Todennäköisyys saada jotain väliltä keskiarvo +/- 3,3 keskihajontaa on noin 99 % Normitettu satunnaismuuttuja tarkoittaa satunnaismuuttujaa, jonka arvot on muunnettu normitettua jakaumaa vastaaviksi. Muunnoksessa on olennaista todennäköisyyksien säilyttäminen samoina. Edellä jo todettiin, että todennäköisyydet säilyvät kunhan pysytään yhtä monen keskihajonnan päästä keskiarvosta. Esim. Jakauman N(120,20) satunnaismuuttujan 100 normitettu arvo on -1, koska 100 on yhden keskihajonnan verran keskiarvon vasemmalla puolella. Yleinen kaava satunnaismuuttujan normittamiselle on: Kaavan yläosassa lasketaan vähennyslaskulla satunnaismuuttujan etäisyys keskiarvosta. Tulos jaetaan keskihajonnalla (käytetään perusjoukon keskihajontaa jos se tiedetään). Satunnaismuuttujan normittamista käytetään monissa tilastollisissa analyyseissä, mutta myös haluttaessa saada erilaiset muuttujat vertailukelpoisiksi keskenään. 4.6 Eksponentiaalinen jakauma Eksponentiaalisella jakaumalla on yhteys Poisson-jakaumaan. Jos tapahtumien lukumäärä tietyllä aikavälillä noudattaa Poisson-jakaumaa, niin tapahtumien välinen aika noudattaa eksponentiaalista jakaumaa. Tavallisia eksponentiaalisen jakauman sovelluskohteita ovat: palvelupisteeseen saapuvien asiakkaiden väliaika palvelun kestoaika

MATEMAATTISIA MALLEJA 27 komponentin kestoikä. Lähtötietona tarvitaan tapahtumien välisen ajan keskiarvo µ. Eksponentiaalisen jakauman kertymätodennäköisyys kohdassa x saadaan kaavasta 1 e x missä e on luonnollisen logaritmijärjestelmän kantaluku, jonka likiarvo on 2,718 ja µ on tapahtumien välisen ajan keskiarvo. Jos esimerkiksi asiakkaita saapuu keskimäärin 3 minuutin välein, niin seuraavan asiakkaan saapumiseen kuluu korkeintaan 2 minuuttia todennäköisyydellä 1 e 2 3 eli noin 0,4866 (48,66 %). Excelissä eksponentiaalisen jakauman kertymätodennäköisyyksiä lasketaan funktiolla =EXPONDIST(x;1/µ;1) (suom. EKSPONENTIAALIJAKAUMA) Äskeisen esimerkin kertymätodennäköisyys saadaan siis funktiolla =EXPONDIST(2;1/3;1). Excelissä ei ole erillistä funktiota satunnaismuuttujan arvon laskemiseksi, kun kertymätodennäköisyys tunnetaan. Satunnaismuuttujan arvo voidaan kuitenkin helposti ratkaista kertymäfunktion lausekkeesta, jolloin saadaan: missä P on kertymätodennäköisyys ja ln luonnollinen logaritmi.