Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Samankaltaiset tiedostot
Aki Taanila MATEMAATTISIA MALLEJA

Aki Taanila TOIMITUSKETJUN HALLINNAN TYÖKALUJA

Aki Taanila AIKASARJAENNUSTAMINEN

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Regressioanalyysi. Kuusinen/Heliövaara 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Harjoitus 9: Excel - Tilastollinen analyysi

origo III neljännes D

Aki Taanila AIKASARJOJEN ESITTÄMINEN

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Lukuväleistä. MB 3 Funktio. -2 < x < 5 tai ]-2,5] x < 3 tai ]-,3]

Johdatus regressioanalyysiin. Heliövaara 1

Aki Taanila LINEAARINEN OPTIMOINTI

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Mat Tilastollisen analyysin perusteet, kevät 2007

MAB3 - Harjoitustehtävien ratkaisut:

Käy vastaamassa kyselyyn kurssin pedanet-sivulla (TÄRKEÄ ensi vuotta ajatellen) Kurssin suorittaminen ja arviointi: vähintään 50 tehtävää tehtynä

y=-3x+2 y=2x-3 y=3x+2 x = = 6

YLEISKUVA - Kysymykset

Aluksi Kahden muuttujan lineaarinen yhtälö

Korrelaatiokertoinen määrittely 165

Aki Taanila LINEAARISET REGRESSIOMALLIT

5.3 Ensimmäisen asteen polynomifunktio

Aloita Ratkaise Pisteytä se itse Merkitse pisteet saanut riittävästi pisteitä voit siirtyä seuraavaan osioon ei ole riittävästi

MAB3 - Harjoitustehtävien ratkaisut:

3 Eksponentiaalinen malli

Tilastotoiminnot. Seuraavien kahden esimerkin näppäinohjeet on annettu kunkin laskinmallin kohdalla:

1 Ensimmäisen asteen polynomifunktio

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

1 MATEMAATTISIA VÄLINEITÄ TALOUSELÄMÄN ONGELMIIN Algebran perusteita 8 Potenssit Juuret 15 Tuntematon ja muuttuja 20 Lausekkeen käsittely 24

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

Tekijä Pitkä matematiikka

1 ENSIMMÄISEN ASTEEN POLYNOMIFUNKTIO

Harjoitus 6 -- Ratkaisut

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ ESITYS pisteitykseksi

Määrällisen aineiston esittämistapoja. Aki Taanila

4. Funktion arvioimisesta eli approksimoimisesta

Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

B. 2 E. en tiedä C ovat luonnollisia lukuja?

Huippu 4 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Ensimmäisen asteen polynomifunktio

Dynaamiset regressiomallit

Suora 1/5 Sisältö ESITIEDOT: vektori, koordinaatistot, piste

4.1 Kaksi pistettä määrää suoran

x 5 15 x 25 10x 40 11x x y 36 y sijoitus jompaankumpaan yhtälöön : b)

KERTAUS KERTAUSTEHTÄVIÄ K1. P( 1) = 3 ( 1) + 2 ( 1) ( 1) 3 = = 4

5 Kertaus: Matemaattisia malleja

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet


1.7 Kahden muuttujan yhteisjakaumasta

Ohjeita fysiikan ylioppilaskirjoituksiin

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

Yleistetyistä lineaarisista malleista

Mb03 Koe Kuopion Lyseon lukio (KK) sivu 1/4

Johdatus regressioanalyysiin

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Suoran yhtälöt. Suoran ratkaistu ja yleinen muoto: Suoran yhtälö ratkaistussa, eli eksplisiittisessä muodossa, on

2 arvo muuttujan arvolla

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Tekijä Pitkä matematiikka

Fysiikan laboratoriotyöt 1, työ nro: 2, Harmoninen värähtelijä

Huippu Kertaus Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

2 Pistejoukko koordinaatistossa

Logistinen regressio, separoivat hypertasot

5.6.3 Matematiikan lyhyt oppimäärä

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Mat Tilastollisen analyysin perusteet, kevät 2007

c) Määritä paraabelin yhtälö, kun tiedetään, että sen huippu on y-akselilla korkeudella 6 ja sen nollakohdat ovat x-akselin kohdissa x=-2 ja x=2.

Kaikkiin tehtäviin ratkaisujen välivaiheet näkyviin! Lue tehtävänannot huolellisesti. Tee pisteytysruudukko B-osion konseptin yläreunaan!

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Määrällisen aineiston esittämistapoja. Aki Taanila

031021P Tilastomatematiikka (5 op) viikko 6

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

1.1. YHDISTETTY FUNKTIO

LUKUVUODEN E-KURSSI MAB3

Talousmatematiikan perusteet: Luento 4. Potenssifunktio Eksponenttifunktio Logaritmifunktio

6.8 Erityisfunktioiden sovelluksia

7. Resistanssi ja Ohmin laki

Excelin käyttö mallintamisessa. Regressiosuoran määrittäminen. Käsitellään tehtävän 267 ratkaisu.

MTTTP1, luento KERTAUSTA

Lataa ilmaiseksi mafyvalmennus.fi/mafynetti. Valmistaudu pitkän- tai lyhyen matematiikan kirjoituksiin ilmaiseksi Mafynetti-ohjelmalla!

LIITE 1 VIRHEEN ARVIOINNISTA

3 TOISEN ASTEEN POLYNOMIFUNKTIO

Moniulotteisia todennäköisyysjakaumia

Geogebra -koulutus. Ohjelmistojen pedagoginen hyödyntäminen

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

TIETOKONE DATA-ANALYYSIN APUVÄLINEENÄ PIKAOPAS

Koontitehtäviä luvuista 1 9

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

Transkriptio:

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011

SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN... 5 Mallin sopivuus... 5 Poikkeavat havainnot... 5 Mallin käyttöalue... 5

Palkkio JOHDANTO Kahden määrällisen muuttujan riippuvuutta voit tarkastella hajontakuvion avulla. Lisäksi voit laskea lineaarisen riippuvuuden voimakkuutta mittaavan korrelaatiokertoimen. Jos haluat selvittää tarkemmin riippuvuuden luonnetta tai hyödyntää riippuvuutta ennustamistarkoituksiin, niin voit mallintaa riippuvuutta regressiomallin avulla. Tässä monisteessa käsitellään lineaarista ja eksponentiaalista regressiomallia. Mukana ovat tarvittavat Excel-ohjeet. Viimeisin versio tästä monisteesta ja siihen liittyvästä materiaalista löytyy osoitteesta http://myy.haaga-helia.fi/~taaak/m Yllä mainitusta osoitteesta löytyvät myös tähän monisteeseen liittyvät Excel-esimerkit ja pidemmälle menevä useamman selittävän muuttujan malleja käsittelevä moniste. Tutustu myös muihin oppimateriaaleihini http://myy.haaga-helia.fi/~taaak/ LINEAARINEN MALLI Riippuvuudesta voidaan rakentaa matemaattinen malli. Kahden muuttujan riippuvuutta kuvaava matemaattinen malli on lauseke, jonka avulla voidaan laskea toisen muuttujan arvoja ensimmäisen muuttujan arvojen perusteella. Jos muuttujien välinen riippuvuus on lineaarinen, niin mallina käytetään suoraa. Suoraa voidaan kuvata lausekkeella y = b 1 x + b 0. Lauseke kertoo miten y saadaan laskettua, kun x:n arvo tunnetaan. Termiä b 0 kutsutaan vakiotermiksi. Vakiotermi kertoo, missä kohdassa suora leikkaa y-akselia (tämä nähdään asettamalla x:lle arvo 0, jolloin lausekkeesta jää jäljelle y=b 0 ). Termiä b 1 kutsutaan kulmakertoimeksi. Kulmakerroin ilmoittaa minkä verran y muuttuu, kun x kasvaa yhdellä yksiköllä. Laskevaan suoraan liittyy negatiivinen kulmakerroin ja nousevaan suoraan positiivinen kulmakerroin. Oletetaan, että konsultti perii palkkiota paikalle saapumisesta 100 euroa ja jokaiselta tehdyltä työtunnilta 80 euroa. Tällöin konsultin kokonaispalkkiota voidaan kuvata lausekkeella y=80x+100, missä x on työtuntien määrä. Kyseisessä suoran yhtälössä vakioterminä on 100 ja se ilmoittaa y:n arvon, kun x=0 (eli esimerkissämme palkkio ilman varsinaisia työtunteja) kulmakerroin 80 ilmoittaa palkkion muutoksen, kun työtunnit lisääntyvät yhdellä. 600 500 400 300 200 100 0 y = 80x + 100 0 1 2 3 4 5 6 Työtunnit ~ 1 ~

Myynti 1000 Voit lisätä Excelin hajontakuvioon riippuvuutta kuvaavan mallin kuvaajan, lausekkeen ja selityskertoimen: 1. Napsauta hiiren oikeaa painiketta jonkin hajontakuvion pisteen päällä. 2. Valitse esiin tulevasta valikosta Insert Trendline (Lisää trendiviiva). 3. Valitse haluamasi malli, esimerkiksi Linear (Lineaarinen). 4. Valitse tulostettavaksi mallin kaava Display Equation on Chart (Näytä kaava kaaviossa). 5. Valitse tulostettavaksi mallin selityskerroin kohdasta Display R-squared Value on Chart (Näytä korrelaatiokertoimen arvo kaaviossa). Huomaa, että Excelin suomenkielisissä versioissa puhutaan virheellisesti korrelaatiokertoimesta vaikka kyseessä on korrelaatiokertoimen neliö eli selityskerroin. 130 120 110 y = 52,568x + 46,486 R² = 0,7664 Yllä olevaan kuvioon on lisätty malli mainoskulujen ja myynnin väliseen hajontakuvioon. Mallia voidaan tulkita seuraavasti: Kulmakertoimesta 52,568 voidaan päätellä, että tuhat euroa mainoskuluissa merkitsee keskimäärin 52568 euroa myynnissä. Vakiotermi 46,486 taas ilmoittaa myynnin olevan 46486 euroa, jos mainoskuluja ei ole lainkaan. Tässä tapauksessa vakiotermin antama tieto ei ole käyttökelpoinen eikä luotettava, koska mainoskulujen arvo 0 sijaitsee selvästi havaintoalueen ulkopuolella. Yleensäkään mallin käyttöaluetta ei voi laajentaa kovin paljon havaintoalueen ulkopuolelle. Mallin avulla voidaan laskea esimerkiksi seuraavat ennusteet: 100 90 80 70 60 0,4 0,6 0,8 1,0 1,2 1,4 Mainoskulut 1000 Jos mainontaan aiotaan käyttää 900 euroa, niin mallin mukainen myyntiennuste saadaan laskemalla 52,568*0,9+46,486 93,8 eli 93 800 euroa. Jos tavoitteena on 90 000 euron myynti, niin mallin mukaan mainontaan pitäisi käyttää (90-46,486)/52,568 0,83 eli 830 euroa. ~ 2 ~

Selityskerroin Äskeisessä esimerkissä selityskerroin on 0,7664 eli 76,64%. Tämä tulkitaan seuraavasti: 76,64% myynnin vaihtelusta voidaan selittää mainoskulujen vaihtelulla. Regression tarkoituksena on selittää y:n arvojen vaihtelua x:n arvojen vaihtelulla. Selityskertoimella mitataan kuinka hyvin tässä on onnistuttu. Tarkastellaan seuraavaksi, mihin selityskertoimen laskenta perustuu. Kunkin havainnon y- arvon kokonaispoikkeama y-arvojen keskiarvosta koostuu kahdesta osasta: regression selittämästä poikkeamasta ja poikkeamasta, jota regressio ei selitä. Seuraavassa kuviossa havaintopisteen kokonaispoikkeama on jaettu regression selittämään poikkeamaan ja selittämättä jäävään poikkeamaan. y Kokonaispoikkeama Selittämättä jäävä poikkeama Regression selittämä poikkeama y-arvojen keskiarvo Regressiosuora Jos merkitään regression selittämien poikkeamien neliöiden summaa SSR (sum of squares due to regression) ja selittämättömien poikkeamien neliöiden summaa SSE (sum of squares due to error), niin kokonaispoikkeamien neliöiden summa SST (total sum of squares) jakaantuu kahteen komponenttiin SST = SSR + SSE Selityskerroin R 2 on regression selittämän vaihtelun osuus kokonaisvaihtelusta eli R 2 SSR SST Jos käytetään lineaarista mallia, niin selityskerroin voidaan laskea myös korrelaatiokertoimen neliönä. Regressiosuoran laskentamenetelmä liittyy sekin neliösummiin. Regressiosuora lasketaan pienimmän neliösumman menetelmää käyttäen. Kaikkien mahdollisten pistejoukon läpi kulkevien suorien joukosta valitaan se, jonka kohdalla neliösumma SSE (vaihtelu, jota regressio ei selitä) saa pienimmän mahdollisen arvon. ~ 3 ~

Kysyntä Excelin funktioita =FORECAST(x;tunnetut y;tunnetut x)-funktiolla (ENNUSTE) voit kätevästi laskea lineaariseen malliin liittyviä ennusteita. Funktio laskee x-arvoon liittyvän y-arvon regressiosuoran yhtälöä käyttäen (taustalla Excel laskee tunnettujen y:n arvojen ja tunnettujen x- arvojen perusteella regressiosuoran yhtälön). =INTERCEPT(tunnetut y;tunnetut x)-funktiolla (LEIKKAUSPISTE) voit laskea regressiosuoran vakiotermin. =SLOPE(tunnetut y;tunnetut x)-funktiolla (KULMAKERROIN) voit laskea regressiosuoran kulmakertoimen. EKSPONENTIAALINEN MALLI Liiketaloudessa esiintyy usein riippuvuus, jonka kuvaamiseen sopii eksponentiaalinen malli. Eksponentiaalinen malli on muotoa y=b 0 e bx e on luonnollisen logaritmijärjestelmän kantaluku, jonka likiarvo on 2,718 Kerroin b 0 ilmoittaa y:n suuruuden, kun x=0. Kerroin b ilmoittaa y:n prosentuaalisen muutoksen, kun x kasvaa yhdellä yksiköllä. Huomaa, että lineaarisessa mallissa kulmakerroin ilmoittaa y:n absoluuttisen muutoksen x:n kasvaessa yhdellä yksiköllä, mutta eksponentiaalisessa mallissa y:n muutos on prosentuaalinen. Seuraavassa kuviossa x:n kasvaessa yhdellä yksiköllä y:n arvo pienenee 19,97 %. Selityskertoimen mukaan 99,12 % kysynnän vaihtelusta voidaan selittää hinnan vaihteluilla. 6000 5000 4000 3000 y = 8 043,3172e -0,1997x R² = 0,9912 2000 1000 0 0 5 10 15 Hinta Kun käytät eksponentiaalista mallia ennusteiden laskemiseen Excelissä, niin tarvitset EXP (EKSPONENTTI) -funktiota. Edelliseen hajontakuvioon lasketussa mallissa voit ennustaa 6 euron hintaan liittyvää kysyntää, kirjoittamalla Exceliin kaava =8043,3172*EXP(-0,1997*6) ~ 4 ~

MALLIN KÄYTTÄMINEN ENNUSTAMISEEN Mallin sopivuus Mallin avulla voidaan ennustaa y, kun x tunnetaan tai x, kun y tunnetaan. Olipa sitten kyseessä lineaarinen tai eksponentiaalinen malli (tai jokin muu), niin mallin soveltuvuus ennustamiseen riippuu selittämättömän vaihtelun osuudesta. Hajontakuviosta voit arvioida selittämättömän, epäsäännöllisen vaihtelun suuruutta ja yli päätään mallin sopivuutta havaintoaineistoon. Mitä enemmän havainnot "pomppivat" mallin molemmin puolin sitä enemmän ennusteeseen sisältyy epävarmuutta. Poikkeavat havainnot Mallit ovat herkkiä poikkeaville arvoille. Jos kuviosta erottuu selvästi muista poikkeavia havaintoja, niin niiden alkuperä on selvitettävä: Mallin käyttöalue ovatko poikkeavat havainnot virheellisiä tietoja ovatko poikkeavat havainnot väärin syötettyjä tietoja jos kyse ei ole virheestä, niin löytyykö poikkeaville arvoille luonnollinen selitys? Kun poikkeavien havaintojen alkuperä selviää, niin seuraavaksi mietitään onko hyvä pitää havainnot mukana vai olisiko perusteltua jättää ne pois tarkasteluista. jos virheelliset tai väärin syötetyt tiedot voidaan korjata, niin ne voidaan pitää tarkasteluissa mukana jos virheellisille tai väärin syötetyille tiedoille ei syystä tai toisesta saada korjattuja arvoja, niin ne on syytä pudottaa pois tarkasteluista jos poikkeavuudelle löytyy luonnollinen selitys, niin asiaa on ajateltava tarkasteltavan ilmiön kannalta. Havaintoaineistoa on käytettävissä vain tietyiltä muuttujan arvoilta ja mallin pätevyyttä voidaan arvioida vain havaintoalueella. Havaintoalueen ulkopuolella olevien muuttujan arvojen kohdalla ei voida tietää, onko malli pätevä. Tämän vuoksi mallia ei ole perusteltua käyttää havaintoalueen ulkopuolella. ~ 5 ~