Menestyminen valintakokeissa ja todennäköisyyslaskussa

Samankaltaiset tiedostot
Regressioanalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Harjoitus 9: Excel - Tilastollinen analyysi

Väliestimointi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Yleistetyistä lineaarisista malleista

HAVAITUT JA ODOTETUT FREKVENSSIT

Korrelaatiokertoinen määrittely 165

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Johdatus regressioanalyysiin. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

1. Tilastollinen malli??

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.


Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Moniulotteisia todennäköisyysjakaumia

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

ABHELSINKI UNIVERSITY OF TECHNOLOGY

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTP1, luento KERTAUSTA

pisteet Frekvenssi frekvenssi Yhteensä

Dynaamiset regressiomallit

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Tilastollinen aineisto Luottamusväli

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Otoskoko 107 kpl. a) 27 b) 2654

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

tilastotieteen kertaus

Mat Tilastollisen analyysin perusteet, kevät 2007

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

10. laskuharjoituskierros, vko 14, ratkaisut

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Osa 2: Otokset, otosjakaumat ja estimointi

Todennäköisyyden ominaisuuksia

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

031021P Tilastomatematiikka (5 op) viikko 6

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus regressioanalyysiin

Kvantitatiiviset tutkimusmenetelmät maantieteessä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mat Tilastollisen analyysin perusteet

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Vastepintamenetelmä. Kuusinen/Heliövaara 1

2. Tietokoneharjoitukset

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

7. laskuharjoituskierros, vko 10, ratkaisut

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

805306A Johdatus monimuuttujamenetelmiin, 5 op

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Ohjeita kvantitatiiviseen tutkimukseen

Sovellettu todennäköisyyslaskenta B

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Transkriptio:

21.5.21 Menestyminen valintakokeissa ja todennäköisyyslaskussa Esa Pursiheimo 45761L

1 JOHDANTO...2 2 LÄHTÖTIEDOT JA OTOS...3 3 PÄÄSYKOETULOKSIEN YHTEISJAKAUMA...4 4 REGRESSIOANALYYSI...9 4.1 MALLI JA MUUTTUJAT...9 4.2 PARHAAN MALLIN ETSINTÄ...11 4.3 DIAGNOSTIIKKA...16 5 JOHTOPÄÄTÖKSET JA POHDINNAT...18 6 YHTEENVETO...2 KIRJALLISUUSVIITTEET...21 LIITE A...22 LIITE B...23 LIITE C...27 1

1 Johdanto Tämän erikoistyön tarkoituksena on tutkia tilastollisesti, voidaanko Teknillisen Korkeakoulun todennäköisyyslaskun ensimmäisen välikokeen pistemäärän vaihteluita selittää tilastollisesti korkeakoulun pääsykokeen matematiikan ja fysiikan pistemäärien avulla. Lisäksi työssä tutkitaan minkälaisesta yhteisjakaumasta matematiikan ja fysiikan kokeiden pisteet satunnaismuuttujina ovat peräisin. Välikoepisteiden ja pääsykoepisteiden riippuvuutta tutkitaan regressioanalyysilla, kun taas pääsykoepisteiden yhteisjakaumaa tutkitaan lähinnä kaksiulotteisen normaalijakauman näkökulmasta. Yleisesti voidaan päätellä, että välikoetulokset riippuvat pääsykoetuloksista. Jos opiskelija on menestynyt pääsykokeissa, menestynee hän myös korkeakoulun välikokeessa. Kuitenkin voidaan olettaa matematiikan kokeen pisteillä olevan suurempi vaikutus kuin fysiikan pisteillä, koska todennäköisyyslasku edellyttää enemmän matematiikan taitoja kuin fysiikan osaamista. Toisaalta myös fysiikan taitaminen edellyttää matematiikan taitoja. Välikokeessa onnistumiseen kuitenkin vaikuttaa hyvin moni satunnainen tekijä, joita ei voida edes määritellä. Näin ollen voidaan olettaa, että satunnaisvaihtelu tulee olemaan kohtuullisen suurta riippuvuussuhteista huolimatta. Pääsykokeen ja välikokeen välisenä aikana opiskelijat saavat erilaista koulutusta riippuen koulutusohjelmasta, joten tämän vaikutuksen voi ottaa huomioon etsittäessä selitystä välikoepisteille. Esimerkiksi sähkötekniikan opiskelijat suorittavat eri tasoisen matematiikan peruskurssin kuin fysiikan opiskelijat, joten on mahdollista heidän saaneen todennäköisyyslaskun kannalta erilaisen ajattelu- tai laskutavan. Lisäksi on huomattava, että pääsykoepisteet eivät välttämättä ole vuodesta toiseen samasta satunnaisjakaumasta, vaan eri vuosina on eri tasoiset kokeet. Nämä seikat eivät ole yhtä selvästi järkeiltävissä kuin pääsykoepisteiden vaikutus, mutta ne on hyvä tutkia varmuuden vuoksi. Tutkimusta varten suoritettiin satunnaisotanta ensinnäkin matematiikan ja fysiikan kokeiden pisteiden yhteisjakauman tutkimusta varten vuoden 1999 ja 1998 koetuloksista. Molemmat vuodet kannattaa tutkia edellämainittujen seikkojen takia. Toiseksi poimittiin välikokeen tuloksen selittämistä varten kohtuullisen kokoinen otos sisältäen tiedot välikoetuloksista, pääsykoetuloksista, koulutusohjelmasta ja pääsykoevuodesta. Käytännön syistä työssä keskitytään fysiikan, tietotekniikan ja sähkötekniikan opiskelijoihin sekä vuosien 1998 ja 1999 pääsykokeisiin. Käytännössä yhteisjakauman tutkinnan ja regressioanalyysin suorittamiseen tässä työssä käytetään Statistix tilasto-ohjelmistoa, jonka tulostuksia kaikki työssä esitetyt listaukset ovat. Yhteisjakauman analysoinnissa, regressiomallin etsinnässä ja diagnostiikassa käytetty teoria on pääosin peräisin Pertti Lainisen kirjasta Tilastollisen Analyysin Perusteet [Laininen 2]. 2

2 Lähtötiedot ja otos Työssä on tarkoituksena siis tutkia mahdollinen yhteys välikokeen pistemäärän ja opiskelijan Teknillisen Korkeakoulun pääsykokeissa saamien pisteiden välillä. Regressioanalyysin selitettävä tekijä on tässä tapauksessa sovelletun todennäköisyyslaskun kurssin (Mat-2.9, Sovellettu todennäköisyyslasku A) ensimmäisen välikokeen (6.11.2) pistemäärä. Välikokeessa on kolme tehtävää pisteytyksellä yhdestä kuuteen, joten kokonaispistemäärä vaihtelee nollan ja kahdeksantoista välillä. Selittäjinä ovat Teknillisen Korkeakoulun pääsykokeen matematiikan ja fysiikan kokeiden pistemäärät. Pääsykokeissa on kuusi tehtävää pisteytyksellä nollasta kuuteen, joten kummankin kokeen yhteispistemäärän maksimi on 36. Sovellettu todennäköisyyslasku A on pääasiassa teknillisen fysiikan, tietotekniikan ja sähkötekniikan opiskelijoille suunnattu, joten otokseen otetaan vain kyseisten koulutusohjelmien opiskelijoiden välikoetuloksia. Syynä on regressiomalliin mukaan otettava koulutusohjelman vaikutus välikoetuloksiin, ja muiden koulutusohjelmien opiskelijoiden kurssista saamat pisteet voivat hyvinkin erota kurssia pakollisena suorittavien pisteistä. Otoksessa pitäisi olla kolmesta koulutusohjelmasta välikoetuloksia samassa suhteessa kuin välikokeeseen on osallistunut kaikkiaan kustakin koulutusohjelmasta. Perusjoukko Perusjoukko % Otos Otos % Tf 66 2.2 3 23.3 S 29 64.1 75 58.1 Ti 51 15.7 24 18.6 Taulukko 1. Koulutusohjelmien osuudet perusjoukossa ja otoksessa. Taulukosta 1 nähdään, että otoksen ja perusjoukon jakauma koulutusohjelmien suhteen on samankaltainen. Syy siihen, että otoksena ei ole kaikkien välikokeeseen osallistuneiden välikoepisteet, löytyy pääsykoepisteiden lähtötiedoista. Käytännön syistä pääsykokeiden pisteitä on etsitty vain vuosien 1998 ja 1999 Otaniemessä pääsykokeen suorittaneiden listoista. Aluksi piti yksinkertaisuuden vuoksi tutkia vain vuoden 1999 pääsykokeita, mutta tällöin otoksesta olisi tullut tilastolliseen tarkasteluun liian suppea, joten pääsykoe vuodelta 1998 lisättiin aineistoon. Näin kuitenkin malliin on lisättävä pääsykokeen vuoden vaikutusta kuvaava tekijä, koska eri vuosina voi olla aivan eri tasoiset matematiikan tai fysiikan kokeet. Otoksessa tietotekniikan ja teknillisen fysiikan opiskelijoiden osuudet ovat pieniä verrattuna sähkötekniikan opiskelijoiden osuuteen, mutta yhteenlaskettuna niiden osuus on kohtuullinen. Tietotekniikan ja fysiikanopiskelijoiden yhdistäminen yhdeksi joukoksi voi tulla ajankohtaiseksi, jos regressioanalyysi ei löydä tilastollisesti merkitsevää eroa niiden välillä. Näin ollen saadaan regressioanalyysia varten otos, jossa jokainen datapiste sisältää selitettävän tekijän eli välikoepistemäärän sekä selittävät tekijät eli matematiikan ja fysiikan pääsykokeen pistemäärän, koulutusohjelman (Tf, Ti tai S) ja pääsykoevuosi (1998 tai 1999). Otoksessa on 129 datapistettä, joka lienee regressioanalyysiin tarpeeksi laaja. Liiteessä A on esitetty otos eli kaikkien datapisteiden selitettävät ja selittävät tekijät. 3

3 Pääsykoetuloksien yhteisjakauma Ensimmäisenä tehtävänä tässä erikoistyössä on tutkia tilastollisesti Teknillisen Korkeakoulun pääsykokeiden matematiikan ja fysiikan pistemäärien yhteisjakaumaa. Tätä varten tarvitaan tarpeeksi suuri satunnainen otos pääsykokeiden pistemääristä. Kappaleessa 2 esiteltyä regressioanalyysin otosta ei voida käyttää, koska siinä on vain suhteellisen korkeita pistemääriä. Otokseksi on siten otettu pääsykoetuloslistoista aakkosjärjestyksessä sadan ensimmäisen molemmat kokeet suorittaneen kokelaan pisteet. Aakkosjärjestyksessä koottu otos on varmasti satunnainen. Koska regressioanalyysissa on turvauduttu vuosien 1999 ja 1998 pääsykoetuloksiin, tutkitaan tässä työssä molempien vuosien yhteisjakauma erillisillä otoksilla. 1998 1999 Fysiikka 4 35 3 25 2 15 1 5 5 1 15 2 25 3 35 4 Matematiikka Fysiikka 4 35 3 25 2 15 1 5 5 1 15 2 25 3 35 4 Matematiikka Kuva 1. Matematiikan ja fysiikan pääsykokeiden pistemäärien otos vuosilta 1998 ja 1999. Kuvassa 1 on piirretty fysiikan pisteet matematiikan kokeita vastaan vuosien 1998 ja 1999 otoksista. Yleinen otaksuma on, että hyvä matematiikan osaaja menestyy myös fysiikassa. Tämä käy ilmi kummastakin kuvaajasta, sillä fysiikan pistemäärä näyttäisi korreloivan vahvasti matematiikan pistemäärän kanssa. Vuoden 1998 otoksen pistemäärien näyttäisi jakaantuneen suhteellisen tasaisesti, kun taas vuoden 1999 otoksessa pisteet ovat kasaantuneet hieman alhaisemmalle tasolle. Näin ollen voisi päätellä vuonna 1999 olleen hieman vaikeampi pääsykoe. Pistemääräotokset ovat reaalimaailmasta saatuja, joten voisi yleisesti olettaa niiden jakauman olevan kaksiulotteinen normaalijakauma. Kuvasta 1 päätellen tämä ei ole mikään rohkea oletus, joten hypoteesina on jakauman olevan normaali. Olkoot X ja Y sellaisia satunnaismuuttujia, joilla on seuraavat tunnusluvut: X:n odotusarvo: E[ X ] = µ X 2 X:n varianssi: Var[ X ] = σ X Y:n odotusarvo: E[ Y ] = µ Y 2 Y:n varianssi: Var[ Y ] = σ X:n ja Y:n välinen lineaarinen korrelaatiokerroin: ρ Y 4

Jotta satunnaismuuttujien yhteisjakauma olisi kaksiulotteinen normaalijakauma yllä mainituilla parametreilla eli 2 2 (, Y ) ~ N ( µ, µ ; σ, σ ; ρ) X, (3.1) X Y X Y tulee yhteisjakauman täyttää seuraavat ominaisuudet [Laininen 1998]: Yksittäiset satunnaismuuttujat ovat normaalijakautuneita, ehdolliset jakaumat ovat normaalijakautuneita sekä yksittäisten muuttujien korreloimattomuudesta seuraa muuttujien riippumattomuus. Tässä kappaleessa keskitytään tutkimaan yksittäisten muuttujien jakaumien eli rajajakaumien normaaliutta sekä muuttujien välistä korrelaatiota. Periaatteessa pitäisi myös tutkia ehdolliset jakaumat, koska voidaan konstruoida normaalijakautuneista rajajakautumista yhteisjakauma, joka ei ole kaksiulotteinen normaalijakauma. Syitä ehdollisten jakaumien tutkimatta jättämiseen on useita: Reaalimaailman ilmiöissä normaalit rajajakaumat yleisesti indikoivat normaalia yhteisjakaumaa. Lisäksi ehdollisen jakauman tutkimus vaatisi otoksen, jollaista olisi hyvinkin työlästä etsiä pääsykoelistoista. Kuva 2. Otoksen matematiikan ja fysiikan kokeiden pistemäärien histogrammit. Kuvassa 2 on matematiikan ja fysiikan pääsykoepisteiden rajajakaumia kuvaavia histogrammeja otoksesta. Vuoden 1998 matematiikan otos näyttää selvimmin olevan normaalijakautunut, kun taas varsinkin vuoden 1999 jakaumat vaikuttavat olevan hieman vasemmalle painottuneita. Lisäksi jakaumista nähdään selvästi, että vuonna 1999 on pisteitä tullut keskimäärin niukemmin kuin vuonna 1998. Histogrammeista ei voida tehdä otoksen pienuuden takia mitään selviä johtopäätöksiä rajajakaumien normaaliudesta, joten on syytä tehdä tarkempaa analyysia. 5

DESCRIPTIVE STATISTICS MA98 FY98 MA99 FY99 N 1 1 1 1 LO 95% CI 16.6 12.76 1.58 12.738 MEAN 17.71 14.42 11.56 14.52 UP 95% CI 19.36 16.134 13.62 16.32 SD 8.3149 8.64 7.5696 8.982 VARIANCE 69.137 74.65 57.299 8.676 MINIMUM 1.... MEDIAN 17. 14. 1. 14. MAXIMUM 36. 35. 33. 34. SKEW.288.4716.7415.2699 KURTOSIS -.5816 -.3917 -.413 -.9343 Listaus 1. Otoksen yksittäisten muuttujien tilastollisia tunnuslukuja. Listauksessa 1 on esitetty muutamia havaintoaineistoa yleisesti kuvaavia tilastollisia tunnuslukuja. Tuloksista selviää, miten vuoden 1998 pääsykokeiden matematiikan pisteiden keskiarvo on vuoden 1999 pisteiden keskiarvoa korkeampi. Kuitenkin mielenkiintoisinta tutkimuksen kannalta ovat vinous (skew) ja huipukkuus (kurtosis), jotka antavat tietoa otoksen rajajakaumien muodosta. Jos vinous on positiivinen, on havaintoaineistolla pitkä häntä oikealla puolella. Listauksessa 1 kaikissa tapauksissa vinous on positiivinen, ja varsinkin 1999 matematiikan pisteiden havaintoaineistolla näyttäisi olevan muita pitempi häntä oikealle, mitä vahvistaa myös kuvan 2 histogrammi. Huipukkuus taas kuvaa jakauman huipun terävyydestä, joten listauksen 1 mukaan kaikissa tapauksissa huipukkuus on negatiivinen eli jakauma on normaalia laakeampi. Kuva 3. Wilk Shapiro / Rankit Plot otoksen rajajakaumille. 6

Rajajakaumien normaaliutta voidaan myös testata tilastollisesti käyttämällä Wilk Shapiro / Rankit Plot testiä [Laininen 2], jossa otoksen normaaliutta tarkastellaan vertaamalla sitä normaalijakauman kertymäfunktioon. Normaalijakauman kertymäfunktion arvojoukko [,1] jaetaan tasan n osaan ja lasketaan niitä vastaavat satunnaismuuttujat. Tämän jälkeen suuruusjärjestykseen asetettu otos piirretään normaalijakauman odotettuja satunnaismuuttujia vastaan. Kuvassa 3 on esitetty kaikista rajajakaumista nämä kuvaajat. Jos havainnot asettuvat hyvin suoralle, on kyseessä normaalijakaumasta oleva otos. Kuvassa 3 olevat kuvaajat ovat hieman käyrän muotoisia, joten normaalius ei ole vahvaa. Jakaumien normaaliutta voidaan myös testata tilastollisesti laskemalla Wilk-Shapiro kuvaajien selitysastetta, jonka pitäisi ylittää kriittinen arvo. SHAPIRO-WILK NORMALITY TEST VARIABLE N W P --------- ----- ------- ------- MA98 1.9749.531 FY98 1.9624.6 MA99 1.9458.4 FY99 1.9643.83 Listaus 2. Wilk-Shapiro tunnusluvut ja P-arvot rajajakaumille. Listauksessa 2 on esitetty rajajakaumien otoksien Wilk-Shapiro tunnusluvut eli sovitettujen suorien selitysasteet ja niitä vastaavat P-arvot. Nähdään, että ainoastaan vuoden 1998 matematiikan otoksen voidaan katsoa olevan normaalijakautunut, kun taas muut jakaumat eivät selvästikään ole normaaleja. Koska rajajakaumat eivät ole normaaleja, pitäisi yhteisjakaumaa varten tutkia, ovatko jakaumat joitakin muita kuin normaaleja kuten lognormaaleja. Jakaumien vinous voisi antaa olettaa kyseessä olevan juuri log-normaalijakauma, mutta toisaalta histogrammeissa näkyvät hännät voi selittää alhaisella odotusarvolla ja einegatiivisilla havainnoilla. Vaikka rajajakaumat eivät ole normaaleja, on kuitenkin hyvä regressioanalyysin kannalta tutkia korrelaatiota matematiikan ja fysiikan pisteiden välillä. Kahden muuttujan korrelaation estimaatti lasketaan kaavasta n ( x x)( y i= 1 i i ρˆ = r =. (3.2) n 2 n 2 ( x i= i x) ( y i= i y) 1 1 y) CORRELATIONS (PEARSON) MA98 FY98.813 P-VALUE. CASES INCLUDED 1 MISSING CASES CORRELATIONS (PEARSON) MA99 FY99.6699 P-VALUE. CASES INCLUDED 1 MISSING CASES Listaus 3. Matematiikan ja fysiikan pisteiden korrelaatiot ja niiden P-arvot. 7

Listauksesta 3 käy ilmi, että matematiikan ja fysiikan pisteet korreloivat otoksessa varsinkin vuoden 1998 tapauksessa vahvasti. Lisäksi P-arvot paljastavat korrelaation olevan tilastollisesti merkitsevää. Korrelaation estimaattien 95 % luottamusvälien laskemiseen tarvitaan Fisherin muunnos [Laininen 2], jossa korrelaation estimaatti muunnetaan muuttujaksi v, joka on normaalijakautunut satunnaismuuttuja: v = 1 2 1+ ln 1 r r 1 1+ ~ N ln 2 1 ρ 1, ρ n 3 (3.3) Muuttujalle v lasketaan luottamusväli, jonka jälkeen välin päätepisteet muunnetaan takaisin korrelaatioestimaatiksi Fisherin käänteismuunnoksella. r e e 2v = 2 v + 1 1 (3.4) Näin saadaan listauksen 3 korrelaatiokertoimille 95 % luottamusvälit: 1998 95 % luottamusväli korrelaatiokertoimelle: [.731,.8685] 1999 95 % luottamusväli korrelaatiokertoimelle: [.5453,.7656] Ylläolevien luottamusvälien mukaan korrelaatio on selvää, sillä luottamusväli ei ole lähelläkään nollaa. Koska otoksien korrelaatio on vahvaa, voi regressioanalyysissa tulla ongelmia multikollineaarisuuden takia. Jos selittäjät ovat liiaksi korreloituneita, voidaan niille tehdä muunnos. Eräs järkevä muunnos on laskea yhteen pääsykoeiden pisteet, jolloin saadaan yksi selittäjä kahden pääsykoeselittäjän sijaan. Jos regressioanalyysissa käytetään pääsykokeiden pisteiden summaa, olisi summan hyvä olla normaalijakautunut. Kuvassa 4 on esitetty pisteiden summalle Wilk-Shapiro kuvaajat. Kuva 4. Pääsykokeiden pisteiden summien Wilk-Shapiro kuvaajat. Kuvaajista käy ilmi, etteivät summatkaan ole normaalijakautuneita. Kuvaajissa on selvää käyräviivaisuutta ja selitysasteet eivät ole merkitseviä. Jakaumat eivät siis ole summattuinakaan normaalijakautuneita, mutta toisaalta jakaumien tutkinta ei ole regressioanalyysin kannalta elintärkeää, sillä regressio-otoksessa selittäjät ovat arvojoukon selvästi suuremmasta päästä. 8

4 Regressioanalyysi Toisena tehtävänä erikoistyössä on tutkia, miten matematiikan ja fysiikan pääsykokeiden pistemäärät vaikuttavat todennäköisyyslaskun välikokeen pistemäärään. Tähän tutkintaan käytetään usean muuttujan regressioanalyysia, sillä selittäjiä on useita. Usean muuttujan regressioanalyysissa etsitään parasta mahdollista lineaarista regressiomallia y = β K + i + β1x1 i + + β px pi ei (4.1) estimoimalla parametrit pienimmän neliösumman menetelmällä. Tarkoituksena on löytää sellainen malli, jossa riippuvuudet selittäijien ja selitettävän välillä ovat tilastollisesti merkitseviä ja järkeviä reaalimaailman kannalta. Kun sopiva malli löydetään, pitää sen sopivuutta testata erilaisilla regressioanalyysin diagnostiikoilla. 4.1 Malli ja muuttujat Aluksi on määriteltävä muuttujat regressiomalliin (4.1), jotta voidaan aloittaa sopivan mallin etsintä. Matematiikan ja fysiikan pisteet ovat ns. metrisiä muuttujia, joten ne voidaan ottaa malliin muuttujiksi sellaisenaan. Lisäksi selitettävä eli välikokeen pistemäärä otetaan malliin ilman muunnoksia. y : todennäköisyyslaskun välikokeen tulos x m : matematiikan pääsykokeen pistemäärä x : fysiikan pääsykokeen pistemäärä f Pistemäärien lisäksi liitteessä A olevassa otoksessa on havaittu koulutusohjelma sekä pääsykokeen vuosi. Nämä muuttujat ovat ns. kvalitatiivisia eli ne kuvaavat muuttujan laatua. Näin ollen niitä ei voida ottaa regressiomalliin, koska esim. koulutusohjelman sijoittaminen lineaariseen regressioyhtälöön on mahdotonta. Kvalitatiivisia muuttujia varten on luotava dummy-muuttujat, joiden avulla laatumuuttujat saadaan mukaan regressiomalliin. Dummymuuttuja saa arvon 1 tai riippuen laatumuuttujan tasosta. Jos kvalitatiivisessa muuttujassa on kaksi tasoa, tarvitaan yksi dummy-muuttuja. Kolmen tason kvalitatiivista muuttujaa varten taas tarvitaan kaksi dummy-muuttujaa. z 1 : pääsykoevuoden dummy-muuttuja (1: vuosi 1998, : vuosi 1999) z 2 : koulutusohjelman dummy-muuttuja 1 (1: Tf, : muuten) z : koulutusohjelman dummy-muuttuja 2 (1: S, : muuten) 3 Näin ollen selittäviä muuttujia on viisi, mutta tosin regressiomalliin selittäjiä tulee lisää laskettaessa mukaan muuttujien välisiä tulotermejä. Ensimmäiseen regressiomalliin otetaan luonnollisesti kaikki tarpeelliset selittäjät, mutta turhia selittäjiä ei kannata ottaa mukaan monimutkaistamaan analyysia. Liitteen A otoksesta kannattaa tarkistaa kuvaajien avulla, minkälaista riippuvuutta löytyy selittäjien ja selitettävän välillä. Näin voidaan arvioida, 9

kannattaako regressiomalliin ottaa epälineaarisia termejä kuten matematiikan tai fysiikan pisteiden toisen kertaluvun muuttujia. Välikoetulos 2 18 16 14 12 1 8 6 4 2 1 2 3 4 Matematiikka Tf S Ti Välikoetulos 2 18 16 14 12 1 8 6 4 2 1 2 3 4 Fysiikka Tf S Ti Kuva 5. Otoksen välikoetulosten kuvaajat matematiikan ja fysiikan pisteitä vastaan. Kuvassa 5 on esitetty välikoetulosten ja matematiikan sekä fysiikan väliset riippuvuudet otoksessa. Molemmista kuvaajista käy selvästi ilmi, että välikoetulosten ja pääsykoepisteiden välillä on riippuvuutta. Lisäksi voidaan tulkita riippuvuuden olevan lineaarista, joten toisen asteen termejä ei tarvita. Matematiikan ja fysiikan ristitermiä ei tässä vaiheessa yksinkertaisuuden vuoksi oteta malliin, mutta regressioanalyysin diagnostiikan yhteydessä voidaan tutkia ristitermin tarpeellisuutta. Minkäänlaista reaalimaailman järkeenkäypää selitystä sen malliin ottamiseen ei ole. Dummy-muuttujien sijoittaminen regressiomalliin on monimutkaisempi, eikä siihen löydä helpolla perusteita kuvasta 5. Pääsykoevuosi ei käy selville kuvaajista, joten sen dummymuuttujat kannattaa ottaa mukaan malliin. Koulutusohjelmien välisiä eroja on vaikea kuvan perusteella tunnistaa, varsinkin fysiikan ja tietotekniikan osastojen pisteiden joukko on hyvin yhdenmukainen. Koska kuvaajista on hankalaa hylätä mitään kvalitatiivista muuttujista, on ne parasta sisällyttää ensimmäiseen malliin. Reaalimaailman näkökulmasta dummy-muuttujat tuovat mielenkiintoisen lisän regressiomalliin: vaikuttaako koulutusohjelma tai pääsykokeen vuosi välikokeeseen vakiotermin kautta vai matematiikan ja fysiikan kertoimien kautta. Oikean mallin etsinnässä turhat termit regressiomallissa kuitenkin karsiutuvat merkitsemättöminä, joten ei kannata kuvaajien tai päättelyn vuoksi jättää yhtäkään termiä pois. Näin ollen ensimmäiseen malliin tulee mukaan matematiikan ja fysiikan pisteet, kaikki dummy-muuttujat sekä ensin mainittujen selittäjien ja dummy-muuttujien ristitermit. Kun kaikki kombinaatiot lasketaan yhteen, saadaan 11 selittäjää ja näin ollen 12 estimoitavaa parametria. Regressiomalli (4.1) saa näin seuraavanlaisen muodon: y i = β + β 6 + x β 1 z x mi 1i mi + + β β 7 2 x x mi fi z + 2i + β β z 3 1i 8 x + z β mi 3i z 4 2i + β + 9 x β 5 z z 3i fi 1i + β 1 x fi z 2i + β 11 x z fi 3i + e i (4.2) Ylläolevasta mallista (4.2) lähdetään siis liikkeelle parhaan mahdollisen regressiomallin etsinnässä. Varmastikaan kaikki mallissa esitetyt riippuvuudet eivät tämän otoksen perusteella ole tilastollisesti merkitseviä, joten lopullinen malli on selvästi alkuperäistä suppeampi. 1

4.2 Parhaan mallin etsintä Parhaan regressiomallin etsintä aloitetaan estimoimalla malliin (4.2) parametrit ja tutkimalla tuloksien perusteella tilastollisia suureita. Ensimmäisenä on tutkittava selitysasteen merkitsevyys eli pystytäänkö yhdelläkään muuttujalla selittämään välikokeen pisteiden vaihteluita. Näin saadaan hypoteesi selittäjien merkitsevyydestä: H β = β = K = β (4.3) : 1 2 p = UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT.81632 4.99663.16.875 FY.8426.14575.58.5643 14.1 FYKO1.372.2987.15.8839 14.7 FYKO2.28423.14425 1.97.512 37.4 FYVUOSI -.239.1293-1.97.58 22.3 KO1-3.14323 7.88595 -.4.699 175.4 KO2-2.44284 4.94156 -.49.622 93.9 MA.42513.14446 2.94.39 14.8 MAKO1.6498.18459.35.7255 77.9 MAKO2 -.1983.1318-1.45.153 36.3 MAVUOSI -.1599.194-1.5.2959 25.3 VUOSI 6.67369 2.43965 2.74.72 18.9 R-SQUARED.485 RESID. MEAN SQUARE (MSE) 8.16382 ADJUSTED R-SQUARED.3529 STANDARD DEVIATION 2.85724 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 11 659.592 59.9629 7.34. RESIDUAL 117 955.167 8.16382 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus 4. PNS-estimointi mallista, jossa mukana kaikki muuttujat. Listauksesta 4 käy ilmi, että selitysaste on melko alhainen.485, joten sen merkitsevyyttä on tutkittava tilastollisesti. Testisuureena käytetään F-testiä varten selitysasteen F-arvoa SSDR / ν DR 659.592 /11 F = = = 7.34, (4.4) SSE / ν 955.167 /117 E jossa SSDR on listauksen 4 Regression-rivin selitetty neliösumma ja SSE Residual-rivin jäännösneliösumma. Näin saadun testisuureen P-arvo on sen verran pieni, että selitysasteen voidaan katsoa olevan merkitsevä. Näin ollen y:n vaihtelua voidaan selittää ainakin yhdellä muuttujista. Kun tarkastellaan parametrien estimaatteja pistää silmään varsinkin dummymuuttujien suuret kertoimet, joista voidaan mm. päätellä teknillisen fysiikan koulutusohjelman vaikuttavan pistemäärään negatiivisesti. Toisaalta näitä parametreja ei kannata paljoa tulkita, sillä vain kaksi estimaattia on tilastollisesti merkitseviä. Pienimmän 11

neliösumman menetelmällä saadut estimaatit eivät muutenkaan ole mitenkään hyviä, koska listauksen 4 mukaan selittäjien välillä esiintyy vahvaa korrelaatiota. Tämä multikollineaarisuus aiheuttaa PNS-menetelmässä käytetyn matriisin singulaarisuutta, jolloin tulokset eivät ole luotettavia. Multikollineaarisuus käy ilmi VIF-luvuista, jotka lasketaan selittäjien selitysasteesta regressiolla muuttuja R. Tällä tarkoitetaan sitä selitysastetta, joka saadaan selittämällä 2 j x j muilla selittäjillä [Laininen 2]. VIF j = 1 1 R 2 j (4.5) Listauksessa 4 olevat VIF-luvut ovat todella korkeita, sillä yli kymmenen olevat VIF-luvut indikoivat korkeaa korrelaatiota. Huomattavaa on koulutusohjelman ensimmäiseen dummymuuttujaan z 1 liittyvien termien muita korkeammat VIF-arvot. Tämä voi johtua fysiikan ja tietotekniikan pienistä osuuksista otoksessa tai kyseisten koulutusohjelmien yhdenmukaisuudesta pistemäärien suhteen. Kaiken kaikkiaan listauksesta voidaan päätellä ainakin suurimman osan dummy-muuttujista poistuvan lopullisesta mallista, sillä ainakin matematiikan ja fysiikan pistemäärät vaikuttavat kuvan 5 mukaan selvästi välikoetuloksiin. Koska ainakin yksi parametreista on nollasta eriävä mutta kaikkien muuttujien malli on huono, täytyy muuttujien määrää alkaa karsia, kunnes kaikki mallin parametrit ovat merkitseviä. Aluksi kannatta tutkia ovatko dummy-muuttujat tarpeellisia. Tähän tarvitaan malli, jossa ei ole mukana ollenkaan dummy-muuttujia. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 3.387 1.9677 3.8.25 MA.2244.4323 5.1. 1.3 FY.13918.4471 3.11.23 1.3 R-SQUARED.3388 RESID. MEAN SQUARE (MSE) 8.47314 ADJUSTED R-SQUARED.3283 STANDARD DEVIATION 2.9187 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 2 547.144 273.572 32.29. RESIDUAL 126 167.62 8.47314 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus 5. PNS-estimointi mallista, jossa ei ole dummy-muuttujia. Tarkoituksena on tutkia tilastollisesti, onko regressioyhtälö sama koulutusohjelmasta tai pääsykoevuodesta riippumatta. Tällöin kyseisten dummy-muuttujien ja niiden ristitermien parametrit olisivat nollia. Toisin sanoen hypoteesina on: H : β3 = β4 = K = β11 = (4.6) 12

Tämän hypoteesin testausta varten tarvitaan neliösummat regressiomallista (4.2) sekä mallista, jossa on vain matematiikan ja fysiikan kokeiden pistemäärät: y + i = β + β1xmi + β2x fi ei (4.7) Olkoon SSE mallista (4.7) listauksen 5 mukaisesti saatu jäännösneliösumma ja SSE mallista (4.2) saatu jäännösneliösumma. Näiden avulla saadaan hypoteesin (4.6) testausta varten tarvittava selitetty neliösumma SSDR : SSDR = SSE SSE = 167.62 955.167 = 112.453 (4.8) Kun tiedetään tarvittavat neliösummat ja niitä vastaavat vapausasteet, saadaan testisuure F- testiä varten. Listauksien 4 ja 5 mukaan selitetyn neliösumman SSDR vapausaste on 126 117 = 9, ja jäännösneliösumman SSE vapausaste on 117. Hypoteesin (4.6) testisuure on siten: F SSDR / ν DR SSE / ν 112.453/ 9 955.167 /117 = = = E 1.535 (4.9) Testisuureen (4.9) kriittinen arvo.5:n riskitasolla on ylläolevilla vapausasteilla 1.959, jota ei testisuure 1.535 ylitä. Näin ollen hypoteesin (4.6) voidaan päätellä pitävän paikkansa, joten yhdelläkään dummy-muuttujalla ei ole vaikutusta välikokeen tulokseen. Tämä tulos oli odotettavissa, koska yhdellekään dummy-muuttujalle ei ole tulkittavissa kuvaajista ja reaalimaailman ilmiöistä niin selvää merkitystä kuin pääsykokeiden pisteillä. Vaikka dummy-muuttujien merkitsevyyden testaus antoi hypoteesia (4.6) tukevan tuloksen, kannattaa silti tutkia muilla metodeilla, löytyisikö mahdollisesti parempi malli kuin (4.7). Eräs regressiomallien vertailukeino on paras yhdistelmä menetelmä (Best Subset Regression), jossa tutkitaan kaikki mahdolliset selittäjien yhdistelmät ja annetaan parhaat mallit kutakin parametrien määrää kohti. Eri yhdistelmiä vertaillaan Mallows:n C p kriteerillä, joka lasketaan seuraavasti [Laininen 2]: C SSE p = n + p, (4.1) σˆ2 p 2 2 jossa SSE on mallin jäännösneliösumma, ˆσ varianssin estimaatti ja p estimoitujen parametrien määrä. Hyvällä selittäjien yhdistelmällä C p on pieni ja pienempi kuin estimaattien määrä p. Vaikka malli olisi paras yhdistelmä menetelmässä todettu parhaaksi C p :n avulla, ei se silti tarkoita, että kyseinen malli valittaisiin parhaaksi yleisesti ottaen. Tämä johtuu siitä, että estimaattien arvot eivät mahdollisesti ole merkitseviä, joka johtaisi kyseisen selittäjän tiputtamiseen mallista ja siirtymiseen aivan toiseen regressiomalliin. Myös multikollineaarisuus voi olla korkeaa joidenkin selittäjien kohdalla. Listauksessa 6 on esitetty paras yhdistelmä menetelmän tulokset kolmella parhaalla p:n parametrin mallilla. Tuloksista nähdään ensinnäkin, että selitysaste nousee mallin parametrien määrän kasvaessa. Vapausasteet huomioon ottava selitysaste (Adj R 2 ) kuitenkin on korkeimmillaan kahdeksan parametrin mallissa. Listauksesta 6 käy ilmi, että C p on pienin seitsemän parametrin mallissa ja kuuden parametrin malleista ylöspäin kaikkien C p on pienempi kuin p. Aiempien 13

analyysien mukaan valittu malli (4.7) saa suhteellisen suuren C p :n 7.8, joten on hyvä tutkia ne parhaat p:n parametrin mallit, joissa C p on mallin (4.7) pienempi. BEST SUBSET REGRESSION MODELS FOR VALIKOE UNFORCED INDEPENDENT VARIABLES: (A)FY (B)FYKO1 (C)FYKO2 (D)FYVUOSI (E)KO1 (F)KO2 (G)MA (H)MAKO1 (I)MAKO2 (J)MAVUOSI (K)VUOSI 3 "BEST" MODELS FROM EACH SUBSET SIZE LISTED. ADJUSTED P CP R SQUARE R SQUARE RESID SS MODEL VARIABLES -- ----- -------- -------- --------- ----------------------------- 1 7.8.. 1614.76 INTERCEPT ONLY 2 15.8.2824.288 1149.73 G 2 32.8.1961.224 1287.9 A 2 43.9.1396.1463 1378.55 F 3 7.8.3283.3388 167.62 A G 3 14.5.2938.348 1122.51 G I 3 14.9.2919.329 1125.57 F G 4 5.2.3466.3619 13.39 C G I 4 6.1.342.3575 137.56 C F G 4 9.4.3251.341 164.2 A D G 5 6..3474.3678 12.84 C D G I 5 6.2.3464.3668 122.49 C G I J 5 6.7.3442.3647 125.82 C F G I 6 4.3.3621.387 989.881 C D G I K 6 4.3.3616.3865 99.616 C G I J K 6 5.5.3552.384 1.45 C D F G K 7 3.7.375.4 968.891 A C D G I K 7 3.8.3697.3992 97.1 C D G I J K 7 4.3.3671.3968 974.29 C D F G I K 8 4.6.3711.455 96.2 A C D G I J K 8 4.8.37.445 961.653 C D F G I J K 8 5.4.3666.413 966.83 A B C D G I K 9 6.3.3676.471 957.377 A C D E G I J K 9 6.3.3676.471 957.43 A B C D G I J K 9 6.3.3674.469 957.695 A C D G H I J K 1 8.1.3629.477 956.36 A C D E F G I J K 1 8.2.3628.476 956.576 A B C D F G I J K 1 8.2.3626.474 956.846 A C D F G H I J K 11 1..3582.484 955.342 A C D E F G H I J K 11 1.1.3577.479 956.179 A B C D E F G I J K 11 1.2.3575.477 956.464 A B C D F G H I J K 12 12..3529.485 955.167 A B C D E F G H I J K Listaus 6. Paras yhdistelmä menetelmän antamat parhaat mallit. Liitteessä B on esitetty PNS-estimaatit listauksen 6 parhaille malleille, joissa on parametreja neljästä yhdeksään. Yleisesti katsoen mallin suurentuessa selittäjien merkitsevyys pienenee ja VIF-arvot ja siten multikolineaarisuus kasvaa. Jos lähdetään suurimmasta mallista ja aina poistetaan P-arvoltaan suurin selittäjä, on tuloksena seuraavan pienemmän osajoukon paras malli. Näin voidaan edetä alaspäin mallin koossa, kunnes saavutaan neljän parametrin malliin y + i = β + β1xmi + β8xmiz3 + β11x fiz3 ei, (4.11) jossa kaikki selittäjät ovat merkitseviä ja selitysastekin on parempi kuin mallissa (4.7) VIFarvojen kuitenkin ollessa kohtuullisen korkeita. Malli (4.11) on selitettävissä niin, että välikoetulos riippuu matematiikan pisteistä, mutta sähkötekniikan osaston kohdalla matematiikan kohdalla riippuvuus on erilaista ja välikoetulos riippuu myös fysiikan pisteistä. 14

STEPWISE REGRESSION OF VALIKOE UNFORCED VARIABLES: FY FYKO1 FYKO2 FYVUOSI KO1 KO2 MA MAKO1 MAKO2 MAVUOSI VUOSI P to ENTER.5 P to EXIT.5 F M Y A F F V M M V V Y Y U A A U U K K O K K K K O O F O O S O O M O O S S STEP R SQ MSE P Y 1 2 I 1 2 A 1 2 I I ---- ------ --------- ------- --------------------- 1. 12.6153........... 2.288 9.5299. +...... G.... 3.3388 8.47314.23 + A..... G.... RESULTING STEPWISE MODEL VARIABLE COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 3.387 1.9677 3.8.25 FY.13918.4471 3.11.23 1.3 MA.2244.4323 5.1. 1.3 CASES INCLUDED 129 R SQUARED.3388 MSE 8.47314 MISSING CASES ADJ R SQ.3283 SD 2.9187 VARIABLES NOT IN THE MODEL CORRELATIONS VARIABLE MULTIPLE PARTIAL T P --------- -------- ------- ------- ------ FYKO1.528 -.433 -.48.6287 FYKO2.3932.24.23.8196 FYVUOSI.5369 -.566 -.63.5273 KO1.568 -.315 -.35.7251 KO2.6634 -.183 -.2.8385 MAKO1.5149 -.253 -.28.7776 MAKO2.4675 -.397 -.44.6577 MAVUOSI.6784 -.485 -.54.5885 VUOSI.4541 -.45 -.5.963 Listaus 7. Valikoivan askelluksen menetelmällä löydetty paras malli. Toinen tapa löytää paras malli mekaanisesti on valikoivan askelluksen menetelmä (Stepwise Regression), jossa lisätään malliin yksi selittäjä kerrallaan sen mukaan, mikä selittäjistä nostaa eniten selitysastetta. Jos uuden selittäjän tultua malliin joku mallin vanhoista selittäjien P-arvo nousee yli kriittisen rajan, poistetaan kyseinen selittäjä mallista. Selittäjien lisäystä jatketaan, kunnes lisäys ei paranna selitysastetta tilastollisesti merkitsevästi. Valikoivan askelluksen voi myös suorittaa aloittamalla kaikkien selittäjien mallista, jolloin edellä mainitut valinnat tehdään päinvastoin. Listauksessa 7. on esitetty eteenpäin etenevän valikoivan askelluksen menetelmällä löydetty malli, joka on itse asiassa aiemmin saatu malli (4.7). Liitteessä B on esitetty valikoiva askellus taaksepäin menevällä versiolla. Näin saatu malli onkin sitten paras yhdistelmä menetelmästä kokeilemalla saatu malli (4.11). Täten valikoivan askelluksen kulkusuunnasta riippuen saadaan eri malli. Nyt on siis tutkittava molemmat mallit tarkasti, jotta voidaan tehdä johtopäätöksiä, kumpi on parempi. Dummymuutujien merkitsevyyden analyysi antaa mallin (4.7), kun taas paras yhdistelmä menetelmä asettaa mallin (4.11) paremmaksi. Ennen kuin voidaan tehdä minkäänlaisia johtopäätöksiä, on kuitenkin suoritettava diagnostiikka kummallekin mallille. 15

4.3 Diagnostiikka Regressioanalyysissa diagnostiikalla tarkoitetaan tutkittavan mallin puutteiden tai otoksen virheiden etsintää erilaisilla kuvaajilla ja datasta saaduilla suureilla. Jos malleissa näyttää diagnostiikan mukaan olevan jonkinlaisia puutteita, täytyy mallia muuntaa joko lisäämällä selittäjiä tai suorittamalla muuttujille muunnoksia. Edellisessä luvussa esitetyt ehdokkaat (4.7) ja (4.11) parhaiksi malleiksi on molemmat tarkistettava mahdollisten puutteiden takia. Kuvaajilla voidaan tutkia mallin puutteita tai virheitä, kun mallin parametrien estimoinnin jälkeen lasketaan tiettyjä suureita mallille. Termi FIT tarkoittaa mallin ennustamaa selitetyn odotusarvoa eri otoksen selittäjien arvoilla, kun taas RES tarkoittaa residuaaleja eli kuinka paljon selitettävän arvo poikkeaa selittäjien avulla lasketusta odotusarvosta FIT. Jos piirretään selitettävän arvot FIT-arvoja vastaan, pitäisi hyvän mallin tapauksessa kuvaajassa näkyä nouseva lineaarinen trendi. Tämä tarkoittaa sitä, että regressiomalli on oikean muotoinen eikä siitä puutu esim. toisen asteen termejä. Kuva 6. Mallin (4.7) selitettävä vs. FIT ja RES vs. FIT kuvaajat. Kuvassa 6 nähdään miten selitettävä ja RES-arvot suhtautuvat FIT-arvoihin. Ensimmäisessä kuvaajassa y on kohtalaisen huonosti suoran ympäristössä, mutta lineaarinen riippuvuus näkyy kuitenkin selvästi. Toisaalta mallin (4.7) alhainen selitysaste näkyy selvästi kuvasta. RES vastaan FIT kuvaajasta ei löydy minkäänlaista trendiä, vaan kuvaaja on ns. tähtitaivas. Näin ollen mallista ei pitäisi puuttua selittäjiä eikä esiintyä heteroskedastisuutta. Kuva 7. Mallin (4.11) selitettävä vs. FIT ja RES vs. FIT kuvaajat. 16

Kuvassa 7 taas on samat kuvaajat kuin kuvassa 6, mutta mallille (4.11). Selitettävän ja FITarvon yhteys on nähtävissä lineaariseksi suuresta hajonnasta huolimatta, joskin kuvassa 7 nähdään ehkä hieman enemmän kaarevuutta kuin kuvassa 6. Residuaalit näyttävät olevan tasaisesti jakautuneita, joten mallissa siltä osin ei vaikuttaisi olevan puutteita. Kuva 8. RES vs. selittäjät kuvaajat mallista (4.7). Kuvassa 8 on kuvaajat residuaalien ja selittäjien yhteydestä. Molemmista kuvaajista käy ilmi, että residuaalit ovat jakautuneet ilman minkäänlaista trendiä. Näin ollen selitettävän yhteys selittäjiin on oikeanlainen. Kuvaajien 6 ja 8 mukaan siis mallissa (4.7) ei ole mitään pahoja puutteita tai virheitä. Kuva 9. RES vs. selittäjät kuvaajat mallista (4.11). Kuvassa 9 on taas mallista (4.11) saadut residuaalit kuvattuna selittäjiä vastaan. Ensimmäinen kuvaaja on ns. tähtitaivas, joten yhteys matematiikan pisteisiin on oikea. Toisissa kuvaajissa on mukana kolmas dummy-muuttuja, joten tietotekniikan ja teknillisen fysiikan datapisteiden residuaalit ovat pylväänä nollan kohdalla. Näin ollen tutkittavana on matematiikan ja fysiikan pisteiden ja residuaalien yhteys sähkötekniikan kohdalla. Näistäkään kuvaajista ei pysty löytämään mitään epäilyttävää, joten kuvaajien mukaan malli (4.11) on hyvä, joskin malliin voisi tehdä joitakin muunnoksia kuvan 7 perusteella. Kuvaajien lisäksi regressiomallista saa erilaisia suureita estimoinnin yhteydessä. Tällaisia ovat mm. studentisoidut residuaalit, leverage-arvot, Cooken etäisyys ja outlierit. Liitteessä C on listattuna kyseiset suureet jokaiselle datapisteelle molemmista malleista (4.7) ja (4.11). Studentisoidut residuaalit ovat käytännössä varianssikorjattuja residuaaleja, ja arvoa 3 itseisarvoltaan suuremmat studentisoidut residuaalit ovat epätavallisia. Leverage-arvo mittaa datapisteen etäisyyden kaikkien pisteiden keskiarvosta, ja näin antaa arvion millainen 17

vaikutus kyseisellä yksittäisellä pisteellä on regressiomallissa. Cooken etäisyys antaa arvion siitä, miten paljon regressioyhtälö eroaa ilman kyseistä datapistettä estimoidusta regressioyhtälöstä. Jos Cooken etäisyys on datapisteelle suuri eli käytännössä yli 1, on sillä liian suuri vaikutus regressioyhtälöön. Outlieri on t-arvo, jolla voidaan tilastollisesti testata datapisteen vaikutusta. Liitteestä C käy ilmi, että studentisoiduista residuaaleista molemmissa malleissa vain yksi on yli arvoltaan yli 3, mutta 129:n datapisteen otoksessa se ei ole paljon. Myöskään outliereistä vain muutama on itseisarvoltaan yli kriittisen arvon 1.96. Cooken etäisyydet ovat kummassakin mallissa erittäin pieniä, niin kuin leverage-arvotkin, joten yksittäisten pisteiden vaikutus ei ole suuri. Suuren studentisoidun residuaalin antava datapiste on case 116, jossa korkeilla pääsykoepisteillä on erittäin alhainen välikoetulos. Tämän voi havaita vaikkapa kuvista 6 ja 7. Mallien diagnostiikka ei siis antanut aihetta regresiomallien muuttamiseen tai datapisteiden poistamiseen liian voimakkaasti vaikuttavina. 5 Johtopäätökset ja pohdinnat Regressioanalyysi on antanut kaksi mallia, jotka selittävät tilastollisesti todennäköisyyslaskun välikokeen pisteiden vaihtelua matematiikan ja fysiikan pääsykokeiden pisteillä. Molemmissa malleissa sekä matematiikan että fysiikan pisteillä on vaikutusta, mutta ne vaikuttavat eri tavoilla. Malli (4.7) ei tee eroa koulutusohjelman tai pääsykoevuoden suhteen ja sen mukaan välikokeen pistemäärän odotusarvo on: [ y] = 3.387 +.2244x m. 13918x f E + (5.1) Kaavasta (5.1) käy ilmi, että matematiikan pisteiden vaikutus on kaksinkertainen fysiikan pisteisiin verrattuna. Tämä on loogista, sillä todennäköisyyslaskussa tarvitaan enemmänkin matemaattisia kykyjä. Kuitenkin myös fysiikka vaatii matemaattista osaamista, mutta fysiikan pisteiden ei näyttäisi vaikuttavan korrelaation kautta, sillä VIF-arvot ovat alhaisia. Malli ei kuitenkaan ole aivan järkeenkäyvä, minkä huomaa vakiotermistä. Vaikka opiskelija ei olisi saanut pistettäkään pääsykokeissa, hän kaavan (5.1) mukaan saisi lähes 4 pistettä välikokeessa. Tämän voinee selittää sillä, että otoksessa pääsykokeiden pisteet ovat säännöstään asteikon korkeasta päästä. Mallissa (4.11) taas otetaan huomioon myös koulutusohjelma, mutta malli ei tee kuitenkaan tee eroa teknillisen fysiikan ja tietotekniikan koulutusohjelmien välillä. Näin ollen sähkötekniikan opiskelijoille pätee toisenlainen regressioyhtälö. Jos kyseessä on sähkötekniikan koulutusohjelma, on välikokeen pisteiden odotusarvo seuraava: [ y] = 3.6467 +.16142x m. 197x f E + (5.2) Jos taas kyseessä on tietotekniikan tai teknillisen fysiikan koulutusohjelma, saadaan välikokeen pisteiden odotusarvo kaavasta: [ y] = 3.6467. 34973xm E + (5.3) 18

Näin ollen malli (4.11) antaa ymmärtää, että fysiikan pisteillä on vaikutusta ainoastaan sähkötekniikan koulutusohjelman tapauksessa. Toisaalta tällöin matematiikan pisteiden vaikutus on selvästi pienempi kuin fysiikan tai tietotekniikan koulutusohjelmien tapauksessa. Mielenkiintoista on myös se seikka, että kaavassa (5.2) fysiikan ja matematiikan pisteiden kertoimien summa on lähes sama kuin kaavassa (5.3) matematiikan pisteiden kerroin. Tätä voisi selittää mallissa olevilla VIF-arvoilla, jotka ovat korkeahkoja. Näin ollen voisi olettaa korrelaation sähkötekniikan osalta matematiikan ja fysiikan pisteiden välillä olevan niin korkeaa, että niitä voisi pitää samansuuruisina ja siten yhdistää kertoimet. 18 Sähkötekniikka 18 Sähkötekniikka 15 15 Välikoe 12 9 6 Välikoe 12 9 6 3 3 5 1 15 2 25 3 35 4 Matematiikka 5 1 15 2 25 3 35 4 Fysiikka 18 Ti ja Tf 18 Ti ja Tf 15 15 Välikoe 12 9 6 Välikoe 12 9 6 3 3 5 1 15 2 25 3 35 4 Matematiikka 5 1 15 2 25 3 35 4 Fysiikka Kuva 1. Välikoepisteiden riippuvuus matematiikan ja fysiikan pisteistä koulutusohjelman mukaan. Kuvassa 1 on eritelty mallin (4.11) mukaisesti otos sähkötekniikan koulutusohjelman ja muiden välillä. Kuvaajat tukevat kaavojen (5.2) (5.3) tulkintaa erilaisista kertoimista, sillä välikoepisteiden ja matematiikan pisteiden välinen riippuvuus näyttäisi olevan jyrkempää tietotekniikan ja fysiikan tapauksessa. Fysiikan pisteiden vaikutus välikoepisteisiin on sähkötekniikan tapauksessa selvää, kun taas muilla koulutusohjelmilla vaikutusta on vaikea nähdä. Edellä olevat pohdinnat eivät kuitenkaan anna perusteita jommankumman mallin paremmuuteen. Mallia (4.7) voi pitää yleisenä kaavana välikoetuloksille jaottelematta koulutusohjelmia, kun taas malliin (4.11) voi vaikuttaa mm. otoksen sähkötekniikan suuri osuus. Omalta osaltani mallien vertailu käy vuoden 1995 pääsykoepisteitteni (3,36) avulla välikoe-ennusteen laskien. Kaava (5.1) antaa pistemäärän 14, ja kaava (5.3) antaa pistemäärän 15. Tämä ennuste vastaa suhteellisen hyvin omaa tulkintaani välikoemenestyksestäni, vaikka suoritinkin kurssin tentillä. 19

6 Yhteenveto Tässä erikoistyössä on tutkittu matematiikan ja fysiikan pääsykoepisteiden yhteisjakaumaa tilastollisesti sekä näiden pisteiden vaikutusta todennäköisyyslaskun 1. välikokeen pistemäärään regressioanalyysilla, jonka otoksena oli välikokeesta 129 havaintoa, joissa on välikokeen, matematiikan ja fysiikan pisteet, koulutusohjelma (Tf, Ti tai S) sekä pääsykoevuosi (1998 tai 1999). Yhteisjakauman tutkimuksen otokseksi poimittiin vuosien 1998 ja 1999 pääsykokeista 1 aakkosjärjestyksessä poimittua matematiikan ja fysiikan pistemäärää. Yhteisjakauman tutkimuksessa käytännössä tehtiin hypoteesi kaksiulotteista normaalijakaumasta, jonka vaatimuksiin kuuluu normaalit rajajakaumat sekä ehdolliset jakaumat sekä muuttujien riippumattomuutta nollakorrelaatiossa. Molempien vuosien rajajakaumista vain vuoden 1998 matematiikan jakauma läpäisi normaalisuustestin. Korrelaatio matematiikan ja fysiikan pisteiden välillä havaittiin olevan suhteellisen korkea. Yhteisjakauma ei näin ollen ole ainakaan kaksiuloitteinen normaalijakauma. Välikokeen pisteiden vaihtelun selittämistä matematiikan ja fysiikan pisteillä tutkittiin rgressioanalyysissa, minkä takia koulutusohjelma ja pääsykoevuosi muutettiin dummymuuttujiksi regressiomalliin. Parasta mallia etsittäessä suoritettiin useita analyyseja, jotka antoivat kaiken lisäksi useita malleja. Dummy-muuttujien merkitsevyyden testi antoi ymmärtää kertoimien olevan nollia eli vain matematiikalla ja fysiikalla olisi merkitystä. Tämän vahvisti myös valikoivan askelluksen menetelmä ylöspäin, mutta sama analyysi alaspäin antoi toisenlaisen mallin, jossa sähkötekniikan koulutusohjelmalle malli on erilainen kuin toisille koulutusohjelmille. Regressiomallien diagnostiikka osoitti, että kummassakaan mallissa ei ole suurempia puutteita tai virheitä, eikä otoksessa ollut yksittäistä tapausta lukuunottamatta liian merkityksellisiä havaintoja. Otosta tutkimalla voidaan sanoa molempien mallien selittävän välikoepisteiden vaihtelun omalla tavallaan hyvin. Toisaalta selitysasteet ovat kummassakin mallissa sen verran pieniä, että suurempia johtopäätöksiä ei voida vetää. 2

Kirjallisuusviitteet [Laininen 1998]: Laininen, Pertti, Todennäköisyyslasku ja sen tilastollinen soveltaminen, Otatieto, Helsinki, 1998. [Laininen 2]: Laininen, Pertti, Tilastollisen analyysin perusteet, Otatieto, Helsinki, 2. 21

Liite A Tf 1 14 36 29 66 1 27 17 2 9 28 31 67 11 1 12 3 18 32 27 68 5 1 16 4 15 32 23 69 14 18 21 5 9 2 26 7 11 2 22 6 9 28 28 71 12 2 14 7 1 29 31 72 16 22 26 8 14 29 24 73 11 27 22 9 16 25 32 74 14 13 29 1 17 32 33 75 9 18 13 11 18 3 28 76 9 17 32 12 12 26 26 77 13 29 23 13 15 3 34 78 7 17 13 14 14 2 36 79 14 11 16 15 9 19 31 8 13 29 23 16 11 26 29 81 7 17 15 17 15 3 26 82 12 21 16 18 15 34 28 83 15 25 27 19 16 31 29 84 8 11 17 2 13 26 24 85 12 2 15 21 1 29 27 86 1 26 31 22 13 32 29 87 8 15 19 23 18 31 33 88 13 26 33 24 14 32 28 89 7 8 2 25 13 23 27 9 1 31 18 26 13 24 28 91 8 25 22 27 1 31 35 92 8 21 12 28 13 28 28 93 3 6 25 29 18 24 26 94 15 18 19 3 12 25 28 95 14 28 18 S 31 14 19 15 96 13 32 18 32 13 23 17 97 8 21 17 33 14 29 18 98 1 23 16 34 14 25 2 99 6 16 21 35 8 2 1 1 12 15 21 36 8 23 11 11 11 26 25 37 13 2 14 12 6 17 14 38 14 28 27 13 3 11 12 39 13 2 16 14 7 25 19 4 12 7 19 15 15 27 34 41 6 13 13 Ti 16 17 35 3 42 6 22 19 17 18 31 25 43 12 26 23 18 15 33 35 44 13 18 23 19 14 25 23 45 15 2 22 11 14 3 28 46 11 13 22 111 18 33 2 47 15 33 26 112 11 31 22 48 12 18 14 113 1 26 14 49 7 28 16 114 16 28 21 5 5 25 11 115 13 3 31 51 1 31 2 116 3 28 32 52 7 1 16 117 15 32 25 53 12 26 23 118 14 29 25 54 12 24 32 119 18 33 33 55 12 32 19 12 15 22 28 56 8 19 19 121 12 17 27 57 12 26 16 122 14 29 25 58 12 2 1 123 15 31 27 59 15 23 26 124 15 33 25 6 11 23 19 125 13 19 27 61 17 32 33 126 14 28 25 62 16 22 26 127 6 22 26 63 14 27 24 128 11 19 31 64 7 17 14 129 13 3 24 65 4 17 18 22

Liite B UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 3.6467 1.229 2.95.37 FYKO2.197.574 3.34.11 5.8 MA.34973.4455 7.85. 1.4 MAKO2 -.18831.4951-3.8.2 5.1 R-SQUARED.3619 RESID. MEAN SQUARE (MSE) 8.24311 ADJUSTED R-SQUARED.3466 STANDARD DEVIATION 2.8718 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 3 584.371 194.79 23.63. RESIDUAL 125 13.39 8.24311 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus B1. Malli CGI. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 3.15377 1.28917 2.45.158 FYKO2.2132.5985 3.51.6 6.4 FYVUOSI -.2942.2732-1.8.2835 1.6 MA.38527.5541 6.95. 2.2 MAKO2 -.19996.565-3.95.1 5.3 R-SQUARED.3678 RESID. MEAN SQUARE (MSE) 8.23255 ADJUSTED R-SQUARED.3474 STANDARD DEVIATION 2.86924 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 4 593.923 148.481 18.4. RESIDUAL 124 12.84 8.23255 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus B2. Malli CDGI. 23

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 1.34357 1.57371.85.3949 FYKO2.361.7672 3.99.1 1.7 FYVUOSI -.16715.7524-2.22.281 12.1 MA.45579.6553 6.96. 3.1 MAKO2 -.2996.7134-4.2.1 1.8 VUOSI 3.47369 1.77116 1.96.521 1.1 R-SQUARED.387 RESID. MEAN SQUARE (MSE) 8.4781 ADJUSTED R-SQUARED.3621 STANDARD DEVIATION 2.83687 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 5 624.879 124.976 15.53. RESIDUAL 123 989.881 8.4781 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus B3. Malli CDGIK. STATISTIX FOR WINDOWS VKDAT, 1.5.21, 16:2:17 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT -.49651 1.933 -.26.7974 FY.13426.8258 1.63.166 4.7 FYKO2.2446.859 2.87.48 13.4 FYVUOSI -.23891.868-2.75.68 16.3 MA.39414.7534 5.23. 4.1 MAKO2 -.2351.8122-2.89.45 14.2 VUOSI 5.384 2.929 2.54.124 14.3 R-SQUARED.4 RESID. MEAN SQUARE (MSE) 7.94173 ADJUSTED R-SQUARED.375 STANDARD DEVIATION 2.81811 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 6 645.868 17.645 13.55. RESIDUAL 122 968.891 7.94173 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus B4. Malli ACDGIK. 24

UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT -1.22448 2.481 -.6.551 FY.12.8866 1.13.2615 5.4 FYKO2.25485.856 2.98.35 13.5 FYVUOSI -.19165.9758-1.96.518 2.6 MA.4692.1343 4.54. 7.8 MAKO2 -.24315.8154-2.98.35 14.3 MAVUOSI -.1478.9899-1.6.2919 25.1 VUOSI 6.48725 2.36756 2.74.71 18.3 R-SQUARED.455 RESID. MEAN SQUARE (MSE) 7.9339 ADJUSTED R-SQUARED.3711 STANDARD DEVIATION 2.81672 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 7 654.758 93.5368 11.79. RESIDUAL 121 96.2 7.9339 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus B5. Malli ACDGIJK. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF VALIKOE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT -1.38768 2.7333 -.67.546 FY.11474.9253 1.24.2174 5.8 FYKO2.2448.876 2.79.61 14.1 FYVUOSI -.19659.9823-2..476 2.8 KO1 -.48328.84257 -.57.5673 2. MA.47357.14 4.55. 7.9 MAKO2 -.24146.8182-2.95.38 14.3 MAVUOSI -.1855.9948-1.9.2774 25.2 VUOSI 6.594 2.38144 2.77.65 18.4 R-SQUARED.471 RESID. MEAN SQUARE (MSE) 7.97814 ADJUSTED R-SQUARED.3676 STANDARD DEVIATION 2.82456 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 8 657.382 82.1728 1.3. RESIDUAL 12 957.377 7.97814 TOTAL 128 1614.76 CASES INCLUDED 129 MISSING CASES Listaus B6. Malli ACDEGIJK. 25

STEPWISE REGRESSION OF VALIKOE UNFORCED VARIABLES: FY FYKO1 FYKO2 FYVUOSI KO1 KO2 MA MAKO1 MAKO2 MAVUOSI VUOSI VARIABLE(S) DROPPED FROM INITIAL MODEL BECAUSE OF COLLINEARITY: VUOSI P to ENTER.5 P to EXIT.5 F M Y A F F V M M V V Y Y U A A U U K K O K K K K O O F O O S O O M O O S S STEP R SQ MSE P Y 1 2 I 1 2 A 1 2 I I ---- ------ --------- ------- --------------------- 1.376 8.61235 A B C D E F G H I J. 2.376 8.547.9717 -. B C D E F G H I J. 3.376 8.4696.9628 -. B C D E F G. I J. 4.375 8.441.8898 -.. C D E F G. I J. 5.372 8.33611.7975 -.. C D. F G. I J. 6.3697 8.2751.7526 -.. C D. F G. I.. 7.3678 8.23255.5482 -.. C D.. G. I.. 8.3619 8.24311.2835 -.. C... G. I.. RESULTING STEPWISE MODEL VARIABLE COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 3.6467 1.229 2.95.37 FYKO2.197.574 3.34.11 5.8 MA.34973.4455 7.85. 1.4 MAKO2 -.18831.4951-3.8.2 5.1 CASES INCLUDED 129 R SQUARED.3619 MSE 8.24311 MISSING CASES ADJ R SQ.3466 SD 2.8718 VARIABLES NOT IN THE MODEL CORRELATIONS VARIABLE MULTIPLE PARTIAL T P --------- -------- ------- ------- ------ FY.8347.284.32.7524 FYKO1.6325.29.3.9739 FYVUOSI.5981 -.963-1.8.2835 KO1.6379.33.4.979 KO2.9836 -.666 -.74.4587 MAKO1.6494 -.15 -.12.97 MAVUOSI.695 -.875 -.98.3297 VUOSI.4825 -.276 -.31.7586 Listaus B7. Valikoiva askellus menetelmä taaksepäin askelluksella. 26