Aineisto pähkinänkuoressa Tilastollisesti edustava otos korkeakouluopiskelijoista, jotka olivat läsnäolevia perustutkinto-opiskelijoita syksyllä 2012. Tiedonkeruun ajankohta: 1.11.2012-10.1.2013. Tiedonkeruumenetelmä: Yhdistetty internet- ja postikysely, johon kuului myös tutkimusotokseen poimituille postitettu ennakkokirje. Yliopisto-opiskelijat: Otanta-asetelma: Ositettu satunnaisotanta Mukana kaikki yliopistot (pl. Kuvataideakatemia ja maanpuolustuskorkeakoulu) Vastausprosentti 38,6 Vastaajamäärä 1580 10 Ammattikorkeakouluopiskelijat: Otanta-asetelma: Epätäydellinen ositettu satunnaisotanta tai ryväsotanta Mukana 21 ammattikorkeakoulua (kyselyn ulkopuolella Poliisiammattikorkeakoulu, Mikkelin AMK, Satakunnan AMK, Tampereen AMK ja Kymenlaakson AMK) Vastausprosentti 31,3 Vastaajamäärä 657 Aineiston edustavuus: Yliopisto-opiskelijoiden osalta aineiston edustavuus pystytään hyvin osoittamaan ja vastauskadon vinouttavaan vaikutukseen vastataan vastauskadon korjaavalla aineiston painotuksella. Ammattikorkeakouluopiskelijoiden aineisto ei yllä edustavuudessaan samalle korkealle tasolle kuin yliopisto-opiskelijoiden aineistossa, joka on paremmin edustava, koska vastausprosentti ja vastaajamäärä ovat suurempia ja koska neljä ammattikorkeakoulua jättäytyi tutkimuksen ulkopuolelle.
2. Tutkimuksen toteutus ja menetelmät Perusjoukon määritelmä Opiskelun ja koulutuksen tutkimussäätiö to- lisen kyselyn yliopistojen perustutkinto-opiskelijoille. Tutkimuksen perusjoukoksi rajattiin ne yliopistojen (pois lukien maanpuolustuskorkeakoulu) perustutkinto-opiskelijat, jotka olivat ilmoittautuneet läsnäoleviksi syyslukukaudella 2012 ja joilla oli vähintään yksi opintosuoritus viimeisten kolmen vuoden ajalta kuitenkin niin, että kaikki ensimmäisen vuoden opiskelijat kuuluivat lähtökohtaisesti perusjoukkoon. Tämä rajaus tehtiin, jotta tosiasiallisesti ei opiskelevat ns. kirjoilla roikkujat jäisivät tutkimuksen ulkopuolelle. Tilastokeskuksen vuoden 2012 yliopistokoulutus tilaston mukaan perusjoukkoon kuului poimintahetkellä 143 505 opiskelijaa (ylempi ja alempi aste yhteensä) (SVT 2012). Kyselyn tekninen toteuttaminen yliopistot Tutkimusotos poimittiin satunnaisotannalla kaikkien yliopistojen opiskelijarekistereistä, joita Otus lähestyi lokakuussa 2012 kirjeitse tutkimuslupahakemuksella. Hakemuksessa pyydettiin toteuttamaan sellainen poiminta opiskelijarekistereistä, jossa otokseen poimittaisiin joka kymmenes edellä kuvattuun perusjoukkoon kuuluva opiskelija opiskelijanumeron viimeiseen ns. juoksevaan numeroon perustuvalla satunnaistuksella (siis opiskelijanumeron viimeinen sellainen numero, joka ei ole koulutusala, tiedekunta tai muu koodi tai tunniste). Tämä tehtiin siitä syystä, että tulevaisuudessa olisi mahdollista tehdä opiskelijoista uusia otoksia ilman vaaraa samojen opiskelijoiden päätymisestä tutkimusotokseen. Ammattikorkeakoulujen osalta kyselyn tekninen toteuttaminen toteutettiin täsmälleen samalla tavalla kuin yliopistojen osalta. Kuitenkin useamman merkittävän ammattikorkeakoulun jättäytyminen tutkimuksen ulkopuolelle vähentää syvällisen tiedonkeruun menetelmätarkastelun mielekkyyttä, joten ammattikorkeakouluopiskelijoiden tiedonkeruusta raportoidaan erikseen vain keskeisimmät tiedot. Yliopisto-opiskelijoiden osalta yhteystietoja saatiin perusjoukon määritelmän mukaan toteutetulla poiminnalla 12 762, eli aivan liikaa tutkimuksen tarpeisiin. Ylisuurella poimintatiheydellä haluttiinkin varautua siihen, että yksi tai useampi suurista korkeakouluista ei olisi myöntänyt tutkimuslupaa ja jättäytyisi siten tutkimuksen ulkopuolelle. Näin ei kuitenkaan käynyt, sillä ainoastaan kuvataideakatemia ei toimittanut tutkimusotosta Otuksen tutkijoille ajoissa. Kuvataideakatemian opiskelijoiden osuus perusjoukosta on tosin vain 0,17 %, joten vaikutus aineiston edustavuuteen on marginaalinen. Otoksessa yliopistot olivat pääsääntöisesti edustettuina omalla painollaan; korkeakoulukohtaiset otoskoot ovat suorassa suhteessa korkeakoulun opiskelijamäärään muutamaa poikkeusta lukuun ottamatta. Aalto-yliopistosta poimittiin muita suurempi otos, koska erityisesti miespuolisten tekniikan alan opiskelijoiden vastausaktiivisuuden pelättiin jäävän alhaiseksi. Helsingin yliopiston otos oli hieman suunniteltua pienempi, sillä otoksesta haluttiin poistaa ne opiskelijat, joille Otus oli vuo- 11
TAULUKKO 1. PERUSJOUKON JAKAUMA TILASTOKESKUKSEN OPINTOALALUOKITUKSEN SUHTEEN PERUSJOUKOSSA JA TUTKIMUSOTOKSESSA (SUORA JAKAUMA SEKÄ OTANTA-ASETELMAN HUOMIOIVALLA PAINOTUKSELLA). Tilastokeskuksen opintoala-luokitus kaasti kuitenkin niin, että kerättävä tieto on riittävän laadukasta tieteellisen tutkimuksen näkökulmasta. Tiedonkeruukustannusten näkökulmasta suosiotaan kasvattava Internet-kysely on erittäin edullinen perinteisiin vaihtoehtoihin nähden. Tutkimus toteutettiin ensisijaisesti internet-kyselynä, jota puolsivat ennen kaikkea kustannus- ja hyötynäkökulmat. Vaikka internet-kyselyiden hyödynnettävyys on usein tutkijoiden piirissä kyseenalaistettu aiheellisesti (aiheesta lisää esim. Couper 2000), muodostavat korkeakouluopiskelijat nettikyselyiden käytettävyyden kannalta poik- Opiskelijoita Suomessa % kaikista Poiminta % poiminnasta Otanta-asetelma huomioitu % Eläinlääketieteellinen koulutus 465 0,3 % 18 0,4 % 21 0,5 % Farmasian koulutus 1,1 % 54 1,3 % 58 1,4 % Hammaslääketieteellinen koulutus 927 0,7 % 17 0,4 % 16 0,4 % Humanistinen koulutus 15,2 % 510 12,6 % 530 13,0 % Kasvatustieteellinen koulutus 9,0 % 425 10,5 % 444 10,9 % Kauppatieteellinen koulutus 13,4 % 499 12,4 % 451 11,0 % Kuvataidealan koulutus** 249 0,2 % 0 0,0 % 0 0,0 % Liikunta/terveystieteellinen koulutus* 1,3 % 106 2,6 % 100 2,4 % Luonnontieteellinen koulutus 14,6 % 540 13,4 % 551 13,5 % Lääketieteellinen koulutus 2,9 % 151 3,7 % 154 3,8 % Maatalous-metsätieteellinen koulutus 2,1 % 115 2,9 % 130 3,2 % Musiikkialan koulutus 0,8 % 23 0,6 % 21 0,5 % Oikeustieteellinen koulutus 2,9 % 168 4,2 % 178 4,4 % Psykologian koulutus 1,0 % 23 0,6 % 23 0,6 % 12 Taideteollinen koulutus 2,0 % 105 2,6 % 69 1,7 % Teatteri- ja tanssialan koulutus 346 0,2 % 13 0,3 % 11 0,3 % Teknillistieteellinen koulutus 19,4 % 684 17,0 % 721 17,6 % Teologinen koulutus 1,7 % 66 1,6 % 72 1,8 % Yhteiskuntatieteellinen koulutus 11,2 % 518 12,8 % 542 13,2 % Yhteensä 100 % 4092 100,0 % 4092 100 % den 2012 keväällä toteuttanut vastaavanlaisen kyselyn. Vastaavasti Hankenista poimittiin hieman tiheämpi otos, jotta aineistoon saataisiin riittävästi ruotsinkielisiä vastaajia. Muut pienet erot johtunevat toisistaan hieman poikkeavista korkeakoulujen rekisterikäytännöistä, jotka otetaan edellä mainittujen poikkeuksien tavoin huomioon otanta-asetelman huomioivalla painokertoimella. Opiskelijabarometrin tiedonkeruun suunnittelua ohjasi käytännössä kaksi toistensa kanssa ristiin menevää tavoitetta. Taloudellisesti riippumattomana tutkimussäätiönä tiedonkeruu oli toteutettava kustannustehok- * Tutkimusotoksen koulutusalatietojen perusteella liikunta- ja terveysalan opiskelijoita ei ollut mahdollista erottaa toisistaan Jyväskylän yliopistossa, joten luokat on tarkasteluissa yhdistetty. **Kuvataideakatemia jäi tutkimuksen ulkopuolelle. Tätä pyrittiin kompensoimaan poimimalla Aalto-yliopiston taideteollisesta korkeakoulusta hieman tiheämmällä poiminnalla muita taidealan opiskelijoita, mikä näkyy korkeakoulukohtaisessa otanta-asetelmassa.
keuksen. Nettikyselyiden perimmäisenä ongelmana on vastaajien valikoituminen otantaan sillä perusteella, kuinka paljon vastaaja ylipäänsä käyttää sähköpostia tai käyttääkö ollenkaan. Käytännön ongelmana on aina ollut myös sellaisten otannassa hyödynnettävien perusjoukon rekisteriaineistojen puute, joissa henkilön sähköpostiosoite on saatavissa. Korkeakouluopiskelijat ovat edellä esitettyjen huolien suhteen poikkeus, sillä nuoret ja koulutetut kuuluvat ensinnäkin eri väestöryhmistä aktiivisimpiin internetin käyttäjiin1, minkä lisäksi suurimmassa osassa korkeakouluja käytännössä edellytetään vähintään jonkinasteista sähköpostitse tapahtuvaa asiointia koulutuksen järjestäjän ja opiskelijoiden välillä. Korkeakouluopiskelijat ovat siten mahdollisesti paras kohderyhmä Internet-kyselyn toteuttamiselle. Pelkästään Internetissä toteutettavalle kyselylle ei olisi kuitenkaan odotettavissa kovinkaan suurta vastausprosenttia, sillä opiskelijoiden sähköpostia kuormittavat jo valmiiksi monet muut tutkimukset, joita väitös- ja muita opinnäytetöitä tekevät opiskelijat erilaisilla sähköpostilistoilla välittävät. Nettikyselyiden soveltuvuuteen opiskelijoita tutkittaessa ei pidä myöskään tuudittautua siitä syystä, että tutkimustieto ei anna kysymykseen yksiselitteistä vastausta. Eräät muissa maissa toteutetut kyselyt on arvioitu hyvinkin toimiviksi vastaajajoukon edustavuuden suhteen (esim. Cranford et al. 2008) toisten tulosten ollessa vähemmän rohkaisevia (Kypri et al. 2011). Suomessa esimerkiksi EUROSTUDENT 2010 tutkimus toteutettiin verkkokyselynä, jossa vastaajia muistutettiin kyselyyn vastaamisesta kahdesti sähköpostilla, kerran postitse sekä tekstiviestillä. Yliopistovastaajien osalta päästiin 44:n vastausprosenttiin. Tutkimuksen tiedonkeruu toteutettiin kolmessa vaiheessa yhdistettynä netti- ja postikyselynä, jonka suunnittelussa pyrittiin minimoimaan tiedonkeruumenetelmän aiheuttama vastauskadon aiheuttama harha käytettävissä olevilla taloudellisilla resursseilla. 1) Otokseen poimittua 4092 opiskelijaa lähestyttiin ensin kirjeellä, jossa opiskelijoita tiedotettiin tutkimuksen taustoista, vastaamisen tärkeydestä sekä erityisesti siitä, millä perusteilla heidät oli poimittu otokseen. Kirjeestä tehtiin englannin- ja ruotsinkieliset kieliversiot, jotka kohdennettiin vastaajille opiskelijarekisteristä saadun vastaajan äidinkieltä koskevan tiedon mukaan. Monissa tutkimuksissa on havaittu tällaisen ennen tutkimusta tapahtuvan tiedottamisen tärkeys vastauskadon hallinnassa. Ennakkokirjeen on havaittu kasvattavan vastausprosenttia ja vähentävän vastauskadon harhaa estimaateille (Groves & Peytcheva 2008; Groves et al. 2009). Kirjeessä vastaajille tiedotettiin, että linkki kyselyyn saapuisi muutaman päivän sisällä heidän yliopistonsa sähköpostiosoitteeseen, joka oli poimittu opiskelijarekisteristä. 2) Varsinainen kysely toteutettiin ensisijaisesti internet-kyselynä Surveypal-ohjelmalla. Vastauskielenä oli valittavissa suomi, ruotsi tai englanti. Jokainen vastaaja sai henkilökohtaisen vastauslinkin kyselyyn korkeakoulun rekisteristä poimittuun sähköpostiosoitteeseen, jolloin vastaukset oli mahdollista yhdistää opiskelijarekistereistä poimittuihin taustatietoihin, joita ei siten tarvinnut erikseen kysyä lomakkeessa. Kysely oli ensin vastattavissa viikon ajan, jonka jälkeen vastaamattomille lähetettiin muistutusviesti sähköpostitse. 3) Kolme viikkoa kyselyn alkamisesta siihen mennessä vielä vastaamattomien joukosta poimittiin satunnaisotoksena 500 sekä lisäksi vastauspropensiteettimallinnuksella toiset 500 sellaista opiskelijaa, jotka olivat kolmen viikon nettikyselyvastausten perusteella kaikkein huonoimmin edustettuina senhetkisillä vastauksilla. Näille 1000 opiskelijalle lähetettiin kirjeitse kysely paperilomakkeella yhdessä palautuskuoren kanssa, josta postimaksu oli maksettu. Lisäksi muistutettiin mahdollisuudesta vastata kyselyyn sähköpostilinkin kautta, joka oli edelleen vastaajien käytettävissä. Kyselyn kolmannella vaiheella tavoiteltiin kahta asiaa: Ensinnäkin postikyselyllä pyrittiin tavoittamaan yleisesti niitä vastaajia, joita sähköpostitse lähetetty linkki ei syystä tai toisesta tavoittanut. Toisekseen vastaajajoukon edustavuuden kannalta on järkevää pyrkiä saamaan lisää sellaisia vastaajia, jotka ovat kyselyssä 13 1. Esimerkiksi European Social Surveyn vuoden 2010 kyselyssä eurooppalaisista opiskelijoista (toinen ja korkea-aste) yli 95 prosenttia ilmoitti käyttävänsä internetiä vähintään kerran viikossa.
muuten aliedustettuina ja vastausten karhuaminen olisikin syytä kohdistaa niin sanottuihin vaikeisiin tapauksiin. Pelkästään vastausprosentin suuruuteen keskittyvän edustavuuskäsityksen kannalta tämä ei ehkä tunnu järkevältä, ja tuntuisikin siten intuitiivisesti paremmalta ratkaisulta pyrkiä kohdistamaan toimenpiteet juuri päinvastoin helppoihin vastaajiin. Kuitenkin aineistosta tehtävien tilastollisten päätelmien luotettavuus on vastausprosenttia tärkeämpi päämäärä ja tiedonkeruun myöhemmissä vaiheissa olisikin syytä keskittyä päinvastoin juuri niihin vastaajiin, jotka ovat tiedonkeruussa huonoiten edustettuina. Muuten estimaatit ovat näiden vastaajien osalta eniten pielessä. (Betlehem et al. 2008) Vastaaminen ja vastauskato Kysely lähetettiin yhteensä 4 092 opiskelijalle, joista koko kyselyyn vastasi 1 580 opiskelijaa (vastausprosentti 38,6). Nettilomakkeen vastausajan mediaani oli 24 minuuttia. Taulukossa 2 on esitetty tiedot kyselyyn vastaamisesta korkeakouluittain sekä korkeakoulukohtainen otanta-asetelman korjaava painokerroin (ykköstä suurempi painokerroin tarkoittaa, että opiskelijoita on otoksessa korkeakoulun painoarvon suhteen vähemmän ja pienempi vastaavasti sitä, että nämä ovat muuten yliedustettuina). Vastausaktiivisuus oli heikointa miesvaltaisissa teknillisissä yliopistoissa (Aalto ja LUT), joista Tampereen teknillinen yliopisto tosin teki poikkeuksen. Otanta-asetelman perusjoukkotietoja kuvaava jakauma (ensimmäiset kaksi saraketta) perustuu Tilastokeskuksen Yliopistokoulutustilaston aineistoon [verkkojulkaisu], [viitattu 23.5.2013] (SVT 2013). Taulukossa 1 on puolestaan esitelty tutkimusotoksen opintoalakohtainen jakauma suhteessa Tilastokeskuksen vuoden 2012 yliopistokoulutustilaston tietoihin. Ensimmäisissä sarakkeissa on esitetty todellisen perusjoukon jakauma opintoaloittain, keskimmäisissä sa- 14 TAULUKKO 2. PERUSJOUKON KOKO KORKEAKOULUITTAIN, MIESPUOLISTEN OPISKELIJOIDEN OSUUS KORKEAKOULUN OPISKELIJOISTA, TUTKIMUSOTOS JA VASTAUSPROSENTTI YHDESSÄ KORKEAKOULUKOHTAISEN OTANTA-ASETELMAN KORJAAVAN PAINOKERTOIMEN KANSSA. Yliopisto Opiskelijoita Joista miehiä Tutkimusotos N Vastanneita Vastaus-prosentti Design Weight Aalto-yliopisto 68,4 % 475 149 31,4 % 0,50 Helsingin yliopisto 35,7 % 868 370 42,6 % 1,16 Itä-Suomen yliopisto 37,6 % 358 160 44,7 % 0,88 Jyväskylän yliopisto 39,2 % 347 115 33,1 % 0,92 Kuvataideakatemia 249 39,8 % 0 0 - - Lapin yliopisto 29,8 % 131 48 36,6 % 1,05 Lappeenrannan teknillinen yliopisto 72,2 % 149 53 35,6 % 1,18 Oulun yliopisto 52,5 % 403 147 36,5 % 0,99 Sibelius-Akatemia 41,6 % 22 9 40,9 % 0,88 Svenska handelshögskolan 55,4 % 93 31 33,1 % 0,60 Tampereen teknillinen yliopisto 79,0 % 94 33 35,1 % 2,54 Tampereen yliopisto 35,2 % 383 165 43,1 % 1,10 Teatterikorkeakoulu 320 46,6 % 13 5 38,5 % 0,84 Turun yliopisto 39,6 % 442 177 40,0 % 0,95 Vaasan yliopisto 47,3 % 141 49 34,8 % 1,02 Åbo Akademi 40,5 % 173 69 39,9 % 1,12
rakkeissa puolestaan tutkimusotoksen vastaava jakauma ja oikeanpuolimmaisissa jakauma, kun otanta-asetelma otetaan jakauman laskennassa huomioon. Tutkimusotos vastaa opintoalakoostumukseltaan varsin hyvin tilastokeskuksen rekisteriaineistoihin pohjautuvaa jakaumaa. Pienet noin prosenttiyksikön suuruusluokkaa olevat poikkeamat selittyvät sillä, että tutkimusotoksen poiminnassa käytettiin yhtenä poimintaehtona sitä, että opiskelijalla on oltava rekisterissä vähintään yksi opintosuoritus viimeisen kolmen vuoden ajalta. Siten sellaiset opintoalat, joiden opiskelijat jättävät muita useammin valmistumatta kuitenkaan perumatta opinto-oikeuttaan, ovat tutkimusotoksessa hieman aliedustettuina, mikä on toisaalta tarkoituksenmukaista, sillä aineistosta tehtävä tutkimus koskee aktiivisesti opiskelevia. Kuviossa 1 on esitetty päiväkohtainen vastausaktiivisuus yhdessä vastausprosentin kehitystä kuvaavan käyrän kanssa. Kuvaajan alkupäästä on selvästi erotettavissa muistutuskierrosten ajankohta, mutta postikyselykierroksen vastausaktiivisuus jakautuu ymmärrettävistä syistä useammalle päivälle sen mukaan, miten paperilomakkeet saapuivat postin mukana. Postikierroksen vastauksiin on myös laskettu mukaan ne internet-lomakkeen kautta annetut vastaukset, joita annettiin sen jälkeen, kun postimuistutus oletettavasti saavutti vastaajat. Vastauskadon painotus Survey-aineistojen painotus on rutiininomainen toimenpide, jolla korjataan vastaajien toisistaan eroavien otokseen sisältymistodennäköisyyksien sekä vastauskadon aiheuttamaa estimaattien harhaisuutta. Painotuksella tavoitellaan sitä, että lopullinen tutkimusotos edustaisi tavoiteperusjoukkoaan mahdollisimman hyvin. Opiskelijabarometrin aineisto painotettiin kaksivaiheisesti. Tutkimuksen otanta-asetelmassa eri korkeakoulujen opiskelijoiden todennäköisyys sisältyä otokseen vaihteli joissain määrin, ja otanta-asetelman huomioivalla painotuksella otetaan tämä huomioon. Toisessa painotuksen vaiheessa pyritään kompensoimaan vastauskadon vaikutuksia. Vastauskadon painotuksessa hyödynnetään opiskelijarekistereistä otokseen poimittujen vastaajien taustatietoja. 15 KUVIO 1. VASTAUSAKTIIVISUUS TIEDONKERUUN AIKANA JA VASTAUSPROSENTIN KEHITYS.
16 Vastauskadon aiheuttaman estimaattien vinoutuneisuuden ongelmaan pyrittiin vastaamaan keräämällä opiskelijarekistereistä mahdollisimman kattava taustatietopatteri, jolla pystyttiin toisaalta myös vähentämään kyselyn kuormittavuutta vastaajalle (kun rekisteristä saatavaa tietoa ei tarvinnut erikseen kysyä lomakkeessa). Rekisteritaustatietojen keräämisen varsinainen tarkoitus oli kuitenkin päämäärä pystyä vertaamaan toisiinsa otoksessa kyselyyn vastanneita vastaamattomiin sellaisten taustatietojen perusteella, jotka ovat saatavissa näiltä molemmilta. Taustatietoina saatiin kaikilta otokseen poimituilta mm. syntymävuosi, opintojen aloitusvuosi, opintopistekertymä, sukupuoli ja opiskeluala (tiedekunta- tai koulutusohjelmatieto, joka muunnettiin vastaamaan tilastokeskuksen opintoalaluokitusta). Vastauskadon aiheuttamaa vinoutuneisuutta korjataan analyyseissä painotuksella, joka perustuu vastaamattomuuden mallintamiseen logistisella regressioanalyysillä niin, että malli ennustaa kyselyyn vastaamista otoksessa käytettävissä olevilla taustatiedoilla. Regressiomallin tuottamaa vastaajakohtaista estimaattia vastaamisen todennäköisyydestä kutsutaan tutkimuskirjallisuudessa vastauspropensiteetiksi (menetelmästä enemmän ks. esim. Laaksonen 2006; Peress 2010 tai Carlson & Williams 2011). Siihen perustuvan painotuksen ideana on, että ne opiskelijat, joille ennustettiin mallissa pieni vastauspropensiteetti, edustavat aineistossa useampaa opiskelijaa kuin ne, joiden estimoitu propensiteetti oli suurempi. Vastauspropensiteetin avulla on mahdollista tarkastella vastauskadon satunnaisuutta erityisten survey-aineistojen edustavuutta mittaavien indikaattorien avulla perinteisen vastausprosentin rinnalla. Eräs käyttökelpoisimmista on niin sanottu R-indikaattori (representativity indicator), joka on laskennallisesti määritelty siten, että täydellisen vinoutuneella aineistolla se saa arvon 0 ja täysin vinoutumattomalla arvon 1. Sen arvo perustuu mallinnetun vastauspropensiteetin keskihajontaan, joka on suuri silloin, kun vastaamattomien joukko eroaa vastaajista taustamuuttujien suhteen paljon ja pieni silloin, kun vastauskato on taustamuuttujien suhteen satunnaista. R-indikaattori R(p) lasketaan kaavalla: jossa S(p) on mallinnetun propensiteetin keskihajonta. (Bethlehem et al. 2008.) Kun vastaustodennäköisyyttä mallinnetaan rekistereistä poimittavilla taustatiedoilla, saadaan estimoitujen propensiteettien keskihajonnaksi 0,113 ja R-indikaattorin arvoksi 0,775, jota voidaan pitää verrattaen hyvänä arvona, mutta kertoo kuitenkin estimaattien edellyttävän aineiston painottamista. Barometriaineiston edustavuustarkastelun suuri paradoksi on siinä, että opiskelijarekisteriaineiston käyttö tekee muihin vastaaviin tarkasteluihin nähden poikkeuksellisen perusteellisen edustavuustarkastelun mahdolliseksi. Aineisto näyttäisi muihin vastaaviin tiedonkeruihin nähden erityisen edustavalta, jos edustavuutta tarkasteltaisiin vain iän, alueen ja sukupuolen suhteen, sillä yleensä väestörekistereistä tehdyn otannan edustavuustarkastelu jää muutamaan de- ikään, sukupuoleen, siviilisäätyyn ja johonkin aluemuuttujaan), kun barometrin edustavuustarkastelussa niitä oli seitsemän (ikä, sukupuoli, korkeakoulu, opintoala, opintopistekertymä, tutkintotaso ja opintojen aloitusvuosi). Edustavuusindikaattorin arvo siis näyttäisi siten paremmalta, jos käytettävissä olisi yhtä vähän vastaajia vastaamattomista erottelevaa tietoa kuin mitä yleisesti on käytettävissä. Siksi R-indikaattoria tulkittaessa on erityisen tärkeää huomioida, että R-indikaattori toimii ensisijaisesti tiedonkeruun laadunvarmistuksena ja eri kyselyiden R-indikaattorit ovat vertailukelpoisia silloin, kun ne perustuvat samojen taustatietojen käyttöön (Schouten et al. 2011). Toisaalta tarkempi vastauskadon mallinnus luo entistä paremmat edellytykset vastauskadon vinouman korjaamiseen painotusmenetelmillä ja juuri käytettävissä olevan tiedon määrä tekee estimaattien vinoutuneisuuden korjaamisesta aikaisempia opiskelijatiedonkeruita huomattavasti tehokkaampaa.
TAULUKKO 3. MIESTEN JA NAISTEN VASTAUSPROSENTIN SEKÄ AINEISTON EDUSTAVUUTTA MITTAAVAN R-INDIKAAT- TORIN KEHITYS MUISTUTUSKIERROKSILLA. Ensimmäinen kyselykutsu Ensimmäinen muistutus Postimuistutuksen jälkeen Miesvastaajia Miesten Naisten Naisvastaajia vastausprosentti Vastausprosentti R-indikaattori 327 18,29 % 715 31,03 % 0,781 476 26,62 % 996 43,23 % 0,758 531 29,70 % 1049 45,53 % 0,775 TAULUKKO 4. LOPULLINEN TUTKIMUSOTOS ILMAN PAINOTUSTA SEKÄ ASETELMA- JA VASTAUSKATOPAINOTUKSELLA SUHTEESSA TODELLISEEN OPINTOALAKOHTAISEEN OPISKELIJAMÄÄRÄÄN. Asetelma- Asetelma- Todellinen Korjaamaton paino- korjattu katokorjattu ja vastaus- opiskelijamäärä* otos otus otos N % N % N % % Eläinlääketieteellinen koulutus 8 0,5 % 8 0,5 % 7 0,4 % 0,3 % Farmasian koulutus 26 1,6 % 26 1,6 % 22 1,4 % 1,1 % Hammaslääketieteellinen koulutus 5 0,3 % 5 0,3 % 4 0,3 % 0,7 % Humanistinen koulutus 217 13,7 % 225 14,2 % 185 11,7 % 15,2 % Kasvatustieteellinen koulutus 155 9,8 % 160 10,1 % 159 10,1 % 9,0 % 17 Kauppatieteellinen koulutus 153 9,7 % 168 10,6 % 201 12,7 % 13,4 % Liikunta/terveystieteellinen koulutus 51 3,2 % 52 3,3 % 48 3,0 % 1,3 % Luonnontieteellinen koulutus 208 13,2 % 215 13,6 % 189 11,9 % 14,6 % Lääketieteellinen koulutus 57 3,6 % 59 3,7 % 52 3,3 % 2,9 % Maatalous-metsätieteellinen koulutus 51 3,2 % 52 3,3 % 43 2,7 % 2,1 % Musiikkialan koulutus 14 0,9 % 9 0,6 % 16 1,0 % 0,8 % Oikeustieteellinen koulutus 64 4,1 % 66 4,2 % 62 3,9 % 2,9 % Psykologian koulutus 12 0,7 % 12 0,8 % 12 0,8 % 1,0 % Taideteollinen koulutus 33 2,1 % 34 2,2 % 40 2,5 % 2,0 % Tanssi- ja teatterialan koulutus 5 0,3 % 5 0,3 % 4 0,3 % 0,2 % Teknillistieteellinen koulutus 279 17,7 % 235 14,9 % 299 18,9 % 19,4 % Teologinen koulutus 36 2,3 % 37 2,3 % 33 2,1 % 1,7 % Yhteiskuntatieteellinen koulutus 205 13,0 % 212 13,4 % 202 12,8 % 11,2 % *Lähde: Tilastokeskus
18 Taulukossa 4 on esitetty vastauskadon ja otanta-asetelman huomioivan painotuksen vaikutus aineiston reunajakaumiin koulutusalan osalta. Asetelma- ja vastauskatokorjatun aineiston koulutusalakohtainen jakauma on hyvin lähellä tilastokeskuksen opiskelijatilaston (SVT 2013) jakaumaa. Pienet erot todellisen koulutusalakohtaisen opiskelijamäärän ja aineiston välillä johtuvat käytännössä siitä, että tutkimuksen ulkopuolelle rajattiin sellaiset opiskelijat, jotka eivät kolmen viimeisen vuoden aikana ole tosiasiallisesti opiskelleet ja todellinen opiskelijoiden aktiivisuus vaihtelee koulutusaloittain. Ammattikorkeakoulut Ammattikorkeakoulujen osalta ensimmäinen valtakunnallinen opiskelijabarometri jäi sille asetetuista tavoitteista. Neljä merkittävää ammattikorkeakoulua (Tampereen, Kymenlaakson, Satakunnan sekä Mikkelin AMK:t) jäi yrityksistä huolimatta tiedonkeruun ulkopuolelle, mikä näkyy lopullisen otoskoon pienuutena suhteessa yliopistoissa toteutettuun tiedonkeruuseen. Ammattikorkeakouluopiskelijoille suunnattu kysely lähetettiin yhteensä 2245 opiskelijalle, joista 658 vastasi kyselyyn vastausprosentin ollessa näin 29,3. Näin ollen aineiston yleistettävyys ammattikorkeakouluopiskelijoiden perusjoukkoon ei yllä samalle tasolle yliopisto-opiskelijoiden tiedonkeruun suhteen. Yleistettävyys ei olisi aineiston osalta edes ajateltavissa, jos ajatellaan, ettei tutkimuksen ulkopuolelle jättäytyneiden ammattikorkeakoulujen opiskelijoilla ollut mahdollisuutta päätyä tutkimusotokseen. Todellisuudessa tämä mahdollisuus kuitenkin oli, sillä kaikille korkeakouluille osoitettiin opiskelijarekistereihin suunnattu tietopyyntö, joka toteutettiin täsmälleen samalla muotoilulla samana ajankohtana. Käytännössä neljän korkeakoulun jääminen tiedonkeruun ulkopuolelle johtui siitä, että ammattikorkeakoulujen käytännöt opiskelijarekistereihin suunnatuille tietopyynnöille vaihtelivat korkeakoulukohtaisesti tavalla, jota Otuksen tutkijat eivät tiedonkeruun suunnittelussa osanneet riittävästi huomioida. Hieman laveaa tulkintaa seuraten olisi kuitenkin mahdollista pitää ammattikorkeakouluopiskelijoille suunnattua kyselyä menetelmällisesti kaksivaiheisena ryväsotantana, jossa tutkimukseen valikoitui ensin joukko ammattikorkeakouluja, joista toteutettiin seuraavaksi satunnaisotos opiskelijoista. Tulkinta on ongelmallinen ja vaatisi aineistosta tehtävien analyysien osalta monimutkaisen otanta-asetelman (ks. esim. Lehtonen & Pahkinen 2004) huomioimisen tilastollisten ajojen yhteydessä, mitä ei tämän tutkimusjulkaisun puitteissa ollut mahdollista tehdä. Ammattikorkeakouluopiskelijoita koskeviin tuloksiin on siten syytä suhtautua varauksella. Taulukossa 5 on esitetty ammattikorkeakouluopiskelijoiden määritelmällinen perusjoukko opiskelijamäärittäin eri ammattikorkeakouluissa sekä niissä toteutettu tiedonkeruu tutkimusotoksen, vastaajamäärän ja toteutuneen vastausprosentin osalta. Tutkimuksen otanta-asetelma on huomioitu korkeakoulun tasolla niin, että opiskelijoiden toisistaan vaihtelevat sisältymistodennäköisyydet otokseen korjataan aineistossa otanta-asetelman painotuksella. Kyselyn vastausprosentti vaihteli ammattikorkeakoulujen välillä jossain määrin enemmän kuin yliopistojen kohdalla. Parhaiten kyselyyn vastasivat Jyväskylän ammattikorkeakoulun opiskelijat vastausprosentin jäädessä heikoimmaksi Kajaanin ammattikorkeakoulun opiskelijoiden osalta. Otokseen poimituista miehistä kyselyyn vastasi noin joka neljäs (25,1 %) ja naisista 39,0 %, mikä selittää osaltaan ammattikorkeakoulukohtaista vaihtelua vastausaktiivisuudessa. Vastauskadon aiheuttamaan aineiston vinoutumiseen pyrittiin vastaamaan tiedonkeruuvaiheessa samalla periaatteella kuin yliopisto-opiskelijoiden kohdalla. Linkki nettikyselyyn oli auki kolme viikkoa, jonka jälkeen tutkimuksen kyselylomake postitettiin 500 sellaiselle vastaajalle, jotka olivat tiedonkeruun tässä vaiheessa huonoiten edustettuina aineistossa. Vastauskadon painotus perustuu ammattikorkeakoulujen opiskelijarekistereistä saatuihin taustatietoihin sillä taustaoletuksella, että tut-
TAULUKKO 5. TUTKIMUKSEN PERUSJOUKKO, TUTKIMUSOTOS SEKÄ VASTAAJAMÄÄRÄT KORKEAKOULUITTAIN. Perusjoukko Joista mie- Tutkimuso- Vastan- Vastaus- Design / amk hiä tos N neita prosentti Weight Ammattikorkeakoulut yhteensä 46,8 % 2245 658 29,3 % 1,00 Arcada-Nylands svenska yrkeshögskola 43,3 % 52 20 38,5 % 0,74 Diakonia-ammattikorkeakoulu 16,3 % 70 17 24,3 % 0,73 Haaga-Helia ammattikorkeakoulu 40,6 % 212 69 32,5 % 0,76 Humanistinen ammattikorkeakoulu 21,3 % 50 13 26,0 % 0,49 Hämeen ammattikorkeakoulu 50,0 % 55 20 36,4 % - Högskolan på Åland 598 66,4 % - - - - Jyväskylän ammattikorkeakoulu 49,8 % 167 79 47,3 % 0,64 Kajaanin ammattikorkeakoulu 50,1 % 45 9 20,0 % 0,76 Kemi-Tornion ammattikorkeakoulu 45,1 % 62 18 29,0 % 0,70 Keski-Pohjanmaan ammattikorkeakoulu 48,4 % 52 15 28,8 % 1,12 Kymenlaakson ammattikorkeakoulu 46,0 % - - - - Lahden ammattikorkeakoulu 40,1 % 112 26 23,2 % 0,75 Laurea-ammattikorkeakoulu 33,5 % 162 56 34,6 % 0,75 Metropolia ammattikorkeakoulu 56,2 % 360 103 28,6 % 0,72 Mikkelin ammattikorkeakoulu 46,3 % - - - Oulun seudun ammattikorkeakoulu 48,4 % 168 45 26,8 % 0,76 Pohjois-Karjalan ammattikorkeakoulu 49,7 % - - - - Poliisiammattikorkeakoulu 75 85,3 % - - - - 19 Rovaniemen ammattikorkeakoulu 50,5 % 71 21 29,6 % 0,76 Saimaan ammattikorkeakoulu 42,2 % 67 17 25,4 % 0,74 Satakunnan ammattikorkeakoulu 48,9 % - - - - Savonia-ammattikorkeakoulu 45,4 % 143 41 28,7 % 0,74 Seinäjoen ammattikorkeakoulu 47,5 % 105 33 31,4 % 0,77 Tampereen ammattikorkeakoulu 50,5 % - - - - Turun ammattikorkeakoulu 48,5 % 66 14 21,2 % 2,35 Vaasan ammattikorkeakoulu 54,5 % 78 22 28,2 % 0,75 Yrkeshögskolan Novia 51,2 % 83 20 24,1 % 0,75 kimuksen perusjoukon muodostavat vain tutkimukseen osallistuneet korkeakoulut. Siten ammattikorkeakouluopiskelijoiden aineistosta tehtävien tulkintojen yhteydessä lukijan on pysyttävä kriittisenä, sillä aineisto on puuttuvien korkeakoulujen sekä niiden edustamien koulutusalojen suhteen edelleen vinoutunut. Tunnistemuuttujat ja aineiston anonymisointi Vastaajan tunnistetietoja sisältävää tutkimusaineistoa ei missään tutkimuksen vaiheessa luovutettu muille kuin tutkimuksesta ensisijaisesti vastaaville tahoille. Tiedonkeruun jälkeen tunnistetietoja on säilytetty ainoastaan sellaisilta vastaajilta, jotka ovat erikseen anta-
20 neet Otuksen tutkijoille luvan mahdollisten jatkokyselyiden toteuttamiseen. Yksi tällainen jatkokysely toteutettiin keväällä 2013 yhteistyössä Opiskelijoiden liikuntaliiton kanssa. Kyselyn tarkoituksena oli kartoittaa opiskelijoiden liikuntatottumuksia sekä korkeakoululiikunnan nykytilaa Suomessa. Tämän tutkimusraportin valmistuttua tiedonkeruun tutkimusrekisteristä hävitetään kaikki vastaajien tunnistetiedot ennen kuin aineisto saatetaan muiden tutkijoiden hyödynnettäväksi Tampereen yhteiskuntatieteellisen tietoarkiston kautta. Aineiston anonymisoinnissa kiinnitetään erityistä huomiota siihen, ettei siitä pystytä tunnistamaan pienten korkeakoulujen pienten opintoalojen opiskelijoita. Käytännössä tiedot vastaajan koulutusohjelmasta pelkistetään tiedekunta- tai koulutusalatasolle. Barometrin tilasto-osion toteuttamisesta Tutkimuksen tiedonkeruu toteutettiin ositettuna satunnaisotantana, joka jäi valitettavista syistä johtuen ammattikorkeakouluopiskelijoiden osalta vajaaksi neljän ammattikorkeakoulun jäädessä tutkimuksen ulkopuolelle. Ositettu otanta on barometrin kannalta luonteva tiedonkeruuratkaisu, sillä korkeakouluopiskelijoiden tiedot ovat saatavissa ensisijaisesti ja ajantasaisesti oman korkeakoulun opiskelijarekisteristä. Ositetulla otannalla voidaan samalla varmistaa, että tutkimusotokseen saadaan edustus myös pienistä korkeakouluista, jotka voisivat yksinkertaisessa satunnaisotannassa jäädä vaille vastaajia. Perustutkinto-opiskelijan ensisijaisen opinto-oikeuden mukaan määritelty korkeakoulu muodostaa siten aineiston ositusrakenteen. Tilastollisen päättelyn osalta ositettu otanta periaatteessa tehostaa estimointia, sillä tutkimuksellisesti relevantti ositus takaa aineiston edustavuuden (tässä tapauksessa korkeakoulukohtaisen) paremmin kuin yksinkertainen satunnaisotanta (Lehtonen & Pahkinen 2004). Estimointi on luotettavampaa silloin, kun tutkittava ilmiö on yhteydessä korkeakouluun tai siihen välittömästi liittyvään latenttiin muuttujaan (esimerkiksi alue tai opiskeltava ala), josta opiskelija on poimittu. Toisaalta tilanteessa, jossa opiskelijoiden sisältymisen todennäköisyys otokseen vaihtelee merkittävästi korkeakouluittain, estimointi on vastaavasti hieman tehottomampaa. Tiedonkeruun otanta-asetelma otetaan huomioon barometrin tilasto-osiossa siten, että kaikki siihen liittyvät tilastolliset tarkastelut suoritetaan SPSS-ohjelman Complex Surveys moduulilla niin, että tilastollisten luottamusvälien laskennassa hyödynnetään aineiston ositerakennetta, jossa on mukana tieto vastaajan sisältymistodennäköisyydestä otokseen. Tulosten kannalta tämä tarkoittaa sitä, että ne ovat huomattavasti luotettavampia verrattuna sellaisiin tilastollisiin ajoihin, joissa otanta-asetelmaa ei olisi huomioitu. Aineistoon liittyvä tilastollinen epävarmuus on siten hallittavissa, ja tilastollisten virhepäätelmien riski on huomattavasti pienempi verrattuna tilanteeseen, jossa väärin lasketut luottamusvälit tuottavat liian tarkkoja estimaatteja. Tulosten luotettavuus tarkoittaa tilastotieteessä usein niiden epätarkkuutta (ja sen hyväksymistä), mikä hämmentää helposti tarkkaavaistakin lukijaa. Yliopisto-opiskelijoiden osalta puolestaan osituksen positiivinen vaikutus tehokkaaseen otoskokoon on suurin piirtein yhtä suuri kuin korkeakoulukohtaisesti hieman toisistaan vaihtelevien sisältymistodennäköisyyksien negatiivinen vaikutus. Estimaatit ovat yliopisto-opiskelijoiden osalta siis suurin piirtein yhtä tarkkoja, kuin mitä yksinkertaisen satunnaisotannan tilanteessa samalla otoskoolla pystyttäisiin saavuttamaan. Tilasto-osion kuvioissa ja taulukoissa on pääsääntöisesti tutkittu tilastollisten erojen merkitsevyyttä korkeakoulusektorien opiskelijoiden välillä. Ristiintaulukoinnin osalta otanta-asetelma on huomioitu tilastollisten testisuureiden Rao Scott-korjauksella (Rao & Scott 1987), joka raportoidaan kuvioissa ja taulukoissa vain tilastollisen merkitsevyyden osalta niissä muuttujatarkasteluissa, joissa ero yliopisto- ja ammattikorkeakouluopiskelijoiden välillä pystytään osoittamaan. Todellisten erojen täytyy käytännössä olla melko suuria tilastollisesti merkitsevien erojen havaitsemiseksi, sillä tilastollinen epävarmuus ammattikorkeakouluopiskelijoiden aineistossa on huomattavan suurta.
Kirjallisuus Bethlehem, J., Cobben, F. & Schouten, B. 2008. Indicators for the Representativeness of Survey Response. Proceedings of the Statistics Canada Symposium 2008, Gatineau, Canada. Carlson, B L. & Williams, S 2001. A Comparison of Two Methods to Adjust Weights for Non-Response: Propensity Modeling and Weighting Class Adjustments. Proceedings of the Annual Meeting of the American Statistical Association, August 5-9 2001. Cranford, J. A., McCabe, Sean E., Boyd, C. J., Slayden, J., Reed, M. B., Ketchie, J. M., Lange, J., E. & Scott, M. S. 2008. Reasons for nonresponse in a web-based lege students. Addictive Behaviors. 33 (1) 2008, s. 206 210. European Social Survey 2012. ESS Round 5 (2010/2011) Technical Report. Centre for Comparative Social Surveys, City University London: Lontoo. Groves, R. M. & Peytscheva, E. 2008: The Impact of Nonresponse rates on Nonresponse Bias. Public Opinion Quarterly, 72 (2), s. 167-189. Groves, R. M., Fowler, F. J., Couper, M. P., Lepkowski, J M; Singer, E. & Tourangeau, R. 2004. Survey Methodology (second edition). Wiley & Sons: New Jersey. Kypria, K., Samaranayakab, A., Connor, J., Langley, J. D. & Maclennan, B. 2011. Non-response bias in a web-based health behaviour survey of New Zealand tertiary students. Preventive Medicine. 53, (4 5) 2011, s. 274 277. Laaksonen, S. 2006. Does the choice of link function matter in response propensity modelling? Model Assisted Statistics and Applications, An International Journal, 1 (2) 2005/2006. s. 95 100. IOS Press. Lehtonen, R & Pahkinen, E 2004: Practical Methods for Design and Analysis of Complex Surveys. (second edition). John Wiley & Sons: New Jersey. Peress, M. 2010. Correcting for Survey Nonresponse Using Variable Response Propensity. Journal of the American Statistical Association. 105 (492) 2010. Rao, J. N. K. & Scott, A J. (1987): On Simple Adjustments to Chi-Square Tests with Sample Survey Data. The Annals of Statistics 15 (1) 1987, s. 385-397. Schouten, B., Shlomo, N. & Skinner, C. 2011. Indicators for Monitoring and Improving Representativeness of Suomen virallinen tilasto (SVT 2013): Yliopistokoulutus [verkkojulkaisu]. ISSN=1799-0599. Helsinki: Tilastokeskus [viitattu: 13.5.2013]. Saantitapa: http://www. 21