Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen

Samankaltaiset tiedostot
Helsingin yliopisto, Syksy 2009 Seppo Laaksonen

Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen

Sosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen

Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen

PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti

Surveymetodiikka Helsingin yliopisto, Syksy 2011 Seppo Laaksonen

Webropol-kyselyt. Tarja Heikkilä

Mittariston laatiminen laatutyöhön

Imputoi puuttuvat kohdat

Kysyminen ja vastaaminen kommunikaationa. Petri Godenhjelm Metodifestivaalit 2015

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

Tiedonkeruu ja lomakesuunnittelu

Otannasta ja mittaamisesta

Dnro 92/07/70/702/ (5) Kysymykset tarjouspyynnöstä ja tilaajan tarkennukset tarjouspyyntöön

Kyselylomakkeiden käyttötapoja:

Kuluttajien tutkiminen 23C580 Kuluttajan käyttäytyminen Emma Mäenpää

OHJE 1 (5) VALMERI-KYSELYN KÄYTTÖOHJEET. Kyselyn sisältö ja tarkoitus

Käsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti

Luentotesti 3. Kun tutkimuksen kävelynopeustietoja analysoidaan, onko näiden tutkittavien aiheuttama kato

Tutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen

OLESKELUKORTTIHAKEMUS Unionin kansalaisen perheenjäsen tai muu omainen, joka ei itse ole unionin kansalainen (ei koske Pohjoismaiden kansalaisia)

Mielipidemittaus maailman muutoksen kuvaajana

Tentti erilaiset kysymystyypit

pitkittäisaineistoissa

Tietoja ulkomaalaisista lääkäreistä Suomessa. Lääkäriliitto, Terveyden ja hyvinvoinnin laitos, Työterveyslaitos ja Työsuojelurahasto

YLEISKUVA - Kysymykset

Kuinka tasa-arvoinen ruotsinsuomalainen nainen/mies on kotona?

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula

EUROOPAN UNIONIN KANSALAISEN OLESKELUOIKEUDEN REKISTERÖINTI (ei koske Pohjoismaiden kansalaisia)

YHDYSKUNTATEKNISET PALVELUT 2018 Kyselytutkimuksen tulokset Kuopio Heikki Miettinen & Jarno Parviainen

pitkittäisaineistoissa

Pohjoismainen työturvallisuusilmapiirikyselylomake

KVANTITATIIVINEN TUTKIMUS

Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.

YHDYSKUNTATEKNISET PALVELUT 2016 Kyselytutkimuksen tulokset 27 kunnassa Kuopio Heikki Miettinen

LIITE. komission täytäntöönpanoasetus (EU)

KiVa Koulu tilannekartoituskysely 2016 Koulupalaute: Henrikin koulu

KiVa Koulu tilannekartoituskysely 2014 Koulupalaute: Tiirismaan peruskoulu

Suvi Junes Tampereen yliopisto / Tietohallinto 2013

Surveymetodiikka Helsingin yliopisto, Syksy 2012 Seppo Laaksonen

European Social Survey Miten tiedot kerättiin? Marko Ylitalo Metodifestivaalit, Tampere

Google Forms kyselyiden teko-ohje

Sosiaalisten verkostojen data

Parlametri Euroopan parlamentin Eurobarometri (EB/PE 78.2)

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Ulkoilututkimus Luonnon virkistyskäytön valtakunnallinen inventointi, LVVI2 -tutkimus

Rodun lisääntymistilanteen selvittäminen. Tampere Outi Niemi

O2: Psykografinen profilointityökalu

b) Määritä myös seuraavat joukot ja anna kussakin tapauksessa lyhyt sanallinen perustelu.

1. Onko terveytenne yleisesti ottaen... (ympyröikää yksi numero) 1 erinomainen 2 varsin hyvä 3 hyvä 4 tyydyttävä 5 huono

Kuluttajabarometri: taulukot

Tehyn. avain- sanat. päättäjille

Suvi Junes Tampereen yliopisto / Tietohallinto 2012

KiVa Koulu tilannekartoituskysely 2014 Koulupalaute: Joensuu

ESOMAR-terveiset. Maris Tuvikene. Tuvikene Maris Julkinen 1

Rastita se vaihtoehto, joka parhaiten kuvaa omaa mielipidettä asiasta

Kuluttajabarometri: taulukot

Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011

Ma Tänään rapistelemme ja mittailemme sanomalehteä.

Harjoitukset 4 : Paneelidata (Palautus )

LAADULLISESTA SISÄLLÖNANALYYSISTÄ

Turvallisuuskysely. Erikoissuunnittelija Markus Alanko, rikoksentorjuntaneuvoston sihteeristö

Metsäpirtin multa. Asiakastyytyväisyyskysely 2015

Turvallisuuskysely. Pääsihteeri Jukka-Pekka Takala Erikoissuunnittelija Markus Alanko rikoksentorjuntaneuvoston sihteeristö

Tentti erilaiset kysymystyypit

Kevään 2010 fysiikan valtakunnallinen koe

Joukot. Georg Cantor ( )

+ + PERHESELVITYSLOMAKE PUOLISOLLE JOKA ON SUOMEN KANSALAINEN

Kyselytutkimus. Yleistä lomakkeen laadinnasta ja kysymysten tekemisestä - 1. Yleistä lomakkeen laadinnasta ja kysymysten tekemisestä - 2

Monitasomallit koulututkimuksessa

SAS-ohjelmiston perusteet 2010

Kuluttajabarometri: taulukot

EI MIKÄÄN NÄISTÄ. KUVITETTU MINI-MENTAL STATE EXAMINATION Ohjeet viimeisellä sivulla. 1. Mikä vuosi nyt on? 2. Mikä vuodenaika nyt on?

Lapsiuhritutkimus - arat aiheet kyselytutkimuksissa Noora Ellonen Tutkija Poliisiammattikorkeakoulu

+ + PERHESELVITYSLOMAKE PUOLISOLLE JOKA ON SUOMEN KANSALAINEN

Tieliikenteen tavarankuljetukset

Aineiston keruun suunnittelu ja toteutus. Tero Vahlberg

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Epävarmuuden hallinta bootstrap-menetelmillä

Pro gradu -tutkielmien arvostelu maantieteessä

Tuen tarpeen tunnistaminen. Lukemisen ja kirjoittamisen ryhmäarviointi. Esitysohjeet opettajalle. toinen luokka syksy

Parlametri Euroopan parlamentin Eurobarometri (EB/PE 78.2)

Hyvinvointikyselyjen toteuttaminen sähköisesti oppilaitoksissa

YHTEYSTIETOJEN HAKU. Automaattihaku. Manuaalihaku

huoltajasi vastaukset käyttäjätunnusten perusteella. Vastauksesi eivät kuitenkaan tule esimerkiksi opettajiesi tai huoltajiesi tietoon.

Kysely seksuaalirikosten uhrien läheisille 2018

Suomen MarkkinointiTutkimusSeura Ilkka Rainio

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

NURMIJÄRVEN SOSIAALI - JA TERVEYSLAUTAKUNNAN TOIMINTAMALLIN ARVIOINTI. SoTe-lautakunta

Iän vaikutus itsetuntoon

Palaute. Asetukset: Nimeä palaute ja kirjoita kuvaus tai ohjeet.

Nimi: Opnro: Harjoitustyön suoritus: ( ) syksy 2006 ( ) syksy 2005 ( ) muu, mikä. 1. Selitä seuraavat termit muutamalla virkkeellä ja/tai kaaviolla:

Kuluttajabarometri: taulukot

Kuluttajabarometri: taulukot

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

T rw, Internetpaneel + Omnobusi tammikuu 2008 KUULE OY

Kysymystyypit. Tentin kysymystyypit. Monivalinta

ESS-KONTAKTILOMAKE tutustumista varten

Kuluttajabarometri: taulukot

Tilastollisen tutkimuksen vaiheet

Transkriptio:

Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen): Laaksonen, Seppo (2009). Surveymetodiikka. Kurssimateriaali. Matematiikan ja tilastotieteen laitos, Helsingin yliopisto. Saatavana tekijältä. 17.9.2009 SurveyMetodiikka 2009 Seppo 1

Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin sisältyy keskustelua, pieniä ryhmätöitä ja kysymyksiä: TI 08.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIV TI 15.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XV TO 17.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIII TI 22.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XV TO 24.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIII TI 29.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XV TO 08.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XIII TI 13.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XV TO 15.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XIII Luennot pidetään suurin piirtein yhteen menoon, tarvittaessa pieni hengähdystauko. Istunto päättyy siten hieman yli puoli seitsemän. 17.9.2009 SurveyMetodiikka 2009 Seppo 2

Atk-luokka Kumpulan ekakerroksessa (C128) on varattu ke 16.9. - 23.9. klo 14-16 sekä ke 7.10. - 14.10. klo 14-16 ja ma 14.9.- 28.9. klo 16-18 sekä ma 12.10. klo 16-18. Tällöin on mahdollisuus harjoitella muutamia kurssin aiheita ohjelmiston avulla. Ensimmäisellä kerralla tutustutaan ohjelmistoihin eli SAS:iin ja SPSS:ään (mahdollisesti hieman Exceliä). Sellaiset jotka jo hallitsevat perusteet, voivat jättää sen väliin. Tarkoitus on, että osanottaja osallistuu ainakin neljään-viiteen harjoituskertaan tai toteuttaa vastaavia asioita omina aikoinaan mutta raportoi tulokset Sepolle. 17.9.2009 SurveyMetodiikka 2009 Seppo 3

Sulkava 11.7.2009 Mahtaisiko surveyllä ja kirkkovenesoudulla olla jotain yhteistä? 17.9.2009 SurveyMetodiikka 2009 Seppo 4

Surveymetodiikka - ajatellut aihepiirit 1 : Johdantoa, surveyn käsite, lomake, tapausesimerkkien esittely (niitä jatketaan myöhemmissä osioissa) 2 : Surveyaineiston käsitteet, otanta, ryvästyminen ja otanta, perusestimointia 3 : Puuttuneisuus ja sen seuraukset, otoskoko 4 : Datan editointi ja imputointi, painotusmenetelmiä lisää 5 : Data-analyysiä, keskiarvoja, taulukoita ja malleja, Liitteet (ilmestyvät myöhemmin erillisesti nettiin): 1. Skaalat, muunnokset, suhteellisuus ja indikaattorit 2. Uusien aineistojen muodostaminen yhdistelemällä 17.9.2009 SurveyMetodiikka 2009 Seppo 5

Mikä on survey? 1 Surveytutkimuksella tai surveyllä tarkoitan kyselyä tai tiedustelua, jossa tiedon antaa tai siitä vastaa ihminen. Se ei tule siis suoraan esimerkiksi koneesta. Tiedon ei toki tarvitse koskea ihmistä itseään, vaan kysymykseen tulevat esimerkiksi yritys, kunta, jokin muu maantieteellinen alue tai ihmisten muodostama kokonaisuus kuten kotitalous tai perhe sekä myös ihmisen jokin osa. Tämä on varmaankin hieman epämääräinen määritelmä, mutta selkenee kurssin aikana. Yleisesti ottaen oma määritelmäni on laaja, laajempi kuin monen muun. Siten esimerkiksi väestörekisteri on minusta surveytietoa, sillä se kerätään ihmisten itsensä (vaikkapa muuttoilmoitus) tai heidän edustajiensa (syntymän tai kuoleman tai avioliiton vahvistaja) kautta. Kun se on rekisterissä, se ei ehkä enää näytä surveytiedolta mutta on sitä. Tällainen rekisteritieto on periaatteessa täysin oikeata mutta takeita ei ole onko se päivitetty ajan tasalle. Asenteita tai muuta ei-faktatietoa sen sijaan ei rekisteröidä eikä vastaaja itse aina muistane jälkeenpäin mitä on kertonut kyselijälle esimerkiksi koskien sitä, kuinka kauan aikaa on käyttänyt television ajankohtaisohjelmien katseluun viime aikoina? 17.9.2009 SurveyMetodiikka 2009 Seppo 6

Alphabetic List of Variables and Attributes # Variable Type Len Format Informat Label 42 AALUE Char 4 Äänestysalue 57 AEPV Char 8 Avioeropäivä 14 AMMS Char 35 Ammattinimike 53 BLKM Char 2 Biol. lasten lkm 9 EDKANS Char 3 Edellinen kansalaisuus 50 EKATUOS Char 50 Edell. katuosoite 51 EKATUOSN Char 7 Edell. osoitenumero 17 EN Char 50 Etunimet 52 EPOSNO Char 5 Edell. postinumero 16 ESN Char 20 Entinen sukunimi 2 HT Char 11 Henkilötunnus 28 HUKO Char 2 Huoneiston käytössäolo 31 HUONEL Char 2 Huoneluku 29 HUPA Char 3 Huoneiston pinta-ala 27 HUPE Char 1 Huoneistotiet. peruste 40 HUTIVAR Char 5 Huoneiston varusteet 30 HUTY Char 1 Huoneistotyyppi 35 IKOORD Char 6 I-koordinaatti 6 KANS1 Char 3 Kansalaisuus 7 KANS2 Char 3 Kansalaisuus - 2 8 KANS3 Char 3 Kansalaisuus - 3 10 KANSS Char 10 Kansalais. selväkielisenä Alkuosa Väestöreskisterin muuttujista 17.9.2009 SurveyMetodiikka 2009 Seppo 7

Mikä on survey? 2 Survey-aineiston kuten monen muunkin tilastoaineiston keruussa hyödynnetään yleisesti otantaa. Tämä merkitsee sitä, että ainakin osa aineiston tilastoyksiköistä on poimittu otannalla. Otannan käytön luonnollisia syitä ovat kustannusten pienentäminen ja tietojen nopeampi käyttöönotto sekä myös, että tutkittava joukko eli perusjoukko on usein epätarkasti etukäteen hahmotettavissa, ja tiedot siitä kerättävissä. Kaikissa tilanteissa kuitenkin tavoitteena on tuottaa tuloksia jonkin perusjoukon tasolle. Tilastotieteen näkökulmasta tässä on kysymys estimoinnista. Estimointi pitää olennaisena osana sisällään myös tuloksen eli estimaatin epävarmuuden mittaamisen (keskivirhe, luottamusväli, ). Kysely tai tiedustelu voidaan toteuttaa vaihtelevin välinein, kuten postitse, puhelimitse (sekä kiinteällä että kuljetettavalla), käyntihaastatteluin tai sähköisen viestimen kuten netin/webin avulla. Kaikissa tapauksissa vastaus pyrkii kuvaamaan halutun tilastoyksikön ominaisuuksia. Toki on kyselyjä, joissa ei ole erityisiä estimointitavoitteita mutta niistä en juurikaan puhu tällä kurssilla, ehkä joskus moitin. 17.9.2009 SurveyMetodiikka 2009 Seppo 8

Surveymetodiikka Keskeiset aineistot joita on ajateltu käytettävän (tilanne voi muuttuakin): -Irakin kuolleisuustutkimus (Iraq Mortality Survey) jonka kahden tiedoston kuvaus on erillisessä liitteessä. Harjoituksissa katsellaan datoja heti ensi kerralla. -Eurooppalaisen uhritutkimuksen pilotti jota Suomessa toteuttavat Heuni, Tilastokeskus ja HY (minä) jännittävällä otannalla. Tämä on monitahoinen myös siksi että kokeillaan sekä käyntihaastattelua että puhelinhaastattelua että nettiä. Ensi vaiheen harjoittelua varten toivon kaikkien lähtevän katsomaan nettikyselyn lomaketta kohteesta: http://digiumenterprise.com/answer/?sid=346211&chk=z5szhb6d Tästä tulee kaksi tehtävää: (i) Mainitse ainakin 3 kysymystä joihin on hankala vastata ja perustelu, (ii) Mainitse kaksi kysymystä joissa on huono kysymyksenasettelu ja kerro miten olisi parempi kysyä. LÄHETÄ vastaus s-postilla minulle mielellään ennen ensi viikon luentoa. -Historia-tietoisuus Suomessa projektin alkuvaihe -http://blogs.helsinki.fi/historiatietoisuus/ 17.9.2009 SurveyMetodiikka 2009 Seppo 9

Surveymetodiikka Keskeiset aineistot (jatkoa): - Kulutustutkimus jossa tiedot kerätään skannerilla ja lähetetään enemmän tai vähemmän automaattisesti aineiston käyttäjälle. Otoksessa mukana olevaa kutsutaan panelistiksi. Alkuosa tarinasta erillisenä liitteenä. - European Social Survey (ESS), ks. www.europeansocialsurvey.org: Lomakkeen tutkimiseen, otannan tarkasteluun, tiedoston luontiin ja analyysiin. Uudet tiedot tulevat nettiin syyskuun lopussa. - PISA (Programme for International Student Assessment of the OECD), ks. http://www.pisa.oecd.org/ Otantakin käydään läpi mutta painotus on analyysissä. Lisäksi esille otetaan sopiva yritysaineisto mikäli kiinnostusta ilmenee. 17.9.2009 SurveyMetodiikka 2009 Seppo 10

Surveymetodiikka Mahdollisia nettikyselytekniikkoja: - Edellä esitelty Uhritutkimuksen ohjelma Digium - Survey Monkey on vapaa väline lomakkeiden tekoon ja kyselyn toteuttamiseen. Katso netistä lisää. -Yliopistossa on ns. E-lomake jota on helppo käyttää myös nettikyselyissä ja käytetään mm. kurssien arvioinneissa. -https://alma.helsinki.fi/doclink/128157 17.9.2009 SurveyMetodiikka 2009 Seppo 11

Tiedonkeruu ja lomakesuunnittelu 1 Lomakkeella tarkoitetaan sen kaikkia muotoja, joita ovat: - paperinen postitiedustelussa käytetty itse täytettävä lomake, - paperinen haastattelijan kokonaan tai osittain täyttämä lomake (herkät kysymykset on usein hyvä pyytää täyttämään itse haastattelutilanteessakin tai lähettämään erikseen survey-organisaatiolle), - elektroninen haastattelijan täyttämä lomake (tässä haastattelija voi olla lähellä tai kaukana esimerkiksi puhelimen päässä), - vastaajan täyttämä elektroninen lomake kannettavalle tietokoneelle tms., josta se toimitetaan netitse ja postitsekin (vähenemään päin oltuaan varsin yleinen) survey-organisaatiolle, - nettilomake jonka vastaaja täyttää (tämä voi olla täysin avoin tai pääsy on vain otokseen valituille mikä on tietysti ainoa vaihtoehto laadukkaalle surveylle), - lomakkeen tiedot imuroidaan vastaajan tiedostoista automaattisesti (tietysti tähän on annettu lupa). 17.9.2009 SurveyMetodiikka 2009 Seppo 12

Tiedonkeruu ja lomakesuunnittelu 2 (engl. termejä) PAPI = Paper and Pencil Interview = Perinteinen haastattelu jossa haastattelija täyttää lomakkeen kirjoittamalla (ei enää Suomessa yleinen); kehitysmaissa lähes ainoa vaihtoehto. CAPI = Computer Assisted Personal Interview = Tässä haastattelija täyttää lomakkeen suoraan tietokoneelle, tietokoneohjelmassa voi olla esieditointi valmiina jolloin vastaukset ovat tiettyyn tasoon asti jo tarkistettuja. Face to Face Interview (f2f)= Käyntihaastattelu joka voi olla toteutettu PAPI:lla tai CAPI:lla ja jatkettu vaikka netillä tai postilla. CASI = Computer Assisted Self Interview = Itse täytettävä lomake jota tietokoneohjelma ohjaa; osin tarkistettu data; tämä voi olla toteutettu netissä tai omalla tietokoneella ja täyttämisen jälkeen lähetetty sähköpostina tai muuna elektronisena lähetteenä survey-insituuttiin. CATI = Computer Assisted Telephone Interview = Puhelimitse toteutettu kysely jossa haastattelija esittää kysymykset ja merkitsee vastaukset saman tien tiedostoon josta tulee osin tarkistettu. Tässä kyselyssä on usein valmiina myös automatiikka vastaajan valitsemiseksi. 17.9.2009 SurveyMetodiikka 2009 Seppo 13

Tiedonkeruu ja lomakesuunnittelu 3 (kv. termejä) TSI = Telephone Self Interview = Vastaaja soittaa pyydettyyn numeroon jossa automaatti esittää kysymyksen ja pyytää vastaamaan esimerkiksi numeroilla joiden ilmaisin ilmoitetaan sitä ennen. Tällaiset kyselyt eivät voi olla kovin laajoja. Tämä toteutetaan myös siten että annetaan eri numeroita eri vaihtoehdoille, jolloin riittää vain soittaa tähän numeroon. Suorissa TVohjelmissa näitä käytetään paljon ja annetaan ymmärtää että tästä saataisiin jotenkin luotettava kuva. Luotettavuus jää tosiasiassa täysin ilmaan. Postal Survey = Postikysely jossa lomake täytetään itse tavallisesti paperille tai vaihtoehtoisesti annetaan nettiosoite josta löytyy sama lomake. Mukana on myös kirjoittautumistunnus jotta tiedetään kuka vastaa ja vastaa vain kerran. Postikyselyssä on mukana kirjekuori johon vastaukset sijoitetaan. Web/Internet Survey = yleensä itse täytettävä lomake. Tässä voi olla otos annettuna etukäteen mutta sen kattavuus ei vielä tätä nykyä ole kovin hyvä edes Suomessa. Useat websurveyt siis eivät täytä yksistään kovin korkeita laatukriteerejä. Vielä epäselvempiä edustavuudeltaan ovat surveyt joihin websurfaajat vastaavat omasta tahdostaan yhden tai useamman kerran. CAI = Computer Assisted Interview joka siis kattaa useita edellisistä. 17.9.2009 SurveyMetodiikka 2009 Seppo 14

Tiedonkeruu ja lomakesuunnittelu 4 Peruskysymyksiä joihin on hyödyllistä vastata lomaketta laadittaessa: 1. Vastaako kysymys haluttuun tutkimusongelmaan? 2. Tuottaako kysymys hyödyllistä informaatiota kokonaisuutena, ottaen siis huomioon muut kysymykset ja analyysitarpeet? 3. Mahtavatko vastaajat ymmärtää kysymyksen siten kuin on tarkoitettu? 4. Onko vastaajilla riittävästi tietoa vastatakseen kysymykseen? 5. Ovatko vastaajat halukkaita vastaamaan annettuun kysymykseen? 6. Pitäisikö kysymys olla esitetty kaikille vain osalle kohdejoukkoa? 7. Onko olemassa muuta tietoa, joka auttaisi analysoimaan kysymykseen annettuja vastauksia (siis myös kysymyksen luotettavuutta)? Lähestymistapa tai tyyli on myös erinomaisen tärkeä. Jos esimerkiksi käytät postitiedustelua, on lähetekirjeeseen kiinnitettävä suuri huomio. Erityyppisille vastaajaryhmille voidaan käyttää myös erilaisia lähetekirjeitä. Jos kysely on suoraan kontaktiin perustuva, on myös huolella selvitettävä paras lähestymistapa. Käyntihaastattelussa on myös pukeutuminen tärkeätä. Vastausohjeistot itse vastattaviin kysymyksiin on tehtävä selkeiksi ja helposti löydettäviksi. Harva esimerkiksi rakastaa ohjeiden etsimistä liitteistä tai netistä. 17.9.2009 SurveyMetodiikka 2009 Seppo 15

Tiedonkeruu ja lomakesuunnittelu 5 Lomakkeen laajuus on eräs iso kysymys. Sen ei tule olla liian laaja eikä niin suppea ettei olennaista informaatiota saada käyttöön. Siis ota huomioon muun muassa seuraavia seikkoja: 1. Valitse mahdollisia kysymyksiä ja kysymyksen sisäisiä vaihtoehtoja huolellisesti. 2. Päätä myös huolellisesti mitkä kysymykset lopulta sisällytät kyselyyn. 3. Vastaako kysymys siihen mihin se on tarkoitettu vastaamaan (validiteetti)? 4. Sisällytä sopiva määrä kysymyksiä kuhunkin aihealueeseen ottaen huomioon myös reliabiliteettin (varmistusta siitä että vastaus on uskottava eli kysymys on oikein ymmärretty ja vastaukset annettu vakavuudella). 5. Kuinka kauan lomakkeen täyttämiseen menee, olkoon se haastattelijan tai vastaajan itsensä täyttämä? - Vastaajalle on syytä kertoa etukäteen täytöstä johtuva vastausrasite. Mutta on myös otettava huomioon tiedon keruusta johtuva vastausrasite, mikä voi olla suurempi kuin lomakkeen täyttämisestä johtuva edellyttäen että annetaan mahdollisimman totuuden mukaista tietoa (koskee siis faktatietoja kuten tuloja ja kuluja). 17.9.2009 SurveyMetodiikka 2009 Seppo 16

Tiedonkeruu ja lomakesuunnittelu 6 Kysymysten järjestys on olennainen. Ota huomioon muun muassa: 1. Että ensimmäinen kysymys on hyvin tärkeä. Usein on hyvä, jos se on jo läheisesti itse tutkimuksen pääaiheeseen liittyvä, kiinnostava kysymys tai kysymyspatteristo. Aloituskysymyksen ei tulisi olla hankalasti vastattava. Luonnollisesti sen tulisi olla myös sellainen, että se koskee kaikkia eikä vain osaa kohdejoukosta. 2. Missä on sopiva taustakysymysten (sukupuoli ja ikä jolleivät ole muuten tiedettyjä, koulutus, ammatti) paikka? Joskus ne ovat heti aluksi, mutta hyvin usein varsin lopussa. Joskus on hyvä sijoittaa osa alkuun (kuten hyvin helposti vastattavat eivätkä herkät) ja osa loppuun (herkemmät kuten tulot). 3. Kussakin surveyssä tietyt asiat ovat keskeisessä roolissa, ainakin pitäisi olla. Siksi on erikseen tutkittava mikä olisi paras paikka näiden kysymiseksi. Väärä konteksti voi harhaistaa tuloksia. 17.9.2009 SurveyMetodiikka 2009 Seppo 17

Tiedonkeruu ja lomakesuunnittelu 7 Kysymyksiähän voi olla eri tyyppejä, mutta voidaan jakaa vain kahteenkin pääryhmään: 1. Tosiasioita, faktoja koskevat kysymykset. Näitä ovat mm. taustamuuttujat sekä kvantitatiivisia mittoja kuten tuloja ja liikevaihtoa koskevat tiedot. 2. Subjektiivisia näkökohtia koskevat kysymykset: asenteet, mielipiteet, arvioinnit ja tarkoitukset. Tosiasiakysymysten tarkistaminen on periaatteessa helpompaa, jollei täysin, niin ainakin suuruusluokan tasolla. Subjektiiviset tekijät voivat joskus muuttua nopeastikin ja siksi vastaustiedon tarkistaminen jonkin aikaa kyselyn jälkeen voi olla mahdotonta. Koska subjektiivisiin kysymyksiin liittyy suurempi epävarmuus, on hyvä laatia samasta aihepiiristä useampi kysymys. Tällöin puhutaan kysymyspatteristoista. Jatkossa tällaisesta patteristosta etsitään usein perusulottuvuudet, piilevät muuttujat, vaikkapa faktorianalyysillä, ja näin taas vähennetään varsinaisten analysoitavien muuttujien määrää. 17.9.2009 SurveyMetodiikka 2009 Seppo 18

Tiedonkeruu ja lomakesuunnittelu 8 Lomakkeissa voi olla vastausvaihtoehdot valmiina (ns. suljettu kysymys) tai vastaukset annetaan vapaassa muodossa (avoin kysymys) tekstinä tai numerona. Jatkuvatkin muuttujat kuten tulot kysytään joskus suuruusluokittain, ei siis antaen yhden vapaan mutta määrätyn mittaisen tilan vastattavaksi. Edellinen vaihtoehto voi herkän muuttujan (tulot, varallisuus) tapauksessa tuottaa paremmin vastauksia mutta toisaalta tietojen tarkkuustaso voi olla liian huono jatkoanalyyseihin. Näin on erityisesti jos viimeisellä vaihtoehdolla ei ole ylärajaa. Tämä siis aiheuttaa osittaisen puuttuvuuden aineistoon. Jos on kyse isoista luvuista, vaikkapa miljoonista, voi vastaajilla olla vaikeuksia hahmottaa suuruusluokkaa oikein. Eräs tapa on pyytää tietoa lyhyempänä, esimerkiksi tuhansina. Kummassakin tapauksessa voi tulla suuruusluokkavirhe. Lomakkeen tulee olla äärimmäisen selkeä tämän välttämiseksi. Jos tietoa kysytään hyvin tarkasti, esimerkiksi sadasosina (sentteinä), voidaan tämäkin ymmärtää väärin. Jollei tämä tarkkuus ole erityisen olennainen, on siitä paras luopua. 17.9.2009 SurveyMetodiikka 2009 Seppo 19

Tiedonkeruu ja lomakesuunnittelu 9 Valmiiden vastausvaihtoehtojen antaminen on luonnollisinta subjektiivisten kysymysten yhteydessä, edellyttäen että kysymys on validoitu niin hyvin että vaihtoehdot kuvaavat mahdollisia vastauksia riittävästi. Tällöin voidaan muuttuja ja siis kysymys muodostaa enemmän tai vähemmän yksityiskohtaisena. Joihinkin kysymyksiin riittää kaksi vaihtoehtoa kuten 1=kyllä ja 0=ei, mutta moniin asennetyyppisiin on hyvä käyttää järjestysasteikollista skaalaa. Ehkä yleisin käytetty on viisiluokkainen (1=erittäin huono, 2=huono, 3=tyydyttävä, 4=hyvä, 5=erittäin hyvä), mutta jotkut tutkijat pitävät 7-luokkaista optimaalisimpana. Ja ESS:ssä on menty yleisesti skaalaan 0-10; tässä tekstimuodossa ilmaistaan vain äärivaihtoehdot. Olen nähnyt myös skaalan 0-100. On kiinnostavaa ja ymmärrettävää huomata, että epäsymmetrinen skaala (esim. edellisen sijasta seuraava: 1=huono, 2=tyydyttävä, 3=hyvä, 4=erittäin hyvä ja 5=kiitettävä) toimii varsin symmetrisesti ainakin jos kyselyssä on numerot 1:stä 5:een kuten edellä. Suurin osa vastaajista ei siis katso tekstiä vaan skaalaa. Symmetrinen skaala on luonnollisesti reilumpi sekä tekstien että numeroiden osalta. Huomattakoon, että jotkut haluavat tehdä sellaisen symmetrisen vaihtoehdon jossa keskimmäinen neutraali vaihtoehto puuttuu. Tämä saattaa lisätä puuttuvien vastausten määrää. 17.9.2009 SurveyMetodiikka 2009 Seppo 20

Tiedonkeruu ja lomakesuunnittelu 10 Erityiskysymys on kuinka vastaamattomuus on sallittu: lomakkeissa voi olla tai sitten ei vaihtoehto en osaa tai olennaisesti eri asiana en halua sanoa tai tieto ei ole käytettävissä, jolloin rima on korkeammalla vastata puuttuvasti. Lisäksi tulokseen voi vaikuttaa se miten vaihtoehdot on merkitty lomakkeelle. ESS:n lomakkeessa on yleensä yksi koodi vastaamattomuudelle mutta lopullisessa aineistossa koodeja on usein kolme. Edellisen lisäksi kieltäytyneet sekä ei osaa sanoa, jotka haastattelija merkitsee. Lisäksihän monesti lomake on strukturoitu siten, että vastaamisesta tiettyyn kysymykseen esimerkiksi EI seuraa ettei toiseen kysymykseen saa tulla vastauksia. Tämä on tyypillistä ja ongelmakin, kun arvioidaan vaikkapa kunnallisen palvelun hyvyyttä. Jollei ole käyttänyt palvelua, voi toki vastata sen hyvyyteen kuulopuheiden pohjalta muttei omakohtaisen kokemuksen mukaan. The Economist näyttää lukijatutkimuksissaan minimoivan tätä lähettämällä tietyn lehden uudelleen, jotta vastaaja voi katsoa lukiko artikkelin vain ei. Tosin itse vasta tällöin katson, että tuon olisin lukenut huolella, tuota en ollenkaan. 17.9.2009 SurveyMetodiikka 2009 Seppo 21

Tiedonkeruu ja lomakesuunnittelu 11 (Monikansalliset) Monikansalliset surveyt on laajeneva alue, ja niissä on oltava vielä huolellisempia lomakesuunnittelun kanssa. Niiden suunnittelu on kansainvälisen ryhmän tehtävänä, jonka pitää myös arvioida kysymysten validiteetti ja reliabiliteetti siten että nämä toimivat yhtä hyvin kaikissa osallistujamaissa. On hyvin mahdollista, että kysymyksissä painottuvat vahvojen maiden näkökohdat. Toisaalta vaikeaksi tehtäväksi muodostuu kielikysymys. On luonnollisesti myös selvä, että on kysymysaiheita, erityisesti tosiasioita koskevia, jotka on syytä muotoilla eri tavoin eri maissa joten aikanaan aineistoa käytettäessä kunkin tutkijan on syytä miettiä huolella miten tehdä yhdenmukainen muuttuja. Tyypillinen esimerkki on puolue jota kannattaa tai äänesti edellisissä vaaleissa; nehän eivät ole samat kaikissa maissa. Myös maantieteeseen ja elinkeinoihin sekä etniseen ja uskonnolliseen taustaan liittyvät kysymykset on hyvä muotoilla kuhunkin maahan sopivasti. Keksi oma esimerkki! 17.9.2009 SurveyMetodiikka 2009 Seppo 22

Tiedonkeruu ja lomakesuunnittelu 12 (Monikansalliset 2) Esimerkiksi PISA:ssa ja Eurobarometrissa lomake tehdään aluksi sekä englanniksi että ranskaksi. Siten lomakesuunnitteluryhmässä on riittävän hyvä osaaminen molemmista kielistä. Tämän jälkeen lomake on käännettävä kaikille kielille joita osallistujamaissa on. Tämä ei ole ollenkaan niin helppo tehtävä kuin voisi kuvitella. Tavallisin tapa on käyttää kahta riippumatonta kääntäjää ja verrata näiden käännöksiä keskenään sekä löytää kompromissi. Tämä käännetään mahdollisesti vielä alkuperäisille kielille eri ammattilaisten toimesta ja katsotaan kuinka hyvä oli tulos. Tämä näyttää jonkin verran vaihtelevan monikansallisesta surveystä toiseen. Vaativimmissa tiedusteluissa esimerkiksi suomenruotsi ja ruotsinruotsi tai ranskanranska, belgianranska ja sveitsinranska ovat eri kieliä, mutta joissain kelpuutetaan nämä samaksi. ESS:ssä peruslomake on englanniksi ja kaikkien tutkittavissa netistä. Kussakin maassa suoritetaan sen kääntäminen parhaalla mahdollisella tavalla. Tämä voi tuottaa virheitä kuten Suomen lomakkeessa jossa kysymys joutumisesta murtovarkauden tai väkivallan uhriksi alkuperäislomakkeessa burglary or assault ) murtovarkaus käännettiin kolmella kierroksella virheellisesti sanalla varkaus. Tämän seurauksena Suomen kohdalla kyllä-vastauksia voidaan arvioida olevan tarkoitettua enemmän kuin jos olisi kysytty murtovarkaudesta. 17.9.2009 SurveyMetodiikka 2009 Seppo 23

Haastattelijan roolista Haastattelija on tässä henkilö, joka tiedon keruun hoitaa joko suoraan tai epäsuorasti. Haastattelijoita yhdessä surveyssä voi olla vain muutama mutta myös hyvin huomattava määrä. Jokin suhde otoskokoon haastattelijoiden määrällä kuitenkin on. Isommissa survey-instituuteissa on 100-200 käyntihaastattelijaa ja jos otoskoko on esimerkiksi 10000, niin kullekin tulisi silloin 50-100 haastateltavaa. Puhelin- tai muu kaukohaastattelu vie yleensä vähemmän aikaa haastateltavaa kohti kuin käyntihaastattelu. Haastattelijalla ei pitäisi olla vaikutusta itse tietoon, mutta tätä ei voi estää. Useissa survey-aineistoissa onkin haastattelijan koodi käytettävissä, joten voidaan myös analysoida ns. haastattelijavaikutusta. Suosittelen sen tutkimista mikäli tieto on käytettävissä. Joskus koodin takaa löytyy myös haastattelijan taustatietoa, kuten sukupuoli, ikä ja vaikkapa kokemus haastattelijana. Haastattelijoiden enemmistö useimmissa teollisuusmaissa on naisia, mutta on kulttuureja joissa nainen ei voi haastatella miestä ja toisaalta nainenkaan ei helposti voi mennä haastattelemaan naista, koska tämä ei ole perheen pää. Perheen pään kautta taas joissain kulttuureissa vastaukset vain annetaan. Surveyn onnistuminen vaatiikin näissä oloissa hyvin monitahoisen haastattelija- ja vastaajakokoonpanon eikä mitä tahansa kysymyksiä kannata edes harkita esitettävän. 17.9.2009 SurveyMetodiikka 2009 Seppo 24

Lomake-esimerkki Oheinen taulukko on kopio F.M. Orkinin esitelmäkalvosta ISI:n (International Statistical Instituten) konferenssista Durbanissa 2009. Tulokset koskevat kahdella eri tavalla muotoiltuja kysymyksiä eli onko kaksi (puolesta tai vastaan) vai kolme (puolesta, vastaan ja siltä väliltä) vaihtoehtoa kysymyksessä? 17.9.2009 SurveyMetodiikka 2009 Seppo 25

Lomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki Kyösti Knuuttila (2009) Historiatietoisuus Suomessa -tutkimushankkeen esitutkimus toteutettiin lomakekyselynä. Kyselylomake postitettiin 1000 väestörekisteristä satunnaisesti poimitulle 15-79 -vuotiaalle Manner-Suomessa asuvalle vastaajalle viikolla 13 (23.3-29.3.2009). Ruotsinkielen äidinkielekseen ilmoittaneille (40 kpl) lähetettiin ruotsinkielinen kyselylomake ja muille suomenkielinen (960 kpl). Esitutkimuksen otoskoko valikoitui kompromissina aikataulun, tulosten tarkkuuden ja kustannusten välillä. Esitutkimuksen tavoitteena oli saada 200 vastausta eli 20 % vastausprosentti. Kyselylomakkeen palautti yhteensä 148 vastaajaa 31.5.2009 mennessä. Palautuneista lomakkeista 5 oli kokonaan tyhjiä ja yhden oli täyttänyt otokseen valitun henkilön puoliso. Nämä 6 lomaketta jätettiin pois kyselystä. Täten vastauksia kertyi yhteensä 142 eli todelliseksi vastausprosentiksi muodostui 14,2 %.

Lomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 2 Kohdassa 1 "Mikä on historian merkitys Teille?" kysymys e. "tietoa, joka auttaa minua elämän ja muutoksien hallinnassa." osoittautui hankalaksi vastata. Vastaajista 35 % oli vastannut "ei samaa eikä eri mieltä" ja 8 % vastaajista ei ollut vastannut kohtaan lainkaan. Kysymystä tarkennettiin yksiselitteisemmäksi muotoon "Tietoa, joka auttaa minua ymmärtämään yhteiskunnan muutoksia. Kohdan 3 muotoilu "Juhlitteko Suomen itsenäisyyspäivää?" muutettiin muotoon "Vietättekö Suomen itsenäisyyspäivää?". Useampi vastaaja oli kommentoinut, että he eivät koe juhlivansa itsenäisyyspäivää, mutta katsovat esimerkiksi televisiosta Linnan juhlat ja polttavat kynttilät. Tämä muotoilu tavoittanee suuremman joukon vastaajia. Itsenäisyyspäivän viettoa koskeva kysymys siirrettiin järjestyksessä neljänneksi.

Lomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 3 Kohdassa 2 "Oletteko viimeisen noin vuoden aikana pohdittiin vastausasteikon toimivuutta. Viisiasteinen vastausasteikko "en kertaakaan, kerran, 2-3 kertaa, 4-5 kertaa ja yli 5 kertaa" arvioitiin turhan tarkaksi ja hankalaksi vastata huomioiden kysymyksen aikarajauksen. Tämän johdosta kysymyksessä päätettiin käyttää neliportaista vastausasteikkoa "en kertaakaan, kerran, muutaman kerran, usein". Uusi vastausasteikko on lähempänä arkista tapaa ajatella viimeisen vuoden aikana tehtyä. Tulosten tulkinnan kannalta vastausten tarkkuus ymmärrettävästi hiukan laskee, mutta toisaalta voidaan pohtia kuinka luotettavia ovat tarkan lukumäärän ilmoittavat vastaukset tämäntapaisessa kysymyksessä. Kysymys h. "Presidentti Kekkosen suhteet Neuvostoliittoon olivat tarpeettoman läheiset." poistettiin päällekkäisenä kysymyksen g. "Presidentti Urho Kekkonen oli liian itsevaltainen" kanssa. Vahva korrelaatio muuttujien välillä vahvisti tulkinnan (korrelaatio=0,63).

Lomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 4 Kysymys g. "Maahanmuuttajat ovat talouden kannalta ongelmallisia, koska heistä koituu tuntuvia menoja sosiaaliturvamäärärahoihin" muotoiltiin uudelleen "Maahanmuuttajista koituu liikaa menoja sosiaaliturvamäärärahoihin". Entinen kohta 14 "Mitä yksittäistä tapahtumaa tai kehityskulkua pidätte oman ikäluokkanne / sukupolvenne kannalta merkittävimpänä?" keräsi hyvin vastauksia, mutta useat vastaajat olivat luetelleet pitkähköjä listoja heidän mielestään merkittävistä tapahtumista. Kysymys ei myöskään tavoittanut parhaalla mahdollisella tavalla sukupolvien avainkokemuksia. Tämän johdosta kysymystä terävöitettiin muotoon "Nuoruusvuosien yhteiskunnallisten kokemusten ajatellaan vaikuttavan sukupolvien muotoutumiseen. Mitä yksittäistä tapahtumaa tai kehityskulkua pidätte oman sukupolvenne kannalta merkittävimpänä? Mainitkaa jokaiseen ainoastaan yksi tapahtuma." Vastausvaihtoehdot rajattiin a. "Suomessa" ja b. "muualla maailmassa"

Lomakenäkökohtia lisää Lomaketta suunniteltaessa on hyvä tehdä yleinen hahmotelma sen kokonaisuudesta. Kahdella seuraavalla sivulla on hahmotelma jonka teimme Eurooppalaisen uhritutkimuksen yleissuunnitteluvaiheessa. Siitä ilmenevät eri teemat ja niiden esitysjärjestys lomakkeessa. Voit tutkia onko nettilomakkeessa noudatettu tätä suunnitelmaa. Tuo hahmotelmahan tehtiin kaksi vuotta sitten. Toiseksi: ESS:n lomakkeessa on heti alkusivuilla kuvaus sen rakenteesta. Katso(taan) vaikkapa uusinta kierroksen 4 lomaketta; siitä myös tehtävä hetken kuluttua.

Draft Questionnaire 0_a

Draft Questionnaire 0_ b

Surveyaineiston Peruskäsitteistö 1 Aluksi otan käsitteen perusjoukko. Vaikka joskus se esitetään yksikäsitteisenä, sitä se ei ole. Mielestäni viisi eri perusjoukon käsitettä on jo poikkileikkaustutkimuksessa tarpeen: 1. Kiinnostusperusjoukko on karkea hahmotus tutkijan mielessä alkuvaiheessa olevasta perusjoukosta. Harvoin (paitsi jos joku on määritellyt sen) se on aluksi täsmällinen, mutta kun se on sitä, voimmekin määritellä 2.Tavoiteperusjoukon (joskus kohdeperusjoukko) mikä on jo tarkasti määritelty ja aikaan sidottu (vaikkapa kuun alku, vuoden loppu tai aikaväli) sekä realistinen. ESS:lle tämä on 15+ -vuotiaat, PISA:lle hieman 15 vuotta (tarkan vuoden aikana syntyneiden) täyttäneiden koululaisten joukko, Uhritutkimuksen pilotissa 15-74 vuotiaat mutta varsinaisessa ei kuuluisi olla ylärajaa, Historiatutkimuksessa 15-79 - vuotiaat. Ikä on määriteltynä kenttätyön alun mukaan. Muut rajaukset hieman vaihtelevat. ESS:ssä ja Uhritutkimuksessa mukana ovat maassa asuvat kansalaisuudesta riippumatta. PISA:ssa suomenkieliset ja ruotsinkieliset koulut ovat mukana. Historiatutkimuksessa päädyttäneen jättämään muut kuin suomen- ja ruotsinkieliset pois.. Miksihän?. 17.9.2009 SurveyMetodiikka 2009 Seppo 33

Surveyaineiston Peruskäsitteistö 2 Jotta tavoiteperusjoukko saataisiin koottua, on oltava 3. Kehikkoperusjoukko, josta poimitaan kaikki tai osa haluttua tiedustelua varten. Jos käytetään otosta, puhutaan myös otantakehikosta. Kehikkoperusjoukon yksikkö voi olla esimerkiksi henkilö, yritys, kunta, muu alue, kotitalous tai aikaväli. Se ei aina ole saatavissa tiedustelun ajankohdalta, vaan jossain määrin aikaisemmalta mistä aiheutuu kiusaa (katsotaan myöhemmin). Kehikkoja voi olla useitakin, kuten PISA:ssa jossa ensin tarvitaan koulujen kehikko ja myöhemmin oppilaiden kehikko. Koulutietojen (ml. oppilasmäärätiedot) pieni epätarkkuus ei haittaa paljoa mutta jollei valittujen koulujen oppilastietoja saada kunnolla, tilanne on hankala. Näin ei yleensä ole ja voidaankin uskoa että oppilaskehikko on ainakin Suomessa hyvin ajantasainen. Uhritutkimuksessa kehikkoperusjoukko luodaan Väestörekisteristä heinäkuun 2009 lopun mukaisena. Se ei takaa että kaikki väestötieto olisi harhatonta. Historiatutkimuksen kehikko luodaan samasta pohjasta. ESS-otosten perusidea on sama Suomessa mutta monessa maassa käytetään aluekehikkoja aluksi ja henkilöiden valinnassa paikallisia tietoja. 17.9.2009 SurveyMetodiikka 2009 Seppo 34

Surveyaineiston Peruskäsitteistö 3 Koska kehikko usein muuttuu tiedustelun ajankohtaan mennessä, tarvitaan 4. Päivitetty kehikkoperusjoukko, jota käytetään estimoinnissa. Valitettavan harvoin tutkija muodostaa tällaisen perusjoukon. Pääsyy on luonnollinen: sellaisen hankkiminen on monesti vaikeata, jopa mahdotonta. Toisaalta tämän puuttuminen ei aina haittaa yhtä paljon, ei ainakaan ihmisiä koskevissa tutkimuksissa; yritystiedusteluissa tämän perusjoukon puuttuminen voi vaikuttaa tuloksiin paljon. Vaikkei kehikkoa päivitettäisi, on tutkijan syytä arvioida mitä harhaa vanha kehikko voi tuloksiin aiheuttaa. Lopulta keräämme itse aineiston ja saamme toivon mukaan mahdollisimman paljon tavoiteperusjoukkoa muistuttavan 5. Tutkimusperusjoukon. 17.9.2009 SurveyMetodiikka 2009 Seppo 35

Surveyaineiston Peruskäsitteistö 4 On hyvä huomata, että jos kehikon ja tavoiteperusjoukon yksiköt ovat samoja tilanne on helpompi kuin tilanteessa jossa ne eivät ole samoja. PISA:ssa ensimmäisen asteen kehikkoyksiköt = koulut eivät ole oppilasaineistossa siis tutkittavia yksiköitä eli oppilaita, mutta PISA:n koulututkimuksessa ne ovat. Suomen ESS:ssä kehikossa on saatavissa 15+ -vuotiaat Suomessa asuvat, mutta useimmissa muissa maissa ensimmäisenä kehikkona ovat maantieteelliset pienalueet. Vasta näistä sopivien tultua valituksi lähestytään itse vastaajakandidaatteja. Muutamissa maissa tämä tapahtuu suoraan mutta hyvin monissa seuraavana kehikkona ovat valittujen pienalueiden osoitteet tai kotitaloudet. Kolmas kehikko on sitten periaatteessa helppo koska se koskee valitun osoitteen tai kotitalouden 15+ -vuotiaita henkilöitä. Irakin kuolleisuustutkimuskin vastaa viimeksi mainittua mutta kotitalouden sisältä ei valita enää kehikkoa vaan tutkimus koskee kaikkia kotitalouden jäseniä tutkimusajanjaksolta (katso datasta mikä on aikaväli). 17.9.2009 SurveyMetodiikka 2009 Seppo 36

Surveyaineiston Peruskäsitteistö 5 Mikäli kaikki periaatteessa täsmälliset perusjoukot eli neljä viimeistä kattavat saman joukon, ei kehikko-ongelmia esiinny. Mutta huonommassa tilanteessa voimme vertailemalla eritellä erilaisia virhetekijöitä: - alipeittävyys (alipeitto): yksiköt jotka kuuluvat tavoiteperusjoukkoon mutta joita ei tavoiteta - ylipeittävyys (ylipeitto): yksiköt jotka eivät kuulu tavoiteperusjoukkoon mutta jotka on poimittu aineistoon. - luokitteluvirheet kehikon osalta: voivat aiheuttaa ylipeittoa ja alipeittoa ja virheitä aineistoon (voidaan havaita ja korjatakin). Jos tutkimus(perus)joukko ei sisällä kaikkia tavoiteperusjoukkoon kuuluvia poimittuja yksiköitä, on kyse yksikkövastauskadosta, mikä on hyvin hankala ongelma nykypäivän surveyssä. Tämä on osa puuttuvuutta. Myös alipeitto on puuttuvuutta. Osittainen vastauksen puuttuminen (muuttujakohtainen puuttuvuus) on erävastauskatoa mikäli tieto halutaan. On myös hyväksyttävää puuttuvuutta. Mitä? 17.9.2009 SurveyMetodiikka 2009 Seppo 37

Surveyaineiston Peruskäsitteistö 6 Alipeittoa eli syntyneitä tai muuten uusia tapauksia tai luokitteluvirheellisiä tapauksia ei normaalitilanteessa voida yksikkötasolla havaita tiedustelun kehikkoa muodostettaessa, muutenhan nämä yksiköt sisällytettäisiin kehikkoperusjoukkoon. Ylipeitto voidaan havaita tiedusteluun valittujen yksiköiden osalta jos nämä tapaukset tavoitetaan tai saadaan tieto niistä muuta kautta, vaikkapa rekistereistä. Kyseessä ovat siis kuolleet tai toimintansa lopettaneet yksiköt, toiseen perusjoukkoon muuttaneet tai luokitteluvirheelliset kehikkoperusjoukon tapaukset. Otokseen sisällytettyjen osalta ylipeitto pitäisi voida aina saada selville (havaittu ylipeitto). Sen sijaan kehikkotason tai tiedustelussa tavoittamattomien osalta ylipeitto voi jäädä havaitsemattomaksi. Tässäkin tapauksessa sen laajuus pitäisi jälkikäteen arvioida ja vastaavasti sen vaikutukset itse tuloksiin. Jos kaikkia tiedusteluun valittuja ei tavoiteta, eikä muuta ulkopuolista tietoa ole käytettävissä, jääkin epäselväksi ovatko nämä tapaukset ylipeittoa vai vastauskatoa. 17.9.2009 SurveyMetodiikka 2009 Seppo 38

Surveyaineiston Peruskäsitteistö 6 Kehikko- ja tavoiteperusjoukko sekä otos Tavoiteperusjoukko Kehikkoperusjoukko Alipeitto Ylipeitto Otos Tästä puuttuu kiinnostusperusjoukko, jonka koko voi olla isompi kuin mikään yllä olevista tai suppeampi. 17.9.2009 SurveyMetodiikka 2009 Seppo 39

Surveyaineiston Peruskäsitteistö 7 Edellä survey oli yksitasoinen. Jos tiedustelu on useampitasoinen eli tutkimusyksiköitä on hierarkkisesti useampia, voi hyvinkin olla niin, että vastaus saadaan ylemmältä tasolta, esimerkiksi perheen tai palvelusyksikön tasolta, mutta yksi tai useampi vastaus jää puuttumaan seuraavaksi alemmalta tasolta, esimerkiksi koskien perheen jäseniä tai palveluyksikön työntekijöitä tai asiakkaita. Vastaavasti voidaan puhua ensimmäisen ja toisen asteen tai tason vastauskadosta. Vielä erityisempi on tilanne jos vastauskadon tarkemmaksi tutkimiseksi on päätetty ottaa (osa)otos vastaamattomista ja tiedustella näiltä joitakin avainkysymyksiä tai kenties koko lomakkeisto mutta käyttäen parempaa tiedustelumenetelmää kuin aikaisemmassa vaiheessa (esim. jos perustiedustelu on postitiedustelu, tämä erityistiedustelu voidaan hoitaa käyntihaastatteluin). Tällöin on kyseessä kaksivaiheinen surveytutkimus. Kaksivaiheinen tutkimus voidaan tehdä myös muista syistä, esimerkiksi tekemällä suppea tiedustelu isolle joukolle ja samalla kartoittaa ilmiötä karkeasti, ja toisessa vaiheessa laajempi tiedustelu suppealle joukolle, jonka otos voi olla kohdennettu tutkimuksen päätavoitteiden mukaan. 17.9.2009 SurveyMetodiikka 2009 Seppo 40

Otospohjaisen surveyaineiston kuvaus 1 Esitän kuviosarjan, joka havainnollistaa poikkileikkausaineistoa, ns. mikrotiedostoa eli poimintatason yksiköihin perustuvaa tiedostoa. Tämä tiedosto tai havaintomatriisi on myös vain yksitasoinen eli tältäkin osin yksinkertaistettu. Mittasuhteet eivät vastaa todellisuutta esimerkiksi siinä mielessä, että poimittu otos olisi kuvion mukaisen suuri. Tämä kuvasarja on tietynlainen yhteenveto käsitteistä joita datan luomisessa ja puhdistamisessa tarvitaan. Tarkempi kuvaus useimmista niistä tulee kuitenkin esille vasta kurssin muissa osissa. Katso siinä vaiheessa aina välillä näitä kohtia. 17.9.2009 SurveyMetodiikka 2009 Seppo 41

Otospohjaisen surveyaineiston kuvaus 2 Aloitan yksinkertaisimmasta mahdollisesta tiedostotyypistä, jossa on onnistuttu keräämään koko perusjoukon tiedot kaikille muuttujille. Mahdollisesti on myös muista lähteistä kerätty lisämuuttujia X. Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo Tilastoykköt N 1 i Tunnistimet - poikittainen - pitkittäinen - suojattu X -Muuttujat Muualta kerätyt muuttujat Y -Muuttujat (tulosmuuttujat) Monia tyyppejä ml. - erot skaalauksessa - avainmuuttujat ja muut Esimerkiksi: väestö rekisteristä heinäkuun lopussa. Lisämuuttuja koulutus poimittu tutkintorekisteristä ja verorekisteristä verotettu tulo. Symbolit: N = perusjoukon koko 17.9.2009 SurveyMetodiikka 2009 Seppo 42

Otospohjaisen surveyaineiston kuvaus 3 Jos kuitenkin on toteutettu otossurvey (joistakin osista voi olla otettu kaikkikin mukaan) ja vastausten saamisen jälkeen on vastanneet ja ylipeitto määritelty, saadaan seuraavan kaavion mukainen tiedosto. Tähän on luotu käytettyyn otanta-asetelmaan perustuva ns. asetelmapaino brutto-otokselle. Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo Tilastoykköt -N(D) -n(d) 1 Tunnistimet - poikittainen - pitkittäinen - suojattu - muut ulkoiset apumuuttujat Kehikko- Ylipeitto X -Muuttujat -otoksen poimintaan Y -Muuttujat (tulosmuuttujat) Monia tyyppejä ml. - erot skaalauksessa - avainmuuttujat ja muut Otosylipeitto Otos- ja muut Painot - asetelmapaino i r n Yksikkövastauskato N Symbolit: Ei sisällytetty otossurveyhin r = vastaajien määrä; N(D)ja n(d) = ylipeiton suuruus kehikossa ja poimitussa otoksessa n = lopullinen hyväksytty otoskoko (ilman ylipeittoa), 17.9.2009 SurveyMetodiikka 2009 Seppo 43

Otospohjaisen surveyaineiston kuvaus 4 Tämän jälkeen aineistoa tutkitaan lisää ja muun muassa määritellään erävastauskato sekä pyritään löytämään tilastollisella editoinnilla virheet. Lisäksi vastaajille lasketaan ns. peruspaino, jossa on otanta-asetelman lisäksi huomioitu puuttuvuus eli ylipeitto, vastauskato ja muu puuttuvuus. Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo Tilastoykköt -N(D) -n(d) 1 Tunnistimet - poikittainen -otoksen - pitkittäinen poimintaan - suojattu Ylipeitto X -Muuttujat Y -Muuttujat (tulosmuuttujat) Monia tyyppejä ml. - erot skaalauksessa - avainmuuttujat ja muut Otosylipeitto Otos- ja muut Painot - asetelmapaino - peruspaino n i r - muut ulkoiset apumuuttujat Kehikko- Erävastauskato Virheitä löydetty Yksikkövastauskato N Ei sisällytetty otossurveyhin 17.9.2009 SurveyMetodiikka 2009 Seppo 44

Otospohjaisen surveyaineiston kuvaus 5 Tässä vaiheessa on kehikkoperusjoukko päivitetty ja joitakin tietojakin alipeitosta saatu kasaan. Tämä ei ole ehkä kovin realistinen mutta ainakin on hahmotettu alipeiton suuruutta jossain määrin. Samaan aikaan on tehty kaikki voitava virheiden poistamiseksi sekä erävastauskadon ja muun puuttuvuuden imputoimiseksi ja lisäksi on luotu aikaisempaa paremmat otospainot, joita kutsutaan adjustoiduiksi painoiksi. Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo Tilastoykköt -N(D) -n(d) 1 Tunnistimet - poikittainen - pitkittäinen - suojattu Ylipeitto X -Muuttujat -otoksen poimintaan Y -Muuttujat (tulosmuuttujat) Monia tyyppejä ml. - erot skaalauksessa - avainmuuttujat ja muut - lippumuuttujat (luonne, imputoitu, tietosuojattu, alustava, lopullinen,...) Otosylipeitto Otos- ja muut Painot - asetelmapaino - peruspaino - adjustoitu paino - vertailupaino i - muut ulkoiset apumuuttujat Kehikko- Imputoituja r n Yksikkövastauskato N(real) N(true) Symbolit: Alipeitto Ei sisällytetty otossurveyhin r = vastaajien määrä; N(D) ja n(d) = ylipeiton suuruus kehikossa ja poimitussa otoksessa n = lopullinen hyväksytty otoskoko (ilman ylipeittoa), N = perusjoukon koko (true = tavoiteperusjoukolle, real = kehikkoperusjoukolle); 17.9.2009 SurveyMetodiikka 2009 Seppo 45

Otospohjaisen surveyaineiston kuvaus 6 Tiedostoa voidaan laajentaa erityistilanteisiin, kuten jos - on poimittu otos vastaamattomista laadun tutkimiseksi ja painotuksen parantamiseksi - jos otos on jaettu osiin, kuten uhritutkimuksessa jossa on kolme otosta eli puhelin-, käynti- ja nettikysely - jos on toteutettu kaksivaiheinen kysely vaikkapa siten että vastanneilta on toisessa vaiheessa kyselty uusia asioita. Kokeile muodostaa kuvio jostakin tällaisesta tilanteesta. Seuraavalla sivulla on uusin kehitelmäni ihanteellisesta tiedostosta jossa eivät ole mukana Y-muuttujat (mutta ne siis liitetään tähän aineistoon) eivätkä painot. Tätä kutsun otantatiedostoksi. Esimerkki on höystetty konkreettisilla muuttujilla. Käyttötiedostona edellinen tai sen muunnelma ei ole paras mutta toki voidaan tuotakin käyttää. Mikä olisi sopiva käyttötiedosto? 17.9.2009 SurveyMetodiikka 2009 Seppo 46

Exemplary sampling data SAS file for a survey of peoples Identity Sampling design variables Fieldwork Other Auxiliary variables Mode and outcome External Internal SurveyMetodiikka 2009 Seppo 47

Käsitteiden lisätarkasteluja 1 Tunnisteet: Perustunnus (henkilötunnus, yritystunnus, organisaatiotunnus, kuntatunnus), jota käytetään tiedonkeruussa, on joskus herkkä tieto eikä sitä anneta kenelle tahansa. Sen vuoksi voidaan muodostaa uusi, tietosuojattu tunnus, esimerkiksi sopivan satunnaisprosessin kautta. Pitkittäis- ja paneliaineistoissa tarvitaan myös pitkittäistunnus (ellei aikaisempi tunnus riitä), mikä on erityisesti yritys- ja muiden ryväsyksiköiden yhteydessä hyvinkin hankala eikä yksikäsitteinen. Varsinaisia muuttujia tilastoaineistossa on kahta tyyppiä, ns. X- muuttujia eli apu- tai lisämuuttujia ja Y-muuttujia eli tulos- tai tutkimusmuuttujia Toki X-muuttujiakin voi käyttää tulosmuuttujina. Y-muuttujien erikoistapauksina ovat kuviossa ns. lippumuuttujat joilla kerrotaan aineiston ja eri muuttujien ominaisuuksista, jolleivät ne muuten ilmene valistuneelle lukijalle. Esimerkiksi, että arvo on imputoitu, epävarma, korjattu, ennustettu tai karkea arvio. 17.9.2009 SurveyMetodiikka 2009 Seppo 48

Käsitteiden lisätarkasteluja 2 Painomuuttujien osasto, joiden rakentamisen vaihe (tavallisin) esitettiin edellä olevissa kuvioissa. Tätä ei tarvita jos koko perusjoukko on mukana aineistossa (tai voidaan ajatella että painot ovat =1). Painomuuttuja on tietysti välttämätön kaikissa otossurveyssä, jossa tapauksessa voidaan muodostaa aineistoon yksi tai useampia (huonompia ja parempia) ns. otospainoja. Niitä käytetään kaikessa analyysissä. Kehikkotietoja käyttäen luodaan ensimmäinen otospaino, asetelmapaino, mitä voi käyttää estimoitaessa brutto-otoksen tietoja eli X-muuttujia. Kun aineisto saadaan koottua, on mahdollista luoda ensiksi otanta-asetelman ja saatuun aineistoon perustuva uusi paino, jota kutsun peruspainoksi tai perusotospainoksi, mitä käytetään estimoitaessa vastaajien tiedoista. Jos on käytettävissä muutakin tietoa kuin alkuperäisen kehikon tiedot (katso esittämääni huipputason tiedostoa otantatiedostosta), niin mahdollista luoda parempia, oikaistuja tai adjustoituja otospainoja. Toki näin tulisi aina tehdäkin vaikkei niiden vaikutus tuloksiin olisikaan olennainen. 17.9.2009 SurveyMetodiikka 2009 Seppo 49

Käsitteiden lisätarkasteluja 3 Aineisto on jokseenkin hyödytön ilman pätevää metadataa ja sen hyötyä lisää myös hyvä paradata. Metadata (lippumuuttujat oli jo edellä esimerkki tästä) kertoo mitä data on, kattaen tiedon kaikista datan keruuvaiheista (lomake, sen laatutestaukset, otanta, aineiston muokkaus jne.) siihen miten muuttujat on nimetty ja koodattu. Paradata antaa lisätietoa esimerkiksi aineiston keruusta, kuten tietoa haastattelijasta, haastattelun ajasta ja kestosta ja haastattelijan merkinnöistä haastattelusta. Tätä voi myös analysoida. Katso ESS:n tiedostosta minkälaista paradataa sieltä löytyy. Samalla katso myös sen metadatan piirteet. Ja arvioi niiden laatua. Omasta mielestäni laatu on korkea. Hyvin toteutetuissa surveyssä on lisäksi taustadataa, koskien esimerkiksi surveyn kenttätyöajan tapahtumia tai ilmapiiriä, jopa sääoloja. 17.9.2009 SurveyMetodiikka 2009 Seppo 50

Miltä surveynäkymät vaikuttavat alun ja käsiteosan jälkeen? 17.9.2009 SurveyMetodiikka 2009 Seppo 51

Tehtäväosio edeltävästä aineistosta: Tehdään ohjatusti harjoituksissa mutta voit tehdä omissa oloissasi missä tapauksessa toimitat vastauksesi sähköpostilla. Kurssin nettisivulla on kaksi Irakin kuolleisuustutkimuksen dataa sekä osa Suomen PISA 2006 dataa. (i) Selosta kaikkien datojen muuttujien luonne edellä esitetyillä käsitteillä. (ii) Minkälaisia parannuksia ehdottaisit datojen kuvaukseen? (iii) Tutki ESS4:n lomaketta (hae netistä) ja etsi sieltä ainakin neljä kiinnostavaa kysymystä siten että kiinnostus on määritelty kysymyksen muotoilun ja/tai aiheen mukaan. Kiinnostavista aiheista ajetaan kun data tulevat syyskuun lopulla tuloksia. 17.9.2009 SurveyMetodiikka 2009 Seppo 52

Käsitteiden lisätarkasteluja: Paneliaineisto 1 (i) Retrospektiivinen tutkimus (paneli) Tässä aineisto tuotetaan jälkikäteen kysymällä tietoja vastaajien menneestä historiasta, yleensä määrävälein kuten vuosittain. Ongelmana on muun muassa muistin pettäminen, josta syystä menneitä muistoja voidaan kullata tai päinvastoin mustamaalata. Retrospektiivinen näkökulma on kuitenkin erittäin yleinen, koska surveyllä on käyttökelpoista kysellä edeltävistä ajoista. Esimerkiksi uhritutkimuksissa kysytään uhriksi joutumisesta hyvinkin erilaisilla taaksepäin suuntautuvilla ajanjaksoilla. Joissain muissa kysytään vain yhdeltä periodilta, kuten viikolta, kuukaudelta, vuodelta. Kysymyslomakkeiden suunnittelijan olisi hyvä löytää mahdollisimman oikean pituinen edeltävä periodi (viiteaikaväli) siten, että estimaatti itse olisi luotettava ja että muistivirhe olisi mahdollisimman pieni. 17.9.2009 SurveyMetodiikka 2009 Seppo 53

Käsitteiden lisätarkasteluja: Paneliaineisto 2 Vaikka retrospektiivisen tutkimusasetelman viiteaikavälit onnistuttaisiinkin saamaan hyviksi tai vaikka vieläpä tutkimus käyttäisi faktatietoa esimerkiksi rekistereistä, tämä lähestymistapa ei ole ongelmaton. Syynä on, että alkuperusjoukko voi olla harhainen tutkimusasetelman kannalta, sillä retrospektiivisessa tutkimuksessa on myös aineisto harhautunut, koska se kerätään joukosta jotka ovat eräänä ajankohtana käytettävissä. Siten kiinnostavia ja ilmiön kannalta tärkeitä yksiköitä voi olla mukana epäedustavasti. (ii) Prospektiivinen eli eteenpäin suuntautuva paneli eli seurantatutkimus Puhdas tai jatkuva paneli tai kohorttitutkimus, jolloin tiettyä aluksi valittua joukkoa seurataan tietty aika. Aineisto yleensä supistuu joko ylipeiton (panelikuoleman) tai vastauskadon johdosta. Tämä johtaa sitä jännittävämpiin tilanteisiin mitä monimutkaisempi on tutkittava ja seurattava yksikkö. 17.9.2009 SurveyMetodiikka 2009 Seppo 54

Käsitteiden lisätarkasteluja: Paneliaineisto 2 Rotatoiva paneli, jolloin aineistoa täydennetään määrävälein ja osa alkuperäisistä vapautetaan. Tämän strategian tarkoitus on että aineistosta voitaisiin kohtuullisesti estimoida sekä poikkileikkaus- että muutostietoja. Edellisten sekoitus (sekapaneli), jolloin toisaalta seurataan tiettyä joukkoa ja toisaalta poimitaan riippumaton rinnakkaisaineisto, jolloin jälkimmäisestä saadaan poikkileikkaustiedot luotettavasti ja edellisestä muutostiedot. Kaikista näistä voidaan muodostaa tasapainotettu paneli, jolloin mukaan hyväksytään vain ne joista on tietoja jokaiselta ajankohdalta. Vastaavasti muut panelit ovat tasapainottamattomia. 17.9.2009 SurveyMetodiikka 2009 Seppo 55

Nämä kuvaavat paneleja. Selosta minkälaisia. 17.9.2009 SurveyMetodiikka 2009 Seppo 56