Sosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen

Samankaltaiset tiedostot
Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen

YLE Uutiset PUOLUEIDEN KANNATUSARVIOT. Maaliskuu 2018 ( ) YLE Uutiset

Laskelmia puoluekannatuksesta Seppo

PUOLUEIDEN KANNATUSARVIOT

YLE Uutiset PUOLUEIDEN KANNATUSARVIOT. Huhtikuu 2017 ( )

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

YLE Uutiset. PUOLUEIDEN KANNATUSARVIOT, Maalis-huhtikuu 2017 ( ) Toteutus. Tutkimus- ja otantamenetelmä. Tutkimuksen ajankohta

TNS-Gallupin puoluekannatusmittaukset 2011 Oletan ettei olennaista muutosta sen jälkeen tapahtunut Seppo

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

Kannatusarviot eivät automaattisesti täsmenny korjauskertoimilla

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

pitkittäisaineistoissa

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

Imputoi puuttuvat kohdat

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

YLE Uutiset. Haastattelut tehtiin Marraskuun 2008 alusta lähtien kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

YLE Uutiset. Haastattelut tehtiin Kannatusarvio kuvaa tilannetta eduskuntavaalien puoluekannatuksessa.

pitkittäisaineistoissa

EUROOPAN PARLAMENTIN SUOMEN TIEDOTUSTOIMISTO KANSALAISTEN KÄSITYKSET EU:N TULEVAISUUDESTA 2009

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen

Kaksi kolmesta voi äänestää maakuntavaaleissa

EDUSKUNTAPUOLUEIDEN KANSANEDUSTAJAEHDOKKAIDEN SUHTAUTUMINEN TYÖNANTAJAOLETTAMAN LISÄÄMISEEN TYÖSOPIMUSLAKIIN

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TALOUSTUTKIMUS OY TYÖNTEKIJÖIDEN N=1010

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula

Työntekijöiden näkemyksiä työhyvinvoinnin kehittämisestä ja yhteistoiminnasta työpaikoilla. Toimihenkilökeskusjärjestö STTK 14.2.

Kuntavaalikysely Jyty

Yrittäjägallup joulukuu 2018

11. laskuharjoituskierros, vko 15, ratkaisut

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Kysyminen ja vastaaminen kommunikaationa. Petri Godenhjelm Metodifestivaalit 2015

Teema 8: Parametrien estimointi ja luottamusvälit

Epävarmuuden hallinta bootstrap-menetelmillä

PORVOOLAISTEN NUORTEN ÄÄNESTYSAKTIIVISUUSKYSELY

ESOMAR-terveiset. Maris Tuvikene. Tuvikene Maris Julkinen 1

Työntekijöiden näkemyksiä työhyvinvoinnin kehittämisestä ja yhteistoiminnasta työpaikoilla. Toimihenkilökeskusjärjestö STTK 8.2.

Presidentinvaalitutkimus 2011

FSD2275. Äänestäminen ja puolueiden valintaperusteet eduskuntavaaleissa Koodikirja

Osa 2: Otokset, otosjakaumat ja estimointi

Luottamusvälit. Normaalijakauma johnkin kohtaan

Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen

Kantar TNS:n Suomen Yrittäjien pyynnöstä tekemä mielipidetiedustelu

Hallitus ja irtisanominen Sakari Nurmela Kantar TNS Oy

Niukka enemmistö: 100 kansanedustajaa ja kaksi vaalikautta riittää

Tilastollisten aineistojen kerääminen ja mittaaminen

5 Lisa materiaali. 5.1 Ristiintaulukointi

Sovellettu todennäköisyyslaskenta B

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Kansalaistutkimus: Toiveet seuraavan hallituskauden kehittämiskohteista STTK

Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011

Kansalaistutkimus STTK

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Äänestystutkimus. Syksy 2006

Webropol-kyselyt. Tarja Heikkilä

Kansalaisten käsityksiä taiteesta osana arkiympäristöä ja julkisia tiloja TNS 2014

Väestötutkimustieto kuntien hyte-tiedon lähteenä - FinSote tutkimus

Surveymetodiikka Helsingin yliopisto, Syksy 2011 Seppo Laaksonen

Julkisten palvelujen tulevaisuus

Asiakkuusindeksi 2009

Kansalaisten käsityksiä taiteesta osana arkiympäristöä ja julkisia tiloja

LIITE. komission täytäntöönpanoasetus (EU)

Luentotesti 3. Kun tutkimuksen kävelynopeustietoja analysoidaan, onko näiden tutkittavien aiheuttama kato

Kuntavaalikysely Julkis- ja yksityisalojen toimihenkilöliitto Jyty ry

Helsingin yliopisto, Syksy 2009 Seppo Laaksonen

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Helsingin yliopisto Sosiaalitieteiden laitos Seppo Tammikuu 2013 Surveymetodiikan koe

tilastotieteen kertaus

TUTKIMUSOSIO Julkaistavissa

Tilastollisen tutkimuksen vaiheet

Ohjelmoinnin perusteet, syksy 2006

Suomen MarkkinointiTutkimusSeura Ilkka Rainio

Ennakkotuloksia Kuntalaiskyselystä 2017

SUOMALAISTEN ENERGIA-ASENTEET 2018 Energiateollisuus ry Marraskuu Suomalaisten energia-asenteet 2018

Henkilöliikenteen asiakastyytyväisyystutkimus. Sääntelyelin, Mertti Anttila IROResearch Oy, Tomi Ronkainen

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Ehdokaskysely 2019 STTK Luottamuksellinen

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Helsinkiläisten mielipiteitä energiantuotannon tulevaisuuden linjauksista. Syyskuu Jaakko Hyry TNS

KOTITALOUKSIEN SÄÄSTÄMISTUTKIMUS Kotitalouksien säästämistutkimus

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Mielipidemittaus maailman muutoksen kuvaajana

pisteet Frekvenssi frekvenssi Yhteensä

Malmin lentokentän tulevaisuus. Malmin lentokentän tulevaisuus

Mielipiteet ydinvoimasta Maaliskuu 2014

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

LEFT MARGIN RIGHT MARGIN

Sovellettu todennäköisyyslaskenta B

European Social Survey Miten tiedot kerättiin? Marko Ylitalo Metodifestivaalit, Tampere

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Transkriptio:

Sosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen SOTU TIME 2012 Surveymetodiikka _ Seppo 1

Jakso 2. Surveymetodiikkaa aineiston keruusta sen puhdistamiseen Otsakkeessa on siis partitiivi eli ei ole mahdollista kovin tyhjentävästi käydä läpi koko aihetta vaan antaa käsitys mistä on kyse sekä oppia keskeisiä termejä. Kirjani (ks. alempaa) antaa aiheesta perusteellisemman kuvan. Kun aineisto on riittävän hyvin puhdistettu, on mahdollista aloittaa varsinainen analyysi. Analyysimenetelmiä käsitellään enemmän muissa jaksoissa. Jaksoni tässä osassa ovat pääosassa käsitteet ja termit, toisessa osassa huomenna tiedonkeruu ml. lomakesuunnittelu. Yhteydet kurssitilaisuuksien ulkopuolella: Seppo.Laaksonen (at) Helsinki.Fi 044-2222759 Lähdemateriaalia ilmaisesta kirjastani nimeltä surveymetodiikka: http://bookboon.com/fi/student/statistics SOTU TIME 2012 Surveymetodiikka _ Seppo 2

Mikä on survey? Tässä yhteen encyklopediaan kirjoittamani määritelmä. Survey is a methodology and a practical tool used to collect, handle and analyze in a systematic way, information from individuals. These individuals or micro units can be of various types, such as people, households, hospitals, schools, businesses or other corporations. The units can be simultaneously available from two or more levels as e.g. from households and their members. Information in surveys may be concerned various topics such as people s personal characteristics, their behaviour, health, salary, attitudes and opinions, households income and poverty, and their housing environments, or the characteristics and performance of businesses. Survey research is unavoidably multidisciplinary although the role of statistics is most influential since the data for surveys is constructed in a quantitative form. Correspondingly, many survey methods are special statistical applications. However, surveys exploit substantially many other sciences e.g. such as informatics, mathematics, cognitive psychology and theory of subject-matter sciences of each survey topic. Anna kommentteja. SOTU TIME 2012 Surveymetodiikka _ Seppo 3

Ohessa sisällys sellaisena kuin ilmoitettu kurssisivulla mutta sitä ei orjallisesti noudateta, ainakaan tuossa järjestyksessä 1. Surveyaineiston perusjoukot ja muut peruskäsitteet sekä seuraavia osa-alueita: Poikkileikkaus- ja pitkittäisaineisto Ylipeitto Yksikkövastauskato Erävastauskato Otos- ja muut painot Apumuuttujat ja tulosmuuttujat Metadata ja paradata 2. Keruuvälineet ja lomakkeet Posti-, käynti-, puhelin-, netti- sekä monivälinekyselyt Lomakesuunnittelun periaatteet SOTU TIME 2012 Surveymetodiikka _ Seppo 4

3. Otanta-asetelmat ilman tarkempaa tekniikkaa joka tulee enemmän esille jaksolla 3 Kokonaisasetelma otannalle Otoskoon määrittely ja efektiivinen otoskoko Innovatiivisiakin otanta-asetelmia voi tehdä eikä vain esimerkiksi yksinkertaista satunnaisotantaa Otantatiedosto ja sen liittäminen varsinaiseen tiedostoon 4. Aineiston puhdistamisen menetelmiä Tilastollinen editointi Korvatako puuttuvaa tietoa imputoimalla vai ei ja jos niin miten voisi imputoida? Perusotospainojen luonti Johdatus parempiin otospainoihin Muut vaiheet puhdistamisen täydentämiseksi (IT ratkaisut ym.) SOTU TIME 2012 Surveymetodiikka _ Seppo 5

Peruskäsitteitä Perusjoukot. Joita on kirjassani esitelty viisi. Näistä Tavoiteperusjoukko on otantaan liittyvien estimointien eli tulosten laskennan kannalta avainasemassa koska survey/tutkimus lähtee tämän täsmällisestä määrittelystä. Aluksi on usein mietitty kiinnostusperusjoukkoa, mutta jos ja kun tämä on liian hankala toteutettavaksi, niin sitä on modifioitu realistisemmaksi. Tällöin on myös välttämätöntä miettiä mitä kautta tavoiteperusjoukkoa voidaan päästä tutkimaan eli mistä sen yksiköt löydettäisiin. Tätä kutsutaan kehikoksi ja vastaavaan koko perusjoukkoa kehikkoperusjoukoksi. Ei ole yllättävää, että kehikko ei ole ajantasainen vaan se on hyvä pyrkiä päivittämään estimointivaiheessa, jolloin kyse on päivitetystä kehikkoperusjoukosta. Lopuksi meillä on tutkimusperusjoukko mikä parhaassa tapauksessa on sama kuin tavoiteperusjoukko, mutta jollei näin ole, on reilusti kerrottava mikä on lopullinen surveyn perusjoukko eli mitä tulokset (estimaatit) koskevat. SOTU TIME 2012 Surveymetodiikka _ Seppo 6

Peruskäsitteitä Aineistojen kiusat Ylipeitto (ylipeittävyys) = sellaiset kehikosta löydetyt yksiköt jotka eivät kuulukaan tavoiteperusjoukkoon (virheet/puutteet kehikossa, kehikossa olevat ylimääräiset yksiköt kuten muuttaneet/kuolleet) Alipeitto (alipeittävyys) = sellaiset yksiköt jotka kuuluvat tavoiteperusjoukkoon mutta joita ei ole löydetty kehikosta (virheet/puutteet kehikossa, uudet tulokkaat kehikon vanhuuden takia) Vastauskato yksikkötasolla = sellaiset jotka eivät ole vastanneet kyselyyn tai joita ei tavoitettu mutta kuuluvat tavoiteperusjoukkoon. Tätä kutsutaan yksikkövastauskadoksi. Lisäksihän on erävastauskato eli muuttujakohtainen puuttuva tieto. SOTU TIME 2012 Surveymetodiikka _ Seppo 7

Peruskäsitteitä On siis niin että estimaatit koskevat tavoiteperusjoukon suureita. Ajoittain näkee surveyaineistoista tuotettuja tuloksia joiden tavoiteperusjoukko ei raportista selviä, puhumattakaan että kehikko- ja muut perusjoukot tulisivat selvästi tietoon. Ohessa satunnaisesti netistä löydetty esimerkki joka ei ole kaikkein huonoimpia: Valmennusyritys Deep Lead Oy teetti huhtikuussa 2011 kyselyn, jossa selvitettiin suomalaisten työntekijöiden työhyvinvointia ja terveyskäyttäytymistä. Terveyskäyttäytymisellä tarkoitetaan ihmisen kokonaisvaltaista hyvinvointia edistävää käyttäytymistä, joka sisältää liikunnan, terveellisen ruokavalion, riittävän levon ja sosiaaliset suhteet sekä harrastukset. Internet-pohjaiseen kyselyyn vastasi yhteensä 1 003 iältään 16 70-vuotiasta koko- tai osa-aikatyössä käyvää suomalaista. Kysely toteutettiin yhteistyössä tutkimusyritys Consumer Compassin kanssa. Otsikko tuloksista: Kyselytutkimus: Suomalaisista yli 40 prosenttia huolissaan työssä jaksamisestaan. SOTU TIME 2012 Surveymetodiikka _ Seppo 8

Ajankohtainen esimerkki: Vaaligallupit Suomessa Kiinnostusperusjoukko on seuraavissa vaaleissa äänestävät. Tällaista kehikkoa ei ole olemassa, joten tavoiteperusjoukoksi otetaan paras mahdollinen korvike joka voisi olla seuraavien vaalien aikaan äänioikeutetut jotka ikämielessä saadaan melko tarkasti Väestön keskusrekisteristä. Käytännössä ei hevin ole mahdollista kohdistaa surveytä ulkosuomalaisiin, joten otoksesta jäävät nämä pois eli otoksessa on alipeittoa. Olen myös havainnut että ainakin TNS Gallup sivuuttaa puhelinkyselyssään yli 80-vuotiaat joten hekin ovat alipeittoa mutta voidaan tulkita myös vastauskadoksi. Kehikkona voisi olla siis väestörekisterimme ja vastaavasti kehikkoperusjoukkona 18 vuotta haluttuna aikana (ajateltujen vaalien aikaan) täyttävät rekisterin mukaiset suomalaiset. SOTU TIME 2012 Surveymetodiikka _ Seppo 9

Ajankohtainen esimerkki: Vaaligallupit Suomessa En ole täysin varma onko väestörekisterissä tieto siitä onko henkilö äänioikeutettu. Luulen ettei ole. Siten tuollaisessa kehikkoperusjoukossa on ylipeittoa eli henkilöitä joilla on rekisterin henkilötunnus mutta ei äänioikeutta. Jos tuollaisesta kehikkoperusjoukosta poimitaan otos millä tahansa hyvällä otantamenetelmällä (eli Todennäköisyysotantaa käyttäen), niin on mahdollisuus laskea kyselyn muuttujista kiinnostavia estimaatteja (esim. montako prosenttia kannattaa jotakin puoluetta tai ehdokasta koko maassa, tai sen osaryhmissä kuten sukupuolen, ikäryhmän tai alueen mukaan). Estimaatin laskennassa kiusaa tuottavat: SOTU TIME 2012 Surveymetodiikka _ Seppo 10

Ajankohtainen esimerkki: Vaaligallupit Suomessa - Otoshenkilöön ei saada yhteyttä (yhden lajin vastauskato) - Otoshenkilö ei ole kykenevä kommunikoimaan riittävän hyvin haastattelijan tms kanssa (toisen lajin vastauskato) - Otoshenkilö ei olekaan äänioikeutettu jolloin tulee hyväksyttävä puuttuva tieto (tai tämä siis voidaan tulkita ylipeitoksi kehikon näkökulmasta) - Otoshenkilö ei kannata mitään tarjolla olleista vaihtoehdoista (voidaan merkitä esim. ryhmään muu ) - Otoshenkilö ei osaa sanoa mitä vaihtoehtoa kannattaa (merkittäneen koodilla en osaa sanoa ) - Otoshenkilö ei halua sanoa mitä vaihtoehtoa kannattaa (millä koodilla merkitset tämän?) - Tiedon kerääjä tekee jonkin virheen eikä hyväksyttävää tietoa saada tiedostoon (taas uusi koodi). SOTU TIME 2012 Surveymetodiikka _ Seppo 11

Ajankohtainen esimerkki: Vaaligallupit Suomessa Joissakin tutkimuksissa on hyvä vielä hankkia uusimmasta väestörekisteristä uusimmat väestötiedot mutta näin ei useinkaan tehdä eikä varsinkaan vaaligallupeissa. Siis päivitetty kehikkoperusjoukko unohdetaan. Se ei yleensä olennaisesti haittaa, koska muut kiusat ovat suurempia. Joka tapauksessa saadaan aineisto jolla voidaan yrittää estimoida parhaita mahdollisia asioita tutkimusperusjoukosta, joka toivottavasti kattaa äänioikeutetut suomalaiset jotka asuvat Suomessa tai saadaan muuten kiinni. Kuten sanottu, TNS Gallupilla kyse on 18-80 vuotiaista. SOTU TIME 2012 Surveymetodiikka _ Seppo 12

Ajankohtainen esimerkki: Vaaligallupit Suomessa On syytä ennen estimointiin menoa todeta, että TNS Gallup ja taloustutkimus eivät käytä tuota menetelmää, vaan heidän CATI-keskuksensa puhelinhaastattelijat soittavat (järjestelmällä jonka yksityiskohdat ovat liikesalaisuuksia) potentiaalisille tavoiteperusjoukon jäsenille. Hyvin paljon tulee turhia puheluita eli kukaan ei vastaa puheluun tai kun kuulee mistä on kysymys, lyö luurin korvaan (mikä olisi hyvä sanonta älypuhelimen tapauksessa?). Edelleen tapahtuu niin, että selviää ettei vastaaja ole äänioikeutettu, joten puhelu jää siihen (havaittu ylipeitto). Luonnollisesti jokin osa vastaajista on tavoiteperusjoukkoon kuuluvia jolloin päästään myös varsinaiseen kyselyyn. Vastauksissa tulevat näkyviin myös vaihtoehdot en osaa sanoa, en halua sanoa ja ei ole mitään hyvää vaihtoehtoa. SOTU TIME 2012 Surveymetodiikka _ Seppo 13

Ajankohtainen esimerkki: Vaaligallupit Suomessa Ei-äänioikeutetut on jo alun perin saatu eriteltyä eli heistä ei ole estimoinnissa haittaa. Olisi hyvä jos vaihtoehtojen joukossa olisi myös en aio äänestää, tämä ryhmä voitaisiin jättää estimoinnissa huomioimatta. Mutta: entä jos hän sittenkin menee äänestämään? Siis kiusoja on estimoinnissa. Tulosten estimointia varten tarvitaan mahdollisimman hyvät otos- ja aineiston oikaisupainot joilla kunkin vastaajan antamat arvot painotetaan ja aggregoidaan halutulle tasolle. Jos ja kun kyse on suhteellisista frekvensseistä niin kaikkien summa = 100%. SOTU TIME 2012 Surveymetodiikka _ Seppo 14

Ajankohtainen esimerkki: Vaaligallupit Suomessa Kiinnostava näkökohta: Vastauskatoa on gallupeissa kahta tyyppiä eli yksikkövastauskatoa (esiintyy myös sana vastaajakato) jolloin otoksen tavoiteperusjoukkoon kuuluva jäsen puuttuu kokonaan, ks. edeltä miksi sekä erävastauskatoa jolloin siis asianomainen ei anna vastausta tai antaa epämääräisen vastauksen? Vastauskadosta siis syntyy harhaa mutta näissä vaaligallupeissa harha on vähäisempi, koska monet näistä puuttuvista eivät äänestä vaaleissa eli eivät kuulu todelliseen tavoiteperusjoukkoon (selvitä itsellesi mikä se on). Onhan niin että surveyvastaajat ovat monesti samanlaisia kuin äänestämättömät. Tätä tosin ei ole ihan helppo tutkia mutta annan seuraavalla sivulla kaksi esimerkkiä. SOTU TIME 2012 Surveymetodiikka _ Seppo 15

Ajankohtainen esimerkki: Vaaligallupit Suomessa (i) Tuomo Martikainen tutki vaalien 1987 aidosti äänestämättömiä käyttäen äänestäjärekisterin tietoja ja yhdistämällä nämä yksilötasolla väestötietoihin. Tällainen tietosuojan loukkaus (monen mielestä) herätti kiivaan keskustelun ja tiedot yhdistänyt Tilastokeskus joutui vaikeuksiin. Kun Tuomo julkaisi raportin Hotelli Presidentissä ei mitään polemiikkia syntynyt vaan kiinnostavia tuloksia joista monet havaitsin samanlaisiksi kuin omat vastauskatotutkimukseni tulokset kotitaloustiedustelusta (esim. että yksinäiset miehet vastaavat huonosti ja matalatuloiset). Sekä äänestämättömät että vastaamattomat ovat usein syrjäytyneitä aika flegmaattisia osallistumaan mihinkään. Nyt on uusi tutkimus: (i) Tuomo Martikainen, Hanna Wass: Vaienneet äänet. Äänestäminen vuosien 1987 ja 1999 eduskuntavaaleissa. Tilastokeskus 2011. European Social Survey (ESS) sisältää kysymyksen äänestikö edellisissä parlamenttivaaleissa. Suomen aineistosta laskien äänestysprosentti 2007 oli 80,1% mutta vaaleissa 67,9%. Tulkitsepa! SOTU TIME 2012 Surveymetodiikka _ Seppo 16

Ajankohtainen esimerkki: Vaaligallupit Suomessa Puoluegallupeita medialle esiteltäessä kaikkien puolueiden kannatusten summa on ainakin eduskuntavaalien yhteydessä ollut tuo 100%. Näin siitä huolimatta että vaihtoehdoissa ovat myös nuo muut vaihtoehdot. Jos nämä olisivat summassa mukana, kaikkien puolueiden kannatusluvut putoaisivat selvästi koska näitä eri tavoilla kantansa ilmoittaneita. Ohessa esimerkki TNS Gallupin aineistosta oikaisemattomana 3/2011 Puolue 3/2011 Kannatusprosentti Ei halua sanoa 5,1 Ei äänestä 5,2 Ei osaa sanoa 27,9 KD 1,7 2,8 KESK 9,0 14,5 KOK 14,1 22,8 Muu 0,6 1,0 PS 14,0 22,6 RKP 1,7 2,7 SDP 10,0 16,0 VAS 3,3 4,0 VIHR 7,3 11,9 100 100 Suurin kannatus on vasemman sarakkeen mukaan Ei osaa sanoa - puolueella. Huomaat muuten että ei äänestäviä on varsin vähän verrattuna siihen miten vaaleissa todella tapahtuu/tui. Miksi? SOTU TIME 2012 Surveymetodiikka _ Seppo 17

Ajankohtainen esimerkki: Vaaligallupit Suomessa Jatkaakseni tuosta: Oikeastihan mediassa on kuitenkin kerrottu oikeanpuoleisen sarakkeen tyyppisiä tuloksia. Olen hieman ihmetellyt miksi presidentinvaalien yhteydessä eivät kaikki toimi samoin, vaan kannatusluvut on kerrottu joko vasemman tai oikean sarakkeen mukaisena. Sinänsä on mitä fiksuinta kertoa kantansa ilmoittamattomien osuudet koska se kertoo paljonko on pelivaraa. Oikeanpuoleisen sarakkeen luvut ovat helpompia nähdä, koska vaihtoehdoissa mukana olevien kannatussumma = 100%. Tämä pätisi yleisemmin ehdolla, että niiden ihmisten kannatus joista ei täsmällistä tietoa ole, kannattavat varsinaisia vaihtoehtoja samalla tavalla kuin he joiden kannatus on tiedossa. Tämä tuskin kovin hyvin pätee. Jos ennustetta haluaisi parantaa, niin olisi mahdollisuus imputoida kantansa ilmoittamattomien kanta. Mitä mieltä olet tästä? SOTU TIME 2012 Surveymetodiikka _ Seppo 18

Lähde Wikipedia 20.1.2012 Tulos 5,5% 2,7% 2,5% 18,8% 6,7% 37,0% 9,4% 17,5% SOTU TIME 2012 Surveymetodiikka _ Seppo 19

Surveyaineisto -On muodostettu joko otannalla tai tehty kokonaistutkimuksena. Jälkimmäinen tulee kysymykseen lähinnä pienissä tavoiteperusjoukoissa mutta myös jos sellainen saadaan yhden tai useamman rekisterin avulla. - Voi olla poikkileikkauspohjainen tai pitkittäinen. Edellinen koskee tietoja joltain ajankohdalta tai aikaväliltä, jälkimmäinen sisältää samoista yksiköistä tietoja vähintään kahdelta ajankohdalta tai aikaväliltä. Pitkittäisaineistoja saadaan usein melko hyvin rekistereistä tai vastaavista, mutta jos sellainen rakennetaan alusta lähtien suunnitelmallisesti ml. otoksen poiminta, puhutaan panelista tai paneliaineistosta. SOTU TIME 2012 Surveymetodiikka _ Seppo 20

Surveyaineisto - Kirjassani esitän kahdenlaisia paneleja tai pitkittäisaineistoja: (i) Retrospektiivinen tutkimus (paneli) (ii) Prospektiivinen eli eteenpäin suuntautuva paneli eli seurantatutkimus. Jälkimmäisiä on kolmenlaisia: A Puhdas tai jatkuva paneli tai kohorttitutkimus, jolloin tiettyä aluksi valittua joukkoa seurataan tietty aika. Aineisto yleensä supistuu joko ylipeiton eli panelikuoleman tai vastauskadon johdosta. Tämä johtaa sitä jännittävämpiin tilanteisiin mitä monimutkaisempi on tutkittava ja seurattava yksikkö. B Rotatoiva paneli, jolloin aineistoa täydennetään määrävälein ja osa alkuperäisistä vapautetaan. Tämän strategian tarkoitus on, että aineistosta voitaisiin kohtuullisesti estimoida sekä poikkileikkaus- että muutostietoja. C Edellisten sekoitus (sekapaneli), jolloin toisaalta seurataan tiettyä joukkoa ja toisaalta poimitaan riippumaton rinnakkaisaineisto, jolloin jälkimmäisestä saadaan poikkileikkaustiedot luotettavasti ja edellisestä muutostiedot. SOTU TIME 2012 Surveymetodiikka _ Seppo 21

Edellisen sivun retrospektiivisista paneleista kaavio kirjastani Tilastoyksiköt Tasapainotettu Paneli A t t+1 t+2 Tasapainotettu Paneli B C SOTU TIME 2012 Surveymetodiikka _ Seppo 22

Surveyaineisto - Jotta surveyaineistosta saadaan estimoitua tuloksia = haluttuja estimaatteja (keskiarvoja, summia, prosenttipisteitä, frekvenssejä, regressio- tai muita malleja) tavoiteperusjoukon suureista, tarvitaan tietoa siitä mitä kukin aineiston yksikkö edustaa koko tavoiteperusjoukossa. Tätä varten tarvitaan paino. Näitä on erilaisin nimikkein olemassa. Yleisesti voi käyttää nimeä otospaino. Brutto-otoksesta puhuttaessa käytetään sen erityisnimenä asetelmapainoa; vastaajienkin yhteydessä tämä nimi esiintyy mutta itse käytän nimeä perus(otos)paino. Jos vastauskatoa ja muita kiusoja yritetään ottaa otetaan huomioon estimaattien harhan vähentämiseksi, on käytössä muita nimikkeitä kuten oikaisupainot, parannetut painot, kalibroidut painot jne. Käyttäjän ei tarvitse niiden muodostamisen metodeja tuntea hyvin, kunhan käyttää oikeita painoja. SOTU TIME 2012 Surveymetodiikka _ Seppo 23

Surveyaineisto -Hyvällä painolla painotetut havainnoista saadaan laskettua ns. piste-estimaatteja. Tämä ei riitä, vaan tarvitaan myös ns. väliestimaatteja, joita on erilaisia. Kuten pian näytän. Aiheesta tulee keskustelua lisää muillakin jaksoilla. Seuraavalla erityisesti surveyaineiston näkökulmasta. - Jotta hyviä painoja saadaan rakennettua, on välttämätöntä koko surveyn teon aikana huolehtia siitä, että riittävä tieto niiden tekemiseksi on olemassa. Ei ole epätavallista, että surveyn tekijä unohtaa kaikki tai valtaosan sellaisista tekijöistä. Älä sinä tee niin! Tässä yhteydessä tulee vastaan kiintoisa käsite apumuuttuja (auxiliary variable) joka on mahdollisimman moninaisena välttämätön jotta hyvät painot voidaan tehdä. Näitä muuttujia on useanlaisia: SOTU TIME 2012 Surveymetodiikka _ Seppo 24

Surveyaineisto -Otannassa käytetyt muuttujat (esim. alue, sukupuoli, ikä) - Rekisteristä otannassa käytettyjen muuttujien kanssa poimitut muut muuttujat (asuintiedot, siviilisääty, avioliittojen määrä, lasten määrä, koulutusaste- ja ala, verotulot, työttömyystieto, opiskelutieto, ) - Tiedon keruussa kerätyt tiedot, erityisesti saatiinko vastaus, montako kertaa yritettiin tavoittaa, millä menetelmällä tieto kerättiin). Alla hahmotelma koko aineistosta. SOTU TIME 2012 Surveymetodiikka _ Seppo 25

Surveyaineisto Tunnukset 1,, r Otantaasetelmamuuttujat Kyselyn ulkopuolelta kerätyt muut muuttujat Kyselyn suorat muuttujat Muunnetut tai yhdistemuuttujat kummastakin edellisestä Otos- ja muut painot Tässä poikkileikkausaineiston rakenne sellaisena kuin se pitäisi saadaan analyysiin, myös puhdistettuna siis. Seuraavalle sivulle otan otteen oikeasta aineistosta. Selvitä mihin ryhmään kukin muuttuja kuuluu. SOTU TIME 2012 Surveymetodiikka _ Seppo 26

Oikeasta surveyaineistosta ote _ PISA2009 SOTU TIME 2012 Surveymetodiikka _ Seppo 27

Epävarmuus tilastotieteessä, erityisesti otantaa käytettäessä Aluksi on siis data joka on poimittu otannalla. Sitten laskettu siitä estimaatti. Koska siihen liittyy satunnaisluonteista epävarmuutta ja myös systemaattista, on syytä arvioida tämän suuruus. Systemaattisen eli harhan osalta se voi olla vaikeahkoa mutta satunnaisen osalta on olemassa mittareita kuten keskivirhe, virhemarginaali, p-arvo, t-arvo, 95%:n luottamusvälit numerollisesti esitettynä kahdelle estimaatille (-4,0; 8,8) (9,4; 20,2) (-7,5; 6,0) (11,2; 24,4) 95%:n luottamusvälit viivaesityksenä -10 0 10 20 30 95%:n luottamusvälit normaalijakaumallisena käyräesityksenä 0,175 0,125 0,075 0,025-10 0 10 20 30 Massa käyrän alla 95% Ohessa kolme toinen toistaan parempaa esitystapaa, lähtien luottamusvälistä. Mikä se on edellisiin mittareihin verrattuna? Esimerkki on kaikissa sama. Ymmärrä mitä ne ovat. SOTU TIME 2012 Surveymetodiikka _ Seppo 28

Jatkamme huomenna: Tiedonkeruu surveyssä ja sen menetelmät SOTU TIME 2012 Surveymetodiikka _ Seppo 29