(Turvallisuus Suomessa) - pilottitutkimus Vastauskato ja painotus Jenni Nikula 24.2.2010
Tutkimuksen tausta Eurostatin / Euroopan komission rahoittama hanke, jossa eurooppalaisten asiantuntijoiden yhdessä suunnittelemaa uhritutkimuksen haastattelulomaketta testataan 17 Euroopan maassa. Suomessa hankkeen toteuttavat: Euroopan kriminaalipolitiikan instituutti HEUNI (tutkimuksen tietosisältö) Helsingin yliopiston matematiikan ja tilastotieteen laitos (otanta ja tulosten estimointi), vuonna 2010 Sosiaalitieteiden laitos Tilastokeskus (tiedonkeruu) Tarkoituksena on tilastollisesti edustavan tiedon kerääminen erilaisten rikosten kohteeksi joutumisesta sekä muista turvallisuuteen liittyvistä kysymyksistä. Eri maiden tuloksia käytetään apuna koko Eurooppaa kattavan uhritutkimuksen suunnittelussa. 2
Otanta-asetelma (Ositettu Kaksiasteinen Ryväsotanta) Tavoiteperusjoukkona ovat Suomessa asuvat 15-74 vuotiaat henkilöt. Perusjoukon ulkopuolelle rajattiin laitoksissa ja Ahvenanmaalla asuvat henkilöt sekä henkilöt, joiden äidinkieli on ruotsi. Kehikkona oli viimeisin väestörekisteri eli heinäkuu 2009. Otoshenkilöt ositettiin sukupuolen, iän ja suuralueen mukaan. Ikäryhmiä on neljä (15-19, 20-29, 30-59 ja 60-74) Suuraluita on neljä (eteläiset kaupungit, pohjoiset kaupungit, muut kunnat ja pk-seutu) Yhteensä ositteita on siten 2*4*4 = 32 kappaletta Ryvästäminen tehtiin asuinalueen mukaan ja rypäät toimivat ensi asteen otantayksikköinä (psu). Rypäät muodostettiin postinumeroiden mukaan siten, että kussakin on tarpeeksi tavoiteperusjoukon jäseniä. Yhteensä rypäitä on 449 kappaletta. 3
Ensimmäinen aste Otanta-asetelma (Ositettu kaksiasteinen ryväsotanta) Rypäitä poimitaan pps-otannalla suuralueosittuksen mukaisesti yhteensä 100 kappaletta. Kokomuuttuja oli kehikon 15-74 vuotiaiden lukumäärä. Eteläisistä kaupungeista 19, pohjoisita 16, pk-seudulta 20 ja muista kunnista 45. Otoskoot ovat kutakuinkin suhteutettu perusjoukon kokoon, hieman on kaupunkeja ja pk-seutua painotettu. Toinen aste Rypäistä poimitaan srs-otannalla otoshenkilöitä sukupuoli- ja ikäosituksen mukaisesti siten, että miehien ja nuorten osuutta otoksessa painotetaan. Keskimäärin yhdestä rypäästä poimittiin 79 henkilöä. Lopullinen otoskoko on 7828 henkilöä Otannan yhteydessä väestörekisteristä poimittiin luonnollisesti paljon apumuuttujia mukaan otostiedostoon. 4
Sisältymistodennäköisyys ensimmäisessä asteessa (pps palauttamatta). n x * h, psu h, psu j n h * poimittavien psu : iden määrä suuralueositteesta h psu : n koko * h, psu U x x j j, jossa Sisältymistodennäköisyys toisessa asteessa n x h, k h, j h, j n x h, j h, j, jossa poimittavien otantahenkilöiden määrä psu :sta h otantahenkilöiden määrä psu :ssa h (1,...,16) (1,2,3,4) Lopullinen sisältymistodennäköisyys saadaan näiden tulona. Astelmapaino on tämän tulon käänteisluku. d k n * U h * h, psu x x j j Otanta-asetelma (Ositettu kaksiasteinen ryväsotanta) x n h, j h, j * (1,...,16) 5
Otanta-asetelma (Ositettu kaksiasteinen ryväsotanta) Asetelmapainojen jakauma 6
Tiedonkeruu Koska pilottitutkimuksen tarkoituksena on mm. vertailla eri tiedonkeruutapojen toimivuutta, aineisto kerättiin kolmella eri menetelmällä Käyntihaastatteluilla (mukana itsetäytettävä osio) Puhelinhaastetteluilla Nettilomakkeella (kontaktointi kirjeitse) Otoshenkilöt jaettiin tiedonkeruumenetelmiin satunnaisesti. Käynti 757 henkilöä (9,7 %), puhelin 3078 henkilöä (39,3 %), netti 3993 henkilöä (51 %) 7
Vastauskato Käyntihaastatteluiden vastausaste (kun ylipeittoa ei mukana) on 49,8 prosenttia. Puhelinhaastatteluiden vastaava vastausaste on 74,8 prosenttia, jos ns. puhelittomat lasketaan ylipeitoksi (61,1 prosenttia jos nämä eivät ole ylipeittoa) Suurin syy vastauskatoon käynti ja puhelinhaastatteluissa oli kieltäytyminen, toiseksi suurin syy oli tavoittamattomuus Nettikeruussa vastausaste on 24,3 prosenttia. Netissä käytettiin kahta muistutusta vastausasteen kasvattamisesksi. 8
Vastauskato Kaikissa tiedonkeruumenetelmissä vastaamisessa esiintyi eroja taustamuuttujien suhteen, eli kato ei ole täysin satunnaista. Miesten vastausaste oli heikompi puhelin- ja nettitiedonkeruussa, muttei käyntihaastatteluissa. Iän mukaan vastaamisessa oli selkeitä eroja kaikissa menetelmissä. Etenkin 30 vuotiaiden alhainen vastausaste mietityttää. 9
Adjustoitujen painojen luonti (teoria) Otannan yhteydessä kerättiin paljon apumuuttujia, joita voidaan hyödyntää painojen adjustoimisessa eli parantamisessa. Monen muuttujan kohdalla oli järkevää tehdä jonkinlainen muunnos, esimerkiksi yhdistää pieniä luokkia, jottei outliereitä synny. Menetelmänä käytetään vastauskatomalliin perustuvaa painotusta. Tehdään ennustemalli binääriselle vastausindikaattorille. Voidaan käyttää esimerkiksi logistista regressiota, mutta myös probit, log-log ja clog-log ovat mahdollisia linkkifunktioita. Mallista saadaan ennusteet vastaustodennäköisyyksille kaikille otosyksiköille k, joita käyteään adjustoitujen painojen luontiin. Adjustoidut painot tehdään vastanneille asetelmapainojen pohjalta kertomalla ne ennustettujen vastaustodennäköisyyksien käänteisluvuilla. Vastaamattomille adjustoiduksi painoksi tulee nolla. Painot skaalataan perusjoukon tasolle (painot summautuvat perusjoukon kokoon, myös ositetasolla) Vastausmekanismiksi oletetaan MAR pˆ k 10
Adjustoitujen painojen luonti (teoria) Teknisesti painot saadaan: w ( res) q k h d pˆ k k q h, kun 0, kun k k r, jossa r skaalaustekijä, jonka avulla painot täsmäytetään ositteittain perusjoukon tasolle q h h d h k d k / pˆ k Analyysipainoihin päästään jakamalla adjustoidut painot niiden keskiarvolla, jolloin painojen keskiarvoksi tulee 1. Menetelmä toimii sitä paremmin, mitä parempaa tietoa vastaamattomista on käytössä vastausmekanismin kannalta. Menetelmän etuna on, että se pureutuu suoraan vastauskatoon. 11
EU-rikosuhritutkimuksessa Kaikkiin kolmeen tiedonkeruu aineistoon vastaustodennäköisyysmallit sovitettiin erikseen. Mallinnukseen on käytetty logistista regressiota. Ennustemallissa on käytetty astelmapainoja. Painojen käyttöä mallissa voidaan perustella niiden suurella vaihtelulla. Mallissa käytettiin muuttujia: Sukupuoli Ikä ja iän neliö Siviilisääty, Avioliittojen määrä (2 tai yli yhdistetty) Binäärinen Suomen kansalaisuus Koulutusaste (ikä huomioitu peruskouluasteessa), Koulutusala Lasten lukumäärä (ylimmät luokat yhdistetty) Huoneiden lukumäärä (ylimmät luokat yhdistetty), Keittiötyyppi Ammatti (löytyykö rekisteristä vai ei, ikä huomioitu) Suuralue Seuraavilla sivuilla on jokaisen aineiston mallista muuttujien kertoimet. 12
Vastaustodennäköisyyksien ennustemallit (1) Tästä on esimerkiksi hyvin nähtävissä, että nettiaineistossa iän mukaan tarkasteltuna, yli 70-vuotiaat vastaavat heikosti. Samoin 35-40 vuotiaiden kohdalla on laskua (myös kahdessa muussa aineistossa) Web Face_to_ Face Telephone 1 Telephone 2 Gross sample 3993 735 2491 3004 Respondents 971 366 1861 1861 % Respondents 24.1 49.3 74.7 62.1 Percent Concordant 65.3 66.2 63.4 66.6 Gender Male vs Female -0.097-0.09-0.083-0.104 Puhelinaineistossa 70 vuotiaisiin verrattuna muiden ikäryhmien kerroin on puolestaan heikompi. Age 0.017-0.196-0.066-0.027 Age-Squared -0.00023 0.0003 0.002 0.0004 Age group (ref 70) -20 0.373 0.142-0.584-0.581-30 0.328-0.426-0.476-0.734-40 0.136 0.517-0.412-0.688-50 0.391-0.211-0.288-0.523-60 0.431 0.278-0.004-0.196 13
Vastaustodennäköisyyksien ennustemallit (2) Kaikissa aineistoissa suomen kansaliset vastaavat paremmin kuin muun maan kansalaiset (etenkin puhelin) Eroja myös siviilisäädyn ja avioliittojen määrän mukaan. Finnish vs Other 0.521 0.471 0.993 1.105 Partnership (ref Widowed) - Unmarried 0.505-0.336-0.523-0.433 - Married 0.84 0.01-0.267-0.242 - Divorced 0.288-0.075-0.322-0.604 Number of partnerships (ref >1) Eläkeläisiin verrattuna nettiaineistossa muut vastaavat paremmin, käynti ja puhelinaineistossa huonommin opiskeljoita lukuunottamatta. - Zero -0.199-0.061-0.066 0.095 - One 0.037 0.199 0.247 0.306 Co-partner dead 0.534 0.128 0.177 0.314 Socio-economic status (ref Retired) - Not known but old enough 0.446-0.214-0.319-0.329 - Not known but young 0.516-0.301-0.031 0.054 - Known 0.53-0.253-0.339-0.282 - Student 0.531 0.63-0.136 0.009 14
Vastaustodennäköisyyksien ennustemallit (3) Etenkin nettiaineistossa vastaaminen on sitä todennäköisempää, mitä korkeampi on koulutus. Sama ilmiö myös muissa. Koulutusalan mukaan löytyy myös eroja. Education level (ref Doctor) - Basic young -0.755-0.089-0.233 0.104 - Basic older -1.11-0.348-0.65-0.159 - Middle -0.969-0.302 0.261 0.578 - Lowest high -0.265 0.309 0.246 0.605 - Candidate -0.292 0.314 0.497 0.901 - Master -0.129 0.499 0.275 0.785 Education field (ref services etc) - Basic or other general 0.537 0.162-0.373-0.229 - Educational -0.042-1.289 0.132 0.11 - Humanistic -0.097 0.629-0.071-0.117 - Commercial and social 0.249 0.003-0.428-0.29 - Natural 0.553 0.889-0.107 0.151 - Technical 0.166 0.21-0.257-0.177 - Agriculture and forest - Health and medical 0.277 0.431 0.257 0.513 0.409-0.433-0.483-0.351 15
Vastaustodennäköisyyksien ennustemallit (4) Yleisesti kaikissa aineistossa huoneiden lukumäärä on yhteydessä vastaustodennäköisyyteen. Enemmän huoneita -> suurempi vastaustodennäköisyys Lasten lukumäärällä on erilainen vaikutus käyntiaineitossa kuin netti- ja puhelinaineistossa. Nettiaineistossa pk-seudulla vastausaste on korkein, käynnissä puolestaan alhaisin. Type of kitchen (ref Special kitchen) - Ordinary -0.11-0.561-0.993 0.014 - Kitchenette -0.007-0.585-0.338-0.13 - Small area for cooking -0.193-1.417-0.221-0.287 Number of children (ref 5+) 0 0.086 0.985-0.509-0.231-1 -0.202 1.093-0.509-0.135-2 -0.208 1.443-0.443-0.114-3 -0.371 1.483-0.303 0.094-4 -0.573 0.53-0.237-0.039 Number of rooms (ref 6+) -1-0.42-0.562-0.322-0.707-2 -0.427-0.041-0.029-0.364-3 -0.371 0.063 0.112-0.101-4 -0.394 0.068 0.045-0.102-5 -0.358-0.109 0.127-0.051 Region (ref Metropolitan Helsinki) - Other big southern towns -0.136 0.322-0.049 0.01 - Other big towns -0.187 0.118 0.041-0.061 - Rural and small towns -0.185 0.636 0.267 0.299 16
% Ennustetut vastaustodennäköisyydet Taulukossa ja kuviossa on esitetty ennustettuje vastaustodennäköisyyksien jakaumat kussakin tiedonkeruu aineistossa. Puhelinaineistossa korkeimmat, netissä alhaisimmat. Kummassakin näissä jakaumat huipukkaita. Minimi 10. prosenttipiste Keskiarvo Mediaani 90. prosenttipiste Maksimi Variaatiokerroin Käynti 0,089 0,306 0,505 0,503 0,705 0,880 29,86 Puhelin 0,168 0,640 0,751 0,761 0,855 0,999 12,78 Netti 0,041 0,129 0,243 0,225 0,391 0,599 40,81 0,5 0,4 Ennustettujen vastaustodennäköisyyksien jakaumat 0,3 0,2 0,1 Netti Puhelin Käynti 0 0 0,5 1 p 17
Adjustoidut painot Adjustoidut painot laskettiin edellä kerrotulla periaatteella kaikissa aineistoissa erikseen. Selvästi kaikkien aineistojen painojen jakaumat ovat oikealle vinoja. Myös asetelmapainojen jakauma on vino, mutta vinous lisääntyy adjustoiduissa painoissa. Hajonta on suurin nettiaineistossa. Ero 90. prosenttipisteen arvon ja maksimiarvon välillä on suuri. Summa Minimi 10 prosenttipiste Keskiarvo Mediaani 90 prosenttipiste Maksimi Variaatiokerroin Käynti 3825686 1107 6014 10453 9401 15802 39384 46,70 Puhelin 3825686 162 1342 2052 1894 2912 8828 36,87 Netti 3825686 210 1787 3940 3416 6344 17411 60,00 Käynti_scaled 366 0,11 0,58 1,00 0,90 1,51 3,77 46,70 Puhelin_scaled 1864 0,08 0,65 1,00 0,92 1,42 4,56 36,87 Netti_scaled 971 0,05 0,45 1,00 0,87 1,61 4,42 60,00 18
% Adjustoidut painot Kuvassa on analyysipainojen jakaumat. Vertailun helpottamiseksi frekvenssien sijasta on käytetty prosentteja. Selvästi puhelinaineiston painojen jakauma on kaikkein huipukkain ja lähmipänä asetelmapainojen jakaumaa. Nettiaineiston painojen jakauma eroaa asetelmapainojen jakaumasta jo selvästi. Adjustoitujen analyysipainojen jakaumat 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 Netti Puhelin Käynti Asetelmapaino 0 0 1 2 3 4 5 Analyysipaino 19
Estimointi Adjustoituja painoja käytetään tulosmuuttujien y estimoimiseen Määräpainot kokonaismäärien estimoimiseen Analyysipainot esim. suhteellisten osuuksien estimoimiseen Seuraavaksi esittelen aineistoista estimoituja tuloksia, joissa on käytetty adjustoituja painoja ja vertailun vuoksi myös tuloksia, kun on käytetty adjustoimattomia painoja. Kysymykset koskevat tietyn rikoksen uhriksi joutumista viimeisen viiden vuoden aikana (väkivalta, asuntomurto, ryöstö, varkaus) Luonnollisesti estimoinnissa on huomioitu ositus ja ryvästäminen (SAS survey- proseduurit) 20
Estimointi Kaikkien muuttujien kohdalla nettiaineistosta saadut estimaatit rikosuhrien määristä ovat kaikkein suurimpia. Ero korostuu etenkin väkivallan kohdalla. Määrät (adjustoidut painot) Määrät (peruspainot) 700000 700000 600000 600000 500000 500000 400000 Netti 400000 Netti 300000 Käynti 300000 Käynti 200000 Puhelin 200000 Puhelin 100000 100000 0 Väkivalta Varkaus Asuntomurto Ryöstö 0 Väkivalta Varkaus Asuntomurto Ryöstö 21
Estimointi Kaikissa muuttujissa ja aineistoissa estimaatit hieman eroavat sen mukaan, onko käytetty adjustoituja painoja vai ei. Suurin ero löytyy nettiaineistosta estimoitujen väkivaltamäärien kohdalla (adjutoiduilla painoissa suurempi estimaatti). 50000 40000 30000 Erotus estimaattien välillä 20000 10000 0-10000 -20000-30000 Väkivalta Varkaus Asuntomurto Ryöstö Netti Käynti Puhelin 22
Estimointi Painojen adjustointia on kritisoitu sillä, että menetelmä korjaa harhaa varsianssin kustannuksella (ts. hajonta kasvaa). Jos mallin muuttujat ovat lisäksi yhteydessä myös tulosmuuttujaan y, varianssin ei pitäisi kasvaa. Tässä tapauksessa keskivirheet ovat adjustoiduilla painoilla osittain hieman suurempia, mutta erot ovat vähäisiä Väkivalta Summa Suht. osuus s.e Netti w_adj 581569 0,152 0,017 w_basic 541719 0,142 0,011 Käynti w_adj 388930 0,102 0,017 w_basic 379769 0,099 0,016 Puhelin w_adj 360584 0,094 0,008 w_basic 351580 0,092 0,008 Asuntomurto Summa Suht. osuus s.e Netti w_adj 186146 0,049 0,008 w_basic 198265 0,052 0,008 Käynti w_adj 81640 0,021 0,007 w_basic 92643 0,024 0,008 Puhelin w_adj 105675 0,028 0,004 w_basic 106678 0,028 0,008 Varkaus Summa Suht. osuus s.e Netti w_adj 460513 0,120 0,012 w_basic 447999 0,117 0,011 Käynti w_adj 383547 0,100 0,019 w_basic 400732 0,105 0,019 Puhelin w_adj 361224 0,094 0,007 w_basic 361583 0,095 0,007 Ryöstö Summa Suht. osuus s.e Netti w_adj 131882 0,034 0,007 w_basic 116795 0,031 0,005 Käynti w_adj 57764 0,015 0,007 w_basic 55080 0,014 0,006 Puhelin w_adj 95462 0,025 0,004 w_basic 90108 0,023 0,004 23