TILASTOTIETEEN JATKOKURSSI, 10 OP, 20.1. 28.4.2011. Kirjallisuus: Ilkka Mellinin Johdatus tilastotieteeseen, 2. kirja. Luennoi: yliopistonlehtori Pekka Pere. 8. laskuharjoitukset (viikko 12) 1. Helsingin Sanomien toimittaja tutki, kuinka suurten kaupunkien poliisilaitokset onnistuivat raiskausten tutkinnassa 2000 2009. 1 Tulosten (taulukko) mukaan Oulussa selvitettiin raiskaukset parhaiten (73,7 %) ja Lahdessa huonoiten (42,2 %). Keskimäärin raiskauksista selvitettiin 57,7 %. Uutisessa haastatellun poliisiylijohtaja Mikko Paateron mukaan raiskausten selvittämisprosentti Oulussa "kuulostaa pieneltä". Hän arvioi selvitystä: Mutta jos selvityksen tuloksista ottaa Oulun ja Lahden pois, erot muiden suurien kaupunkien selvitysprosenteissa mahtuvat 15 prosenttiyksikön haarukkaan. Se ero ei enää tunnu kauhean isolta. selvitettyjen kaupunki osuus (%) selvitettyjä selvittämättomiä yhteensä Lahti 73,7 98 35 133 Tampere 64,7 205 112 317 Espoo 61,7 195 121 316 Kuopio 59,8 67 45 112 Helsinki 58,1 704 508 1212 Jyvaskylä 57,4 89 66 155 Vantaa 56,4 146 113 259 Kouvola 55,7 39 31 70 Turku 49,9 209 210 419 Oulu 42,2 70 96 166 %/n 57,7 1822 1337 3159 a) Testaa eroavatko selvitysprosentit eri kaupungeissa tilastollisesti merkitsevästi 1 prosentin riskitasolla. b) Tutkitaan poliisiylijohtaja Paateron argumenttia tilastotieteellisestä näkökulmasta. Poista aineistosta Oulu ja Lahti (mitään järkevää syytä sinänsä ei ole näin tehdä), ja tee sama testi jäljelle jääneiden kaupungien osalta. Ovatko (15 prosenttiyksikön haarukkaan mahtuvat) erot selitettävissä satunnaisvaihtelulla? Laske testin p-arvo, ja vastaa sen perusteella. 1 Lasse Kerkelän artikkeli "Raiskausten selvittämisprosenteissa isoja eroja poliisilaitosten välillä. Lahti paras Oulu huonoin. Poliisihallitus ottaa raiskaustutkinnat tarkasteluun". (Helsingin Sanomat 17.3.2011, s. A8.) Artikkelin mukaan selvitys perustuu Tilastokeskuksen rikostilastoihin.
2. Tutkitaan miesten ja naisten eroja politiikasta keskustelemisen aktiivisuudessa (1996). 2 Tutkittavilta pyydettiin vastausta seuraavaan kysymykseen: "Kun olette tekemisissä ystävienne kanssa, niin keskusteletteko heidän kanssaan poliittisista asioista usein, silloin tällöin, vai ei koskaan?" Vastaukset tuottivat taulukot alla (ylemmän taulukon luvut ovat lukumääriä ja alemman prosentteja; otosten kokoa on merkitty n:llä). Mies Nainen Usein 43 29 Silloin tällöin 323 298 En koskaan 108 174 n 474 501 Alle 35-v. 35-59 v. 60 v. tai yli Mies Nainen Mies Nainen Mies Nainen Usein 4 2 10 8 17 9 Silloin tällöin 64 58 71 62 72 59 En koskaan 33 40 19 31 11 32 Yhteensä (%) 100 100 100 100 100 100 n 183 184 194 199 96 118 a) Eroaako aktiivisuus keskustella poliittisista asioita ystävien kanssa (kaikissa ikäryhmissä) sukupuolen mukaan (ylempi taulukko)? Testaa nollahypoteesia, että eroa ei ole, 1 %:n riskitasolla. b) Eroaako aktiivisuus keskustella poliittisista asioita ystävien kanssa sukupuolen mukaan ikäryhmittäin (alempi taulukko)? Testaa nollahypoteesia, että eroa ei ole, 1 %:n riskitasolla kussakin ikäryhmässä. 2 Lähde: http://www.fsd.uta.fi/menetelmaopetus/ristiintaulukointi/ristiintaulukointi.html ja http://www.fsd.uta.fi/aineistot/luettelo/fsd0153/.
3. Tutkitaan kuolemantuomioiden frekvenssiä syytetyn rodun ja uhrin rodun mukaan eriteltynä USA:ssa Floridan osavaltiossa 1976 1986. (Kaikissa tapauksissa syytteisiin liittyy useampia murhia.) 3 Oheisessa taulukossa on päällekkäin kolme 2 2 -frekvenssitaulukkoa. Ylimmästä frekvenssitaulukosta huomataan, että valkoihoinen saa mustaihoista useammin kuolemantuomion. Alemmissa taulukoissa on kuolemantuomioiden frekvenssit eritelty uhrin rodun mukaan. Taulukko on esimerkki niin sanotusta Simpsonin paradoksista. 4 Mikä on tämä paradoksaalinen tulos näiden frekvenssitaulukoiden kohdalla? uhrin syytetyn kuolemantuomio tuomittujen rotu rotu kyllä ei osuus (%) kumpi valkoinen 53 430 11,0 tahansa musta 15 176 7,9 valkoinen valkoinen 53 414 11,3 musta 11 37 22,9 musta valkoinen 0 16 0,0 musta 4 139 2,8 4. Taulukkoon on kerätty kaikki tähän mennessä myönnetyt Nobel-palkinnot (1901 2010; "ktt" on kansantaloustiede). 5 a) Testaa 1 %:n riskitasolla nollahypoteesia, että Nobel-palkinnon saaneiden sukupuoli ja palkintoluokka ovat riippumattomia muuttujia. Pohdi, ovatko χ 2 - testin käyttöedellytykset voimassa. b) Yhdistä luokat kirjallisuus, rauha ja kansantaloustiede. Tee a)-kohdan testi näin luokitellulle aineistolle. Vertaa tuloksia. ala lääket. fysiikka kemia kirjallisuus rauha ktt yht. mies 186 185 154 95 86 66 772 nainen 10 1,5 3,5 12 12 1 40 yht. 196 186,5 157,5 107 98 67 812 3 Taulukko löytyy kirjoista Alan Agresti (2007): An Introduction to Categorical Data Analysis, 2. laitos (s. 50) ja Alan Agresti (2002): Categorical Data Analysis, 2. laitos (s. 48). Taulukon alkuperäislähde on M.L. Radelet ja G.L. Pierce (1991). Florida Law Review, 43, 1 34. 4 Paradoksi on tuotu esiin alunperin artikkeleissa E.H. Simpson (1951): The interpretation ofinteractionincontingencytables. JournaloftheRoyal StatisticalSociety, 13B, 238 241 ja G.U. Yule (1903): Notes on the Theory of Association of Attributes in Statistics. Biometrika, 2, 121 134. Paradoksista löytyy lisää esimerkkejä monista tilastotieteen oppikirjoista. Ks. esim. P. Armitage, G. Berry ja J.N.S. Matthews (2002): Statistical Methods in Medical Research, 4. laitos (s. 517) ja Edward J. Dudewicz ja Satya N. Mishra (1988): Modern Mathematical Statistics (s:t 55-56 ja 63). Paradoksista on artikkeli myös Wikipediassa: http://en.wikipedia.org/wiki/simpson s_paradox (viitattu 19.3.2011). 5 Vuosien 1901 2008 tiedot ovat artikkelista Danny Dorling (2010): Putting Men on a Pedestal: Nobel Prizes as Superhuman Myths? Sigificance, syyskuu 2010, 142 144. Artikkelissa kerrotaan mm. miten palkinnot on taulukoitu, jos sama henkilö on saanut Nobel-palkinnon useamman kerran sekä muita yksityiskohtia (selitykset desimaaliluvuille taulukossa). Vuosien 2009 2010 tiedot on haettu Nobel-säätiön palvelusta http://nobelprize.org (viitattu 19.3.2011).
5. HIV yleistyi nopeasti Suomessa vuosina 1997 1999. Terveysneuvolapisteissä aloitettiin vuonna 1997 ilmainen pistovälineiden vaihto ruiskuhuumeiden käyttäjille HIV:n leviämisen estämiseksi pistovälineiden yhteiskäytön kautta (taulukko). 6 Oheisessa kuviossa on piirretty vuosina 1999 2009 ruiskuhuumeiden käyttöön liittyvän HIV:n ja pistovälineiden vaihtojen lukumäärät toisiaan vastaan. Kutakin havaintopistettä on osoitettu siihen liittyvällä vuosiluvulla. Laske Pearsonin korrelaatiokerroin sekä Spearmanin järjestyskorrelaatiokerroin. (Voit käyttää kurssin kotisivuille linkitetyistä Wikipedian artikkeleista löytyviä linkitettyjä laskimia tai googlaamalla helposti löytyviä laskimia.) Selitä yksityiskohtaisesti, millä kaavoilla olet laskenut korrelaatiokertoimet, mitä kaavoissa olevat symbolit tarkoittavat ja miten korrelaatiokertoimet eroavat tulkinnallisesti toisistaan. Mitkä seikat (jos mitkään) puoltavat Pearsonin ja mitkä Spearmanin korrelaatiokertoimen käyttöä tässä yhteydessä? vaihtoja vuosi ( 100) HIV 1999 3000 85 2000 5645 55 2001 9505 50 2002 11000 24 2003 14000 22 2004 18000 10 2005 19000 16 2006 23000 10 2007 24132 12 2008 27000 7 2009 31000 12 6 Lähteet: Tutkija Henrikki Brummer-Korvenkontion 17.6.2010 ja 4.3.2011 luovuttamat tiedot sekä http://www.ktl.fi/portal/suomi/tietoa_terveydesta/terveys_ja_sairaudet/infektiotaudit/ hiv_ja_aids/huumeet_ja_hiv (viitattu 17.6.2010) ja http://www.ktl.fi/ttr/gen/rpt/hivsuo.html (viitattu 21.6.2010).
100 HIV-infektioita 80 1999 60 2000 2001 40 20 2002 2003 2005 2004 2007 2006 2008 2009 0 0 10000 20000 30000 35000 Vaihtoja (*100) Figure 1: Ruiskuhuumeiden käyttöön liittyvä HIV ja pistovälineiden vaihto 1999 2009.
6. Jääkiekon SM-liigan runkosarjan lopputulokset 2008 ja 2009 ovat oheisessa taulukossa ja piirrettyinä toisiaan vastaan oheisessa kuviossa. 7 a) Laske Spearmanin ja Kendallin järjestyskorrelaatiokertoimet. (Voit käyttää apunasi laskuria netissä tai tilasto-ohjelmistoa.) b) Testaa, poikkeavatko järjestyskorrelaatiokertoimet nollasta. Ovatko testien käyttöedellytykset voimassa? c) Kommentoi tuloksia. Lopullinen runkosarjataulukko joukkue sijoitus 2009 sijoitus 2008 JYP 1 5 Blues 2 2 HPK 3 12 Jokerit 4 3 Kärpät 5 1 Kalpa 6 13 HIFK 7 7 Ilves 8 8 Pelicans 9 6 TPS 10 10 Lukko 11 9 Ässät 12 14 Tappara 13 4 Saipa 14 11 7 Http://fi.wikipedia.org/wiki/Jääkiekon_SM-liigakausi_2008-2009 ja http://fi.wikipedia.org/wiki/jääkiekon_sm-liigakausi_2007-2008 (viitattu 19.3.2011).
15 2009 10 5 0 0 5 10 15 2008 Figure 2: Jääkiekon SM-liigan runkosarjan lopputulokset 2008-2009.