TILASTOTIETEEN SOVELLUKSIA JARNO TUIMALA

Koko: px
Aloita esitys sivulta:

Download "TILASTOTIETEEN SOVELLUKSIA JARNO TUIMALA"

Transkriptio

1 TILASTOTIETEEN SOVELLUKSIA

2

3 TILASTOTIETEEN SOVELLUKSIA JARNO TUIMALA Helsinki 2010

4 Jarno Tuimala 1. painos

5 Sisällysluettelo Lotto Syntymäpäivät Ässäarpa A1-maito ja diabetes Ihmisen ruumiinlämpö Vauvan laskettu aika Lasten kasvukäyrät Rintasyöpäseulonnat Ajoneuvotilastot Kaisaniemen sää Rukoilu ja tulehdukset Kalsium ja lyijy Kyselytutkimukset UC Berkeley Turun yliopisto Haihyökkäykset Tutkimus- ja tuotekehitysmenot

6 Esipuhe Tämä kirja on hieman hajanainen kokoelma eri aikoina kotisivuillani julkaisemia kirjoitelmia tilastotieteen sovelluksista eri elämänaloilla. Toivottavasti edes joistakin tapausesimerkeistä on lukijoille iloa. Helsingissä Huhtikuussa 2010 Jarno Tuimala

7 Tilastotieteen sovelluksia Lotto Suomalainen lotto on peli, jossa pelaaja valitsee yhteen riviinsä seitsemän numeroa kaikkiaan 39 vaihtoehdon joukosta. Lottoarvonnassa arvotaan 39 numeron joukosta 7 numeroa ja 3 lisänumeroa. Kiinteät voittoluokat ovat 7 oikein, 6 oikein + lisänumero, 6 oikein, 5 oikein ja neljä oikein. Jos kaikki pelaajan valitsemat seitsemän numeroa ovat samat kuin arvotut, hän voittaa päävoiton, jonka määrä on viimeaikoina pyörinyt noin miljoonan euron tienoilla. Kirjoitushetkellä yksi lottorivi maksaa 80 senttiä. Erilaisten lottorivien määrä Kuinka monta erilaista lottoriviä on olemassa? Tähän vastaamiseksi on selvitettävä kuinka monella tavalla seitsemän numeroa voidaan valita 39 joukosta. Ensinnäkin 39 numerosta voidaan muodostaa 39*38*37*...*2*1 erilaista yhdistelmää. Tätä lukusarjaa kutsutaan 39:n kertomaksi, ja sitä merkitään usein yksinkertaisesti 39!. Vastaavasti seitsemästä luvusta voidaan muodostaa 7! erilaista yhdistelmää. Riviin kuulumattomat 32 numeroa voidaan valita 32! eri tavalla. Nyt erilaisten seitsemän numeroa sisältävien rivien määrä voidaan laskea seuraavasti: 39!/(7!*32!) = Tätä lukua kutsutaan lottorivien kombinaatioiden määräksi. Yhteensä erilaisia lottorivejä on siis reilut 15 miljoonaa erilaista. Kuinka monta erilaista voittavaa yhdistelmää on? Ylläesitetyllä erilaisten lottorivien määrän laskemiseen käytetyllä kaavalla voidaan selvittää myös kuinka monta erilaista kutakin yhdistelmää on. Otetaan esimerkiksi voittoyhdistelmä neljä oikein. Erilaisia neljä oikein yhdistelmiä voidaan seitsemän oikean numeron joukosta muodostaa 7!/(4!*3!) = 35 kappaletta. Arpomatta jääneet kolme numeroa voiddan lisäksi valita 32!/(3!*29!) = tavalla. Erilaisten neljä oikein rivien määrä saadaan näiden tulosten tulona eli 35*4 960 = Jos samaa kombinaatioihin perustuvaa menetelmää sovelletaan kaikkiin erilaisiin voittoyhdistelmiin, saadaan niiden lukumääriksi: 1

8 Yhdistelmä Lukumäärä 7 oikein oikein 21 6 oikein oikein oikein Kuinka todennäköistä on voittaa? Nyt kun erilaisten voittoyhdistelmien määrä ja erilaisten rivien kokonaismäärä on tiedossamme, voimme helposti laskea erilaisia voittotodennäköisyyksiä. Esimerkiksi todennäköisyys voittaa päävoitto yhdellä rivillä voidaan laskea erilaisten päävoittoyhdistelmien lukumääränä (1) kaikkien mahdollisten yhdistelmien ( ) joukosta eli 1 / = 0, Entä kuinka todennäköistä on voittaa yhdellä rivillä yhdellä kierroksella ylipäätään jotakin? Tämä on kaikkien voittoyhdistelmien summa jaettuna erilaisten rivien lukumäärällä eli ( ) / = eli hieman yli 1%. Entäpä todenäköisyys hävitä rahansa? Koska kullakin rivillä tapahtuu varmasti jompikumpi tapahtuma, joko tulee voitto tai ei tule voittoa, on niiden yhteenlaskettu todennäköisyys yksi. Todennäköisyys olla voittamatta mitään voidaan siis laskea vähentämällä voittotodennäköisyys yhdestä. Yhden rivin todennäköisyys olla voittamatta on siis = Miten todennäköistä on sitten voittaa täyttämällä koko kuponki eli 12 riviä? Koska kunkin rivin todennäköisyys voittaa ei riipu siitä voittivatko muut rivit vai eivät, voidaan koko kupongin voittotodennäköisyys laskea kertomalla yhden rivin voittotodennäköisyys rivien lukumäärällä. Käytännössä tämä on helpointa toteuttaa laskemalla kupongin todennäköisyys hävitä, mikä on 0.988^12 eli luku kerrottuna itsellään 12 kertaa. Tästä saadaan noin Kun tämä vähennetään yhdestä, saadaan selville voittotodennäköisyys: = Tämä on vain hieman yli 11 kertaa suurempi kuin todennäköisyys voittaa yhdellä ainoalla rivillä. Jos haluaa olla varma, että voittaa ainakin jotakin todennäköisemmin kuin häviää kaiken, pitää jättää 58 riviä, sillä ^ 58 > 0.5. Tällöinkin voitto on suurella todennäköisyydellä neljä oikein, mikä ei kata edes lottoamisen kustannuksia. 2

9 Tilastotieteen sovelluksia Kannattaako lotota jättämällä kaikki mahdolliset rivit? Jos jättää yhden kappaleen kutakin erilaista lottoriviä eli yhteensä yli 15 miljoonaa riviä, voittaa varmasti päävoiton ja suuren määrän muitakin voittoja. Kaikkien rivien hinnaksi tulee euroa. Onko odotettavissa, että sijoitukselle saa tuottoa vai meneekö se hukkaan? Yhdellä kierroksella päävoittoon sijoitetaan 13,6% sen kierroksen liikevaihdosta. Jos päävoitto on miljoona euroa, on yksi prosentti liikevaihdosta euroa. Voittoluokkaan 6+1 oikein sijoitetaan 2.45% liikevaihdosta, luokkaan 6 oikein 2.6%, luokkaan 5 oikein 3.95% ja luokkaan 4 oikein 16.5%. Yhteensä siis liikevaihdosta maksetaan pelaajille takaisin 13.6%+2.45%+2.6%+3.95%+16.5% = 39.1%. Näin ollen pelaajille jaossa oleva rahamäärä on 39.1 * euroa = Takkiin siis tulee ja rankasti. Laskelmassa on kuitenkin pieni virhe: siinä ei otettu huomioon sitä rahamäärää, joka kaikkien noiden eri rivivaihtoehtojen jättämiseen kuluu, ja josta osa tuloutetaan takaisin pelaajille. Jos yllämainitun tavanomaisen kierroksen liikevaihto on euroa * 100 = euroa, on tämän laskelman kierroksen liikevaihto = euroa eli sisältää kaikkien rivien jättämiseen käytetyn rahasumman. Tästä liikevaihdosta voittoihin siirretään 39.1% eli * = Joten vaikka jättämällä kaikki mahdolliset voittorivit on mahdollista kahmia suuri määrä voittoja, tulee tappiota silti euroa euroa = euroa. Kokonaan toinen juttu on kaikkien rivien jättämiseen kuluva aika. Jos arvioidaan, että yhden rivin jättämiseen tarvitaan vaikkapa 10 sekuntia, kun otetaan huomioon OnLine-päätteen käyttö ja laskutus, tarvitaan kaikkien rivien jättämiseen yhteensä noin 1780 päivää yhtä ainutta päätelaitetta käyttäen. Koska rivien jättämiseen on aikaa vain hieman alle seitsemän päivää, tarvitaan siis reilut 250 päätelaitetta kaikkien rivien syöttämiseen. Arvio perustuu siihen, että laitteita käytetään yötäpäivää. Jos tehollisia tunteja onkin vuorokaudessa vain 15 (tyypillinen R-kioskin aukioloaika), tarvitaan päätelaitteita itse asiassa yli 400. Koko maassa oli R-kioskia, joten yli puolet Suomen Rkioskeista pitäisi valjastaa työskentelemään projektin parissa viikon ajan. Milloin moisesta hankkeesta sitten tulisi järkevä? Varmasti ainakin silloin kun voittoina saatava rahasumma ylittää panoksen määrän. Tämä tapahtuu silloin, kun päävoitto on vähintään 4,28 miljoonaa euroa siten, ettei päävoitosta hitustakaan ole siirretty aiemmilta kierroksilta. 3

10 Hämmästyttävä yhteensattuma Bulgariassa tehtiin syyskuussa 2009 lottohistoriaa. Lottokone nimittäin arpoi kahdella peräkkäisellä viikolla tismalleen saman lottorivin, joskin numeroiden järjestys ei ollut sama. Ensimmäisellä kerralla kukaan ei saanut päävoittoa, mutta seuraavalla kierroksella voittajia löytyi 18. Koska yhteensattuma tuntui niin epätodennäköiseltä, ja vilppiä epäiltiin, lottoarvonnat tutkittiin urheiluministerin määräyksestä, mutta mitään epäselvyyttä ei havaittu. Tämä yhteensattuma tuntuu epätodennäköiseltä, mutta onko se sitä todella? Wikipedian mukaan lottoa pelataan ainakin yli 60 maassa, ja monissa toimii toimii useampiakin lottopelejä. Melko tyypillinen lotto muistuttaa suomalaista lottoa päävoittotodennäköisyydeltään. Jos kullakin viikolla arvotaan yksi rivi, on sellaisia rivejä, jotka voivat olla samoja kuin edellisellä viikolla yhteensä 51. Ensimmäistä viikkoa ei verrata mihinkään, joten sitä ei siis lasketa mukaan. Ensimmäisellä viikolla rivi voi olla jokin :sta vaihtoehdosta. Toisella viikolla voidaan valita yksi rivi, joka on sama kuin ensimmäisellä viikolla tai jokin muu rivi, joita on siis = kappaletta. Näin todennäköisyys olla saamatta kahta samaa riviä yhden vuoden aikana on todennäköisyys, että saadaan seuraavalla viikolla eri rivi kerrottuna 51 kertaa itsellään: ( / ) ^ 51 = Toisin sanoen, todennäköisyys saada kaksi samanlaista lottoriviä yhden vuoden aikana on noin 3 miljoonasta. Oletetaan Wikipedian tietojen pohjalta, että maailmassa arvotaan kullakin viikolla sata lottoriviä, ja että arvonta on ollut käynnissä 40 vuotta. Yhteensä on siis tähän mennessä arvottu 40*100*52 riviä = Todennäköisyys, että kaikki rivit näissä arvonnoissa ovat erilaisia on ( / ) ^ = Kääntäen, todennäköisyys että on arvottu ainakin kaksi samanlaista riviä on = Todennäköisyys että koko loton historian aikana on arvottu ainakin kaksi samanlaista riviä on siis ainakin reilun yhden prosentin luokkaa. Nyt tuo todennäköisyys ei ehkä enää tunnukaan niin pieneltä, sillä se on hiukan suurempi kuin voittaa neljä oikein yhdellä rivillä. Bulgarian arvonta näyttää laskelman valossa edelleen yllättävältä, muttei sentään tavattoman erikoiselta. Lottoarvonnoissa onkin raportoidusti arvottu ainakin kerran aiemmin kaksi samanlaista riviä: kesäkuussa 1977 sekä Alankomaissa että Saksassa. 4

11 Tilastotieteen sovelluksia Yhteenveto Kuten tulemme näkemään muidenkin pelien ollessa kyseessä, on pelit usein laadittu tarkasti siten, että pelinhoitaja tai pankki keskimäärin aina pääsee voitolle. Yleensä tieto, että pankilla on pieni etu, riittää tekemään toiminnasta kannattavaa, kunhan pelaajia on riittävän paljon. Lotossa pankin etu on huomattavan suuri esimerkiksi rulettiin tai korttipeli blackjackiin verrattuna, kuten seuraavissa kappaleissa selviää. 5

12 Syntymäpäivät Järjestät syntymäpäivät, joille tulee 23 henkeä. Mikä on todennäköisyys, että ainakin kahdella henkilöllä on sama syntymäpäivä (päivä ja kuukausi)? Nopeasti ajatellen tilanne, jossa kahdella henkilöllä olisi sama syntymäpäivä, tuntuu aikamoiselta sattumalta: Useimmissa vuosissa on 365 päivää, joten tuntuisi järkeenkäypältä, että tarvittaisiin ainakin yli 180 henkeä, jotta tällaisen tapauksen todennäköisyys olisi yli 50%. Arkijärki menee pahasti pielee. Todennäköisyys on itseasiassa paljon suurempia. Parien lukumäärä Asiaa voi pyrkiä hahmottamaan esimerkiksi laskemalla vieraista muodostuvien erilaisten parien lukumäärä. Tämä on melko yksinkertainen laskutoimitus. Esimerkiksi kahdesta hengestä voidaan muodostaa vain yksi pari. Kolmesta hengestä saadaan jo 3 erilaista paria, ja neljästä henkilöstä kuusi. Kahdestakymmenestäkuudesta hengestä voidaan muodostaa (23 * 23-23) / 2 = (23 * 22) / 2 = 253 erilaista paria. Kun vuodessa on 365 päivää, voitaisiin olettaa, että 23 vieraan joukosta löytyisi ainakin 253 / 365 = paria, jonka molemmilla jäsenillä olisi sama syntymäpäivä. Entäpä se todennäköisyys? Edellä laskettujen parien lukumäärän perusteella ei voida laskea todennäköisyyttä sille, että ainakin kahdella vieraalla on sama syntymäpäivä. Ongelma on itse asiassa helpointa ratkaista laskemalla todennäköisyys, ettei kenelläkään ole samaa syntymäpäivää, ja sitten vähentämällä tämä ykkösestä, jolloin saadaan todennäköisyys, että ainakin kahdella henkilöllä on sama syntymäpäivä. Jos juhlissa olisi vain kaksi henkilöä, voisi ensimmäisen henkilön syntymäpäivä olla mikä tahansa 365:n joukosta. Toisen henkilön syntymäpäivä voidaan valita 365:n päivän joukosta 364 tavalla, kun oletuksenamme on, ettei se ole sama kuin ensimmäisellä henkilöllä. Nyt todennäköisyys, että molemmilla on sama syntymäpäivä voidaan laskea 365 / 365 * 364 / 365 = Vastaavalla tavalla kolmelle henkilölle todennäköisyydeksi saadaan 365 / 365 * 364 / 365 * 363 / 365 = Juhlien kaikille 23 henkilölle todennäköisyys voidaan siis laskea samaan tapaan. Tulokseksi saadaan Kun tämä vähennetään yhdestä saadaan = Eli on hiukan yli 50% 6

13 Tilastotieteen sovelluksia todennäköisyys, että juhlissa, joihin osallistuu 23 henkeä, vähintään kahdella henkilöllä on tismalleen sama syntymäpäivä. Todennäköisyys voidaan esittää juhlijoiden lukumäärää vasten piirrettunä käyränä. Allaolevasta käyrästä voi havaita, että todennäköisyys kasvaa nopeasti kohti ykköstä kun juhlijoiden määrä lisääntyy. Kun juhlijoita on 57 tai enemmän, ylittyy 99% todennäköisyys, että vähintään kahdella juhlijalla on sama syntymäpäivä. Missä tätä voi soveltaa? Yllä esitetty on aika usein syntymäpäiväjuhlilla käytetty kikka. Halutessaan sillä voi tienata myös hieman rahaa, jos haluaa järjestää pienen vedonlyönnin. Todennäköisyyslaskelma on kuitenkin teoreettinen, eikä täysin vastaa todellisuutta, sillä laskuista on jätetty pois esimerkiksi karkauspäivä, joita esiintyy yksi kerran neljässä vuodessa. Sen merkitys laskelmalle on kuitenkin melko pieni. Laskelma ei ota myöskään huomioon sitä, että Suomessa ei synny lapsia aivan tasaisesti vuoden ympäri, vaan syntyvyys painottuu hieman kevääseen. Kuukausien väliset erot ovat kuitenkin melko pieniä. Kun ottaa näiden epävarmuustekijöiden vaikutuksen huomioon, kannattanee vetoja kuitenkin ottaa vastaan vasta kun juhlissa on henkilöitä lähemmäs kolmekymmentä. Tällöin teoreettinen mahdollisuus voittaa on jo lähellä 70%. 7

14 Ässäarpa Ässäarpa on Veikkaus Oy:n raaputusarpa, jossa voitot vaihtelevat 3,5 euron ja euron välillä. Yhden arvan hinta on 3,5 euroa, joten minimivoitolla saa oman panoksensa takaisin. Voitonjako on eritelty seuraavassa taulukossa. Voitto (euroa) ,5 Kpl Yhteensä voittoja on siis kpl, ja voittoina jaetaan euroa. Arpoja on painettu yhteensä Kuinka paljon voi olettaa voittavansa yhdellä arvalla? Yhden arvan todennäköisyys voittaa voidaan laskea voittavien arpojen osuutena arpojen kokonaismäärästä eli / mikä on likimain Tätä todennäköisyyttä tarvitaan yhden arvan odotetun voitto-osuuden laskemiseen. Jos jokaikinen arpa voittaisi, olisi odotettavissa oleva voittosumma helppo laskea jakamalla kokonaisvoittosumma voittavien arpojen määrällä eli euroa / = 1.75 euroa. Tämä voidaan laskea myös ylläolevan todennäköisyyden avulla. Keskimääräinen voittosumma oikeasti voittavaa arpaa kohden on / = 6.07 euroa. Oikean voittosumman saamiseksi juuri laskettu odotettavissa oleva voittosumma pitää vielä kertoa voittotodennäköisyydellä eli 6.07 * = 1.75 euroa. Yhdellä arvalla saatava keskimääräinen voitto on siis 1.75 euroa. Vähemmän kuin arvan hinta, mutta ei turhan huono. Laskelmamme 8

15 Tilastotieteen sovelluksia menee tosin harhaan siinä, että laskutapamme oletti, että kaikki voitot ovat yhtä suuria. Lisäksi suurin osa arvoista ei voita mitään, ja niiden oletettu voitto-osuus on 0 euroa, mitä emme ottaneet laskelmassamme huomioon. Sama asia voidaankin laskea monimutkaisemmin käyttäen kunkin euromääräisen voiton todennäköisyyttä apuna. Ensin kulllekin voitolle lasketaan todennäköisyys. Esimerkiksi todennäköisyys saada yksi päävoitoista on 10 / eli likimain Samalla tavalla kullekin voitolle voidaan laskea sen todennäköisyys. Voittotodennäköisyyksien summaksi tulee näin eli todennäköisyys voittaa yhdellä arvalla. Mukaan pitää vielä kuitenkin ottaa ne arvat, joilla ei voiteta mitään, jolloin voittotodennäköisyyksien summaksi tulee 1 eli aina kun arvan ostaa, sillä joko voittaa tai häviää. Laskutoimitusten tulokset on taulukoita alle. voitto kpl voitto-todennäköisyys voitto-odotus e e e e e e e e e Nyt odotettu voittosumma voidaan laskea kertomalla voitto kunkin voiton todennäköisyydellä, mikä on laskettu valmiiksi yllä olevan taulukon sarakkeeseen voitto-odotus. Kun yksittäiset voitto-odotukset lasketaan yhteen, saadaan sama arvio kuin aiemminkin, 1.75 euroa. Eli vaikka emme aiemmin ottaneet huomioon arpoja, joilla ei voiteta mitään, saimme silti oikean voittoarvio. Tämä johtuu siitä, etteivät tyhjät arvat itseasiassa vaikuta voittoarvioon lainkaan, jos se lasketaan kuten yllä. Kuinka paljon ässäarpa sitten palauttaa voittoina? Tämä voidaan laskea joko käyttämällä yhden arvan hintaa ja sen voitto-odotusta: 1.75 euroa / 3.50 euroa * 100 % = 50%. Samaan tulokseen päästään laskemalla ensin kaikkien arpojen yhteishinta ( * 3.50 euroa = 10.5 miljoonaa euroa) ja jakamalla se voittoina palautetulla rahamäärällä (5.25 miljoonaa euroa). Tästäkin saadaan tulokseksi 50% 9

16 A1-maito ja lapsuustyypin diabetes Lehmänmaidon kulutuksen ja lapsuusiän diabeteksen yhteydestä on viime vuosina keskusteltu myös Suomen mediassa. Keskustelu on saanut alkunsa uusi-seelantilaisten tutkijoiden havainnosta, että niissä maissa, joissa maidon kulutus on suurta, on myös lapsuusiän diabetes yleinen kansantauti. Syyksi on esitetty maidon pääasiallisen valkuaisaineen, kaseiinin, tiettyä muotoa. Kaseiinit, maidon yleisimmät valkuaisaineet Noin 80% maidon valkuaisaineista on kaseiinia, ja kaseiinista noin 3035% on beta-kaseiinia. Beta-kaseiinista esiintyy edelleen useita hieman erilaisia muotoja, joistä yleisimpiä ovat A1, A2 ja B. Eurooppalaisissa lypsykarjoissa erityisen yleinen muoto on A1, joka elimistössä pilkkoutuu muun muassa beta-kasomorfiiniksi, jolla arvellaan olevan useita mahdollisia vaikutuksia elimistössä. Yhtenä vaikutuksena saattaa olla elimistön puolustuksen muuttuminen siten, että seurauksena voi olla lapsuustyypin diabetes. Maitoa jossa esiintyy pääasiassa A1-tyypin beta-kaseiinia sanotaan A1-maidoksi. Vastaavasti voidaan puhua myös A2- tai B-maidosta. A1-tyypin kaseiinin kulutus ja diabetes A1-maidon kulutus on liitetty kohonneeseen riskiin sairastua diabetekseen (Scott 1999, Laugesen 2003, Birgisdottir, 2006). Mainituissa tutkimuksissa on verrattu eri maiden A1-maidon kulutusta ja alaikäisten (0-14 -vuotiaat) sairastuvuutta diabetekseen. Niissä maissa, joissa A1-maidon kulutus on suurta, on myös diabetes erityisen yleinen sairaus. Suomen kannalta tämä on erityisen mielenkiintoista, sillä A1-maidon kulutus on tavanomaista suurempaa ja diabates yleisempää kuin monissa muissa teollistuneissa maissa. Koska kohonnut diabetesriski näyttää liittyvän vain A1-maidon kulutukseen, eikä A2-maidolla vastaavaa vaikutusta ole havaittu, on A2-maidon tuottamisesta ja myynnistä kuluttajille tullut esimerkiksi Uudessa Seelannissa ja Yhdysvalloissa jo suurta liiketoimintaa. Scottin, Laugesenin ja Birgisdottirin tutkimukset on tehty tarkastelemalla eri maiden A1-maidon kulutuksen ja diabeteksen yleisyyden välistä korrelaatiota. Laugesen havaitsi hyvin voimakkaan 10

17 Tilastotieteen sovelluksia korrelaation diabeteksen ilmaantuvuuden ja A1-maidon kulutuksen välillä. Tutkimuksessa olivat mukana alla olevassa hajontakuviossa mainitut 19 maata. Kutakin maata edustaa kuvassa yksi piste, joka on kuvassa sijoitettu sille kohdin, joka kuvastaa kyseisen maan A1-maidon kulutusta ja uusien lapsuusiän diabetestapausten määrää asukasta kohden. Kuvan suora on lineaarinen regressiosuora, eräänlainen ennusteviiva, joka on laskettu A1-maidonkulutuksen ja diabeteksen ilmaantuvuuden välille. Se kuvaa samaa asiaa kuin korrelaatio, ja kuvasta on helppo havaita, että A1-maidon kulutuksen kasvaessa myös diabeteksen ilmaantuvuus kasvaa. 11

18 Sekoittavat tekijät Kyseessä on korrelaatio, joka kertoo, että diabeteksen ilmaantuvuuden ja A1-maidon kulutuksen välillä on voimakas laskennallinen riippuvuussuhde, mutta riippuvuussuhde ei välttämättä tarkoita syyseuraussuhdetta. Suomessa on helppo havaita riippuvuussuhde jäätelön kulutuksen ja hukkumiskuolemien määrän välillä, mutta jäätelönsyönti tuskin aiheuttaa hukkumisia. Syynä lienee, että jäätelönkulutus kasvaa kesäaikaan kuten myös veneily, ja havaitun yhteyden selittääkin siis vuodenaika. A1-maidon kulutuksen ja diabeteksen yleisyyden välisen riippuvuussuhteen voi niinikään selittää jokin kolmas, tutkimuksissa havaitsematta jäänyt sekoittava tekijä. Yhteyden voi selittää maiden sijainti Eräs tutkimuksen tuloksia sekoittava tekijä voi olla maiden sijainti. Kuvan perusteella näyttäisi siltä, että A1-maidon kulutus kasvaa mitä kauempana etelässa tai pohjoisessa maa sijaitsee. Tiedetään myös, että D-vitamiinin vähäinen saanti, altistaa lapsuusiän diabetekselle. Kaukana pohjoisessa tai etelässä sijaitsevien maiden asukkaat saavat keskimääräistä vähemmän D-vitamiinia, mikä voi selittää niiden tavanomaista korkeampia diabeteslukuja. Uusiseelantilainen tutkija Tony Merriman onkin esittänyt 2009, että havaitun A1-maidon ja diabeteksen ilmaantuvuuden välisen suhteen selittäisikin maiden sijainti leveysasteilla, ja sitä kautta viime kädessä maiden keskimääräiset erot D-vitamiinin saannissa. 12

19 Tilastotieteen sovelluksia Merrimanin hypoteesia voidaan testata Laugesenin julkaisemassa aineistossa. Kunkin maan sijainti voidaan ottaa huomioon käyttämällä arviona maan sijainnista sen pääkaupungin sijaintia. Sijainnin vaikutus diabeteksen ilmaantuvuuteen voidaan poistaa lineaarisen regression avulla. Jos näin sijaintikorjattua diabetesilmaantuvutta verrataan A1maidon kulutukseen, saadaan allaoleva kuva. Diabeteksen ja A1-maidon kulutuksen välinen korrelaatio on heikentynyt 0.88:sta 0.64:ään. Maan sijainti ei kuitenkaan selitä kaikkea, sillä korrelaatio on edelleen voimakas. Tulokset voitaisiin helposti vakioida maan sijainnin lisäksi muidenkin mahdollisten selittävien tekijöiden suhteen, mutta aineisto on monimutkaiseen käsittelyyn liian pieni. D-vitamiini -selityksen lisäksi A1-maidon ja diabeteksen välistä yhteyttä heikentää se, että maidon kulutus on maailmalla vähentynyt 13

20 noin puoleen 1960-luvulta 1990-luvulle. Samaan aikaan diabeteksen ilmaantuvuus on kuitenkin lisääntynyt. Yleensä syy-seuraussuhteissa on havaittavissa selkeä annosvaste: mitä enemmän A1-maitoa kulutetaan, sitä yleisemmäksi diabetes käy. Vähentyneen maidonkulutuksen ja diabeteksen välillä näyttäisi kuitenkin olevan käänteinen suhde, mitä ei ole helppo selittää. On toki mahdollista, että maidon koostumus on samaan aikaan voinut painottua entistä enemmän A1-maidon suuntaan. Näin on esimerkiksi Suomessa todella voinut käydä, sillä Suomen-karja joka ei lypsä A1-maitoa, on vähentynyt voimakkaasti viime vuosikymmeninä. Ekologinen virhe Eri maiden välillä on myös erittäin paljon sellaisia eroja, joiden vaikutuksia on hankala ottaa huomioon tällaisissa kokonaistutkimuksissa. Eroja voivat olla esimerkiksi maiden väestöhistoria, joka on voinut vaikuttaa väestöjen perimään. Lempäinen (2009) esittelee tutkimuksessaan yhden mahdollisen perinnöllisen muutoksen, joka voi muuttaa imeväisikäisten lasten elimistön vastetta lehmänmaidolle. Lisäksi tiedetään, että ryhmäkeskiarvojen perusteella tehdyt analyysit pyrkivät yliarvioimaan oikeita vaikutuksia. Tästä puhutaan ekologisena virheenä. Esimerkiksi Laugesenin (2003) tutkimuksessaan käyttämät A1-maidon kulutusarviot ja diabetesinsidenssit ovat juuri tällaisia ryhmäkeskiarvoja. Asian selvittäminen vaatisikin epidemiologisia, pitkäkestoisia lisätutkimuksia, joissa tällaiset tekijät voitaisiin ottaa huomioon. Birgisdottirin (2006) tekemä tutkimus ei tällaiseksi kelpaa, sillä sekin perustuu ryhmäkeskiarvoilla tehtyihin analyyseihin. Sen sijaan suomalaistutkijoiden Erkki Savilahden ja Kristiina Saarisen (2009) pitkäaikaistutkimuksen tulokset tukevat Merrimanin tulkintaa. Heidän tuhansia lapsia yli kymmenen vuotta seuranneessa tutkimuksessaan ei havaittu eroa diabetesriskissä pitkään imetettyjen ja lehmänmaitopohjaista äidinmaidonkorviketta saaneiden lasten välillä. Korrelaatio ei tarkoita syy-seuraussuhdetta Ekologisten tutkimusten perusteella ei siis voi johtaa syyseuraussuhteita. Yleensä niiden havainnoiminen vaatii kontrolloituja tutkimuksia. Tässä yhteydessä siis esimerkiksi sitä, että tutkimukseen valitaan ryhmä vauvoja, joista osaa ruokitaan vain A1-maidolla ja osaa maidolla, joka ei sisällä beta-kaseiinin A1-muotoa lainkaan. Ilman 14

21 Tilastotieteen sovelluksia osoitettua syy-seuraususuhdetta ei pelkästä korrelaatiosta voi tehdä pitkälle meneviä johtopäätöksiä, mutta se voi toimia syynä aloittaa uusia, mahdollisesti kontrolloituja tutkimuksia. Viitteet Birgisdottir, B. E., Hill, J. P., Thorsson, A. V., and Thorsdottir, I. (2006) Lower consumption of cow milk protein A1 beta-casein at 2 years of age, rather than consumption among 11- to 14-year-old adolescents, may explain the lower incidence of type 1 diabetes in Iceland than in Scandinavia, Ann. Nutr. Metab., 50, Laugesen, M, and Elliot, R. (2003) Ischaemic heart disease, Type I diabetes, and cow milk A1 beta-casein, The New Zealand Medical Journal, 116, Lempainen J, Vaarala O, Mäkelä M, Veijola R, Simell O, Knip M, Hermann R, Ilonen J. (2009) Interplay between PTPN22 C1858T polymorphism and cow's milk formula exposure in type 1 diabetes, J. Autoimmun., 33, Merriman, T R. (2009) Type 1 diabetes, the A1 milk hypothesis and vitamin D deficiency, Diabetes Res. Clin. Prac., 83, Savilahti E, Saarinen K M. (2009) Early infant feeding and type 1 diabetes, Eur J. Nutr., 48, Scott, F. W. (1993) Cow milk and insulin-dependent diabetes mellitus: is there a relationship, Am. J. Clin. Nutr., 51,

22 Ihmisen normaalilämpö Kaikki ovat varmasti kuulleet, että ihmisen normaalilämpö on 37 Celsius-astetta. Tämä perustuu saksalaisen lääkärin Carl Wunderlichin vuonna 1868 tekemiin mittauksiin. Kertoman mukaan mittauksia (kainalokuopasta) tehtiin noin terveestä henkilöstä. Tuloksena ilmoitettiin, että normaalilämpö on keskimäärin 37 astetta. Tulos on pyöristetty lähimpään kokonaiseen asteeseen, mikä varmasti onkin viisasta, eihän lämpötilan mittaustarkkuus ole kuin 0.1 astetta, korkeintaan 0.05 astetta, jos mittaamiseen on käytetty elohopealämpömittaria. Mittausten vaihteluväliksi ilmoitettiin astetta, ja kuumeen rajaksi katsottiin 38 astetta. Wunderlichin mukaan mittauksiin aiheuttaa vaihtelua vuorokauden aika, sukupuoli, ikä ja henkilön "rotu". Naisten lämpö on keskimäärin korkeampi kuin miehillä, mutta siinä esiintyy enemmän vaihtelua. Miltä tulokset näyttävät nykytietämyksen valossa? Meta-analyysi Meta-analyysi on yhteisnimitys menetelmille, joilla analysoidaan jo julkaistuja tuloksia. Tarkoituksena ei siis ole kerätä yhteen kaikkien yksittäisten tutkimusten aineistoja ja analysoida niitä uudelleen, vaan meta-analyysi perustuu nimenomaan raportoiduille tuloksille kuten lämmön keskiarvoille ja keskihajonnoille eri tutkimuksissa. Märtha Sund-Levander on julkaissut katsausartikkelin, jossa on tehty metaanalyysi julkaistuista tutkimuksista, joissa on raportoitu potilaiden lämpöjä. Kainalokuopasta tehtyjen mittausten perusteella normaalilämmön vaihteluväli näyttäisi olevan astetta, ja suusta tehdyille mittauksille astetta. Vastaavasti keskiarvo on kainalomittauksille 36.3 ja suumittauksille 36.4 astetta. Meta-analyysin perusteella näyttää siis siltä, että normaalilämmön vaihteluväli on hiukan laajempi kuin Wunderlichin julkaisemiin tuloksiin perustuen on ollut tapana käyttää. Erityisesti alhaisia mittauksia esiintyy useammin kuin aiemmin on uskottu, joskin kainalokuoppamittausten välinen yhteensopivuus meta-analyysissä ja Wunderlichin raportissa on melko hyvä. Erot ovat suurempia, jos verrataan Wunderlichin mittauksia suusta tehtyihin mittauksiin. Tuloksia tulkitessa tulisikin aina ottaa huomioon mittaustapa (suusta vai kainalosta). 16

23 Tilastotieteen sovelluksia Mittaustulosten analysointi Vuonna 1992 Philip Mackowiak päätti tutkia Wunderlichin tulosten tarkkuutta. Hiukan valitettavasti hän valitsi mittaustekniikaksi elektronisen mittarin ja mittausalueeksi suun, joten tulokset eivät ole täysin vertailukelpoisia. Tutkimuksen osa-aineisto julkisesti saatavilla, ja käytämme sitä seuraavassa esimerkissä. Mackowiak havaitsi tutkimuksessaan, että naisilla on hieman korkeampi lämpö kuin miehillä, ja että lämpötila vaikuttaa myös pulssiin siten, että lämpmämmillä henkilöillä on myös korkeampi pulssi. Aineisto voidaan lunnehtia eri tavoin. Allaolevassa hajontakuvassa on kunkin henkilön mittaustulokset sijoitettu samaan kuvaan. Kutakin henkilö edustaa yksi piste, joka sijoittuu kuviossa sille kohdin, jonka lämpö ja pulssi määräävät. Punaisilla täplillä on merkitty naisia, sinisillä miehiä. Vaakasuorat viivat kuvastavat eri ryhmien lämpötilojen keskiarvoja. Aineisto voidaan kuvantaa myös siloitettuna histogrammina, jossa eri sukupuolien lämpöjakaumaa on kuvattu kahdella eri käyrällä. Sininen käyrä kuvaa miehiä ja punainen naisia. 17

24 Molemmista kuvista käy ilmi, että naisten lämpö on keskimäärin korkeampi kuin miesten. Normaalilämmön yläraja näyttäisi olevan 38.2 astetta, joskin lukema löytyy vain yhdeltä henkilöltä. Paljonko sukupuoli vaikuttaa? Kuvien perusteella voidaan olettaa, että sukupuolella on vaikutusta kehon lämpöön. Miten tätä vaikutusta voidaan mitata? Yksinkertaisin tapa on tietysti laskea kummallekin sukupuolelle oma keskiarvo, ja laskea näiden erotus: C C = C. Arvion saamiseksi voidaan soveltaa myös vaikkapa jotakin niin sanottua parametrista tilastollista menetelmää. Eräs soveltuva menetelmä on lineaarinen regressio, joka olettaa ennustettavan muuttujan olevan normaalisti jakautunut. Histogrammien perusteella aineisto on suhteellisen hyvin normaalisti jakautunut, ja lineaarista regressiota voidaan käyttää. Se antaa sukupuolten välisen eron arvioksi keskimäärin C eli aivan saman kuin yksinkertainen keskiarvojen erotus. Lisäksi linearinen regressio kertoo, onko ero tilastollisesti merkitsevä, mitä se näyttäisikin olevan. Vaikka tulos on tilastollisesti merkitsevä ei 18

25 Tilastotieteen sovelluksia se silti tarkoita sitä, että erolla olisi jotakin käytännön merkitystä, mutta niin voi olla. Entä jos huomioidaan syketiheyskin? Syketiheyttä voidaan käyttää ennustamaan kehon lämpöä, sillä syketiheys mittaa aineenvaihdunnan tasoa, kuten luultavasti lämpökin. Jos ihminen tekee raskasta työtä, hänen aineenvaihduntansa kasvaa, ja samalla hänen lämpönsäkin voi hiukan kohota, vaikka hikoilun tarkoitus on erityisesti sitä estääkin. Sykkeen ja lämmön välinen yhteys on heikko, mikä voidaan havaita aiemmin esitetystä hajontakuviosta. Kun lämpö kasvaa vaikkapa yhden asteen, keskimääräinen syke kasvaa vain hiukan. Tämän näkee siitä, että jos kuvittelee vasemmalta alhaalta ylös oikealla pistejoukon läpi kulkevan viivan, sen nousuu vain hitaasti. Tällainen suora voidaan arvioida lineaarisella regressiolla: Jos nyt sukupuolten lämpöjen keskimääräistä eroa arvioidessa otetaan huomioon myös sukupuoli, saadaan arvioksi C mikä on hiukan vähemmän edellä esitetty keskiarvojen ero. Tämä tarkoittaa siis sitä, 19

26 että miesten syketiheys on keskimäärin naisten syketiheyttä hiukan korkeampi, ja kun tämän vaikutus lämpömittauksista poistetaan, jää jäljelle vain sukupuolen vaikutus lämpöön. Noin 0.15 asteen ero naisten ja miesten kehon lämpöjen välillä ei liene kliinisesti kovin merkittävä tulos. Entäs hajonta? Tähän asti olemme tarkastelleet vain miesten ja naisten kehon lämpöjen keskiarvojen eroja. Aiemmin esitetyn histogrammikuvan perusteella näytti kuitenkin siltä, että suurempi ero sukupuolten välillä on mittaustulosten jakaumassa siten, että naisilla on miehiä enemmän erityisesti korkeita lämpöjä. Tätäkin asiaa voidaan selvitää tilastollisten menetelmien avulla. Sitä miten kaukana keskiarvosta mittaustulokset keskiarvot keskimäärin ovat, voidaan mitata keskihajonnalla. Tilastollisessa testauksessa käytetään kuitenkin mieluummin tämän neliötä, varianssia. Miesten ja naisten lämpöjakaumien hajontojen eroja voidaan testata juuri varianssien erojen havaitsemiseen kehitety(i)llä test(e)illä. Tässä tapauksessa variansseissa ei näytä olevan eroa. Siten naisilla ei esiinny miehiä enempää (keskiarvoon suhteutettuna) erityisen korkeita lämpöjä, vaikka keskimäärin naiset ovatkin miehiä lämpimämpiä. Kliininen merkitys Aiempi käsitys normaalilämmön ylärajasta on ollut 37.5 astetta, mutta uusien mittaustulosten analysoinnin jälkeen näyttäisi siltä, että normaalialue saattaa ulottua yli 38:aan asteeseen. Myös lämmön normaalialueen alarajaa lienee syytä jatkaa ainakin 35.5 asteeseen saakka. Sukupuolen vaikutusta mittaustuloksiin ei välttämättä tarvitse huomioida, sillä ero oli mittaustarkkuutteen (0.1 astetta) nähden pieni (0.15 astetta). Yhteenveto Ihmisen kehon normaalilämpö on keskimäärin noin 36.8 astetta, ja normaali vaihteluväli riippuu mittaustavasta. Naisten keskimääräinen kehan lämpö hiukan korkeampi kuin miehillä, mutta jakauma on 20

27 Tilastotieteen sovelluksia samanlainen keskiarvon ympärillä. Sukupuolten lämpöerolla ei liene kliinistä merkitystä, mittaustavan huomioinnilla sen sijaan kyllä. Viitteet Sund-Levander M, Forsberg C, Wahren L K (2002) Normal oral, rectal, tympanic, and axillary body temperature in adult men and women: a systematic literature review, Scand. J. Caring Sci., 16, Mackowiak P, Wasserman S, Levine M (1992) A critical appraisal of 98.6, the upper limit of the normal body temperature, and other legacies of Carl Reinhold August Wenderlich, JAMA, 268,

28 Vauvan syntymän laskettu aika Vauvan syntymän ajankohta eli laskettu aika arvioidaan neuvolassa käyttäen yksinkertaista sääntöä. Edellisten kuukautisten alkamispäivään lisätään 280 päivää (40 viikkoa), ja näin saadaan todennäköisin arvio vauvan syntymälle. Normaalin raskauden pituus voi kuitenkin vaihdella 276 ja 294 päivän (38-42 viikkoa) välillä. Jos vauva syntyy ennen kuin 38 viikkoa on tullut täyteen, kutsutaan vauvaa keskoseksi, ja jos vauva syntyy kun 42 viikkoa on tullut täyteen, katsotaan vauva yliaikaiseksi. Keskosia syntyy enemmän kuin yliaikaisia vauvoja Raskauden kesto on suunnilleen normaalijakautunut. Normaalijakauma on kuvattu tarkemmin luvussa Lasten kasvukäyrät. Raskauden kesto ei kuitenkaan noudata normaalijakaumaa ihan tismalleen, sillä keskosia syntyy enemmän kuin yliaikaisia lapsia. Suomessa noin 5% vauvoista syntyy keskosina. Suomessa käytetyn viikon välin normaalin raskauden kestolle voidaan ajatella edustavan kahden keskihajonnan mittaa keskiarvon kummallakin puolella. Tälle välille sijoittuu noin 95% raskauden kestoajoista, jos kestoajat noudattavat normaalijakaumaa. Raskauden keston eron normaalijakaumaan huomaa siitä, että 95% vauvoista syntyy itseasiassa päivän ikäisinä. Tällaista jakaumaan, jossa on vasemmalle suuntautuva pitkä häntä (enemmän pieniä kuin suuria arvoja) kutsutaan vasemmalle vinoksi: 22

29 Tilastotieteen sovelluksia Kuinka paljon vauvoja syntyy juuri laskettuna päivänä? Jostakin syystä elää melko vankkana käsitys siitä, että vauvan tulee syntyä juuri laskettuna päivänä, tai muutoin on jotakin vialla. Tämä on tietenkin väärinkäsitys, ja laskettu aika on vain arvio siitä, mikä on todennäköisin ajankohta syntymälle. Silti vain pieni osa vauvoista itseasiassa syntyy juuri laskettuna päivänä. Seuraavassa havainnollistetaan tätä. Vaikka raskauden keston jakauma onkin hiukan vasemmalle vino, voidaan sen sijaan kuitenkin suhteellisen hyvin käyttää myös normaalijakaumaa erilaisten arvioiden tekemiseen. Riippuen tutkimuksesta on raskauden keston jakaumalle saatu hieman erilaisia arvioita. Esimerkiksi kahdessa erillisessä kansainvälisessä tutkimuksessa on keskimääräiseksi raskauden pituudeksi saatu 281 päivää, mutta toisessa on keskihajonnaksi arvioitu 8.1 päivää ja toisessa 12.1 päivää. Allaolevassa kuvassa on ensimmäinen tutkimus (pienempi keskihajonta) kuvattu yhtenäisellä viivalla ja jälkimmäinen tutkimus (suurempi keskihajonta) katkoviivalla. 23

30 Näiden tutkimusten perusteella saadaan hieman erilaisia arvioita sille kuinka suuri osa vauvoista syntyy juuri laskettuna päivänä. Pienempää keskihajontaa käyttäen arviolta noin hieman vajaa 5% vauvoista syntyy juuri laskettuna aikana. Suurempaa keskihajontaa käyttäen, vielä pienempi osuus, noin 3% syntyy laskettuna aikana. Suomalaisesta väestöstä tiedetään, että noin 5% todella syntyy laskettuna aikana, joten seuraavassa käytämme pienemmän keskihajonnan jakaumaa esimerkkinä. Nykyinen laskentatapa Nykyisin normaalin raskauden rajoina käytetään jo yllämainittua 280 päivää, ja normaalina keston vaihteluna kahta viikkoa suuntaan tai toiseen. Tämä perustunee siis oletukseen, että raskauden keston keskihajonta on 7 päivää. Tutkimuksissa on havaittu, että oikeampi keskihajonta lienee jossakin kahdeksan tai kahdentoista päivän hujakoilla. Kuinka suuri ero arvioilla sitten on? Jos normaalin raskauden keskihajonta olisi 7 päivää, niin tällöin 5% vauvoista syntyy nuorempina kuin 266 päivää tai vanhempina kuin

31 Tilastotieteen sovelluksia päivää. Jos käytetään arviota, noin 8:aa päivää, niin liki 9% vauvoista syntyisi asetettujen rajoarvojen ulkopuolella, vaikkei raskaudessa olisikaan mitään vikana. Ylemmän raja-arvon (294 päivää) asettaminen pohjautuu osittain havaintoon, että sen jälkeen vauvojen kuolleisuus alkaa lisääntyä. Samaa pätee alempaan rajaan (266 päivää). Jos kahdeksan päivän keskihajonta pitää paikkansa, se tarkoittaisi, että joka tuhannes aivan terve vauva syntyisi normaalisti alla 263 päivän tai yli 299 päivän ikäisenä, ellei asiaan lääketieteellisesti puututtaisi. Yhteenveto Vauvojen lasketun syntymäajan määrittäminen perustuu normaalijakaumaan, jonka keskiarvo on 280 päivää ja keskihajonta 7 päivää. Tutkimusten perusteella oikeampi jakauma olisi sellainen, jonka keskiarvo olisi 281 päivää ja keskihajonta hieman yli 8 päivää. Näiden ero ei ole valtavan suuri, mutta käyttämällä nykyistä arviota noin 9% vauvoista syntyisi epänormaaliksi katsottavana ajankohtana ellei asiaan puuttuttaisi lääketieteellisesti. Asiaan puuttuminen voi toisaalta olla paikallaan, sillä hyvin nuorina tai vanhoina syntyvien vauvojen kuolleisuus on tavanomaista suurempaa. Silti osa, ehkä jopa yli puolet, epänormaaleiksi katsotuista raskauksista voi olla aivan tavanomaisia, mutta vauva on vain kehittynyt keskimääräistä nopeammin tai hitaammin, vaikka onkin aivan terve. 25

32 Lasten kasvukäyrät Kaikkien lapsuusiällä neuvolassa käyvien imeväisten, taaperoiden ja lasten kasvua seurataan käyttämällä apuna kasvukäyriä. Maailman terveysjärjestö WHO on laatinut lapsille kasvukäyrästandardin, jota suomalaisessakin neuvolassa nykyisin noudatetaan. Kasvukäyriä on laadittu pituudelle, painolle, päänympärykselle ja monille muille mitoille, mutta keskeistä niille kaikille on, että niiden avulla voidaan seurata kunkin lapsen kasvua verrattuna suuresta lapsijoukosta määritettyyn keskimääräiseen kasvuun. WHO:n nykystandardi perustuu useista tuhansista lapsista tehtyihin havaintoihin. Esimerkiksi ikä vastaan pituus -käyrän muodostamiseen käytettiin :sta lapsesta tehtyjä mittauksia. Osallistujia oli Brasiliasta, Ghanasta, Intiasta, Norjasta, Omanista ja USA:sta, joten kasvukäyrä edustanee keskimääräistä lasten kasvua sekä teollisuus- että kehittyvissä maissa. Seuraavassa tarkastellaan ainoastaan ikä vastaan pituus -käyrää ja sen muodostamista. Miten vauvoja voidaan kuvailla? Otetaan esimerkiksi vaikkapa yhden kuukauden ikäiset vauvat. WHO:n taulukoimien arvojen mukaan heidän keskimääräinen pituutensa on cm. Lisäksi WHO:n taulukossa mainitaan että saman ikäisten lasten pituuden keskihajonta (SD) on 1.95 cm. Miten nämä arvot on määritetty? Keskiarvon määrääminen on kenties helpompi ymmärtää. Keskiarvohan lasketaan jakamalla kaikkien mitattujen lasten yhteispituus, ja jakamalla se lasten lukumäärällä. Jos siis mittattaisiin vaikkapa 100 vauvaa, ja näiden yhteismitaksi saataisiin cm, olisi vauvojen keskipituus 5 500cm / 100 = 55 cm. Keskihajonta puolestaan kuvastaa pituusmittausten keskimääräistä etäisyyttä kaikkien mittausten keskiarvosta. Toisin sanoen, keskihajonta kertoo kuinka keskiarvon kaltaisia havainnot ovat. Jos keskihajonta on pieni, suurin osa havainnoista on varsin lähellä keskiarvoja. Alla olevassa kuvassa, jota kutsutaan histogrammiksi, on havainnollistettu kuukauden ikäisten vauvojen pituuksien jakaumaa. Vaaka-akselilla on esitetty pituus ja pystyakselilla vauvojen lukumäärä. Kuvio on laadittu siten, että pituus on jaettu yhden millimetrin mittaisiin väleihin. Eräs tällainen väli olisi esimerkiksi cm cm. Tähän väliin sijoituvien vauvojen pituuksien lukumäärä on laskettu, ja merkitty kuvioon yhdellä harmaalla pystypalkilla. Kuvion kohta, jossa 26

33 Tilastotieteen sovelluksia on eniten vauvoja kussakin pystypalkissa edustaa vauvojen pituuksien keskiarvoa. Lisäksi kuvioon on merkitty pituuksien keskihajonta eri värisillä pystyviivoilla. Siniset pystyviivat sijaitsevat yhden keskihajonnan päässä keskiarvosta, ja niiden välissä on noin 68% kaikista vauvoista. Vihreät viivat ovat kahden keskihajonnan etäisyydellä keskiarvosta ja niiden väliin jää noin 95% vauvoista. Punaiset viivat ovat laitimmaisina, edustaen sitä väliä, jolle yli 99% vauvoista sijoittuu. 27

34 Ylläolevan kuvan kuvaamaa jakaumaa, jolla näyttää olevan vain yksi huippukohta, ja joka on jokseenkin symmetrinen tämän huippukohdan ympärillä, kutsutaan normaalijakaumaksi. Monet ihmisistä tehtävät mittaukset noudattavat normaalijakaumaa. Pituuden ja painon lisäksi tällaisia ovat esimerkiksi monet muutkin mitat, kuten pään ympärys, etusormen pituus tai jalan koko. Kasvukäyrän muodostaminen Kasvukäyrän muodostamiseksi vauvat ja lapset mittattiin kussakin kuussa, ja näin saaduista mittaustuloksista laskettiin keskiarvo ja keskihajonta. Keskiarvon ja keskihajonnan perusteella voidaan määritellä kuinka suuri osa vauvoista tai lapsista sijoittuu tietylle pituusvälille. Kasvukäyrissä on tyypillistä nähdä merkinnät -3SD, -2SD, -1SD, +1SD, +2SD ja +3SD, jotka viittaavat siihen kuinka monen keskihajonnan päässä keskiarvosta kyseistä käyrää noudattavat vauvat ja lapset ovat. Sama asia voidaan siis ilmaista myös prosentteina, ja WHO:n kasvukäyrillä esiintyvät luvut 3%, 15%, 50%, 85% ja 97%. Prosenttiluku 50 vastaa keskiarvoa, ja 15% / 85% vastaa suunnilleen merkintää +1SD / -1SD. Vastaavasti merkintä 3% / 97% on suunnilleen vastaava kuin +2SD / -2SD. Kun kullekin kuukaudelle on määritelty keskiarvo ja keskihajonta (tai prosenttiluvut), voidaan lukujen avulla piirtää käyrä vauvojen ja lasten normaalikasvun rajoista: 28

35 Tilastotieteen sovelluksia 29

36 Ulommaisten käyrien ulkopuolelle jää noin 0,3% vauvoista tai lapsista eli kolme lasta tuhannesta. Suomessa syntyy vuosittain noin lasta, joista ulommaisten käyrien ulkopuolelle jää laskennallisesti arviolta liki parisataa lasta vuosittain. Käyrien ulkopuolelle jääminen ei ole terveilläkään lapsilla tavatonta, kunhan lapsi seuraa omaa kasvukäyräänsä, joka ylensä vakiintuu jo muutamien kuukausien jälkeen. Pojat ovat keskimäärin pidempiä kuin tytöt Usein kuulee sanottavan, että poikalapset ovat tyttölapsia suurempia. Onko tämä vain urbaani legenda, vai onko sillä myös todellisuuspohjaa? WHO:n aineiston perusteella kysymykseen saadaan vastaus. Sekä tyttöjen että poikien keskimääräinen kasvu voidaan piirtää käyränä samaan kuvaan. Alla olevassa kuvassa on esitetty molempien sukupuolinen kasvukäyrät. Kuvasta lienee helppo havaita, että pojat ja tytöt ovat syntyessään varsin samanpituisia, mutta pojat kasvavat aluksi hiukan tyttöjä nopeammin. Pojat ovat koko tarkastelujakson, nollasta viiteen vuotta, hiukan tyttöjä pidempiä, mutta pituusero tasoittuu pitkälti viiteen vuoteen mennessä. 30

37 Tilastotieteen sovelluksia Pituuseron hahmottamiseksi voidaan kasvukäyrien sijaan kuvaan sijoittaa poikien ja tyttöjen keskimääräisten pituuksien erotus. Keskimääräinen tyttöjen ja poikien pituusero on suurimmillaan kuuden kuukauden kohdalle, hiukan vajaa kaksi senttiä. Syntymässä ero on poikien hyväksi vajaa senttimetri, ja viiden vuoden kohdalla enää noin puoli senttimetriä: Yhteenveto Neuvolassa käytettyjen lasten kasvukäyrien muodostaminen perustuu useista tuhansista lapsista tehtyihin mittauksiin. Mittaustuloksista koostuvan aineiston perusteella kasvukäyrä muodostetaan soveltamalla eräitä tilastotieteen keskeisimpiä teorioita, normaalijakaumaa. Sen perusteella, kun tunnetaan tietyn ikäisten lasten pituuksien keskiarvo ja keskihajonta, voidaan muodostaa arvio lasten normaalista kasvusta. Monet elämäämme vaikuttavat arviot perustuvatkin normaalijakauman soveltamiseen. Kasvukäyrien lisäksi tälläinen on esimerkiksi vauvan arvioitu syntymäaika ("laskettu aika"). Viitteet WHO:n lasten kasvustandardi 31

38 Rintasyöpäseulonta Rintäsyöpäseulonta toteutetaan mammografialla, jossa otetaan röntgenkuva rinnoista, ja kuvista tulkitaan, onko rinnoissa mahdollisesti syöväksi epäiltäviä muutoksia. Nykyisin tehdään usein myös ultraäänitutkimus, joka ei tosin yksinään sovellu seulontaan. Jos epäilyttäviä muutoksia löytyy, ohjataan potilas yleensä eteenpäin tarkempiin tutkimuksiin. Jatkotutkimuksiin voi kuulua esimerkiksi pienen kudosnäytteen ottaminen rinnasta. Näyte tutkitaan patologian laboratoriossa mikroskoopilla. Jos näytteessä havaitaan muuttuneita soluja, syöpäepäily vahvistuu. Seulontoihin kohdistuu erilaisia odotuksia Syöpä on maineeltaan pelottava sairaus. Niinpä syöpäseulontoihin kohdistuu toisinaan julkisuudessa kovaakin painetta esimerkiksi seulontaiän alentamiseksi. Nykyisin kun seulontoja tarjotaan lähinnä vanhemmille riskiryhmille. Suomessa maksuttomia seulontoja tarjotaan vuotiaille, mutta nuoremmillakin on mahdollisuus päästä testeihin, jos sellaiseen on erityistä aihetta. Seulontojen aloitusikä perustuu siihen, että rintasyövän esiintyvyys on hyvin alhainen alle 30vuotiailla, ja alkaa nousta yli 45-vuotiailla. Lisäksi mammografiaröntgenkuvaukseen liittyvä pieni säteilyaltistus lisää potilaiden syöpäriskiä hieman, ja säteilylle kannattaa altistaa vain todelliset riskiryhmät, joissa sairaus on muita ikäryhmiä yleisempi. Mammografian erotusvoima ei myöskään ole riittävä laajamittaiseen kaikkien henkilöiden seulontaan. Erityisen huonosti mammografia soveltuu nuorten seulontaan. Suomessa seulontoihin kutsutaan vuosittain n henkilöä, joista valtaosa (87%) osallistuu testaukseen. Esimerkiksi vuonna 2005 tarkastettiin henkilö, joista jatkotutkimuksiin lähetettiin 5648 henkilöä, ja 1266 sai lähetteen leikkaukseen, joissa poistettiin 1027 syöpäkasvainta. Siten noin 0.5%:lla seulotuista havaittiin syöpä. Kaiken kaikkiaan vuonna 2005 todettin Suomessa noin 3850 uutta rintasyöpätapausta, joten seulonnoissa näistä löytyi noin kolmasosa. Jos tarkastellaan seulottuja ikäryhmiä, joissa rintasyöpiä havaittiin noin 2186 uutta tapausta vuonna 2005, on seulontatulos hyvä: seulotuissa ikäryhmissä oli kaiken kaikkiaan noin henkilöä. Näiden lukujen perusteella voidaan arvioida, että koko ikäryhmän joukosta löytyi ( )/( )* = 360 syöpää sataatuhatta henkilöä kohden. Seulontaryhmästä puolestaan löytyi 32

39 Tilastotieteen sovelluksia vastaavalla tavalla noin 599 syöpää sataatuhatta henkilöä kohden. Selvästi seulonta parantaa syöpien havaitsemista! Miten seulontojen tehokkuutta voidaan tarkastella? Seulontatestejä kuvaillaan usein erilaisilla kokonaismittareilla, kuten herkkyys, tarkkuus ja positiivinen sekä negatiivinen ennustusvoima. Näiden mittareiden tarkastelu on sinällään mielenkiintoista, sillä niiden avulla voidaan esimerkiksi arvioida, mikä on todennäköisyys että positiivisen mammografiatuloksen saaneella potilaalla todella on syöpä. Aiemmin on arvioitu, että mammografian herkkyys (sensitiivisyys) eli oikeiden positiivisten testitulosten osuus kaikkien sellaisten testien joukossa, joiden olisi pitänyt olla positiivisia on 70-90%. Vastaavasti testin tarkkuudeksi (spesifisyys) eli oikeiden negatiivisten tulosten osuus niiden testien joukossa, joiden olisi pitänyt olla negatiivisia, on määritetty 90-95%. Tarkastellaanpa ensin miltä nämä suureet näyttävät suomalaisten seulontojen perusteella. Seulontatestin tulos voidaan esittää yleisesti taulukkona: Testi positiivinen Testi negatiivinen Syöpä Oikea positiivinen Väärä negatiivinen Ei syöpää Väärä positiivinen Oikea negatiivinen Jos täydennetään tuo taulukko edellämainituilla seulontojen tuloksilla, saadaan seuraavat luvut: suomalaisten Testi positiivinen Testi negatiivinen Yhteensä Syöpä Ei syöpää Yhteensä Kuten taulukoista on helppo huomata, on suurin osa mammografian perusteella saaduista positiivisista tuloksista vääriä. Niinpä positiivisen tuloksen saaneet henkilöt lähetetäänkin jatkotutkimuksiin, kuten ultraäänitutkimuksiin tai ohuttai paksuneulatutkimuksiin. 33

40 Viimekädessä diagnoosi tehdään koepalan ottamisen jälkeen. Toisaalta myös osa syöpää sairastavista henkilöistä jää diagnosoimatta. Lukujen perusteella voidaan myös helposti laskea herkkyys ja tarkkuus. Herkkyys = 1027 / 2186 = Tarkkuus = / = Herkkyys kuvastaa sitä, kuinka hyvin mammografia löytää syöpäpotilaan, ja tarkkuus puolestaan kuinka hyvin mammografia löytää terveen potilaan. Herkkyys näyttäisi olevan kansainvälisiä lukuja alhaisempi, mutta toisaalta tarkkuus on jonkin verran kansainvälisiä lukuja parempi. Toisin sanoen herkkyys kertoo, kuinka suuri osa oikeasti sairaista henkilöistä löydetään. Mammografialla on siis mahdollista suoraan löytää noin 47% oikeasti syöpäsairaista henkilöistä, mutta toisaalta 53% jää löytämättä. Vastaavalla tavalla tarkkuus kertoo kuinka suuri osa oikeasti terveistä henkilöistä testillä löydetään (tässä 98%). Jos testi on positiivinen... Miten todennäköistä on, että seulontatutkimuksissa positiivisen mammografiatuloksen saanut potilas todella sairastaa syöpää? Tämä voidaan laskea oikeiden positiivisten testitulosten osuutena kaikkien positiivisten testitulosten joukosta eli 1027 / 5648 = Tätä todennäköisyyttä kutsutaan myös positiiviseksi ennustusvoimaksi. Vastaavanlainen kuvaileva arvo voidaan laskea väärien negatiivisten testitulosten osuutena kaikkien negatiivisten tulosten joukosta eli / > Tätä todennäköisyyttä kutsutaan negatiiviseksi ennustusvoimaksi. Muissa lähteissä mammografian positiiviseksi ennustusvoimaksi mainitaan esimerkiksi 60-80%, mutta se tuntuu karkealta yliarviolta. Toisin sanoen, jos mammografialöydös on negatiivinen, on hyvin todennäköistä (>0.99), ettei potilaalla ole syöpääkään. Jos sen sijaan löydös onkin positiivinen, on varsin epätodennäköistä (0.18) että potilaalla olisi syöpä. Koska positiivinen ennustusvoima on alhainen, lähetetään vuosittain kohtalainen joukko, yli 4600 potilasta, turhaan terveydestään huolestuneita naisia jatkotutkimuksiin. Taudin yleisyys vaikuttaa testin positiiviseen ennustusvoimaan Oletetaan, että testin herkkyys ja tarkkuus säilyvät ennallaan. Jos seulottava tauti on väestössä yleinen, on testin positiivinen ennustearvokin korkea verrattuna tilanteeseen, jossa seulottaisiin harvinaista tautia. Vaikka testi olisi hyvin herkkä ja tarkka, mutta tauti 34

41 Tilastotieteen sovelluksia harvinainen, on tuloksena aina suuri määrä vääriä positiivisia havaintoja. Tällainen tilanne olisi esimerkiksi, jos koko väestö (noin ) seulottaisiin HI-virustartunnan suhteen (tapauksia satojatuhansia). Päinvastainen tilanne, jossa positiivinen ennustearvo on korkea, olisi väestön seulominen vaikkapa influenssan suhteen kevättalvella. Tällöin influenssa on väestössä verrattain yleinen, ja suuri osa positiivisista tuloksista tulisi henklöistä, jotka ovat oikeasti sairaita. Tarkastellaanpa tilannetta, jossa rintasyövän esiintyvyys olisi kaksi kertaa nykyistä suurempi. Säilytetään seulottujen potilaiden määrä ennallaan, jotta voimme vertailla lukuja edellä esitettyyn oikeisiin lukuihin. Saamme seuraavan taulukon: Testi positiivinen Testi negatiivinen Yhteensä Syöpä Ei syöpää Yhteensä Testin herkkyys on edelleen 2055 / 4372 = 0.47, ja tarkkuus on / = Sen sijaan testin positiivinen ennustusvoima on nyt 2055 / 6192 = 0.33 eli liki kaksinkertainen alkuperäiseen tilanteeseen verrattuna. Kääntöpuolena on, että kun positiivinen ennustusvoima kasvaa, negatiivinen ennustusvoima heikkenee. Tässä uudessa tilanteessa se on / < 0.99 eli mukana on aiempaa enemmän henkilöitä, joilla on syöpä, mutta testin perusteella heidät tulkitaan terveiksi. Seulontatuloksia, miksei muitakin laboratorituloksia, kannattaakin tulkita ottaen huomioon potilaan viiteryhmän. Jos seulonnassa on saatu positiivinen tulos henkilöltä, joka kuuluu johonkin tunnettuun riskiryhmään, on tulos luultavasti merkittävämpi kuin jos tulos on saatu henkilöltä, jolla ei ole tunnettuja riskitekijöitä. Esimerkiksi jos positiivinen HIV-tulos on saatu suonensisäisten huumeiden käyttäjältä, on se todennäköisemmin oikea kuin jos sama tulos on saatu perusterveeltä henkilöltä. 35

42 Seulontamenetelmän valinta on kompromissi Useimmat seulontamenetelmät kuitenkin toimivat kuten edellä on kuvattu. Ensimmäinen, seulontaan käytettävä testi on varsin epäherkkä, ja diagnoosista voidaan varmistua vasta herkemmillä jatkotesteillä tai viimekädessä leikkauksen yhteydessä otetun kudosnäytteen perusteella. Seulontamenetelmän valinta perustuu tyypillisesti useisiin seikkoihin. Seulontamenetelmän tulee olla riittävän herkkä, ettei suunnatonta joukkoa potilaita lähetetä turhaan jatkotutkimuksiin, mutta samalla riittävän tarkka, jotta suurta määrää sairaita potilaita ei lähetettäisi kotiin. Herkkyyden ja tarkkuuden välillä vallitsee kuitenkin tasapaino, ja sellaisen testin koostaminen, joka olisi yhtä aikaa hyvin herkkä että hyvin tarkka on usein mahdotonta tai kallista. Niinpä ensivaiheen testiksi usein valitaankin riittävän hyvä, mutta käytössä halpa ja nopea menetelmä kuten mammografia. Jos ensivaiheen tutkimus valitaan siten, että sitä voidaan helposti soveltaa suurille väestöryhmille, valitaan jatkotutkimukset usein siten, että ne toimivat parhaiten juuri jo sairaiksi epäiltyjen potilaiden diagnosoinnissa. Jatkotutkimusten piirteenä on myös, että niiden positiivinen ennustearvo on suurempi kuin seulontatutkimuksilla. Rintasyöpäepäilyjen jatkotutkimusten positiivinen ennustearvo näyttäisi olevan 1027 (oikeiden diagnoosien määrä) / 1266 (leikkaukseen lähetettyjen määrä) = 0.81 eli paljon korkeampi kuin pelkän mammografian Jatkotutkimustenkaan ennustavuus ei ole täydellinen, mutta tuskin millään menetelmällä päästään täydelliseen tulokseen. Kannattaako seulonta ulottaa myös nuorempiin ikäryhmiin? Nykykäytäntönä on, ettei alle 55-vuotiaita seulota. Pitäisikö seulonta kuitenkin ulottaa myös alle 55-vuotiaisiin? Jos tarkastellaan uusien tapausten määrää henkilöä kohden eli ilmaantuvuutta esimerkiksi vuotiailla, niin se on likipitäen samanlainen kuin 5559-vuotiailla, ja selkeästi suurempi kuin esimerkiksi vuotiailla. Tämän tiedon valossa ei ole mitään syytä miksi seulontaa ei kannattaisi laajentaa myös nuorempiin ikäryhmiin. Monissa maissa seulonta aloitetaankin aiemmin kuin Suomessa. Esimerkiksi Australiassa rintasyöpää seulotaan jo 40-vuotiailta. Ongelmana on kuitenkin että mammografia soveltuu paremmin vanhempien kuin nuorempien ikäryhmien seulontaan. Syynä tähän on, että rintakudoksen rakenne muuttuu iän mukana, ja vanhempien 36

43 Tilastotieteen sovelluksia henklöiden rinnoista on helpompaa paikantaa syöpään viittaavia muutoksia kuin nuorempien henkilöiden rinnoista. Säteilyn aiheuttamien syöpien arvioitu määrä on myös sitä suurempi mitä nuoremmille seulontoja tehdään. Arviot vaihtelevat nuorilla ikäryhmillä yhdestä aiheutetusta syövästä 13:a havaittua kohden vanhojen ikäryhmien yhteen aiheutettuun syöpään noin 250 havaittua kohden. Suomen seulontojen arvioinnista tuotettu raportti suositteleekin, ettei seulontaa kannattane nykyisellään laajentaa myös nuorempiin ikäryhmiin. Yhtenä tärkeänä perusteena on myös terveydenhuollon resurssien riittävyys, sillä Suomessa ei ei raportin tekohetkellä ilmeisesti ollut riittävästi röntgenlaitteistoja seulonnan tehokkaaseen laajentamiseen. Seulonnat eivät ole täydellisiä, mutta niistä on hyötyä Olipa ikäryhmä mikä hyvänsä, suurin osa positiivisen mammografiatuloksen saaneista henkilöistä ei sairasta rintasyöpää, ja vuosittain jatkotutkimuksiin kutsutaankin tuhansia henkilöitä. Seulonta on arvioiden mukaan vähentänyt rintasyöpäkuolleisuutta jopa 25-30%, joten seulonta on kannattavaa. Väärät positiiviset mammografiatulokset kuitenkin varmasti aiheuttavat tuhansille turhaa ahdistusta. Mammografian herkkyyden parantaminen vaikuttaisi suoraan väärien positiivisten testitulosten määrään, mutta tällöin sattuu usein niin, että tarkkuus heikkenee, mikä johtaisi väärien negatiivisten määrän lisääntymiseen. Toisaalta negatiivinen mammografiatuloskaan ei välttämättä tarkoita, etteikö sairastaisi rintasyöpää. Nämä ovat tyypillisiä kaikkiin diagnostisiin testeihin liittyviä ongelmia, joiden ratkaisemiseen ei ole yksinkertaisia ratkaisuja. Viitteet Rintasyövän seulonta, Suomen Syöpärekisterin sivuilla [ ] Seulonnan tuloksia vuodelta 2005, Suomen Syöpärekisterin sivuilla [ ] Rintasyövän ilmaantuvuus, Suomen Syöpärekisterin sivuilla [ ] Rintasyöpäseulonnan laajentamisen vaikutukset, Finohtan raportti [ ] 37

44 Ajoneuvotilastot Ajoneuvohallintokeskus AKE kerää ja ylläpitää ajoneuvo- ja ajokorttitilastoja Suomessa. Taloudellisen tilanteen kehittymistä voidaan mitata monenlaisin mittarein, mutta ajoneuvotilastot ovat helposti saatavilla, joten käytämme niitä esimerkkinä. Ajoneuvomäärien kehitys AKE on tilastoinut eri ajoneuvoluokkien lukumääriä Suomessa 1970luvun taitteesta alkaen. Alla olevassa kuvassa on kuvattu muutamien ajoneuvoluokkien suuruuksien kehitystä. Vaaka-akselille on merkitty aika vuosina ja pystyakselille ajoneuvojen lukumäärä. Kuviosta voidaan havaita, että henkilö- ja pakettiautojen lukumäärä on noussut melko tasaisesti vuodesta 1970 nykypäiviin saakka, mutta moottoripyörät ovat yleistyneet laajemmalti vasta viimeisen kymmenen vuoden aikana luvun lama Ajoneuvojen lukumäärien kehityksessä näkyy selkeästi 1990-luvun lama. Laman seurauksena henkilöautomäärän kasvu näyttää 38

45 Tilastotieteen sovelluksia pysähtyneen noin viideksi vuodeksi ennen kääntymistään jälleen nousuun. Pakettiautoissa ja moottoripyörissä näkyy sama ilmiö: Niidenkin määrä on juuri ennen lamaa kääntynyt nousuun, mutta kasvu on tasoittunut laman alkaessa. Nykyisen laman vaikutus ei ainakaan vielä näy kuviossa, joka päättyy vuoteen Ajokorttien lukumäärä Autojen lukumäärän kehittymisen rinnalla voidaan tarkastella ajokorttien lukumäärän kehitystä. Näyttämättä itse tuloksista kuvaa, on ajokorttien kokonaislukumäärä kasvanut tasaisesti viimeiset 20 vuotta. Edellisellä lamakaudella ei näyttäisi juuri olleen vaikutusta ajokorttien lukumäärän kehitykseen. Allaolevassa kuvassa on esitetty ajokorttien lukumäärä eri ikäluokissa. Kuvion perusteella muodostuu muutamia mielenkiintoisia johtopäätöksiä. Nuorimmassa, vuotiaiden ikäryhmässä ajokorttien lukumäärä on lisääntynyt suunnilleen vuodesta 2000 alkaen. Tämä voi kuvastaa mopokorttien lukumääriä, etenkin kun samaan aikaa moottoripyörien lukumäärässä on selkeää kasvua. 39

46 Ajokorttien lukumäärän kasvu on selkeää myös vuotiaiden ajokorttimäärien voimakas kasvu vuosina Tämä heijastuu tietenkin viiveellä vanhempiin ikäryhmiin: Viisi vuotta vanhemmassa, vuotiaiden ikäryhmässä ajokorttien lukumäärä kasvaa vuosien välillä. Tämä johtuu siis siitä, että vuonna vuotiaat ovat vuoteen 2000 mennessä vanhentuneet viisi vuotta ja näkyvät siis eri ikäryhmän ajokorttimäärän kehityksessä. Yhteenveto Varsin yksinkertaisten tunnuslukujen, kuten tässä käytetyt ajonevojen ja -korttien lukumäärät, perusteella voidaan tehdä päätelmiä esimerkiksi kansantalouden tilasta. Ajoneuvoja ei uusita tai hankita lisää kun taloustilanne on huono, mikä näkyy esitetyissä kuvissa hyvin, etenkin 1990-luvun laman osalta. Ajokorttimäärien kehitys puolestaan voi kertoa halusta pätevöityä uusiin tehtäviin hankkimalla ajokortti, sillä kouluttautuminen voi olla hyvä keino reagoida kiristyviin talousnäkymiin. Viitteet AKE:n tilastot 40

47 Tilastotieteen sovelluksia Kaisaniemen sääasema Helsingin Kaisaniemessä on mitattu ilman lämpötilaa jo miltei 200 vuoden ajan. Mittaustuloksista muodostuu mittava aikasarja, jota voidaan havainnollistaa monella tavalla. Yhtenä mielenkiinnon kohteena voi olla lämpötilan kuukausittaisten muutosten seuraaminen halki vuosien. Tällainen onnistuu esimerkiksi yksinkertaisen hajontakuvion ja siihen liitetyn siloitetun "keskiarvon" avulla. Kuukausittainen lämpötilan kehitys Oheiseen kuvaan on piirretty kunkin kuukauden lämpötilahavainnot eri vuosilta. Aika on esitetty vaaka-akselilla ja lämpötila pystyakselilla. Kutakin vuotta ja silloin mitattua lämpötilaa vastaa kuviossa yksi piste. Punainen viiva on siloitus, joka on muodostettu local weighted scatterplot smoother (LOWESS) -menetelmällä. Siloituksessa otetaan pieni viipale vuosista, ja sijoitetaan siihen käyrä, joka kuvaa näiden vuosien keskiarvoja. Lopuksi kaikista viipaleista lasketut keskiarvot yhdistetään koko hajontakuvion läpäisevän käyrän muodostamista varten. 41

48 42

49 Tilastotieteen sovelluksia Kaisaniemen mittauspisteen vuosittainen keskiarvo näyttää kasvaneen miltei kaikkina kuukausina. Eniten lämpötila on kasvanut talvi- ja kevätkuukausina, ja keskikesällä lämpötilan nousua ei ole juurikaan havaittavissa. Esimerkiksi tammikuun keskimääräinen lämpötila näyttää nousseen useilla asteilla parin sadan vuoden kuluessa. Kesäkuun mittauksissa tällaista vaikutusta ei kuitenkaan näyttäisi olevan. Samansuuntainen ilmiö on nähtävissä myös Keski-Englanninnin HadCetaineistossa, ja lienee siten yleisempikin ilmiö. Kuvioita tarkastellessa saattaa tulla mieleen, miksi lämpötila olisi noussut vain talvikuukausina eikä kesäkuukausina. Jos kyse olisi ilmaston lämpenemisestä, eikö vaikutuksen voisi olettaa olevan samanlainen kaikkina kuukausina? Voisiko selityksenä olla, että vuonna 1829 Kaisaniemi oli jokseenkin laitakaupunkia, ja nykyisin se sijaitsee ydinkeskustassa. Kaupungistuneilla alueilla lämpötila on aina korkeampi kuin vastaavilla ei-kaupungistuneilla alueilla. Voisiko havaittu lämpötilakehitys siis ennemminkin kertoa Helsingin kaupungistumisesta kuin ilmaston lämpenemisestä? Ilmastotutkimusta tekevän Hadley Centerin julkaisun mukaan urbanisoitumisella on hyvin vähän vaikutusta lämpötilakehitykseen. Koko maapallon lämpötila on kohonnot noin yhdellä asteella vuodesta 1850 vuoteen Tämä vaikutus näkyy sekä maa-alueiden että merialueiden pintalämpötiloissa jokseenkin samanlaisena. Niinpä Helsingin lämpötilakehitys näyttää samansuuntaiselta kuin koko maapallon tilanne, eikä ainakaan koko kahden asteen havaittu ero selity vain Helsingin ydinkeskustan laajenemisella ja siitä johtuvan lämpövuodon lisääntymisen vaikutuksella. Esimerkiksi KeskiEnglannista kerättyä HadCet-aineistoa on korjattu kaupunkien lämpövuodon suhteen vuodesta 1974 alkaen, ja korjausten suuruus on ollut korkeintaan 0.1 Celcius-asteen verran. Korjaus on tehty vertaamalla kaupunkialueella ja läheisellä maaseudulla sijaitsevien asemien mittaustuloksia. Vuosittainen lämpötilan kehitys Oheisessa kuviossa on esitetty vuosittaisen keskilämpötilan kehitys. Vaaka-akselilla on esitetty aika ja pystyakselilla lämpötila. Lisäksi kuvassa on esitetty LOWESS- siloitus, joka kuvastaa ikäänkuin keskiarvon keskimääräistä kehitystä ajan kuluessa. LOWESS-siloitus voidaan tehdä lukemattomilla eri tavoilla. Siloituksessa voidaan nimittäin muuttaa asetusta, joka määrää, kuinka suurtaa osaa aineistosta silotuksen laskemiseen käytetään. Oheiseen kuvioon on piirretty sama aineistoyhdeksään kertaan. Kussakin 43

50 tilanteessa on käytetty eri asetusta, ja tuloksena on saatu toisistaan eroavia käyriä. Asetuksen arvo muuttuu vasemman yläreunan 90%:sta alareunan 10%:iin. 44

51 Tilastotieteen sovelluksia Silmämääräisesti tarkastellen on vaikea sanoa, mikä käyristä on paras. Itseäni miellyttää ylärivin oikeanpuoleisin käyrä, joka ottaa huomioon 1940-luvun lopulla ja 1950-luvun alussa tapahtuneen pienen jäähtymisen, muttei liian jyrkästi. Vaikka käyrissä on eroja, kaikki puhuvat kuitenkin samaa kieltä: Helsingin Kaisaniemen mittausaseman vuosittainen keskilämpötila on liki 200 vuoden aikana noussut pari astetta. Yhteenveto 45

52 Kaisaniemen sääaseman mittausaineisto käy selkeästi ilmi miten keskilämpötila on parissa sadassa vuodessa noussut noin kaksi astetta. Kaupunkialueilla sijaitsevien mittausasemien tuloksia on usein kritisoitu (ilmastoskeptikkojen taholta) siksi, että kaupunkialueilla tapahtuu lämpövuotoa esimerkiksi lämmitetyistä taloista ja tämä voi vaikuttaa tuloksin. Nykykäsityksen mukaan vaikutus tuloksiin on vähäinen, mutta olisi mukava vertailla Kaisaniemen ja jonkin syrjemmässä sijaitsevan mittauspisteen, esimerkiksi Helsinki-Vantaan lentoaseman aineistoja toisiinsa. Valitettavasti tämä ei kuitenkaan käy helposti päinsä, sillä Ilmatieteenlaitoksen aineistot eivät ole saatavissa ilmaiseksi. Viitteet Helsingin ympäristötilasto A demonstration that large-scale warming is not urban A new daily central England temperature series 46

53 Tilastotieteen sovelluksia Rukoilun vaikutus tulehduksien paranemiseen Leibovici julkaisi vuoden 2001 Biomedical Journalin joulunumerossa tutkimuksen, jossa tutkittiin rukoilun vaikutusta systeemisestä tulehduksesta paranemiseen. Rukoilu toteutettiin noin neljä vuotta sen jälkeen, kun viimeinenkin tulehduspotilaista oli kotiutettu sairaalasta, joten tutkimus pyrki selvittämään, vaikuttaako rukoilu potilaiden tervehtymiseen taannehtivasti. Tutkimuksessa 3393 potilasta jaettiin satunnaisesti kahteen ryhmään. Toisen ryhmän potilaiden puolesta järjestettiin rukoustilaisuuksia, ja toinen potilasryhmä toimi kontrollina. Satunnaistuksen tarkoituksena oli poistaa kahden verrattavan ryhmän mahdolliset erot, ja siten tuloksiin vaikuttavat sekoittavat tekijät. Satunnaistus näyttääkin onnistuneen hyvin, ja erot monissa parametreissä ovat hyvin pieniä. Ainoa ryhmien mahdollisia eroja selittävä tekijä onkin siten rukoilu. Rukoilu- ja verrokkiryhmien erojen testaamiseen käytettiin Khiin neliötestiä, joka testaa, ovat mainittujen ryhmien mitattujen suureiden jakaumat samanlaisia. Jos testin antama tulos (p-arvo) on pienempi kuin 0.05, voidaan katsoa, että ryhmien välillä on tilastollisesti merkitsevä ero. Potilaiden kuolleisuutta, hoitojakson pituutta ja kuumeen kestoa seurattiin. Kuolleisuudessa ei ollut havaittavaa tilastollisesti merkitsevää eroa, mutta rukoiluryhmässä hoitojaksot olivat hiukan lyhyempiä (p=0.01), ja kuumeen kesto (p=0.04) oli keskimäärin myös hiukan lyhyempi kuin verrokkiryhmässä. Vaikka kuolleisuudessa ei merkitsevää eroa ollutkaan, menehtyi verrokkiryhmässa noin 40 henkeä enemmän kuin rukoiluryhmässä. Tutkimusta voidaan kuitenkin kritisoida. Ensinnäkin on sanottava, että BMJ:n joulunumero julkaistaan aina vastaavanlaisia joulumielisiä tutkimuksia. Niiden on tarkoitus herättää keskustelua, eikä tuloksia kannata järestään ottaa tosissaan. Tutkimuksen tulokset ovat epäilyttäviä useasta syystä. Kuumeen kestossa oli eroa ryhmien välillä, vaikka mediaanikesto oli molemmissa ryhmissä 2 päivää. Hoitojakson kestossa oli eroa vain 1 päivä (7 rukoiluryhmässä ja 8 verrokkiryhmässä), ja senkin tulos oli merkitsevä. Näyttää siltä, että verrokkiryhmän hoitojakson pituuksien jakauma on enemmän oikealle vino kuin rukoiluryhmän. Tämän aiheuttaa luultavasti vain kourallinen henkilöitä. Riippuen siitä, miten henkilöt on ryhmitelty Khiin neliötestissä eri soluihin, voi tulos olla hieman erilainen. Koska p-arvot ovat hyvin varsin lähellä ei-merkitsevää tulosta, kannattaa tulokseen suhtautua varauksella. 47

54 Tutkimus ei myöskään ole satunnaistettu ja kontrolloitu (sellainen, jossa on verrokkiryhmä) tutkimus! Jos henkilöt olisi jaettu rukoilu- ja verrokkiryhmiin silloin kun he olivat sairaita, olisi tutkimus ollut metodiikaltaan hyväksyttävissä. Usein on myös tapana tehdä interventio eli vaihtaa rukoilu- ja verrokkiryhmät keskenään. Tämä olisi kuitenkin ollut mahdotonta, sillä henkilön olisi pitänyt parantua (tms.) jo ensimmäisen rukoilun jälkeen, eikä häntä siten enää olisi voitu sijoittaa verokkiryhmään luotettavasti. Leibovicin tutkimus on myös epäeettinen ja Helsingin julistuksen vastainen. Tutkimukseen osallistuneilta henkilöiltä ei pyydetty suostumusta, mikä olisi tietysti ollut vaikeaakin, sillä liki kolmasosa potilaista oli kuollut jo vuosia aiemmin. Kun rukoilun havaittiin olevan tehokas keino vaikuttaa parantumiseen, olisi myös verrokkiryhmälle pitänyt tarjota samaa hoitoa, ja sen tarjoamatta jättäminen sotii epidemiologisen tutkimuksen herrasmiessääntöä ja lääkärietiikkaa vastaan. Lisäksi on aina olemassa mahdollisuus, että uusi hoitomuoto aiheuttaa potilaille haittaa. Entäpä jos tilanne olisikin ollut tällainen? Viitteet Leibovici, L. (2000) Effects of remote, retroactive intercessory prayer on outcomes in patients with bloodstream infection: randomized controlled trial, BMJ,

55 Tilastotieteen sovelluksia Kalsium ja veren lyijypitoisuus Kalsiumia suositellaan usein syötäväksi lyijymyrkytysriskin pienentämiseksi. Sargent (1999) tutki kliinisessä satunnaistetussa tutkimuksessa, miten kalsiumlisä vaikuttaa vauvojen veren lyijypitoisuuteen. Tutkimuksessa vähän yli 300 vauvaa jaettiin kahteen ryhmään. Toiselle ryhmälle annettiin tavallista äidinmaidonvastiketta, ja toinen ryhmä sai maitoa, johon oli lisätty tavallista enemmän kalsiumia. Vauvoja seurattiin kunnes he täyttivät yhdeksän kuukautta. Tutkimus tehtiin sokkoutettuna eli näytteiden otosta ja vauvojen hoidosta vastaavat henkilöt eivät olleet tietoisia siitä, saivatko vauvat tavallista vai muutettu korviketta. Koska kyseessä oli myös satunnaistettu koe, jossa käytettiin interventiota (kalsiumlisä), voidaan tutkimuksessa saadut tulokset tulkita johtuviksi kalsiumlisästä. Satunnaistuksen tarkoituksena on poistaa kahden tutkimusryhmän väliset systemaattiset erot, ja sokkoutus estää hoitohenkilöstön subjektiivisten käsitysten vaikutuksen tutkimuksen tuloksiin. Tutkimuksessa havaitiin, että ryhmässä joka sai maidossa tavanomaista enemmän kalsiumia, oli myös veressä vähemmän lyijyä. Ennen tutkimuksen aloittamista ja neljän kuukauden jälkeen tehtyjen lyijypitoisuuksien välillä oli merkitsevä negatiivinen korrelaatio (r=-0.44, p<0.01). Koska tutkimuksessa seuratut ryhmät olivat keskenään samanlaisia (satunnaistus!), ja ainoa ryhmiä erottava tekijä oli ravinnon kalsiumlisä, voidaan jokseenkin varmasti sanoa, että lyijypitoisuuksissa havaittu pieneneminen johtuu kalsiumlisästä. Korrelaatio ei tosin ole kovin voimakas, mutta tilastollisesti merkitsevä. Tässä tutkimuksessa korrelaatiokerrointa on tulkittu oikein. Satunnaistetussa interventiokokeessa havaittu merkitsevä korrelaatio voidaan tulkita syy-seuraussuhteen osoitukseksi. Vitteet Sargent, J. D., Dalton, M. A., O'Connor, G. T., Olmstead, E. M., and Klein, R. Z. (1999) Randomized trial of calcium glycerophosphatesupplemented infant formula to prevent lead absorption, Am. J. Clin. Nutr., 69,

56 Kyselytutkimukset Ilta-Sanomat uutisoi kahdesta seksikäyttäytymiseen liittyvästä kyselytutkimuksesta vuonna Toinen tutkimus oli Durexin Durex global sex survey 2002, ja toinen Playboy-lehden tekemä kysely. IltaSanomat uutisoi Playboyn tekemän kyselyn otsikolla "Jenkkinaisista kaksi kolmasosaa on harrastanut sekiä työpaikalla". Durexin tutkimukseen kiinnitettiin huomiota totemalla, että "Suomi ei pärjännyt rakasteluvertailussa". Playboyn kyselystä ei käy ilmi, tehtiinkö se Internetissä, mutta Durexin kysely oli toteutettu verkossa. Kummassakin on todennäköisesti suuri valikoitumisharha, sillä kyselyihin ovat todennäköisesti vastanneet Playboy-lehteä lukeneet ja Durexin tuotteista erityisesti kiinnostuneet. Siten kyselyihin vastanneiden ei voitane katsoa edustavan koko väestöä, ja tulosten yleistäminen koko väestöä koskeviksi on erittäin epävarmalla pohjalla. Kyselytutkimuksissa on erittäin tärkeää varmistua oikeanlaisella koesuunnittelulla, että saadut tulokset ovat yleistettävissä koko väestöä koskeviksi. Esimerkiksi poliittisten puolueiden kannatuksia mittavissa tutkimuksissa pyritään kattamaan kaikki äänestysikäiset ikäryhmät (aivan vanhimpia lukuunottamatta) siten, että kaupunki- ja maaseutu tulee edustettua väestön jakauman mukaisesti. Jos kysely tehtäisiin verkossa, painottuisi tuloksissa todennäköisesti nuorimpien ikäryhmien ja kauounkilaisten kanta, koska näiden tiedetään käyttävän Internetiä muita enemmän. Koska koesuunnittelu ja otanta ovat Playboyn tutkimuksessa pielessä, ei voitane sanoa, että 2/3 jenkkinaisista on harrastanut seksiä töissä. Professori Elina Haavio-Mannila toteaakin jutussa aivan oikein: "Playboyn lukijat ovat varmasti vapaampia suhtautumiseltaan kuin amerikkalaiset yleensä." Sama otantaan liittyvä kritiikki pätee myös Durexin tekemään kyselyyn. Durexin vuoden 2005 kyselyn tulokset ovat verkossa. Tähän kyselyyn vastasi henkilöä ympäri maailmaa. Raportissa ei esimerkiksi kerrota kuinka monta vastaajaa kustakin maasta tutkimukseen osallistui, joten tuloksien arviointi on vaikeaa. Lisäksi tutkimukset tuntuvat vaihtelevan vuodesta toiseen aika tavalla. Vuonna 2002 Suomalaiset sanoivat harrastaneensa seksiä 129 kertaa vuodessa. Vuoteen 2005 mennessä frekvenssi oli pudonnut 102:een. Koko maailman trendi oli samansuuntainen: vuonna 139 kertaa, vuonna kertaa. Näin suuret erot johtunevat eroista vastaajissa, koska tutkimus ei ilmeisestikään edes yrittänyt kontrolloida millaisia vastaajia tutkimukseen valikoitui. 50

57 Tilastotieteen sovelluksia UC Berkeley, 1973 Berkeleyn yliopiston kuuteen suurimpaan tiedekuntaan pyrki vuonna 1973 yhteensä 4526 opiskelijaa. Kun pyrkijöistä kerättyjä tietoja tarkastellaan tarkemmin, huomataan huolestuttava seikka: Näyttää siltä, että naispuolisten hakijoiden on huomattavasti vaikeampi päästä yliopistoon kuin miespuolisten hakijoiden. Tämä antaa aihetta epäillä syrjintää. Gender Admit Male Female Admitted Rejected Sama aineisto mosaiikkikuviona: voidaan esittää 51 myös graafisessa muodossa

58 Vetosuhde eli odds ratio Miespuolisten hakijoiden todennäköisyyttä tulla valituksi verrattuna naispuolisiin hakijoihin voidaan yrittää hahmottaa esimerkiksi vetosuhteen avulla. Vetosuhde on yksinkertaisesti kahden suhteen osamäärä. Miesten todennäköisyys tulla valituksi on 1198/2691= Naisten todennäköisyys tulla valituksi on vastaavasti 557/1835= Siten kunkin ryhmän veto, että tulee valituksi on p/(1-p) eli miehille 0.445/0.545=0.817 ja naisille 0.303/0.697= Näiden vetojen suhde on vetosuhde eli OR = 0.817/0.434 = 1.88 (likiarvo). Käytännössä OR on helpointa laskea ristitulona taulukosta eli OR = (1198*1278)/(1493*557) = Vetosuhdetta käytetään erityisesti tapaus-verrokki -asetelmaan perustuvissa epidemiologisissa tutkimuksessa eri ryhmien sairausriskin arviointiin. Tiedekunnissa on eroja Aineisto voidaan myös jakaa tiedekunnittain pienempiin ryhmiin, jolloin aineisto näyttää kokonaisuudessaan seuraavalta: Dept Admit Gender Admitted Male Female Rejected Male Female A B C D E F

59 Tilastotieteen sovelluksia Ja sama voidaan jälleen esittää mosaiikkikuviona: Kullekin tiedekunnalle (stratum) voidaan erikseen laskea OR naisten riskille olla pääsemättä yliopiston. Effect-sarakkeessa on lueteltu nämä OR:t kullekin tiedekunnalle, ja yhtäkkiä tilanne näyttääkin aivan toisenlaiselta: suurin osa tiedekunnista tuntuu suosivan naisia (OR:t ovat neljässä tapauksessa kuudesta pienempiä kuin 1). Tiedekunnassa A tilanne on erityisen epäedullinen miehille. 53

60 strata strata strata strata strata strata A B C D E F level level level level level level Female Female Female Female Female Female vs vs vs vs vs vs Male Male Male Male Male Male Tällaista tulosten yhtäkkistä Simpsonin paradoksiksi. Effect % kääntymistä 97.5% päälaelleen kutsutaan Simpsonin paradoksi Simpsonin paradoksi johtuu tässä tapauksessa siitä, että naiset pyrkivät tavanomaista useammin sellaisiin tiedekuntiin, joihin on keskimääräistä vaikeampi päästä suuren hakijamäärän vuoksi. Tällaisia näyttävätolevan erityisesti C ja E. Paradoksi johtuu siis siitä, että suurin osa naisista, jotka eivät pääse yliopistoon, on pyrkinyt sellaisiin tiedekuntiin joihin on vaikea päästä. Näin suuri joukko naisista tulee hylättyä pääsykokeessa. Kun tulos summataan kaikkien tiedekuntien yli, saadaan lopputulos, jossa suurempi osa naisista kuin miehistä näyttää tulleen hylätyksi. Sanotaan, ettei koko paradoksia olisi olemassa, jolleivat ihmiset automaattisesti pyrkisi keksimään syy-seuraussuhteita erilaisille havainnoille. Paradoksista on hyvä sivu Wiki-pediassa. Tiedekunnan suhteen korjattu analyysi - Mantel-Haenszelin testi Jos aiemmin tehty analyysi korjataan tiedekuntien suhteen eli analyysi tehdään tiedekunta kerrallaan ja tulokset yhdistetään tämän jälkeen, saadaan naisten vetosuhteeksi OR = 0.90 ja 95% luottamusväliksi CI = Siten haku jopa suosii hiukan naishakijoita (he tulevat tavanomaista useammin valituksi, jos pyrkivät tiedekuntaan, joka on miesvaltainen), mutta vaikutus ei ole tilastollisesti merkitsevä (koska OR:n luottamusväliin sisältyy ykkönen): 54

61 Tilastotieteen sovelluksia Mantel-Haenszel chi-squared test with continuity correction data: UCBAdmissions Mantel-Haenszel X-squared = , df = 1, p-value = alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval: sample estimates: common odds ratio Mantel-Haeszelin testillä pyritään siis poistamaan testin tuloksesta jokin sekoittava (confounding) tekijä. Tämä tapahtuu käytännössä siten, että kullekin ositteelle (stratum) lasketaan havaintojen lukumäärällä painotettu veto, ja kun nämä vedot summataan kaikkien ositteiden yli, saadaan korjattu OR. 55

62 UTU, 2007 Lue ensin juttu UC Berkeley:stä, jotta tiedät mistä puhutaan. Turun yliopiston opiskelivalintojen tulokset näyttivät vuonna 2007 seuraavilta: Gender Admit Male Female Admitted Rejected Sama aineisto mosaiikkikuviona: voidaan esittää 56 myös graafisessa muodossa

63 Tilastotieteen sovelluksia Aineiston perusteella naisten ja miesten välillä ei näytä olevan suuria eroja. Pieniä eroja eri tiedekuntien välillä tietysti on. Testataanpa asian kuitenkin varmuuden vuoksi. Jos lasketaan miehille koko aineistoa käyttäen riskisuhde päästä yliopistoon, saadaan: response : admit type : binary exposure : sex sex is a factor with levels: female / male baseline is female effects are measured as odds ratios effect of sex on admit number of observations Effect % % 1.28 Test for no effects of exposure on 1 df: p-value= Eli opiskelijavalinnat näyttäisivät hienoisesti suosivan (Effect=1.16). Jos stratifioidaan testi tiedekunnan suhteen, saadaan: miehiä response : admit type : binary exposure : sex stratified by : dept sex is a factor with levels: female / male baseline is female dept is a factor with levels: h/k/l/m/o/t effects are measured as odds ratios

64 effect of sex on admit stratified by dept number of observations strata strata strata strata strata strata h k l m o t level level level level level level male male male male male male vs vs vs vs vs vs 24 female female female female female female Effect % % Test for effect modification on 5 df: p-value= 2.84e-06 Eli riskisuhde miesten päästä yliopistoon vaihtelee tiedekuntien välillä, aivan kuten yllä esitetystä mosaiikkikuviosta saattoi päätelläkin. Humanistiseen tiedekuntaan miesten on jostakin syystä vaikeampi päästä (ja vaikutus on merkitsevä), mutta vaikutus on päinvastainen matemaattis-luonnontieteellisessä tiedekunnassa. Jos lasketaan Mantel-Haeszelin testi koko ainestoa käyttäen, saadaan tulos: Mantel-Haenszel chi-squared test with continuity correction data: tab Mantel-Haenszel X-squared = , df = 1, p-value = alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval: sample estimates: common odds ratio Eli miesten riski päästä yliopistoon naisiin verrattuna on 1.01, mutta tulos ei ole tilastollisesti merkitsevä. Todennäköisesti haku ei siis systemaattisesti syrji kumpaakaan sukupuolta. 58

65 Tilastotieteen sovelluksia Ihmisiin kohdistuneiden haihyökkäysten lukumäärän kehitys Helsingin Sanomien Kuukausiliite uutisoi maaliskuussa 2008, että "haiden määrä on 40 viime vuoden aikana vähentynyt prosenttia". Samaan aikaan "hait tuntuvat olevan entistä äkäisempiä." Haihyökkäyksiä onkin tapahtunut 2000-luvulla huomattavasti enemmän kuin 1960-luvulla. Suurin osa hyökkäyksistä keskittyy PohjoisAmerikkaan ja Aasiaan. Europpassa ja Afrikassa hyökkäyksistä tapahtuu vain noin 15-20%. Kuukausiliitteen mukaan haiden tekemien hyökkäysten syynä on "ilmiselvä kosto". Suurten haiden kannat ovat tosiaan romahtaneet Yhdysvaltain itärannikolla jopa 99% 40 vuoden aikana (Science, March 30, 2007). Jos oletetaan, että tämä tieto pätee myös muihin alueisiin, niin nykyisin suuria haita on siis vain 1/20 osa 1960-luvun tasosta. Voisi kuvitella, että haiden hyökkäysten määrä olisi tosiaan vähentynyt, koska haidenkin lukumäärä on vähentynyt. Samanaikaisesti haiden vähentymisen kanssa väestön määrä haihyökkäysalueilla on kasvanut, arviolta kaksinkertaiseksi esimerkiksi Floridassa ja Kaliforniassa. Turistien määrä on kasvanut vielä voimakkaammin. Amerikkoihin suuntautui noin 8 kertaa enemmän turisteja vuonna 2005 (133.5 miljoonaa) kuin 1965 (16.7 miljoonaa). Aasiassa kasvu on vieläkin voimakkaampaa: 1965 turisteja oli 2.1 miljoonaa, vuonna miljoonaa. Kasvu oli siis 74-kertainen. Tarkastellaanpa esimerkiksi ainoastaan Floridan tietoja. Arviolta 40% maailmassa tapahtuneista haiden hyökkäyksistä tapahtuu juuri Floridassa. Tällä hetkellä Floridassa asuu noin 16 miljoonaa ihmistä, ja vuosittain sinne saapuu noin 85 miljoonaa turistia. Jos ajatellaan, että väestö on siis kaksinkertaistunut ja turistien määrä kahdeksankertaistunut 40 viime vuoden aika Floridassa, on nykyisin (101 miljoonaa ihmistä) vähintään noin 6 kertaa enemmän ihmisiä rannoilla (ja vedessä) kuin Samaan aikaan haiden tekemien hyökkäysten lukumäärä on kasvanut noin kahdeksankertaiseksi. Lisäksi haikantojen koko on tippunut 1/20 osaan 1965 vuoden tasosta. Osan haiden tekemien hyökkäysten lukumäärän kasvamisesta varmasti selittää kasvanut turismi ja asukkaiden lukumäärä näillä alueilla. Kuukausiliitteen uutisen ongelmana on siis se, että on raportoitu yhdessä muuttujassa havaittu trendi (haiden hyökkäysten lukumäärä on kasvanut), muttei ole muistettu korjata tätä trendiä siihen mahdollisesti vaikuttavan toisen muuttujan trendin (ihmisten lukumäärä on samaan aikaan kasvanut) suhteen. Tämä on erittäin yleinen tilanne päivälehdissä. Raakoja numeroarvoja ei saa tulkita sellaisenaan 59

66 ottamatta huomioon muita tilanteeseen vaikuttavia tekijöitä. Erityisen usein tämä ilmiö esiintyy juuri väestönkasvuun tai rahanarvoon liittyvien uutisten yhteydessä. 60

67 Tilastotieteen sovelluksia Tutkimus- ja kehittämistoiminnan menot Research.fi on Suomen tieteen ja teknologian tietopalvelu, joka sisältää yhteenvetoja muun muassa tutkimusresursien kehittymisestä 1990luvun alusta nykypäivään. Eräs tutkimusresurssi on tietenkin tutkimukseen sijoitetun rahan määrä. Jos rahoituksen kehittymistä kuvataan vuosina , muodostuu luonnollisesti aikasarja. Research.fi:ssä tämä aikasarja on päätetty esittää pinottuna pylväsdiagrammina. Vasemmanpuoleinen kuva on piirretty uudelleen Research.fi:n aineiston perusteella samalla tavalla kuin se on palvelussa esitetty. Pystyakselilla on tutkimukseen sijoitetun rahan määrä miljoonina euroina. Vaaka-akselilla on vuosi. Research.fi:n esittämiä lukuja ei ole korjattu rahanarvon suhteen. Oikeanpuoleinen kuva esittää saman aineiston, mutta nyt summat on korjattu rahan arvon suhteen siten, että kaikki luvut on korjattu vastaamaan vuoden 2007 euroja. Silmämääräisesti tutkimusmenojen korjaaminen rahanarvon suhteen ei ole muuttanut kuviota suuresti, mutta julkisen sektorin rahoitus on korjattujen lukujen perusteella säilynyt jokseenkin ennallaan koko seurantajakson ajan, ja yrityksien osuus menoista korostuu entisestään jakson alkupuolella. Yleisesti ottaen on parempi esittää tällaiset kaaviot rahan arvon suhteen korjattuja lukuja käyttäen, sillä tulkinta on helpompaa, kun luvut voidaan suoraan tulkita nykyrahaa vastaavina määrinä. Vuonna 2006 Suomen tutkimusrahoituksen määrä oli noin 3.4 prosenttia bruttokansantuotteesta. Noin 2/3 rahoituksesta oli yrityksen 61

68 omiin kehittämishankkeisiin investoimaa rahaa, ja yliopistojen rahoitus bruttokansantuotteesta oli noin 0.7 prosenttia. Vasemmanpuoleisen kuvan esittämän pinotun pylväsdiagrammin voisi piirtää usealla tavalla uudelleen. Eräs tapa on muokata pylväsdiagrammikuvion perusperiaatteita, ja piirtää diagrammi seuraavalla tavalla: 62

69 Tilastotieteen sovelluksia Toinen tapa olisi piirtää kunkin tutkimussektorin resurssien kehitys viivadiagrammina: Viivadiagrammista on pylväsdiagrammia helpompi hahmottaa miten rahoitus on muuttunut viime vuosina. Kolmas tapa esittää sama informaatio on käyttää pinottua pylväsdiagrammia, jossa kunkin pylvään korkeus summautuu samaan arvoon, tässä sataan prosenttiin. Kunkin värillisen pylvään osuus kertoo kuinka paljon kunkin sektorin rahoitus muodostaa kokonaisrahoituksesta: 63

70 Suomen korkeakoulujen ja julkisen sektorin rahoitus prosenttiosuutena kokonaisrahoituksesta on muuten Sveitsin ohella nykyisten EU-maiden pienin, ja yritysten rahoitus vastaavasti suurin. 64

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

4. Funktion arvioimisesta eli approksimoimisesta

4. Funktion arvioimisesta eli approksimoimisesta 4. Funktion arvioimisesta eli approksimoimisesta Vaikka nykyaikaiset laskimet osaavatkin melkein kaiken muun välttämättömän paitsi kahvinkeiton, niin joskus, milloin mistäkin syystä, löytää itsensä tilanteessa,

Lisätiedot

niin järjestys on tämä: ensin kerto- ja jakolaskut vasemmalta oikealle, sen jälkeen plus- ja miinuslaskut vasemmalta oikealle.

niin järjestys on tämä: ensin kerto- ja jakolaskut vasemmalta oikealle, sen jälkeen plus- ja miinuslaskut vasemmalta oikealle. Alkeistason matikkaa Plus-, miinus-, kerto- ja jakolaskujen laskujärjestys Esim. jos pitää laskea tällainen lasku:? niin järjestys on tämä: ensin kerto- ja jakolaskut vasemmalta oikealle, sen jälkeen plus-

Lisätiedot

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014 Yhtälönratkaisusta Johanna Rämö, Helsingin yliopisto 22. syyskuuta 2014 Yhtälönratkaisu on koulusta tuttua, mutta usein sitä tehdään mekaanisesti sen kummempia ajattelematta. Jotta pystytään ratkaisemaan

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista

Lisätiedot

Kahden laboratorion mittaustulosten vertailu

Kahden laboratorion mittaustulosten vertailu TUTKIMUSSELOSTUS NRO RTE9 (8) LIITE Kahden laboratorion mittaustulosten vertailu Sisältö Sisältö... Johdanto... Tulokset.... Lämpökynttilät..... Tuote A..... Tuote B..... Päätelmiä.... Ulkotulet.... Hautalyhdyt,

Lisätiedot

Matematiikan tukikurssi, kurssikerta 3

Matematiikan tukikurssi, kurssikerta 3 Matematiikan tukikurssi, kurssikerta 3 1 Epäyhtälöitä Aivan aluksi lienee syytä esittää luvun itseisarvon määritelmä: { x kun x 0 x = x kun x < 0 Siispä esimerkiksi 10 = 10 ja 10 = 10. Seuraavaksi listaus

Lisätiedot

Seulontatutkimusten perusperiaatteet

Seulontatutkimusten perusperiaatteet Seulontatutkimusten perusperiaatteet Ilona Autti-Rämö, dos Finohta / Sikiöseulontojen yhtenäistäminen / Ilona Autti-Rämö 1 Seulontatutkimuksen yleiset periaatteet Tutkitaan sovittu ryhmä oireettomia henkilöitä,

Lisätiedot

7. Normaalijakauma ja standardipisteet

7. Normaalijakauma ja standardipisteet 33 7. Normaalijakauma ja standardipisteet Aiemmin olemme esittäneet joitakin variaabelin jakaumia histogrammien ja frekvenssipolygonien muodossa. Jos kuvittelemme, että mittaamme varsin tarkasti ja jatkuvaksi

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen MTTTP5, kevät 2016 4.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen 1. Laitosneuvostoon valitaan 2 professoria, 4 muuta henkilökuntaan kuuluvaa jäsentä sekä 4 opiskelijaa. Laitosneuvostoon

Lisätiedot

1. Matikan kurssin arvosanat jakautuivat seuraavalla tavalla:

1. Matikan kurssin arvosanat jakautuivat seuraavalla tavalla: MAA6.3 Loppukoe 9.11.01 Jussi Tyni Valitse kuusi tehtävää Muista merkitä vastauspaperiin oma nimesi ja tee etusivulle pisteytysruudukko. Kaikkiin tehtävien ratkaisuihin välivaiheet näkyviin! 1. Matikan

Lisätiedot

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin) 1/10 Tehtävä 1 2 3 4 5 6 7 8 9 10 Yhteensä Pisteet (tarkastaja merkitsee) Kokeessa on kymmenen tehtävää, joista jokainen on erillisellä paperilla. Jokaisen tehtävän maksimipistemäärä on 6 pistettä. Ratkaise

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 4 Jatkuvuus Jatkuvan funktion määritelmä Tarkastellaan funktiota f x) jossakin tietyssä pisteessä x 0. Tämä funktio on tässä pisteessä joko jatkuva tai epäjatkuva. Jatkuvuuden

Lisätiedot

Vanhankaupunginkosken ultraäänikuvaukset Simsonar Oy Pertti Paakkolanvaara

Vanhankaupunginkosken ultraäänikuvaukset Simsonar Oy Pertti Paakkolanvaara Vanhankaupunginkosken ultraäänikuvaukset 15.7. 14.11.2014 Simsonar Oy Pertti Paakkolanvaara Avaintulokset 2500 2000 Ylös vaellus pituusluokittain: 1500 1000 500 0 35-45 cm 45-60 cm 60-70 cm >70 cm 120

Lisätiedot

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 5 (viikko 9) Ratkaisuehdotuksia (Laura Tuohilampi). Jatkoa HT 4.5:teen. Määrää E(X) ja D (X). E(X) = 5X p i x i =0.8 0+0.39 +0.4 +0.4 3+0.04

Lisätiedot

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on 13 Pistetulo Avaruuksissa R 2 ja R 3 on totuttu puhumaan vektorien pituuksista ja vektoreiden välisistä kulmista. Kuten tavallista, näiden käsitteiden yleistäminen korkeampiulotteisiin avaruuksiin ei onnistu

Lisätiedot

TILASTOKATSAUS 4:2015

TILASTOKATSAUS 4:2015 Tilastokatsaus 6:212 TILASTOKATSAUS 4:2 1 12.8.2 TIETOJA TYÖVOIMASTA JA TYÖTTÖMYYDESTÄ Työvoiman määrä kasvoi 1 3:lla (,9 %) vuoden 213 aikana Vantaalla työvoimaan kuuluvien joukko on suurentunut vuodesta

Lisätiedot

Luku 8. Aluekyselyt. 8.1 Summataulukko

Luku 8. Aluekyselyt. 8.1 Summataulukko Luku 8 Aluekyselyt Aluekysely on tiettyä taulukon väliä koskeva kysely. Tyypillisiä aluekyselyitä ovat, mikä on taulukon välin lukujen summa tai pienin luku välillä. Esimerkiksi seuraavassa taulukossa

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

1. Otetaan perusjoukoksi X := {0, 1, 2, 3, 4, 5, 6, 7}. Piirrä seuraaville kolmelle joukolle Venn-diagrammi ja asettele alkiot siihen.

1. Otetaan perusjoukoksi X := {0, 1, 2, 3, 4, 5, 6, 7}. Piirrä seuraaville kolmelle joukolle Venn-diagrammi ja asettele alkiot siihen. Joukko-oppia Matematiikan mestariluokka, syksy 2010 Harjoitus 1, vastaukset 20.2.2010 1. Otetaan perusjoukoksi X := {0, 1, 2, 3, 4, 5, 6, 7}. Piirrä seuraaville kolmelle joukolle Venn-diagrammi asettele

Lisätiedot

Tehtävä 1 2 3 4 5 6 7 Vastaus

Tehtävä 1 2 3 4 5 6 7 Vastaus Kenguru Benjamin, vastauslomake Nimi Luokka/Ryhmä Pisteet Kenguruloikka Irrota tämä vastauslomake tehtävämonisteesta. Merkitse tehtävän numeron alle valitsemasi vastausvaihtoehto. Jätä ruutu tyhjäksi,

Lisätiedot

+ 3 2 5 } {{ } + 2 2 2 5 2. 2 kertaa jotain

+ 3 2 5 } {{ } + 2 2 2 5 2. 2 kertaa jotain Jaollisuustestejä (matematiikan mestariluokka, 7.11.2009, ohjattujen harjoitusten lopputuloslappu) Huom! Nämä eivät tietenkään ole ainoita jaollisuussääntöjä; ovatpahan vain hyödyllisiä ja ainakin osittain

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( )

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( ) Königsbergin sillat 1700-luvun Königsbergin (nykyisen Kaliningradin) läpi virtasi joki, jonka ylitti seitsemän siltaa. Sanotaan, että kaupungin asukkaat yrittivät löytää reittiä, joka lähtisi heidän kotoaan,

Lisätiedot

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat. Approbatur 3, demo 1, ratkaisut 1.1. A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat. Käydään kaikki vaihtoehdot läpi. Jos A on rehti, niin B on retku, koska muuten

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

Korkeusmallien vertailua ja käyttö nitraattiasetuksen soveltamisessa

Korkeusmallien vertailua ja käyttö nitraattiasetuksen soveltamisessa Korkeusmallien vertailua ja käyttö nitraattiasetuksen soveltamisessa Valtakunnallisesti kattavaa laserkeilausaineistoa ei vielä ole. Kaltevuusmallit perustuvat tällä hetkellä digitaalisen korkeusmallin

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Pakkaset ja helteet muuttuvassa ilmastossa lämpötilan muutokset ja vaihtelu eri aikaskaaloissa

Pakkaset ja helteet muuttuvassa ilmastossa lämpötilan muutokset ja vaihtelu eri aikaskaaloissa Pakkaset ja helteet muuttuvassa ilmastossa lämpötilan muutokset ja vaihtelu eri aikaskaaloissa Jouni Räisänen Helsingin yliopiston fysiikan laitos Kimmo Ruosteenoja Ilmatieteen laitos Sisältöä ACCLIM-skenaariot

Lisätiedot

Yksikkökate tarkoittaa katetuottoa yhden tuotteen kohdalla. Tämä voidaan määrittää vain jos myytäviä tuotteita on vain yksi.

Yksikkökate tarkoittaa katetuottoa yhden tuotteen kohdalla. Tämä voidaan määrittää vain jos myytäviä tuotteita on vain yksi. KATETUOTTOLASKENTA laskennassa selvitetään onko liiketoiminta kannattavaa. Laskelmat tehdään liiketoiminnasta syntyvien kustannuksien ja tuottojen perusteella erilaisissa tilanteissa. laskennassa käytetään

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto...2. 2 Aineiston kuvaus...3. 3 Riippuvuustarkastelut...4

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto...2. 2 Aineiston kuvaus...3. 3 Riippuvuustarkastelut...4 TILTP1 Tilastotieteen johdantokurssin harjoitustyö Tampereen yliopisto 5.11.2007 Perttu Kaijansinkko (84813) perttu.kaijansinkko@uta.fi Pääaine matematiikka/tilastotiede Tarkastaja Tarja Siren 1 Johdanto...2

Lisätiedot

Injektio. Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim.

Injektio. Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim. Injektio Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim. Funktio f on siis injektio mikäli ehdosta f (x 1 ) = f (x 2 ) seuraa, että x 1 = x 2.

Lisätiedot

OHJEET LUE TÄMÄ AIVAN ENSIKSI!

OHJEET LUE TÄMÄ AIVAN ENSIKSI! 1/8 OHJEET LUE TÄMÄ AIVAN ENSIKSI! Sinulla on nyt hallussasi testi, jolla voit arvioida oman älykkyytesi. Tämä testi muodostuu kahdesta osatestistä (Testi 1 ja Testi ). Testi on tarkoitettu vain yli neljätoistavuotiaille.

Lisätiedot

Jos Q = kysytty määrä, Q = kysytyn määrän muutos, P = hinta ja P = hinnan muutos, niin hintajousto on Q/Q P/P

Jos Q = kysytty määrä, Q = kysytyn määrän muutos, P = hinta ja P = hinnan muutos, niin hintajousto on Q/Q P/P Osa 5. Joustoista Kysynnän hintajousto (price elasticity of demand) mittaa, miten kysynnän määrä reagoi hinnan muutokseen = kysytyn määrän suhteellinen muutos jaettuna hinnan suhteellisella muutoksella

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

4.1 Urakäsite. Ympyräviiva. Ympyrään liittyvät nimitykset

4.1 Urakäsite. Ympyräviiva. Ympyrään liittyvät nimitykset 4.1 Urakäsite. Ympyräviiva. Ympyrään liittyvät nimitykset MÄÄRITELMÄ 6 URA Joukko pisteitä, joista jokainen täyttää määrätyn ehdon, on ura. Urakäsite sisältää siten kaksi asiaa. Pistejoukon jokainen piste

Lisätiedot

A Lausekkeen 1,1 3 arvo on 1,13 3,3 1,331 B Tilavuus 0,5 m 3 on sama kuin 50 l 500 l l C Luvuista 2 3, 6 7

A Lausekkeen 1,1 3 arvo on 1,13 3,3 1,331 B Tilavuus 0,5 m 3 on sama kuin 50 l 500 l l C Luvuista 2 3, 6 7 1 Tuotteen hinta nousee ensin 10 % ja laskee sitten 10 %, joten lopullinen hinta on... alkuperäisestä hinnasta. alkuperäisestä hinnasta. YLIOPPILASTUTKINTO- LAUTAKUNTA 23.3.2016 MATEMATIIKAN KOE PITKÄ

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Mammografiaseulonta. Mammografiaseulonta. Mammografiaseulonta. Mammografiaseulonta

Mammografiaseulonta. Mammografiaseulonta. Mammografiaseulonta. Mammografiaseulonta Miksi Suomessa mammografia on valittu rintasyövän seulontamenetelmäksi? rintasyövän ilmaantuvuus v. 2006 4069 naista ja 20 miestä rintasyövän vaaratekijät rintasyöpä ja ammatti? varhaismuutokset havaitaan

Lisätiedot

verkkojen G ja H välinen isomorfismi. Nyt kuvaus f on bijektio, joka säilyttää kyseisissä verkoissa esiintyvät särmät, joten pari

verkkojen G ja H välinen isomorfismi. Nyt kuvaus f on bijektio, joka säilyttää kyseisissä verkoissa esiintyvät särmät, joten pari Tehtävä 9 : 1 Merkitään kirjaimella G tehtäväpaperin kuvan vasemmanpuoleista verkkoa sekä kirjaimella H tehtäväpaperin kuvan oikeanpuoleista verkkoa. Kuvan perusteella voidaan havaita, että verkko G on

Lisätiedot

3.7 Todennäköisyysjakaumia

3.7 Todennäköisyysjakaumia MAB5: Todennäköisyyden lähtökohdat 4 Luvussa 3 Tunnusluvut perehdyimme jo jakauman käsitteeseen yleensä ja normaalijakaumaan vähän tarkemmin. Lähdetään nyt tutustumaan binomijakaumaan ja otetaan sen jälkeen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä.. Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä.. TEHTÄVÄ 1 Taulukko 1 Kuvailevat tunnusluvut pääkaupunkiseudun terveystutkimuksesta vuonna 2007 (n=941) Keskiarvo (keskihajonta) Ikä

Lisätiedot

Peliteoria luento 1. May 25, 2015. Peliteoria luento 1

Peliteoria luento 1. May 25, 2015. Peliteoria luento 1 May 25, 2015 Tavoitteet Valmius muotoilla strategisesti ja yhteiskunnallisesti kiinnostavia tilanteita peleinä. Kyky ratkaista yksinkertaisia pelejä. Luentojen rakenne 1 Joitain pelejä ajanvietematematiikasta.

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Kenguru 2012 Junior sivu 1 / 8 (lukion 1. vuosi)

Kenguru 2012 Junior sivu 1 / 8 (lukion 1. vuosi) Kenguru 2012 Junior sivu 1 / 8 Nimi Ryhmä Pisteet: Kenguruloikan pituus: Irrota tämä vastauslomake tehtävämonisteesta. Merkitse tehtävän numeron alle valitsemasi vastausvaihtoehto. Väärästä vastauksesta

Lisätiedot

Kenguru 2011 Cadet (8. ja 9. luokka)

Kenguru 2011 Cadet (8. ja 9. luokka) sivu 1 / 7 NIMI LUOKKA/RYHMÄ Pisteet: Kenguruloikan pituus: Irrota tämä vastauslomake tehtävämonisteesta. Merkitse tehtävän numeron alle valitsemasi vastausvaihtoehto. Jätä ruutu tyhjäksi, jos et halua

Lisätiedot

Dnro 269/301/2008. Maa- ja metsätalousministeriö Kala- ja riistaosasto PL VALTIONEUVOSTO

Dnro 269/301/2008. Maa- ja metsätalousministeriö Kala- ja riistaosasto PL VALTIONEUVOSTO 9.3.2009 Dnro 269/301/2008 Maa- ja metsätalousministeriö Kala- ja riistaosasto PL 30 00023 VALTIONEUVOSTO Viite MMM 928/720/2008 Lausuntopyyntö 18.11.2008 Riista- ja kalatalouden tutkimuslaitoksen arvio

Lisätiedot

Eräs tyypillinen virhe monitavoitteisessa portfoliopäätösanalyysissa + esimerkkitapaus

Eräs tyypillinen virhe monitavoitteisessa portfoliopäätösanalyysissa + esimerkkitapaus Eräs tyypillinen virhe monitavoitteisessa portfoliopäätösanalyysissa + esimerkkitapaus Mat-2.4142 Optimointiopin seminaari 2.3.2011 Lähteet: Clemen, R. T., & Smith, J. E. (2009). On the Choice of Baselines

Lisätiedot

1. Tässä tehtävässä päätellään kaksilapsisen perheen lapsiin liittyviä todennäköisyyksiä.

1. Tässä tehtävässä päätellään kaksilapsisen perheen lapsiin liittyviä todennäköisyyksiä. TODENNÄKÖISYYS Aihepiirejä: Yhden ja kahden tapahtuman tuloksien käsittely ja taulukointi, ovikoodit, joukkueen valinta, bussin odotus, pelejä, urheilijoiden testaus kielletyn piristeen käytöstä, linnun

Lisätiedot

keskenään isomorfiset? (Perustele!) Ratkaisu. Ovat. Tämän näkee indeksoimalla kärjet kuvan osoittamalla tavalla: a 1 b 3 a 5

keskenään isomorfiset? (Perustele!) Ratkaisu. Ovat. Tämän näkee indeksoimalla kärjet kuvan osoittamalla tavalla: a 1 b 3 a 5 Johdatus diskreettiin matematiikkaan Harjoitus 6, 21.10.2015 1. Ovatko verkot keskenään isomorfiset? (Perustele!) Ratkaisu. Ovat. Tämän näkee indeksoimalla kärjet kuvan osoittamalla tavalla: a 2 b 4 a

Lisätiedot

TTY FYS-1010 Fysiikan työt I AA 1.2 Sähkömittauksia Ilari Leinonen, TuTa, 1. vsk Markus Parviainen, TuTa, 1. vsk.

TTY FYS-1010 Fysiikan työt I AA 1.2 Sähkömittauksia Ilari Leinonen, TuTa, 1. vsk Markus Parviainen, TuTa, 1. vsk. TTY FYS-1010 Fysiikan työt I 14.3.2016 AA 1.2 Sähkömittauksia 253342 Ilari Leinonen, TuTa, 1. vsk. 246198 Markus Parviainen, TuTa, 1. vsk. Sisältö 1 Johdanto 1 2 Työn taustalla oleva teoria 1 2.1 Oikeajännite-

Lisätiedot

Kenguru 2013 Cadet (8. ja 9. luokka)

Kenguru 2013 Cadet (8. ja 9. luokka) sivu 1 / 7 NIMI LUOKKA Pisteet: Kenguruloikan pituus: Irrota tämä vastauslomake tehtävämonisteesta. Merkitse tehtävän numeron alle valitsemasi vastausvaihtoehto. Väärästä vastauksesta saat miinuspisteitä

Lisätiedot

ASUINKERROSTALON ÄÄNITEKNISEN LAADUN ARVIOINTI. Mikko Kylliäinen

ASUINKERROSTALON ÄÄNITEKNISEN LAADUN ARVIOINTI. Mikko Kylliäinen ASUINKERROSTALON ÄÄNITEKNISEN LAADUN ARVIOINTI Mikko Kylliäinen Insinööritoimisto Heikki Helimäki Oy Dagmarinkatu 8 B 18, 00100 Helsinki kylliainen@kotiposti.net 1 JOHDANTO Suomen rakentamismääräyskokoelman

Lisätiedot

Education at a Glance 2013: Sukupuolten väliset erot tasoittumassa

Education at a Glance 2013: Sukupuolten väliset erot tasoittumassa Education at a Glance 2013: Sukupuolten väliset erot tasoittumassa Education at a Glance: OECD Indicators (EaG) on OECD:n koulutukseen keskittyvän työn lippulaivajulkaisu, joka kertoo vuosittain koulutuksen

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

TILASTOKATSAUS 15:2016

TILASTOKATSAUS 15:2016 Tilastokatsaus 6:2012 TILASTOKATSAUS 15:2016 1 25.8.2016 TYÖTTÖMÄT VANTAALLA 31.12.2015 Työttömyysaste oli Vantaalla 12,4 prosenttia vuoden 2015 lopussa. Työttömien määrä kasvoi kaikilla suuralueilla,

Lisätiedot

SKAL:n kuljetusbarometri 2/2005. Etelä-Suomi

SKAL:n kuljetusbarometri 2/2005. Etelä-Suomi SKAL:n kuljetusbarometri 2/2005 Alueellisia tuloksia Liite lehdistötiedotteeseen Etelä-Suomi Kuljetusalan yleiset näkymät ovat jo keväästä 2004 alkaen olleet Etelä- Suomessa huonompia kuin koko maassa

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

MAY1 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 12.4.2016 Julkaiseminen sallittu vain koulun suljetussa verkossa.

MAY1 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 12.4.2016 Julkaiseminen sallittu vain koulun suljetussa verkossa. KERTAUS Lukujono KERTAUSTEHTÄVIÄ K1. Ratkaisussa annetaan esimerkit mahdollisista säännöistä. a) Jatketaan lukujonoa: 2, 4, 6, 8, 10, 12, 14, 16, Rekursiivinen sääntö on, että lukujonon ensimmäinen jäsen

Lisätiedot

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120 Tehtävä 1 : 1 Merkitään jatkossa kirjaimella H kaikkien solmujoukon V sellaisten verkkojen kokoelmaa, joissa on tasan kolme särmää. a) Jokainen verkko G H toteuttaa väitteen E(G) [V]. Toisaalta jokainen

Lisätiedot

S Laskennallinen systeemibiologia

S Laskennallinen systeemibiologia S-114.2510 Laskennallinen systeemibiologia 3. Harjoitus 1. Koska tilanne on Hardy-Weinbergin tasapainossa luonnonvalintaa lukuunottamatta, saadaan alleeleista muodostuvien eri tsygoottien genotyyppifrekvenssit

Lisätiedot

x 5 15 x 25 10x 40 11x x y 36 y sijoitus jompaankumpaan yhtälöön : b)

x 5 15 x 25 10x 40 11x x y 36 y sijoitus jompaankumpaan yhtälöön : b) MAA4 ratkaisut. 5 a) Itseisarvon vastauksen pitää olla aina positiivinen, joten määritelty kun 5 0 5 5 tai ( ) 5 5 5 5 0 5 5 5 5 0 5 5 0 0 9 5 9 40 5 5 5 5 0 40 5 Jälkimmäinen vastaus ei toimi määrittelyjoukon

Lisätiedot

Maksimit ja minimit 1/5 Sisältö ESITIEDOT: reaalifunktiot, derivaatta

Maksimit ja minimit 1/5 Sisältö ESITIEDOT: reaalifunktiot, derivaatta Maksimit ja minimit 1/5 Sisältö Funktion kasvavuus ja vähenevyys; paikalliset ääriarvot Jos derivoituvan reaalifunktion f derivaatta tietyssä pisteessä on positiivinen, f (x 0 ) > 0, niin funktion tangentti

Lisätiedot

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia. 806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 11.3.2011 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta

Lisätiedot

Matemaatiikan tukikurssi

Matemaatiikan tukikurssi Matemaatiikan tukikurssi Kurssikerta 1 1 Funktiot Funktion määritelmä Funktio on sääntö, joka liittää kahden eri joukon alkioita toisiinsa. Ollakseen funktio tämän säännön on liitettävä jokaiseen lähtöjoukon

Lisätiedot

Kenguru Écolier (4. ja 5. luokka) ratkaisut sivu 1/5

Kenguru Écolier (4. ja 5. luokka) ratkaisut sivu 1/5 Kenguru Écolier (4. ja 5. luokka) ratkaisut sivu 1/5 3 pisteen tehtävät 1) Miettisen perhe syö 3 ateriaa päivässä. Kuinka monta ateriaa he syövät viikon aikana? A) 7 B) 18 C) 21 D) 28 E) 37 2) Aikuisten

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

TILASTOKATSAUS 16:2016

TILASTOKATSAUS 16:2016 Tilastokatsaus 6:2012 TILASTOKATSAUS 16:2016 1 26.8.2016 PITKÄAIKAISTYÖTTÖMÄT VANTAALLA Pitkäaikaistyöttömiä oli Vantaalla vuoden 2015 lopussa 4 850. Heistä useampi kuin kaksi viidestä oli ollut työttömänä

Lisätiedot

Aineistokoko ja voima-analyysi

Aineistokoko ja voima-analyysi TUTKIMUSOPAS Aineistokoko ja voima-analyysi Johdanto Aineisto- eli otoskoon arviointi ja tutkimuksen voima-analyysi ovat tilastollisen tutkimuksen suunnittelussa keskeisimpiä asioita. Otoskoon arvioinnilla

Lisätiedot

Suomen Syöpärekisteri Syöpätautien tilastollinen ja epidemiologinen tutkimuslaitos. Syöpäpotilaiden eloonjäämisluvut alueittain

Suomen Syöpärekisteri Syöpätautien tilastollinen ja epidemiologinen tutkimuslaitos. Syöpäpotilaiden eloonjäämisluvut alueittain Syöpäpotilaiden eloonjäämisluvut alueittain Sivuilla 2 15 esitetään ikävakioidut suhteelliset elossaololuvut yliopistollisten sairaaloiden vastuualueilla vuosina 2007 2014 todetuilla ja 2012 2014 seuratuilla

Lisätiedot

Til.yks. x y z

Til.yks. x y z Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

Kenguru 2014 Student sivu 1 / 8 (lukion 2. ja 3. vuosi)

Kenguru 2014 Student sivu 1 / 8 (lukion 2. ja 3. vuosi) Kenguru 2014 Student sivu 1 / 8 Nimi Ryhmä Pisteet: Kenguruloikan pituus: Irrota tämä vastauslomake tehtävämonisteesta. Merkitse tehtävän numeron alle valitsemasi vastausvaihtoehto. Väärästä vastauksesta

Lisätiedot

01/2016 ELÄKETURVAKESKUKSEN TUTKIMUKSIA TIIVISTELMÄ. Juha Rantala ja Marja Riihelä. Eläkeläisnaisten ja -miesten toimeentuloerot vuosina 1995 2013

01/2016 ELÄKETURVAKESKUKSEN TUTKIMUKSIA TIIVISTELMÄ. Juha Rantala ja Marja Riihelä. Eläkeläisnaisten ja -miesten toimeentuloerot vuosina 1995 2013 01/2016 ELÄKETURVAKESKUKSEN TUTKIMUKSIA TIIVISTELMÄ Juha Rantala ja Marja Riihelä Eläkeläisnaisten ja -miesten toimeentuloerot vuosina 1995 2013 Sukupuolten välinen tasa-arvo on keskeinen arvo suomalaisessa

Lisätiedot

Ohjeita fysiikan ylioppilaskirjoituksiin

Ohjeita fysiikan ylioppilaskirjoituksiin Ohjeita fysiikan ylioppilaskirjoituksiin Kari Eloranta 2016 Jyväskylän Lyseon lukio 11. tammikuuta 2016 Kokeen rakenne Fysiikan kokeessa on 13 tehtävää, joista vastataan kahdeksaan. Tehtävät 12 ja 13 ovat

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

9. Vektorit. 9.1 Skalaarit ja vektorit. 9.2 Vektorit tasossa

9. Vektorit. 9.1 Skalaarit ja vektorit. 9.2 Vektorit tasossa 9. Vektorit 9.1 Skalaarit ja vektorit Skalaari on koon tai määrän mitta. Tyypillinen esimerkki skalaarista on massa. Lukumäärä on toinen hyvä esimerkki skalaarista. Vektorilla on taas suuruus ja suunta.

Lisätiedot

Y ja

Y ja 1 Funktiot ja raja-arvot Y100 27.10.2008 ja 29.10.2008 Aki Hagelin aki.hagelin@helsinki.fi Department of Psychology / Cognitive Science University of Helsinki 2 Funktiot (Lue Häsä & Kortesharju sivut 4-9)

Lisätiedot

Harjoitus 6 ( )

Harjoitus 6 ( ) Harjoitus 6 (21.4.2015) Tehtävä 1 Määritelmän (ks. luentomoniste s. 109) mukaan yleisen, muotoa min f(x) s. t. g(x) 0 h(x) = 0 x X olevan optimointitehtävän Lagrangen duaali on missä max θ(u, v) s. t.

Lisätiedot

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisia peruskäsitteitä ja Monte Carlo Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia

Lisätiedot

Kenguru 2015 Mini-Ecolier (2. ja 3. luokka) RATKAISUT

Kenguru 2015 Mini-Ecolier (2. ja 3. luokka) RATKAISUT sivu 1 / 10 3 pistettä 1. Kuinka monta pilkkua kuvan leppäkertuilla on yhteensä? (A) 17 (B) 18 (C) 19 (D) 20 (E) 21 Ratkaisu: Pilkkuja on 1 + 1 + 1 + 2 + 2 + 1 + 3 + 2 + 3 + 3 = 19. 2. Miltä kuvan pyöreä

Lisätiedot

EI MIKÄÄN NÄISTÄ. KUVITETTU MINI-MENTAL STATE EXAMINATION Ohjeet viimeisellä sivulla. 1. Mikä vuosi nyt on? 2. Mikä vuodenaika nyt on?

EI MIKÄÄN NÄISTÄ. KUVITETTU MINI-MENTAL STATE EXAMINATION Ohjeet viimeisellä sivulla. 1. Mikä vuosi nyt on? 2. Mikä vuodenaika nyt on? POTILAS: SYNTYMÄAIKA: TUTKIJA: PÄIVÄMÄÄRÄ: 1. Mikä vuosi nyt on? 2000 2017 2020 1917 EI MIKÄÄN NÄISTÄ 2. Mikä vuodenaika nyt on? KEVÄT KESÄ SYKSY TALVI 3. Monesko päivä tänään on? 1 2 3 4 5 6 7 8 9 10

Lisätiedot

Dnro 269/301/2008. Maa- ja metsätalousministeriö Kala- ja riistaosasto PL VALTIONEUVOSTO

Dnro 269/301/2008. Maa- ja metsätalousministeriö Kala- ja riistaosasto PL VALTIONEUVOSTO 31.12.2008 Dnro 269/301/2008 Maa- ja metsätalousministeriö Kala- ja riistaosasto PL 30 00023 VALTIONEUVOSTO Viite MMM 928/720/2008 Lausuntopyyntö 18.11.2008 Riista- ja kalatalouden tutkimuslaitoksen arvio

Lisätiedot

, tuottoprosentti r = X 1 X 0

, tuottoprosentti r = X 1 X 0 Ostat osakkeen hintaan ja myyt sen vuoden myöhemmin hintaan X 1. Kokonaistuotto on tällöin R = X 1, tuottoprosentti r = X 1 ja pätee R = 1 + r. Lyhyeksimyymisellä tarkoitetaan, että voit myydä osakkeen

Lisätiedot

Matin alkuvuoden budjetti

Matin alkuvuoden budjetti 1 TILASTOJEN TULKINTAA 1. euroa Matin alkuvuoden budjetti 600 500 400 300 200 100 0 tammikuu helmikuu maaliskuu huhtikuu a) Milloin Matti on kuluttanut eniten rahaa ostoksiin? Arvioi, kuinka paljon vaatteisiin

Lisätiedot

S-114.3812 Laskennallinen Neurotiede

S-114.3812 Laskennallinen Neurotiede S-114.381 Laskennallinen Neurotiede Projektityö 30.1.007 Heikki Hyyti 60451P Tehtävä 1: Virityskäyrästön laskeminen Luokitellaan neuroni ensin sen mukaan, miten se vastaa sinimuotoisiin syötteisiin. Syöte

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 8 Väliarvolause Oletetaan, että funktio f on jatkuva jollain reaalilukuvälillä [a, b] ja derivoituva avoimella välillä (a, b). Funktion muutos tällä välillä on luonnollisesti

Lisätiedot

SELVITYS SIITÄ MITEN ERÄÄT PERINNÖLLISET SAIRAUDET (KUTEN GPRA JA FUCOSIDOSIS) PERIYTYVÄT ENGLANNINSPRINGERSPANIELEISSA

SELVITYS SIITÄ MITEN ERÄÄT PERINNÖLLISET SAIRAUDET (KUTEN GPRA JA FUCOSIDOSIS) PERIYTYVÄT ENGLANNINSPRINGERSPANIELEISSA SELVITYS SIITÄ MITEN ERÄÄT PERINNÖLLISET SAIRAUDET (KUTEN GPRA JA FUCOSIDOSIS) PERIYTYVÄT ENGLANNINSPRINGERSPANIELEISSA Kaikki koiran perimät geenit sisältyvät 39 erilliseen kromosomipariin. Geenejä arvellaan

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

1/6 TEKNIIKKA JA LIIKENNE FYSIIKAN LABORATORIO V1.31 9.2011

1/6 TEKNIIKKA JA LIIKENNE FYSIIKAN LABORATORIO V1.31 9.2011 1/6 333. SÄDEOPTIIKKA JA FOTOMETRIA A. INSSIN POTTOVÄIN JA TAITTOKYVYN MÄÄRITTÄMINEN 1. Työn tavoite. Teoriaa 3. Työn suoritus Työssä perehdytään valon kulkuun väliaineissa ja niiden rajapinnoissa sädeoptiikan

Lisätiedot