Nuoruusiän vaikutus aikuisen painoindeksiin Data-analyysin perusmenetelmät Harjoitustyö. Lassi Miinalainen

Samankaltaiset tiedostot
Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Opiskelija viipymisaika pistemäärä

2. Tietokoneharjoitukset

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

Regressioanalyysi. Vilkkumaa / Kuusinen 1

TUTKIMUSOPAS. SPSS-opas

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

HAVAITUT JA ODOTETUT FREKVENSSIT

pisteet Frekvenssi frekvenssi Yhteensä

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1


Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

R: mikä, miksi ja miten?

Regressioanalyysi. Kuusinen/Heliövaara 1

1. Tietokoneharjoitukset

b1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta.

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

pitkittäisaineistoissa

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Usean selittävän muuttujan regressioanalyysi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Mat Tilastollisen analyysin perusteet, kevät 2007

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Load

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Lasten ylipaino ja kasvunseurannan merkitys ylipainon ehkäisyssä Jarmo Salo, LT, lastentautien erikoislääkäri, THL

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

TA4b Taloudellinen kasvu Harjoitus 1

LASTEN JA NUORTEN YLIPAINO JA LIHAVUUS

A250A0050 Ekonometrian perusteet Tentti

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Eläkeläisten elämäntyytyväisyyden tekijät

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ylipainoinen lapsi terveydenhuollossa. Päivi Tapanainen Lasten ja nuorten klinikka, OYS

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitus 9: Excel - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Matemaatikot ja tilastotieteilijät

Palauteluento. 9. elokuuta 12

Mitä uutta koululaisten kasvun seurannasta

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

1 Johdatus varianssianalyysiin

pitkittäisaineistoissa

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Pienten lasten ylipaino ja sen mittaaminen. Kansanterveyspäivät Jarmo Salo

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mat Tilastollisen analyysin perusteet, kevät 2007

SPSS-perusteet. Sisältö

Harjoitukset 4 : Paneelidata (Palautus )

Lasten lihavuuden määrittely ja mittaaminen uudet suomalaiset lasten BMI-rajat. Neuvolapäivät Jarmo Salo

Perusnäkymä yksisuuntaiseen ANOVAaan

Harjoittele tulkintoja

Testejä suhdeasteikollisille muuttujille

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Lappeenrannassa on annettu liikuntaneuvontaa vuodesta 2012 alkaen. Aluksi. liikuntaneuvonta oli suunnattu työikäisille vuotiaille.

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Hyvinvointimittaukset Oulun kutsunnoissa v Jaakko Tornberg LitM, Tutkimuskoordinaattori ODL Liikuntaklinikka

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Kvantitatiiviset menetelmät

Testit laatueroasteikollisille muuttujille

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Higgsin bosonin etsintä CMS-kokeessa LHC:n vuosien 2010 ja 2011 datasta CERN, 13 joulukuuta 2011

RISTIINTAULUKOINTI JA Χ 2 -TESTI

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Transkriptio:

Nuoruusiän vaikutus aikuisen painoindeksiin Data-analyysin perusmenetelmät Harjoitustyö Lassi Miinalainen lassimii@paju.oulu. 23.1.2012

Sisältö 1 Aineisto 2 1.1 Muuttujat............................... 2 1.1.1 Painoindeksi......................... 3 1.2 Tutkimusongelma........................... 4 2 Analyysi 5 2.1 Hypoteesi............................... 5 2.2 Menetelmät.............................. 5 2.3 Tilastollisten mallien muodostus ja vertailu............ 6 2.3.1 Vaihtoehtoiset lineaariset mallit aikuisiän painoindeksille. 6 2.3.2 Onko teini-iän paino tai pituus kovin hyvä selittäjä?... 7 2.3.3 Aikuisiän ylipainolle altistavat tekijät........... 7 2.4 Johtopäätökset............................ 8 A Liitteet 10 A.1 Lineaariset mallit aikuisiän painoindeksille............. 10 A.2 Ajovirta................................ 12 A.3 R-koodi mallin testiaineiston tutkimiseen liittyen......... 13 A.4 Python-koodi satunnaisvektorin muodostamiseksi......... 13 A.5 Ajovirta F-testiin liittyen...................... 14 A.6 Ajovirta riskitasoon liittyen..................... 14 1

Luku 1 Aineisto Aineistoni on osa vuonna 1966 Lapin ja Oulun läänissä syntyneistä lapsista kerättyä kohorttiaineistoa.[4] Aineisto sisältää 300 tilastoyksikköä. Tietojen keräämistä ei ole kuitenkaan voitu syystä tai toisesta viedä loppuun kaikkien lasten tapauksessa ja niinpä tässä tutkielmassa esitettyjen tilastollisten mallien estimointiin soveltuu vain 201 tilastoyksikköä. Syynä tähän katoon lienee 60- ja 70-luvun maaltapako Helsinkiin ja Ruotsiin suuntautunut muuttoliike. Etenkin Lappi oli tähän aineistoon kuuluvien lasten syntymisen aikaan huomattavasti vähemmän kehittynyttä aluetta kuin muu Suomi.[1] [2] Terveyskeskusjärjestelmä luotiin suomessa 1970-luvun alussa ja aineistoon kuuluvat mittaukset 14-vuotiaana lieneekin toteutettu juuri kuntien terveyskeskuksissa 80-luvun alussa. Aineistosta tai tehtävänannosta ei selviä mitä tarkalleen ottaen tarkoittaa "paino aikuisena". Ilmeisesti nämä nämä mittaukset on kuitenkin tehty 90-luvun kuluessa. 1.1 Muuttujat Koko aineistossa on 146 poikaa ja 154 tyttöä. Mallien estimointiin soveltuvassa osassa on 97 poikaa 104 tyttöä. Aineisto sisältää seuraavat muuttujat: Muuttujan nimi aineistossa yksikkö äidin ikä syntymähetkellä aidika vuodet syntymäpaino syntpain grammat syntymäpituus syntpit senttimetrit paino 14-vuotiaana paino14v kilogrammat pituus 14-vuotiaana paino14v senttimetrit paino aikuisena paino kilogrammat pituus aikuisena pituus senttimetrit 2

Muuttujan keskiarvo koko aineistossa tutkimuksessa käytetyssä osassa äidin ikä syntymähetkellä 27.6 27.8 syntymäpaino 3481 3489 syntymäpituus 50.2 50.25 paino 14-vuotiaana 51.65 51.37 pituus 14-vuotiaana 163.3 162.8 paino aikuisena 71.42 71.13 pituus aikuisena 171.1 170.8 Vaikuttaisi siltä, että epätäydellisten ja täydellisten tilastoyksiköiden välillä ei ole merkittäviä eroja. Muuttujien väliset korrelaatiot ovat seuraavanlaiset: aidika syntpain syntpit paino14v pit14v paino pituus aidika 1 0.112-0.007 0.030-0.030-0.060-0.045 syntpain 0.112 1 0.643 0.119 0.131 0.100 0.188 syntpit -0.007 0.643 1-0.028 0.178 0.149 0.272 paino14v 0.030 0.119-0.028 1 0.672 0.443 0.278 pit14v -0.030 0.131 0.178 0.672 1 0.495 0.625 paino -0.060 0.100 0.149 0.443 0.495 1 0.662 pituus -0.045 0.188 0.272 0.278 0.625 0.662 1 1.1.1 Painoindeksi Painoindeksi määritellään seuraavalla kaavalla: paino kiloina (pituus metreinä) 2 Tällä tavalla aineistoon saadaan kaksi muuttujaa lisää: bmi eli painoindeksi aikuisena ja bmi14 eli painoindeksi 14-vuotiaana. Havaitaan, että aikuisen painoindeksi korreloi kohtalaisesti 14-vuotiaan painon ja painoindeksin kanssa (ρ = 0, 364 ja ρ = 0, 375). Korrelaatiokerroin 14-vuotiaan pituuden kanssa on yllätyksekseni positiivinen (ρ = 0.169). 14-vuotiaan paino ja pituus ovat kuitenkin keskenään korreloivia, joten on syytä laskea ehdollinen korrelaatiokerroin, joka onkin negatiivinen (ρ X,Y Z = 0.142). Normaalipainoisen ihmisen painoindeksi on alle 25, mutta yli 18.5. Painoindeksi välillä 25-30 on merkitsee lievää ylipainoa ja välillä 30-35 merkittävää ylipainoa. Lähes koko tutkimusaineisto on normaalipainoista tai enintään lievästi ylipainoista. Nämä lukurajat pätevät kuitenkin vain aikuisille. Teini-ikäisille asia on monimutkaisempi. Yhdysvaltojen viranomaisten Center for disease Control and Prevention määrittelee 14-vuotiaan olevan alipainoinen, jos hän kuuluu 5-persentiiliin; normaalipainoinen, jos hän kuuluu 5-85 -persentiiliin; ylipainoinen jos hän kuuluu 85-95 -persentiiliin ja liikalihava jos 95-persentiiliin. [3] Olen estimoinut nämä persentiilirajat tutkimusaineistosta ja verrannut niitä netistä löytämiini virallisissa taulukoissa esitettyihin rajoihin allaolevassa taulukossa. lähde estimoitu aineistosta CDC 5-persentiili 16.4 15.9 85-persentiili 21.2 23 95-persentiili 22.5 26.6 Ylipainon lisääntyminen viime vuosikymmeninä näkyy selkeästi persentiilien eroissa. 3

1.2 Tutkimusongelma Tavoitteena on tutkia 14-vuotiaana mitatun painon ja pituuden vaikutusta aikuisen painoindeksiin. Koska liikalihavuus altistaa esimerkiksi sydän- ja verisuonisairauksille, koetetaan myös tunnistaa aineistosta aikuisiän liikalihavuudelle altistavia tekijöitä. 4

Luku 2 Analyysi 2.1 Hypoteesi Koska murrosikä alkaa tavallisesti huomattavasti ennen 14. ikävuotta, voidaan aikuisen ihmisen ruumiinrakennetta jo ennakoida murrosikäisen pituudesta ja painosta. Etenkin tytöillä pituuskasvu on 14-vuotiaana jo lähes pysähtynyt. Ruokailutottumukset, liikkumistavat ja muut painoon vaikuttavat ympäristötekijät ovat yleensä vakiintuneet jo teini-iässä. Vaikka ne voivatkin muuttua aikuistumisen yhteydessä, niin yleistyksenä voidaan sanoa, että teini-iässä lihavat ovat lihavia myös aikuisena: tietokonepelejä pelannut ja sipsejä mussutellut teini on myös aikuisena ylipainoinen, ellei huomattavaa tahdonvoimaa elämäntaparemonttiin löydy. Hypoteesina esitän, että 14-vuotiaan painon ja aikuisen painoindeksin välillä on positiivinen korrelaatio ja 14-vuotiaan pituuden ja aikuisen BMI:n välillä negatiivinen korrelaatio. 2.2 Menetelmät Muodostetaan erilaisia aikuisiän painoindeksiä ennustavia lineaarisia malleja ja tarkastellaan muuttujien kertoimia eri malleissa. Mikäli jokaisessa mallissa 14-vuotiaan painolle ja pituudelle estimoitu painokerroin on saman merkkinen tai jopa samaa suuruusluokkaa, voidaan katsoa tämän sulkevan pois "pelkän"tilastollisen korrelaation ja viittaavan aitoon syy-seuraus-suhteeseen. Ongelmana on, että 14-vuotiaiden painon ja pituuden välillä huomattava tilastollinen riippuvuus. Tämä kollineaarisuus monimutkaistaa tutkimustulosten tulkitsemista. 5

Kuva 2.1: hypoteesi muuttujien välisistä kausaalisuhteista 2.3 Tilastollisten mallien muodostus ja vertailu 2.3.1 Vaihtoehtoiset lineaariset mallit aikuisiän painoindeksille Yrityksen ja erehdyksen avulla löydetään neljä vaihtoehtoista mallia: Malli 1: bmi 27.62459 + 0.20513 paino14v 0.08533 pit14v Malli 2: bmi 13.45 + 0.2145 paino14v 1.021 sukuptytt 0.1032 pit14v + 0.005200 syntpain + 0.6422 aidika 0.0001937 syntpain aidika Malli 3: bmi 2.234 + 0.5833 bmi14 + 0.5926e aidika + 0.004852 syntpain 1.180 sukuptytt 0.0001802 aidika : syntpain Malli 4: log bmi 6.04056 + 0.49310 log paino14v 0.93937 log pit14v 0.04245 sukuptytt Kaikkien mallien determinaatiokerroin R 2 on suunnilleen 0, 2 ja ne vaihtelevat välillä 0, 195 0, 22. Eri mallien sovitteetkin ovat suunnilleen samoja eri tilastoyksiköille. On syytä huomata, että kaikkien mallien 14-vuotiaan painon lineaarikerroin on positiivinen ja vastaavasti pituuden kerroin negatiivinen. Tä- 6

mä tukee esitettyä hypoteesia. Mallien tarkemmat tunnusluvut ja muut yksityiskohdat löytyvät liitteestä A.1. Mallista 4 näkee, että mallissa 3 voisi painoindeksin neliöjuuri olla hieman parempi selittäjä. Tämä kuitenkin vaikeuttaisi mallin tulkintaa, eikä parantaisi merkittävästä sen selityskykyä. Mallien QQ-kuvaajissa ei näy merkittäviä anomalioita muutamaa outlieria lukuunottamatta. Determinaatiokerroin on tunnettu kyvyttömyydestään erottaa hyödyllisiä malleja hyödyttömistä. Sen lisäksi on olemassa useita vaihtoehtoisia mallin hyvyyttä mittaavia tunnuslukuja. Yksi näistä on keskihajonta testiaineistossa. Olen liitteessä A.4 esittänyt python-skriptin joka jakaa aineiston satunnaisesti testi- ja opetusaineistoon. Tilastoyksiköistä noin 75% sijoitetaan opetusaineistoon ja loput testiaineistoon. Lineaarinen malli estimoidaan käyttäen opetusaineistoa, minkä jälkeen estimoidulla mallilla koetetaan ennustaa testiaineiston tilastoyksiköitä. Tunnuslukuna mallin toimivuudelle on keskineliösumma tai keskihajonta mallin residuaaleille testiaineistossa. Malli 4 menestyy parhaiten tällä kriteerillä, sen keskihajonta testiaineistossa on 8, 2, kun taas kaikilla muilla malleilla se on noin 8, 8. 2.3.2 Onko teini-iän paino tai pituus kovin hyvä selittäjä? Koko tämän tutkielmän lävitse kulkee punaisena lankana, että teini-iän painolla ja pituudella olisi jotain tekemistä aikuisen painon ja pituuden kanssa. Ihmisten elämässä tapahtuu kuitenkin useita muutoksia aikuistumisen yhteydessä, minkä vuoksi tutkimushypoteesin mielekkyyttä on syytä testata. Tämä tapahtuu F-testin avulla. Liitteessä A.5 on esitetty yksityiskohdat. Periaatteena kuitenkin on, että muodostetaan pelkästään syntymäpainon, äidin iän ja sukupuolen avulla aikuisen painoindeksiä ennustava lineaarinen malli. Tämän mallin jäännösvarianssia verrataan tässä tutkielmassa aiemmin esitettyyn malliin 3. Nollahypoteesina on, että mallit ovat yhtä hyviä ennustamaan aikuisen painoindeksiä, eli että teini-ikäisen painoindeksi ei olisi merkittävä selittäjä aikuisen painoindeksille. Tätä nollahypoteesia ei pystytä täysin sulkemaan pois, mutta ei myöskään ole syytä pitää sitä totena (p-arvo 0.22). Vastaava testisuure muodostetaan myös mallille 4, lopputulos on suunnilleen sama (p-arvo 0.13). Tämä viittaisi siihen, että vaikka teini-iän painolla ja pituudella onkin jonkin verran korrelaatiota aikuisen painon ja pituuden kanssa, niin paljon merkittävämpiä tekijöitä ovat esimerkiksi omat elämäntavat. 2.3.3 Aikuisiän ylipainolle altistavat tekijät Tutkitaan miten aikuisena ainakin lievästi ylipainoiset eroavat normaalipainoisista taustamuuttujiensa suhteen. Huomataan, että ainoa todella merkittävä ero on 14-vuotiaan painoindekseissä. Miehet ovat myös keskimäärin hieman naisia tukevampia, mutta tämän vuoksi jotkin lähteet määrittelevät ylipainon rajan miehille ja naisille hieman eri kohtaan. Arvioidaan miten paljon teini-ikäisen ylipaino altistaa ylipainolle aikuisena. 7

bmi14 21,2 bmi14 > 21,2 bmi > 25 55 21 bmi 25 114 11 n 169 32 Yksinkertaisella laskutoimituksella nähdään, että teini-iässä ylipainoisilla on kaksinkertainen riski olla myös aikuisena ylipainoisia verrattuna normaalipainoisiin. Toisaalta esimerkiksi molempien vanhempien ylipaino kahdeksankertaistaa ylipainon riskin verrattuna normaalipainoisiin vanhempiin. ([5], s. 122) 2.4 Johtopäätökset Kaikki vaihtoehtoiset mallit viittaavat samansuuntaisiin tuloksiin: 14-vuotiaan pituus korreloi negatiivisesti ja paino positiivisesti aikuisiän painoindeksin kanssa. Ei ole paljoakaan merkitystä mallin selityskyvyn kannalta käytetäänkö mallissa selittävänä tekijänä 14-vuotiaan painoindeksiä vai painoa ja pituutta, sillä molemmat mallit antavat pääsääntöisesti lähes samat sovitteet eri tilastoyksiköille. Koska aineistossa on 14-vuotiaiden painon ja pituuden välillä huomattava korrelaatio (ρ = 0, 64), ei niiden vaikutusta voida erottaa toisistaan täydellisesti tai ainakaan tuloksia ei voida yleistää tämän osapopulaation ulkopuolelle, etenkin kun varsinaisen mallin determinaatiokerroin jää melko vaatimattomaksi. Tämä tarkoittaa, että esimerkiksi nuoruusiän anoreksian vaikutuksesta aikuisiän painoindeksiin ei voida tehdä johtopäätöksiä tämän tutkimusaineiston pohjalta. Itseasiassa F-testissä osassa 2.3.2 ei nollahypoteesia voida sulkea kokonaan pois. Tämä ei tarkoita, että syntymäpaino olisi kovin hyvä ennustaja aikuisen painoindeksille, vaan että 14-vuotiaan painoa ja pituutta tärkeämmät taustatekijät aikuisen terveydelle ovat, paitsi perintötekijät, niin etenkin omat elämäntavat ja ruokailutottumukset. Nykyajan nuoriso elää monella tavalla erilaisessa yhteiskunnassa kuin tutkimusaineiston nuoret: tietokoneet ja Internet ovat nousseet television rinnalle ei-fyysisenä ajanvietteenä, pikaruoka on nykyään yleisempää kuin 80-luvulla. Tämän vuoksi tässä tutkielmassa esitettyjä tilastollisia malleja ei voida soveltaa sellaisenaan nykymaailmaan. Arvioisin kuitenkin, että korrelaatiot ovat samanmerkkisiä nykyäänkin eli että teini-iän ylipaino korreloi positiivisesti aikuisiän ylipainon kanssa. 8

Tiivistelmä Muodostettiin kolme vaihtoehtoista mallia aikuisen painoindeksin ennustamista varten, jotka kaikki toimivat suunnilleen yhtä hyvin. Tutkimuksessa havaittiin kohtalainen korrelaatio 14-vuotiaan ja aikuisen ylipainon välillä. Ylipainoisella 14-vuotiaalla on kaksinkertainen riski olla aikuisena liikalihava normaalipainoiseen verrattuna. Löydettiin myös viitteitä, että teini-iän painoa merkityksellisempää aikuisen ylipainolle ovat muut tekijät, luultavasti esimerkiksi ruokavalio, geenit ja elämäntavat. 9

Liite A Liitteet A.1 Lineaariset mallit aikuisiän painoindeksille Call: lm(formula = bmi paino14v + pit14v, data = aineisto) Residuals: Min 1Q Median 3Q Max -6.8265-1.9846-0.3318 1.7830 11.4478 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 27.62459 5.41514 5.101 7.84e-07 *** paino14v 0.20513 0.03584 5.723 3.80e-08 *** --- pit14v -0.08533 0.03989-2.139 0.0336 * Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 3.013 on 199 degrees of freedom (98 observations deleted due to missingness) Multiple R-squared: 0.1624, Adjusted R-squared: 0.154 F-statistic: 19.3 on 2 and 199 DF, p-value: 2.188e-08 Call: lm(formula = bmi paino14v + sukup + pit14v + syntpain * aidika, data = aineisto) Residuals: 10

Min 1Q Median 3Q Max -6.4613-2.0094-0.3019 1.8107 10.9073 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.345e+01 9.829e+00 1.369 0.1726 paino14v 2.145e-01 3.521e-02 6.092 5.88e-09 *** sukuptyttö -1.021e+00 4.368e-01-2.338 0.0204 * pit14v -1.032e-01 4.125e-02-2.502 0.0132 * syntpain 5.200e-03 2.165e-03 2.402 0.0173 * aidika 6.422e-01 2.630e-01 2.442 0.0155 * syntpain:aidika --- -1.937e-04 7.538e-05-2.570 0.0109 * Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 2.939 on 194 degrees of freedom (99 observations deleted due to missingness) Multiple R-squared: 0.2233, Adjusted R-squared: 0.1992 F-statistic: 9.294 on 6 and 194 DF, p-value: 5.901e-09 Call: lm(formula = bmi bmi14 + aidika * syntpain + sukup, data = aineisto) Residuals: Min 1Q Median 3Q Max -6.5708-2.0201-0.2721 1.9057 10.6225 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -2.234e+00 7.706e+00-0.290 0.77216 bmi14 5.833e-01 9.227e-02 6.322 1.72e-09 *** aidika 5.926e-01 2.617e-01 2.264 0.02466 * syntpain 4.852e-03 2.160e-03 2.246 0.02583 * sukuptyttö -1.180e+00 4.201e-01-2.810 0.00546 ** aidika:syntpain --- -1.802e-04 7.506e-05-2.400 0.01733 * Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 2.943 on 195 degrees of freedom (99 observations deleted due to missingness) Multiple R-squared: 0.217, Adjusted R-squared: 0.1969 F-statistic: 10.81 on 5 and 195 DF, p-value: 3.456e-09 > formula <- "log(bmi) log(paino14v) + log(pit14v) + sukup" > m1<-lm(formula, data=subset(aineisto2, aineisto2$random==1)) > summary(m1) Call: lm(formula = formula, data = subset(aineisto2, aineisto2$random == 1)) 11

Residuals: Min 1Q Median 3Q Max -0.308037-0.072510-0.002035 0.085931 0.340982 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.04056 1.46692 4.118 6.31e-05 *** log(paino14v) 0.49310 0.09003 5.477 1.80e-07 *** log(pit14v) -0.93937 0.33118-2.836 0.0052 ** sukuptyttö --- -0.04245 0.02062-2.058 0.0413 * Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1228 on 149 degrees of freedom Multiple R-squared: 0.1913, Adjusted R-squared: 0.1751 F-statistic: 11.75 on 3 and 149 DF, p-value: 5.909e-07 A.2 Ajovirta aineisto<-read.table("/home/lassimii/desktop/dataapm/aineisto.txt", header=true) aineisto2<-subset(aineisto,!is.na(aineisto$aidika) &!is.na(aineisto$sukup) &!is.na(aineisto$paino14v) &!is.na(aineisto$pit14v) &!is.na(aineisto$paino) &!is.na(aineisto$pituus)) aineisto2$bmi<-aineisto2$paino/((aineisto2$pituus/100)ˆ2) aineisto2$bmi14<-aineisto2$paino14v/((aineisto2$pit14v/100)ˆ2) > (cor(aineisto2$bmi, aineisto2$pit14v)-cor(aineisto2$bmi, aineisto2$paino14v)* cor(aineisto2$pit14v, aineisto2$paino14v))/(sqrt(1-cor(aineisto2$bmi, aineisto2$paino14v)ˆ2) sqrt(1-cor(aineisto2$pit14v, aineisto2$paino14v)ˆ2)) -0.1421614 aineisto2$random<-c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1) formula<-"bmi > CV 8.839265 formula<-"bmi > CV 8.765218 pit14v + paino14v" paino14v + sukup + pit14v + syntpain * aidika" 12

formula <- "bmi > CV 8.78028 bmi14 + aidika * syntpain + sukup" formula <- "log(bmi) log(paino14v) + log(pit14v) + sukup" > CV<-var(exp(sovite)-aineisto2$bmi[aineisto2$random==0]) > CV 8.200365 > cor(aineisto2$bmi, exp(sovite))ˆ2 0.1946966 A.3 R-koodi mallin testiaineiston tutkimiseen liittyen m1<-lm(formula, data=subset(aineisto2, aineisto2$random==1)) X=model.matrix(m1, data=subset(aineisto2, aineisto2$random==0)) sovite=x%*%m1$coeff CV<-var(sovite-aineisto2$bmi[aineisto2$random==0]) A.4 Python-koodi satunnaisvektorin muodostamiseksi import random vector = c( a=0 while a < 201: a+=1 vector+= ) if random.randint(0, 3)!= 0: vector += 1 else: vector += 0 if a!=201: vector +=, 13

A.5 Ajovirta F-testiin liittyen > m1<-lm(formula = bmi sukup + aidika * syntpain) > m2<-lm(formula = bmi sukup + aidika * syntpain + bmi14) > var.test(m1, m2) F test to compare two variances data: m1 and m2 F = 1.1878, num df = 227, denom df = 195, p-value = 0.2156 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.904244 1.555972 sample estimates: ratio of variances 1.187840 > m1<-lm(formula = bmi sukup + aidika * syntpain, data=aineisto2) > m2<-lm(log(bmi) log(paino14v)+log(pit14v)+sukup,data=aineisto2) > summary(m2) t(aineisto2$bmi-exp(m2$fitted.values))%*%(aineisto2$bmi-exp(m2$fitted.values))/197 8.849162 > summary(m1) Residual standard error: 3.222 on 196 degrees of freedom > 3.222ˆ2/8.849162 1.173137 A.6 Ajovirta riskitasoon liittyen > length(aineisto2$bmi[aineisto2$bmi14<21.2 &aineisto2$bmi>=25]) 55 > length(aineisto2$bmi[aineisto2$bmi14>=21.2 &aineisto2$bmi>=25]) 21 > length(aineisto2$bmi[aineisto2$bmi14<21.2 &aineisto2$bmi<25]) 114 > length(aineisto2$bmi[aineisto2$bmi14>=21.2 &aineisto2$bmi<25]) 11 14

Kirjallisuutta [1] Elävä arkisto: Lapin kehityksen ongelmat, raportti kehitysalueelta, Yle, alkuperäinen esitys: 1.4.1970 http://www.yle./elavaarkisto/?s=s&g=1&ag=5&t=121&a=1156 [2] Wikipedia, Suomi 1960-luvulla http://.wikipedia.org/wiki/suomi_1960-luvulla#sis.c3.a4inen_muuttoliike [3] Centers for disease Control and Prevention http://www.cdc.gov/growthcharts/clinical_charts.htm http://www.cdc.gov/healthyweight/assessing/bmi/childrens_bmi/about_childrens_bmi.html [4] Pohjois-Suomen syntymäkohortti 1966 -tutkimus http://kelo.oulu./nfbc/pub/kuvaus66.htm [5] Kolata,Gina Rethinking thin: The new science of weight loss - and the myths and realities of dieting Picador, 2007, ISBN 0-312-42785-9 15