1.7 Kahden muuttujan yhteisjakaumasta



Samankaltaiset tiedostot
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

5.3 Ensimmäisen asteen polynomifunktio

Aluksi Kahden muuttujan lineaarinen yhtälö

MAB3 - Harjoitustehtävien ratkaisut:

MAB3 - Harjoitustehtävien ratkaisut:

Ohjeita fysiikan ylioppilaskirjoituksiin

Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon

1.9 Harjoituksia. Frekvenssijakaumien harjoituksia. MAB5: Tilastotieteen lähtökohdat. a) Kaikki aakkoset b) Kirjaimet L, E, M, C, B, A ja i.

y=-3x+2 y=2x-3 y=3x+2 x = = 6

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 5: Taylor-polynomi ja sarja

3 TOISEN ASTEEN POLYNOMIFUNKTIO

4 / 2013 TI-NSPIRE CAS TEKNOLOGIA LUKIOSSA. T3-kouluttajat: Olli Karkkulainen ja Markku Parkkonen

A-osa. Ratkaise kaikki tämän osan tehtävät. Tehtävät arvostellaan pistein 0-6. Taulukkokirjaa saa käyttää apuna, laskinta ei.

MATEMATIIKAN KOE PITKÄ OPPIMÄÄRÄ

4. Funktion arvioimisesta eli approksimoimisesta

Tekijä Pitkä matematiikka

Tekijä Pitkä matematiikka Pisteen (x, y) etäisyys pisteestä (0, 2) on ( x 0) Pisteen (x, y) etäisyys x-akselista, eli suorasta y = 0 on y.

7. Resistanssi ja Ohmin laki

MATEMATIIKAN KOE PITKÄ OPPIMÄÄRÄ

PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA

2 arvo muuttujan arvolla

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Tekijä Pitkä matematiikka

KERTAUS KERTAUSTEHTÄVIÄ K1. P( 1) = 3 ( 1) + 2 ( 1) ( 1) 3 = = 4

Lyhyt, kevät 2016 Osa A

x 5 15 x 25 10x 40 11x x y 36 y sijoitus jompaankumpaan yhtälöön : b)

Lukuväleistä. MB 3 Funktio. -2 < x < 5 tai ]-2,5] x < 3 tai ]-,3]

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö

Esimerkki 1: auringonkukan kasvun kuvailu

5.2 Ensimmäisen asteen yhtälö

Aloita Ratkaise Pisteytä se itse Merkitse pisteet saanut riittävästi pisteitä voit siirtyä seuraavaan osioon ei ole riittävästi

yleisessä muodossa x y ax by c 0. 6p

Laskun vaiheet ja matemaattiset mallit

Jatkuvat satunnaismuuttujat

3.1 Väliarvolause. Funktion kasvaminen ja väheneminen

Excelin käyttö mallintamisessa. Regressiosuoran määrittäminen. Käsitellään tehtävän 267 ratkaisu.

Huippu Kertaus Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Kuva 1. Ohmin lain kytkentäkaavio. DC; 0 6 V.

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Huippu 4 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

LABORAATIOSELOSTUSTEN OHJE H. Honkanen

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

Käy vastaamassa kyselyyn kurssin pedanet-sivulla (TÄRKEÄ ensi vuotta ajatellen) Kurssin suorittaminen ja arviointi: vähintään 50 tehtävää tehtynä

MATEMATIIKAN KOE PITKÄ OPPIMÄÄRÄ Merkitään f(x) =x 3 x. Laske a) f( 2), b) f (3) ja c) YLIOPPILASTUTKINTO- LAUTAKUNTA

Fx-CP400 -laskimella voit ratkaista yhtälöitä ja yhtälöryhmiä eri tavoin.

1 ENSIMMÄISEN ASTEEN POLYNOMIFUNKTIO


Opetusmateriaali. Fermat'n periaatteen esittely

TEHTÄVIEN RATKAISUT. Tehtäväsarja A. 2. a) a + b = = 1 b) (a + b) = ( 1) = 1 c) a + ( b) = 13 + ( 12) = = 1.

4.1 Kaksi pistettä määrää suoran

on hidastuvaa. Hidastuvuus eli negatiivinen kiihtyvyys saadaan laskevan suoran kulmakertoimesta, joka on siis

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Juoksun ja pituushypyn matemaattinen mallintaminen

Laskun vaiheet ja matemaattiset mallit

LUKUVUODEN E-KURSSI MAB3

3.7 Todennäköisyysjakaumia

Mb03 Koe Kuopion Lyseon lukio (KK) sivu 1/4

5. Numeerisesta derivoinnista

Helsingin, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo 10 13

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

origo III neljännes D

Syksyn 2015 Lyhyen matematiikan YO-kokeen TI-Nspire CAS -ratkaisut

c) Määritä paraabelin yhtälö, kun tiedetään, että sen huippu on y-akselilla korkeudella 6 ja sen nollakohdat ovat x-akselin kohdissa x=-2 ja x=2.

3 Eksponentiaalinen malli

Opetusmateriaali. Tutkimustehtävien tekeminen

LIITE 1 VIRHEEN ARVIOINNISTA

A Lausekkeen 1,1 3 arvo on 1,13 3,3 1,331 B Tilavuus 0,5 m 3 on sama kuin 50 l 500 l l C Luvuista 2 3, 6 7

a) Sievennä lauseke 1+x , kun x 0jax 1. b) Aseta luvut 2, 5 suuruusjärjestykseen ja perustele vastauksesi. 3 3 ja

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 1, Kevät 2018

TEHTÄVIEN RATKAISUT. Luku a) Merkintä f (5) tarkoittaa lukua, jonka funktio tuottaa, kun siihen syötetään luku 5.

1 Ensimmäisen asteen polynomifunktio

Matematiikan tukikurssi, kurssikerta 3

Matematiikan tukikurssi

2.3 Voiman jakaminen komponentteihin

Juuri 12 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

2 Pistejoukko koordinaatistossa

Numeeriset menetelmät Pekka Vienonen

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Matematiikan tukikurssi: kurssikerta 10

VASTAA YHTEENSÄ KUUTEEN TEHTÄVÄÄN

A = (a 2x) 2. f (x) = 12x 2 8ax + a 2 = 0 x = 8a ± 64a 2 48a x = a 6 tai x = a 2.

6. Harjoitusjakso II. Vinkkejä ja ohjeita

1. a) Laske lukujen 1, 1 ja keskiarvo. arvo. b) Laske lausekkeen. c) Laske integraalin ( x xdx ) arvo. MATEMATIIKAN MALLIKOE PITKÄ OPPIMÄÄRÄ

Differentiaali- ja integraalilaskenta

PRELIMINÄÄRIKOE. Lyhyt Matematiikka

Matematiikan tukikurssi

LIITE 1 VIRHEEN ARVIOINNISTA

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

KERTAUS KERTAUSTEHTÄVIÄ K1. P( 1) = 3 ( 1) + 2 ( 1) ( 1) 3 = = 4

Johdantoa. Jokaisen matemaatikon olisi syytä osata edes alkeet jostakin perusohjelmistosta, Java MAPLE. Pascal MathCad

OSA 1: YHTÄLÖNRATKAISUN KERTAUSTA JA TÄYDENNYSTÄ SEKÄ FUNKTIO

LIITE 1 VIRHEEN ARVIOINNISTA

MAY1 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Julkaiseminen sallittu vain koulun suljetussa verkossa.

Lataa ilmaiseksi mafyvalmennus.fi/mafynetti. Valmistaudu pitkän- tai lyhyen matematiikan kirjoituksiin ilmaiseksi Mafynetti-ohjelmalla!

Transkriptio:

MAB5: Tilastotieteen lähtökohdat 1.7 Kahden muuttujan yhteisjakaumasta Teräväsilmäinen Tarkkailija eli TT kiinnitti huomiota seuraavaan asiaan. Eräässä lukiossa oli kaksi matematiikan opettajaa ja matematiikan kevään ylioppilaskokeissa hylättyjä kokelaita 3. Eräässä toisessa lukiossa oli kuusi matematiikan opettajaa sekä matematiikan ylioppilaskokeissa samana keväänä hylättyjä kokelaita 11. TT kiinnostui asiasta ja tutki vielä kolmannen lukion tilastoja. Hän löysi lukion, jossa matematiikan opettajia oli neljä. Tämän lukion matikan yo-kokeissa samana keväänä hylättyjä oli 8. Ensi silmäyksellä matematiikassa hylättyjä näyttäisi olevan sitä enemmän mitä enemmän koulussa on matematiikan opettajia. TT piirsi hylättyjen määrän koordinaatistoon matikan opettajien määrän funktiona ja havaitsi, että kaikki kolme pistettä ovat melko hyvin samalla suoralla. Pitääkö tämän erittäin suppean otoksen vihjaama sääntö paikkansa? TT jatkoi tutkimuksiaan ja huomasi, että valitsi hän minkä tahansa arvosanan, aina koulu näytti tuottavan tuon arvosanan suorittaneita sitä enemmän mitä enemmän koulussa oli matematiikan opettajia. Tällöin TT päätti: mitä enemmän matikan opettajia sitä enemmän oppilaita. Jos arvosanan saa suunnilleen sama tietty osuus kokelaista joka vuosi, edellä aavisteltu sääntö seuraa. Sääntö piti siis kyllä paikkansa, mutta ei ollutkaan niin dramaattinen kuin miltä ensin näytti! Arkipäivässä tulee usein eteen tilanteita, joissa näyttää siltä, että kahden suureen eli muuttujan välillä vallitsee ainakin tilastollinen riippuvuus. Tästä havainnosta on kuitenkin oikeaa hyötyä vain, jos löytyy jokin näitä kahta muuttujaa yhdistävä sääntö. Useimmiten toinen näistä muuttujista on aika: kerätyn tilaston perusteella näyttää siltä, että jokin asia riippuu ajasta. Juuri nyt on ajankohtaista seurata ilmaston tilaa ajan funktiona. Tämä ei tarkoita, että ajan ja ilmaston välillä olisi todellinen kausaalinen riippuvuus, vaan toteamme, että ajan myötä ilmasto muuttuu. Niillä on siis ainakin tilastollinen riippuvuus, joka on ajan funktio eli voimme laittaa ajan vaaka-akselille ja jonkin ilmaston tilaa kuvaavan suureen pystyakselille. Kun tietoa on kerätty paljon, voidaan laatia enemmän tai vähemmän tarkkoja ennusteita siitä, kuinka paljon ilmasto lämpenee lähivuosina. Toinen asia, mitä varmaan paraikaakin seurataan monessa perheessä tarkoin, on perheen vauvan painon ja pituuden kasvu viikosta toiseen. Näistä voidaan edelleen tutkia vauvan painon ja pituuden keskinäisen suhteen kehitystä. Tuloksia verrataan sitten vielä neuvolasta saataviin keskiarvokäyriin. Koska lasten kasvua on Suomessa tilastoitu jo hyvinkin sata vuotta enemmän tai vähemmän systemaattisesti, itse kerättyä dataa voi verrata olemassa oleviin tietoihin. Tämä ei onnistu ilmaston tapauksessa kovin hyvin. Mutta edes ilmastonmuutoksesta en sano, että vertaaminen aiempaan ei onnistu ollenkaan! Tutkijat ovat aika kekseliäitä. Kumpikaan tapaus ei kuitenkaan ole niin säännöllinen, että kannattaisi hakea ainakaan mitään yksinkertaista sääntöä tai laskukaavaa asian kuvaamiseksi. Kun kahta muuttujaa verrataan tilastollisesti, pyritään löytämään yhtälö, joka yhdistää nämä muuttujat toisiinsa. Asiaa lähestytään piirtämällä muuttujien yhteisjakauma. Tällöin erotetaan toisistaan selittävä muuttuja ja selitettävä muuttuja. Selittävän muuttujan arvot merkitään vaakaakselille eli x-akselille ja selitettävä muuttuja vastaavasti pystyakselille eli y-akselille. Yhteisjakauman kuvaajan selittävän muuttujan arvot merkitään vaaka-akselille ja selitettävän muuttujan arvot pystyakselille. 1(14)

Valitse sekä x- että y-akselille järkevä mittakaava. Vähintäänkin kuvan täytyy mahtua sille varattuun tilaan ja olla vielä lukukelpoinen! Asteikot aloitetaan nollasta vain, jos siihen on hyvä syy Käytä tervettä maalaisjärkeäsi Tämän kurssin piiriin kuuluvat lähinnä sellaiset kahden muuttujan väliset tilastolliset riippuvuudet, joiden välille on löydettävissä matemaattinen riippuvuus. Tavallisimmat matemaattiset riippuvuudet, joita tilastotieteessä käytetään, ovat kuvattavissa lineaarisen mallin, eksponentiaalisen mallin tai polynomisen mallin avulla. Tämä tilastomatemaattisten mallien lista ei ole tyhjentävä, mutta riittää tällä kurssilla. Yhteisjakaumaa kuvaavan mallin etsimisestä Kun tutkitaan kahta sellaista muuttujaa keskenään, mistä ei ennakkoon tiedetä, onko niitten välillä jokin matemaattisesti ilmaistavissa oleva riippuvuus tai riippuvuutta ylipäätään piirretään tulokset paperille ja katsotaan, muistuttaako syntyvä kuvio jonkin funktion kuvaajaa. Jos näyttää siltä, että kuvio on kuin haulikolla ammuttu, muuttujat eivät luultavasti riipu toisistaan eli mitään tilastollista riippuvuutta ei ole. Jos kuvaaja kuitenkin muodostaa jonkin tunnistettavan kuvion, on päätettävä, minkä tyyppisestä funktiosta ja sen kuvaajasta on kysymys. Varsinkin siinä tapauksessa, että funktio löytyy, riippuvuutta esittävää kuviota sanotaan regressiokäyräksi. Monissa laskimissa ja tietokoneohjelmissa on toiminto, joka antaa funktion yhtälön, kun sille annetaan havaintopisteet ja kuvaajan tyyppi. Yhtälön lisäksi molemmat ohjelmat laskin ja (muu) tietokoneohjelmisto antavat myös arvion siitä, kuinka hyvin yhtälö kuvaa annettuja havaintoja. Taulukkolaskentaohjelmien ohjeet kutsuvat regressiokäyrää tavallisesti trendiviivaksi tai trendikäyräksi. Kun yhtälö on saatu, voidaan suorittaa laskelmia eli laatia ennusteita mallin pohjalta. Kun sinulla siis on yhtälö, syötä koneeseen selittävän muuttujan arvo niin saat vastauksena selitettävän muuttujan arvon, syötä selitettävä, niin saat selittävän muuttujan arvon. Toisin sanoen, jos sinulla on funktio y = f(x), niin antamalla x:n saat y:n eli f(x):n ja antamalla y:n kone laskee x:n. Tällöin täytyy toki muistaa tarkoin miettiä, millä alueella yhtälö on voimassa. Saatu yhtälö on se, joka kaikista saman tyypin kuvaajista sopii aineistoon parhaiten. Se ottaa kaikki mittaustulokset huomioon mahdollisimman tasapuolisesti. Seuraavat kuvat tarjoavat kaksi esimerkkiä kustakin, sekä lineaarisesta, eksponentiaalisesta että polynomisesta riippuvuudesta sekä yhtälöt, joiden kuvaajista on kyse. Mukana on myös havaintopisteitä, joiden perusteella kuvaajan yhtälö voidaan ajatella saadun. 2(14)

Yhtälöt: y = 1, 2x + 30 y = 1, 2x + 30 Huomaa yhtälön y = 1, 2x + 30 kuvassa oleva piste, joka näyttää olevan liian kaukana. Se on poikkeava arvo tai (mittaus)poikkeama eli (englanniksi) outlier. Sellainen syntyy yleensä mittaustai jonkin muun virheen seurauksena. Ne voidaan jättää huomiotta ilman suurtakaan riskiä. Älä kuitenkaan koskaan sensuroi alkuperäisiä mittauksia. Huomiotta jättäminen tarkoittaa vain sitä, että esimerkiksi yhtälön määrittämisestä selvät poikkeamat jätetään pois. Mistä tiedät, mikä on selvä poikkeama? Siinäpä se 2 y = 0, 02x + 2x 45 Kuvan polynominen funktio (paraabeli) y = 0, 02x + 2x 45 voisi sopivalla yksikönvalinnalla periaatteessa kuvata mainontaan käytettyjen resurssien nettotuottoa. 2 3(14)

302 y = 29 x 2 x + 165 165 311 55 Myös jälkimmäinen polynominen funktio on toisen asteen polynomi eli paraabeli. prosenttia y = 0, 9230236 x y = 0,5017 x 2 x Yllä oleva funktion y = 0, 9230236 kuvaaja esittää sellaisia tilanteita kuin esimerkiksi radioaktiivisen aineen hajoaminen. Tällöin vaaka-akselilla on aika yksikkönään kyseisen isotoopin bx puoliintumisaika ja pystyakselilla on jäljellä olevan aineen määrä prosentteina. Funktion y = a 2 tyyppiset kuvaajat sopivat bakteerinkasvun kuvaamiseen. Tässä a ja b ovat parametreja eli 4(14)

tapauskohtaisia vakioita. Koko työ kulminoituu eksponentiaalisen mallin tapauksessa näitten parametrien etsimiseen. Huomaa, että tällä kertaa laskeva eksponenttifunktion kuvaaja on annettu muodossa, jossa pystyakselin ykkönen on korvattu 100 prosentilla! Kuvaaja esittääkin siis funktiota x y = 100% 0, 9230236. Luonnossa ja myös lääketieteessä ja monilla muilla elämän aloilla sekä eksponentiaalinen kasvu että eksponentiaalinen väheneminen ovat tavallisia kuvaajan muotoja ja tyyppejä. Esimerkiksi lääke vähenee elimistössä usein eksponentiaalisesti ja toisaalta mikrobit lisääntyvät eksponentiaalisesti, myrkky laimenee eksponentiaalisesti ja ihmiskunta kuluttaa maapallon luonnonvaroja eksponentiaalisesti kasvavalla vauhdilla. Ensimmäinen kuvaaja eli kuvaaja y = 100% 0, 9230236 esittää yhtä radioaktiivisen hajoamisen tapausta. Kyseessä on hiilen isotoopin C 14 eli niin sanotun hiili-14:n määrän muuttuminen ajan funktiona. Kirjallisuudesta saat selville, että sen puoliintumisaika on 5730 vuotta. Tämä merkitsee sitä, että aina jokaisen 5730 vuoden kuluttua tätä hiilen isotooppia on puolet aikaisemmasta määrästä. Huomaa, että logaritmin määritelmän mukaan lg( 0, 9230236) x x lg( 0, 9230236) x lg 2 0, 9230236 = 10 = 2, x 2 0 5017 1,416 x x Laske lausekkeissa esiintyville logaritmeille likiarvot laskimella! Huomaa vielä sekin, että kaikissa näissä kuvaajissa pystyakselin yksikkö ei ole aina yhtä iso kuin vaaka-akselin yksikkö! Tämä on yksi niitä seikkoja, joilla kuvaajan muotoon voi vaikuttaa ja on siten helposti osa viestiä, jonka kuvaajasi antaa. Mittakaavat on kuitenkin valittava tilanteen mukaan. Siksi mittakaava on syytä aina mainita kuvan yhteydessä. Esimerkki 27 Palatkaamme vastakarvaisten hippihyppiäisten pariin. Piirretään koordinaatistoon pisteet siten, että vaaka-akselille laitamme yksilön pituuden ja pystyakselille sen painon. Tällöin yksilön pituus on selittävä muuttuja ja sen paino on selitettävä muuttuja. Seuraava kuva esittää tätä tilannetta. Hippihyppiäiset, paino c pituus Paino, g 120 100 80 60 40 76 84 92 100 108 20 0 14,0 14,5 15,0 15,5 16,0 16,5 Pituus, cm 5(14)

Se perustuu oheiseen taulukkoon. Tämä kuva antaisi ymmärtää, että hippihyppiäisten pituuden ja painon välillä on suhde, joka on kuvattavissa suoran yhtälön avulla. Muistat varmaan, miten suoran yhtälö tavallisesti saadaan. Koska tilastotieteessä pyritään ottamaan kaikki tunnetut, asiaan vaikuttavat seikat tasapuolisesti huomioon, emme voi asettaa mitään kahta pistettä muitten edelle, emme, vaikka nyt tilanne näyttää helpolta. Yksi mahdollisuus on ottaa käteen viivoitin ja sovittaa kuvioon sen avulla silmämääräisesti suora, joka näyttäisi menevän tasapainoisesti koko pistejoukon läpi. Jos pistejoukko olisi enemmän hajallaan, tämä tarkoittaisi sitä, että suora sovitettaisiin kulkemaan pistejoukon keskeltä. Kokeile tätä ja vertaa tulostasi suoraan, jonka saat laskimella! Tutki käsikirjasta, miten pisteet syötetään laskimeesi. Monissa laskimissa on näppäin, jossa on iso sigma kirjain: Σ. Joissakin on merkinnät Σ + ja Σ. Jälkimmäinen poistaa annetun näppäilyn. Sen avulla voit siis poistaa väärin näppäillyn pisteen kunhan tiedät, mikä se oli ja millaisen virheen teit. Jos piste esiintyy useita kertoja, se syötetään juuri niin monta kertaa! Jotkin laskimet täytyy laittaa ensin tilastolaskentatilaan, stat mode. Joka tapauksessa pisteet annetaan koneelle lukupareina siten, että x ja y annetaan vuorotellen: ensimmäinen x, ensimmäinen y, toinen x, toinen y ja niin edelleen. Kun pisteet on tavalla tai toisella saatu koneeseen, ei tarvitse tehdä muuta kuin kysyä koneelta suoran kulmakerrointa ja vakiotermiä. Koneen käsikirja kertoo, miten tämä kysymys esitetään. Minun koneeni käyttää suorasta yhtälöä y = mx + b, missä siis m on suoran kulmakerroin ja b on vakiotermi. Se antoi seuraavat tulokset: m = 17,715 b = 176,39 Tätä samaa merkintätapaa noudattaa myös Excel. Sinulle merkintä y = ax + b suoran yhtälönä saattaa olla tutumpi tai mahdollisesti merkintä y = kx + b. Merkinnällä ei ole väliä kunhan sinä tiedät, mitä mikin symboli tarkoittaa. Kokeillaan! Otus, joka on 15,6 senttiä painoi, painoi siis tasan 100 grammaa. Kaava antaa painoksi 99,96 grammaa. Ei ihan tasan 100, mutta kyseessähän on arvio. Paljonko painaisi yksilö, jonka pituus on 18 senttiä? Kaava antaa noin 142 grammaa. Entä kuinka pitkä on yksilö, joka painaa 65 grammaa? Kone antaa tuloksen 13,6 senttiä. Mitä kauemmas mitattujen arvojen alueesta mennään sitä suurempi riski otetaan. Esimerkiksi 10 senttiä pitkä yksilö painaisi kaavamme mukaan vain 0,76 grammaa ja 5-senttisen paino olisi negatiivinen. Tehtävän vastauksena sanomme, että yhtälö, joka kuvaa tapaamamme hippihyppiäis populaation pituuden ja painon suhdetta käytettävissä olevien tietojen mukaan parhaiten on suora y = 17,715x 176,39. Pituus, cm Paino, g 14,2 76 14,7 84 14,7 84 14,7 84 15,2 92 15,2 92 15,6 100 15,6 100 15,6 100 16,0 108 Tilastollista riippuvuutta, jota kuvataan suoralla, sanotaan lineaariseksi riippuvuudeksi ja sitä kuvaavaa suoraa sanotaan regressiosuoraksi. 6(14)

Korrelaatiokerroin Silloin, kun kahden muuttujan välillä on lineaarinen riippuvuus eli riippuvuutta kuvaa suora, tämän riippuvuuden voimakkuutta kuvataan korrelaatiokertoimella, correlation coefficient. Sitä merkitään usein kirjaimella r. Korrelaatiokerroin määritellään kaavan avulla, jota me emme tarvitse. Lineaarisen riippuvuuden voimakkuutta kuvataan korrelaatiokertoimella r ja 1 r +1 Korrelaatiokerroin on yksi niitä lineaarisen regression tärkeitä lukuja, jotka laskimet antavat, jos niissä yleensä lineaarinen regressio on. Sen lukuarvo on aina 1:n ja +1:n välillä eikä sillä ole yksikköä. Esimerkissä 27 r = +0,998. Huomaa merkki! Huomaa, että valitettavasti terminologia ei näissä asioissa ole niin vakiintunutta kuin voisi toivoa. Esimerkiksi Excel 2000:n matriisifunktio LINREGR käyttää korrelaatiokertoimen neliöstä nimeä korrelaatiokerroin. Korrelaatiokerroin löytyy siitä otsikon Kerroin R jälkeen. Jos korrelaatiokerroin r on positiivinen kuten äsken, muuttujat muuttuvat samaan suuntaan: kun toinen kasvaa, niin toinenkin kasvaa. Jos korrelaatiokerroin on negatiivinen, niin toinen muuttuja vähenee kun toinen kasvaa eli ne muuttuvat silloin eri suuntiin. Seuraava taulukko luonnehtii korrelaatiokertoimen tulkintaa. jos r < 0, 3, niin riippuvuus on mitätön. Esimerkissä 30 on tilanne, jossa r on lähellä nollaa vaikka riippuvuus on voimakas. jos 0, 3 < r < 0, 6, niin riippuvuus on kohtalainen jos 0, 6 < r < 0, 8, niin riippuvuus on huomattava jos 0, 8 < r < 1, niin riippuvuus on voimakas Jos korrelaatiokerroin sattuu olemaan tarkalleen jokin noista rajoista, niin tilanne ratkaisee. Ei korrelaatiokerrointa voi kovin tarkasti lukea. Korrelaatiokerroin mittaa lineaarista riippuvuutta. Jos piirrät vaikkapa paraabelin y = 2x koneella ja sitten mittaan kuvaajalta pisteitä ja lasket niille korrelaatiokertoimen, saat tulokseksi nollan. Vaikka meillä on siis esittää tarkka kaava, kyseessä ei ole x:n ja y:n välinen lineaarinen riippuvuus. 2 Esimerkki 28 On selvinnyt, että kohtaamasi hippihyppiäiset olivat tutkimusretkelle lähetetty partio ja että partion oli jo aika palata kotiin. Et kuitenkaan eroa heistä vielä, sillä he kutsuivat sinut ystävällisesti mukaansa tervehtimään koko vastakarvaisten hippihyppiäisten kansaa. Perille päästyäsi ja tervehdykset vaihdettuasi alat ajattelevaisesti heti mitata ja punnita täysikasvuisia hippihyppiäisiä. Punnitset ja mittaat joka ikisen yhdyskunnan täysikasvuisen yksilön. Heitä on kaikkiaan tasan tuhat. Tulokset ovat luvun lopussa, heti männynmittausprojektin materiaalin jälkeen. Esimerkissä 27 edellä laskettiin saadun regressiosuoran avulla 18 -senttisen hyppiäisen pituus. Tulos oli 142 grammaa. Huomaat, että tieteen uusimpien mittausten mukaan järjestään jokainen 18 -senttinen yksilö painaa kuitenkin noin 151 grammaa. Ero tuntuu isolta. 7(14)

Esimerkissä 27 saatiin myös tulos, jonka mukaan vastakarvaisten hippihyppiäisten painon riippuvuutta pituudesta kuvaa suora. Lineaarisuutta mittaavaksi korrelaatiokertoimeksi tuli niinkin suuri kuin +0,998. Koska sinulla on koko populaation mittausarvot käytössäsi, käytät tilaisuutta hyväksesi. Lasket nyt uuden, täydennetyn materiaalin korrelaatiokertoimen. Tämä materiaali on jo niin laaja, että kannattaa käyttää taulukkolaskentaohjelmaa korrelaatiokertoimen laskemiseen. Tarvittava aineisto on soluissa siten, että pituudet ovat alueella A2 A1001 ja painot soluissa B2 B1001. Open Office:n käskyllä CORREL(B2:B1001;A2:A1001) saat tuloksen +0,995219. Tämä on taas hyvin lähellä ykköstä, vain vähän kauempana kuin ensin laskettu arvo. Tarkastellaan oheista kuvaa. Siinä on yhdessä kuvassa kolme eri asiaa. Punainen jana on Esimerkin 27 regressiosuoran se osa, jonka mittaukset kattavat. Tätä suoraa on jatkettu tumman sinisellä sekä suurempiin että pienempiin pituuksiin päin. Kuvan suoran mukaan noin 10 -senttinen hyppiäinen ei paina enää mitään 8(14)

Kolmantena on vielä geometrian teorian mukainen käyrä, joka on myös täydennettyjen mittausten mukainen. Geometrian mukaanhan on niin, että jos pituus kasvaa (vastaavasti vähenee) kertoimella r niin 3 tilavuus ja siis myös paino kasvavat (vastaavasti vähenevät) kertoimella r. Lähtökohtana on, että 15,1 senttiä pitkä yksilö painaa 89 grammaa. Silloin 16 senttiä pitkä hippihyppiäinen painaa 16 3 89g 106g 151, =. Tämä eroaa hyvin vähän regressiosuoran antamasta arvosta 107. Tarkistetaan 18 senttiä pitkän otuksen paino. Lasku ja punnitus antavat painoksi 151. Ainakin painoaan tarkkailevan hippihyppiäisen mielestä ero regressiosuoran antamaan arvoon 142 grammaa ei ole ollenkaan yhdentekevä. Kuvassakin alkaa näillä lukemilla olla jo eroa. Kuitenkaan äsken laskettu korrelaatiokerroin ei tee eroa vielä tätä luokkaa olevan epätarkkuuden kohdalla. Johtopäätös Riippuvuuden tyyppi on tiedettävä kun regressiokäyrän yhtälöä määrätään. Laskuissa käyrän tyyppi ei ihan heti näy. Käyrän tyyppi ratkaistaan ensin ja aineistosta lasketaan sitten tätä tyyppiä olevan yhtälön parametrit. Seuraava taulukko on kopioitu Excel 2000:n matriisifunktion LINREGR tulosteesta. Olen merkinnyt keltaisella taustalla tarvittavat luvut. Korrelaatiokerroin on siis otsikon Kerroin R jälkeen. Otsikon Kertoimet alla on ylempänä suoran vakiotermi edellä mainitun merkintätavan mukaan siis b = 11, 36013 ja alempana kulmakerroin: m = 0, 043613. Punainen teksti on minun lisäämäni. Oikea käyrän tyyppi, joka kuvaa hippihyppiäisten pituuden ja painon välistä riippuvuutta, ei siis olekaan suora. Mikä sitten? Piirtämällä mittauspisteet koordinaatistoon nähdään, että ne muodostavat polynomi muotoisen käyrän. YHTEENVETO TULOSTUS Regressiotunnusluvut Kerroin R 0,995219 Korrelaatiokerroin 0,990461 = varianssi Tarkistettu korrelaatiokerroin0,990452 Keskivirhe 0,129804 Havainnot 1000 ANOVA va NS KN Regressio 1 1746,002 1746,002 Jäännös 998 16,8153 0,016849 Yhteensä 999 1762,818 Kertoimet Keskivirhe t Tunnusluvut Leikkauspiste 11,36013 0,018095 627,8108 Muuttuja X 1 0,043613 0,000135 321,9107 9(14)

Esimerkki 29 Kun jatkat matkaasi, kohtaat vielä lyhytkarvaistenkin hippihyppiäisten populaation. Komennat joka iikan jonoon ja mittaat kunkin pituuden ja painon. Nyt päätät mitata kaikki lyhytkarvaiset hippihyppiäiset, niin isot kuin pienetkin. Itse asiassa heti ensi silmäys, jonka luot lyhytkarvaisiin hippihyppiäisiin, antaa ymmärtää, että nämä metsän alkuasukkaat ovat varsin eri kokoiset. Mittaustulokset ovat vastakarvaisten hippihyppiäisten aineiston jälkeen. Äärirajat saat tietää komennoilla =MAX() ja =MIN() tai =MAKS() ja =MIN() ohjelmasta riippuen. Vastaavalla tavalla kuin äsken huomataan, että taas ollaan etsimässä polynomimuotoista kuvaajaa. Molemmat taulukkolaskentaohjelmat, jotka olen tähän mennessä maininnut, tarjoavat käyttöömme toiminnon, jolla regressiokuvaajan eli trendiviivan tyypin voi valita valikosta. Menettele seuraavalla tavalla. Maalaa ensin kaikki mittaustulokset eli hyppiäisten pituudet ja niitä vastaavat painot. Valitse sitten Lisää Kaavio ja edelleen XY-kaavio. Luo kaavio ja kaksoisklikkaa tarkasti pistekaavion kuvaajan aluetta. Silloin saat esiin seuraavan kuvan kaltaisen valikon. Valitse siinä ensin Tilastotiedot ja edelleen polynomiregressio kuten kuvassa. Dialogin kuvan jälkeen minun versioni datapisteiden (oranssi) kuvan lisäksi polynomi-muotoinen regressiokäyrä (sininen katkoviiva). Regressiokäyrä ei juuri erotu pisteiden takaa. Valitse Excel 2000:ssa tekemäsi pistekuvio hiiren ykköspainikkeella. Napsauta sitten samalla alueella hiiren kakkospainiketta, jolloin saat esille Lisää trendiviivavalinnan sisältävän dialogin. Tällä kertaa tiedämme käyrän yhtälön ilman muuta. Sehän on 151 y = x 3. 18 Toteat varmaan lopuksi, että ensimmäisenä kohtaamamme populaatio oli valittu tutkimusretkelle jostain ehkä poliittisesta syystä siten, että se ei ollut lähimainkaan koko hippihyppiäisten kansan edustava otos, ei edes vastakarvaisten hippihyppiäisten populaation edustava otos. 10(14)

Paino 375,0 350,0 325,0 300,0 275,0 250,0 225,0 200,0 175,0 150,0 125,0 100,0 75,0 50,0 Lyhytkarvaiset hippihyppiäiset 25,0 11,0 12,0 13,0 14,0 15,0 16,0 17,0 18,0 19,0 20,0 21,0 22,0 23,0 24,0 Pituus 11(14)

Esimerkki 30 Ajatellaan autoa, joka seisoo märällä asfaltilla. Sen kaikki pyörät ovat lukossa, mutta sitä työnnetään vaakasuoraan suuntaan, tasaisesti kasvavalla voimalla. Seuraavan taulukon mittaustulokset kuvaavat tilanteen kehittymistä. Ensimmäisenä tehtävänä on laatia mittauspisteitä esittävästä taulukosta kuva. Siitä nähdään heti, että auton nopeuden muuttumisen tarkka kuvaus koostuu kolmesta regressiosuorasta. Ensimmäinen regressiosuora esittää tilannetta, missä voima ei vielä saa autoa liikahtamaan. Toinen regressiosuora kuvaa auton kiihtyvyyttä ja kolmas, seestymisvaihe, on aika, jona auto liikkuu, mutta ei kiihdy enää eli kulkee vakionopeudella. Todettakoon, että tässä vaiheessa kone toimii maksimitehollaan, joka on 100 hevosvoimaa eli vähän alle 75 kw. Ensimmäisessä sarakkeessa on aika sekunteina, toisessa voima kilonewtoneina eli tuhansina newtoneina. Newtonien tai kilonewtonien tarkat määritelmät eivät ole nyt tärkeitä. Viimeinen eli kolmas sarake kertoo, millä nopeudella auto liukuu asfaltilla kunakin hetkenä kaikkien neljän pyöränsä varassa. On ehkä syytä todeta, että taulukossa annetut mittaustulokset ovat elävää elämää paremmat. Toisin sanoen, oikeat mittaustulokset olisivat enemmän hajallaan eli aitojen mittausten hajonta olisi todennäköisesti isompi. Ensimmäisen regressiosuoran yhtälö on helppo tapaus. Se on y = 0, kun aika x, jota koko yhtälössä ei edes Aika, s Voima, kn Nopeus, m/s 0,00 0,00 0,00 1,00 0,09 0,00 2,00 0,20 0,00 3,00 0,30 0,00 4,00 0,42 0,00 5,00 0,53 0,00 10,00 0,96 0,00 20,00 2,02 0,00 30,00 3,20 0,00 40,00 3,89 0,00 50,00 5,05 0,00 60,00 6,39 0,00 70,61 6,67 0,00 71,00 6,94 0,50 72,00 6,84 1,50 73,00 7,14 2,50 74,00 7,03 3,33 75,00 7,40 4,00 76,00 7,68 4,90 77,00 8,13 6,45 78,00 8,06 7,00 79,00 7,61 8,70 80,00 8,56 9,21 81,00 8,26 10,20 82,00 7,96 11,70 83,00 8,81 12,65 84,00 8,59 13,40 85,00 8,58 14,00 86,00 9,14 15,00 87,00 8,26 16,25 88,00 8,34 17,55 89,00 8,68 18,70 90,00 8,76 18,85 91,00 9,62 20,50 92,00 9,80 21,00 93,00 8,87 21,70 94,00 8,86 21,90 95,00 9,64 21,80 100,00 9,42 22,00 110,00 9,50 21,90 120,00 9,95 21,90 130,00 8,86 21,90 140,00 8,85 21,90 mainita, on välillä 0 x < 71, kun yksikkönä on sekunti. Korrelaatiokerroin r on nyt komeasti tasan 1. Käytän tässä siis ajan symbolina kirjainta x. Useinhan aikaa merkitään t:llä, mutta käytetään mieluummin koko ajan yhtä ja samaa merkintää vaaka-akselin muuttujalle. Kolmannen regressiosuoran alkupiste ei ole ihan yhtä itsestään selvä kuin ensimmäisen. Lasketaan ensin toinen ja sovitetaan kolmas sen mukaiseksi. Tulkitaan mittaustulokset niin, että voiman kasvu pysähtyy, kun auton moottori saavuttaa suurimman tehonsa. Viimeinen mittauspiste, joka otetaan mukaan toiseen regressiosuoraan, on (93;21,7) ja ensimmäinen on piste (71;0,5). Kolmannen suoran ensimmäinen piste on siis (94;21,9). Käytetään taas kaikki pisteet toisen suoran yhtälön etsimiseen. Kone antaa: kulmakerroin = 0,989 12(14)

vakiotermi = 69,8 korrelaatiokerroin = 0,999 Toisen regressiosuoramme yhtälö on siis y = 0, 989x 69, 8, kun 71 x 93. Kolmannen regressiosuoran yhtälön parametrit saadaan vastaavalla tavalla. Ne ovat: kulmakerroin = 0,000 vakiotermi = 21,9 korrelaatiokerroin = 0,080. Hups! Palaan asiaan heti tämän esimerkin jälkeen. Yhtälöksi saadaan y = +21, 9, kun 93 < x 140. Esimerkin 30 kolmannen regressiosuoran korrelaatiokerroin on lähellä nollaa. Silti kuvasta näkyy selvästi, että riippuvuus on voimakas. Ihmettelet ehkä: Mitä korrelaatiokertoimesta sitten lopulta jää käteen? Minä vastaan, että korrelaatiokerroin on tarkoitettu kasvun tai vähenemisen lineaarisen riippuvuuden kuvaamiseen. Jos selitettävä muuttuja on vakio selittävän muuttujan suhteen ja satunnaiset, mittaamisen rajallisesta tarkkuudesta johtuvat virheet ovat pieniä, niistä ei korrelaatiokertoimen matemaattisen määritelmään sisältyvistä vähennyslaskuista jää paljon jäljelle. Korrelaatiokertoimen laskukaava on MAOLin tauluissa. Laskepa koneellasi korrelaatiokerroin, kun selittävä muuttuja, vaikkapa aika, muuttuu 10 sekunnin välein nollasta esimerkiksi 390 sekunniksi ja selitettävä muuttuja on koko ajan sitkeästi tasan 50. Huomaa, että Esimerkin 30 kolmannen regressiosuoran kulmakerroin ei ole ihan tasan nolla, vaan kolmen pilkunjälkeisen nollan jälkeen luuraa jokin nollasta eroava, jokin, joka tipahtaa pyöristettäessä pois. Mittaustarkkuuden rajoissa se kuitenkin on nolla ja siksi yhtälön kulmakertoimeksi on otettu nolla. Esimerkki 31 Seuraavassa taulukossa on lukion matematiikan ryhmän oppilaiden matematiikan todistusarvosanat ja oppilaiden pituudet. On ilmeistä, että arvosana ei riipu pituudesta, mutta katsotaan, mitä saadaan, kun yritetään väkisin sovittaa niitä yhteen. Lasketaan korrelaatiokerroin. Tulos on 0,236, joten riippuvuus on mitätön. Mielenkiintoista on, että korrelaatiokertoimeksi ei saatu nollaa! Ei lasketa muita parametreja, vaan tyydytään oheiseen kuvaan, joka esittää näitä havaintopisteitä. 13(14) Pituus, cm Arvosana 168 8 175 8 175 5 176 5 178 4 179 6 179 6 180 7 182 3 182 7 183 5 186 7 187 5 196 6 200 10

Pituus & arvosana Arvosana 10 9 8 7 6 5 4 3 2 1 0 160 170 180 190 200 210 Pituus, cm 14(14)