Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää apuna monessa yhteydessä, kuten tulevaisuuden tapahtumien ennustamisessa, ympäristön tilan arvioimisessa ja vaikkapa jonkin alueen eläinpopulaation arvioimisessa. Lähestytään tilastotiedettä ekologisen esimerkin avulla. Valitaan aiheeksi kahden pienen järven ahvenpopulaation selvittäminen. Järvi 1 Valkjärvi Järvi 2 Sysijärvi
Perusjoukko Tutkimuksessa on kaksi perusjoukkoa. Joukko1: Valkjärven ahvenet ja joukko2: Sysijärven ahvenet. Muuttuja Ahvenista halutaan määrittää muuttujat: pituus ja ikä. Otos Tarkinta tietoa perusjoukoista saataisiin pyydystämällä kummastakin järvestä kaikki ahvenet. Tämä on kuitenkin useimmiten mahdotonta ja haitallistakin. Tutkijat tyytyvät pyydystämään vain pienen osuuden järven ahvenista. Tämän joukon nimi on otos. Otoksen huolellinen suunnittelu on tilastollisen tutkimuksen kriittisin vaihe. Jos otos ei edusta hyvin koko ahvenpopulaatiota saadaan tutkimuksesta harhaanjohtavia tuloksia. Otokseen liittyy suuri määrä virhemahdollisuuksia. Otoksen kerääminen Valkjärvestä: Mustalla kaarella on kuvattu tiheäsilmäisen nuotan vetoalueet. Alueet on valittu siten, että ne edustavat hyvin järven syvyysalueita unohtamatta rantaruovikkoa. Otoksen kerääminen Sysijärvestä: Sysijärvi on pohjanmuodoiltaan yksinkertaisempi ja kuvan nuottaus saattaisi antaa hyvän otoksen. Kyseisissä tapauksissa saatettaisiin saada otokseksi noin 2-3% Valkjärven kaloista ja noin 1-2% Sysijärven kaloista. Koska kaikkein pienimmät ahvenet pääsevät nuotan silmien läpi karkuun, niitä ei tutkita.
Aineiston luokittelu ja taulukko Otoksien ahvenien pituus mitattiin automaattisesti valopöydällä. Mittaukset saatiin 1 mm:n tarkkuudella ja pituudet jaettiin luokkiin kahden sentin välein. Frekvenssi (eli taajuus) kertoo kuinka monta havaintoa johonkin luokkaan kuuluu. Aineistosta koottiin ns. taulukko. Näissä kahdessa taulukossa muuttujana on pituus. on luokan n ja n keskiarvo. Sysijärvi Valkjärvi f Tehtiin myös toinen taulukko, johon merkittiin muuttujaksi ahventen ikä. Ikä määritettiin tutkimalla kuuloluu eli otoliitti. Työ oli vaativa ja aikaa vievä (vasen taulukko on Sysijärvi, oikea Valkjärvi). f 10,0 11,9 10,95 1289 10,0 11,9 10,95 132 12,0 13,9 12,95 2423 12,0 13,9 12,95 261 14,0 15,9 14,95 1896 14,0 15,9 14,95 116 16,0 17,9 16,95 201 16,0 17,9 16,95 468 18,0 19,9 18,95 16 18,0 19,9 18,95 160 20,0 21,9 20,95 3 20,0 21,9 20,95 315 22,0 23,9 22,95 0 22,0 23,9 22,95 25 24,0 25,9 24,95 0 24,0 25,9 24,95 230 26,0 27,9 26,95 2 26,0 27,9 26,95 16 28,0 29,9 28,95 0 28,0 29,9 28,95 0 30,0 31,9 30,95 0 30,0 31,9 30,95 3 32,0 33,9 32,95 0 32,0 33,9 32,95 31 S 5830 S 1757 Ikä (v) f Ikä (v) f 2 148 2 260 3 225 3 119 4 634 4 232 5 232 5 349 6 1600 6 58 7 759 7 210 8 490 8 376 9 120 9 120 10 43 10 32 11 16 11 0 12 19 12 1 13 369 13 0 14 165 14 0 15 469 15 0 16 412 16 0 17 127 17 0 18 2 18 0 S 5830 S 1757
Graafinen esitys Pylväsdiagrammi lienee yleisimmin käytetty graafinen esitys. Taulukko 1. Järvien ahventen pituus Taulukko 2. Järvien ahventen ikä
Tilastofunktioita 1. Frekvenssi f kertoo montako alkiota otoksesta kuuluu luokitellussa aineistossa johonkin luokkaan. 2. Suhteellinen f% kertoo montako prosenttia otoksen alkioista kuuluu johonkin luokkaan. 3. Summa sf kertoo kuinka monta alkiota otoksesta kuuluu kyseiseen tai sitä pienempään/suurempaan luokkaan (lasketaan vain frekvenssejä yhteen juoksevana summana) 4. Suhteellinen summa sf% kertoo kuinka monta prosenttia otoksen alkioista kuuluu kyseiseen tai sitä pienempään/suurempaan luokkaan (lasketaan suhteellisia frekvenssejä yhteen juoksevana summana). sf% on käyttökelpoinen mm. mediaanin määrittämisessä. Pistänpä tähän näkyville täydennetyn taulukon, jossa on Valkjärven ahventen pituus. Valkjärvi Esimerkkinä vihreät kohteet: f f% sf sf% 10,0 11,9 10,95 132 7,5 132 7,5 12,0 13,9 12,95 261 14,9 393 22,4 14,0 15,9 14,95 116 6,6 509 29,0 16,0 17,9 16,95 468 26,6 977 55,6 18,0 19,9 18,95 160 9,1 1137 64,7 20,0 21,9 20,95 315 17,9 1452 82,6 22,0 23,9 22,95 25 1,4 1477 84,1 24,0 25,9 24,95 230 13,1 1707 97,2 26,0 27,9 26,95 16 0,9 1723 98,1 28,0 29,9 28,95 0 0,0 1723 98,1 30,0 31,9 30,95 3 0,2 1726 98,2 32,0 33,9 32,95 31 1,8 1757 100,0 S 1757 f: 25 kpl ahvenista oli pituudeltaan 22,0 23,9 cm. suhteellinen f%: 9,1 prosenttia ahvenista oli pituudeltaan 18,0 19,9 cm. summa sf: 977 ahventa oli pituudeltaan 17,9 cm tai sitä lyhyempiä. suhteellinen summa sf%: 64,7 prosenttia ahvenista oli pituudeltaan korkeintaan 19,9 cm. 5. moodi eli tyyppiarvo on se muuttujan arvo, jonka on suurin. Esimerkiksi ylläolevassa taulukossa suurin on 468. Tätä vastaava muuttujan arvo on luokka 16,0 17,9 cm. Paikallislehdessä voitaisiin mainita, että: Tyypillinen Valkjärven ahven on pituudeltaan 16,0-17,9 cm mittainen. 6. mediaani on järjestetyn joukon keskimmäisen alkio. Tällaisessa luokitellussa aineistossa meillä ei enää ole käytettävissä alkuperäisiä mittauksia, joten joudumme korvaamaan pituusjärjestyksessä keskimmäisen kalan pituuden pituusluokalla. Tuo keskimmäinen kala kuuluu siihen luokkaan, jonka sf% ensimmäisenä kipuaa yli arvon 50. Yllä olevassa taulukossa sf% saa arvon 55,6 luokan 16,0 17,9 cm kohdalla. Tässä tapauksessa tuo luokka on mediaani.
7. keskiarvo x lienee jo tuttu juttu. Lasketaan vain kaikki luvut yhteen ja sitten jaetaan saatu summa lukujen määrällä. Tilastotieteessä asia on ihan samoin, mutta luokitellussa aineistossa menetellään hieman omalaatuisella tavalla. x = f x f. Tuossa kaavassa x on luokkakeskus. Luku f x saadaan, kun kustakin luokasta kerrotaan f luokkakeskuksella x (tehdään taulukkoon uusi sarake f x. Näin saadaan yhden luokan kalojen yhteenlaskettu pituus. Nämä kun lasketaan yhteen saadaan koko otoksen kalojen yhteenlaskettu pituus. Luku f saadaan kun lasketaan kaikki t yhteen (se on kaikkien kalojen lukumäärä). Kuulostaa vaikealta, mutta näyttää helpolta. Näytän, miten saadaan laskettua Valkjärven ahventen pituuden keskiarvo eli keskipituus. Valkjärvi Keskipituus x = f x f 31981,15 cm = = 18,20213432 cm 18,2 cm 1757 8. keskihajonta s kertoo, kuinka paljon otos on levinnyt eli kuinka paljon yksittäiset muuttujan arvot keskimäärin poikkeavat keskiarvosta. Joukon keskihajonta lasketaan kaavalla: s = (x 1 x ) 2 + (x 2 x ) 2 + + (x n x ) 2 n 1 s = f (x x )2 f 1 Luokitellusta aineistosta laskukaava on:, jossa x on luokkakeskus. Tätä ei tule kokeeseen, mutta laskenpa senkin niiden ihmeteltäväksi, joita tällainen kiinnostaa. f f% sf sf% f. x 10,0 11,9 10,95 132 7,5 132 7,5 1445,4 12,0 13,9 12,95 261 14,9 393 22,4 3379,95 14,0 15,9 14,95 116 6,6 509 29,0 1734,2 16,0 17,9 16,95 468 26,6 977 55,6 7932,6 18,0 19,9 18,95 160 9,1 1137 64,7 3032 20,0 21,9 20,95 315 17,9 1452 82,6 6599,25 22,0 23,9 22,95 25 1,4 1477 84,1 573,75 24,0 25,9 24,95 230 13,1 1707 97,2 5738,5 26,0 27,9 26,95 16 0,9 1723 98,1 431,2 28,0 29,9 28,95 0 0,0 1723 98,1 0 30,0 31,9 30,95 3 0,2 1726 98,2 92,85 32,0 33,9 32,95 31 1,8 1757 100,0 1021,45 S 1757 31981,15
Valkjärvi Luokkake skus frekvens si f f% sf sf% f. x f. (x - x ) 2 10,0 11,9 10,95 132 7,5 132 7,5 1445,4 6942,3 12,0 13,9 12,95 261 14,9 393 22,4 3379,95 7199,7 14,0 15,9 14,95 116 6,6 509 29,0 1734,2 1226,9 16,0 17,9 16,95 468 26,6 977 55,6 7932,6 733,7 18,0 19,9 18,95 160 9,1 1137 64,7 3032 89,5 20,0 21,9 20,95 315 17,9 1452 82,6 6599,25 2378,5 22,0 23,9 22,95 25 1,4 1477 84,1 573,75 563,6 24,0 25,9 24,95 230 13,1 1707 97,2 5738,5 10472,7 26,0 27,9 26,95 16 0,9 1723 98,1 431,2 1224,4 28,0 29,9 28,95 0 0,0 1723 98,1 0 0,0 30,0 31,9 30,95 3 0,2 1726 98,2 92,85 487,5 32,0 33,9 32,95 31 1,8 1757 100,0 1021,45 6742,5 S 1757 31981,15 38061,3 x = 18,2 cm s = 4,7 cm f (x x ) 2 On tuo luku tuossa f 1 saadaan, kun tuosta vähennetään luku 1. Nämä sitten jaetaan keskenään ja tuloksesta otetaan neliöjuuri. Tulos s= 4,7 cm. 9. normitettu arvo z kertoo, kuinka monen keskihajonnan verran jokin alkio poikkeaa keskiarvosta. Normitetun arvon avulla voidaan verrata hyvinkin erilaisista perusjoukoista saatuja alkioita. Normitettu arvo on negatiivinen, jos alkio on pienempi kuin keskiarvo. Se s on positiivinen, jos alkio on suurempi kuin keskiarvo. Kuvitellaan tilanne, jossa Valkjärvellä ja Sysijärvellä järjestetään pilkkikilpailu, jossa punnitaan kunkin kalastajan saamista ahvenista kolme suurinta. Olisi lähes varmaa, että palkintosijat täyttyisivät niistä jotka kalastelivat Valkjärvellä (siellä kun vaan on paljon isompia ahvenia). Olisi reilua laskea kustakin järvestä kolmen ahvenen normitetut arvot. Tällöin noin 16 cm mittainen ahven Sysijärvestä saattaisi olla tasavertainen 25 senttisen Valkjärven ahvenen kanssa. keskenään. z = x x