Hans Laihia Mika Tuukkanen 1 LASKENNALLISET JA TILASTOLLISET MENETELMÄT Järvitesti Ympäristöteknologia T571SA 7.5.2013 Sarkola Eino JÄRVITESTI Johdanto Järvien kuntoa tutkitaan monenlaisilla eri menetelmillä. Usein näytteiden analysointi on hidasta ja kallista, ja niitä otetaan lukumääräisesti useita järvien eri syvyyksistä. Kuntoluokituksen nopeuttamiseksi on kehitetty uusia testejä, jonka paikkansapitävyyttä haluttiin tässä harjoituksessa testata. Testin luotettavuutta määritettiin tutkimalla 100 satunnaisesti valittua järveä tietyllä alueella. Testissä tutkitut satunnaismuuttujat olivat Kunto (K), joka kuvasi järven todellista kuntoluokkaa Testi (T), joka luokitteli testin mukaan järven kunnon Kuntoluokat järven todellisen kunnon sekä testin mukaan jaettiin seuraavanlaisesti: 1= huono, 2 = kohtalainen ja 3 = hyvä. Eräällä alueella eri kuntoluokkien todennäköisyydet satunnaisesti valituille järville olivat seuraavat: Huono 40%, kohtalainen 30% ja hyvä 30%. Tehtävässä tuli odottaa, ettei tulosten ehdolliset todennäköisyydet eri kuntoluokissa riipu tutkittavasta alueesta. Järvitestin data oli annettu Moodle opiskelualueella. Tehtävässä on käytetty apuna Excel- taulukkolaskentaohjelmaa, sekä pivot taulukointia. Testin luotettavuus Tehtävän ratkaiseminen aloitettiin luomalla pivot taulukko saadusta Excel aineistosta (järvien tiedot). Pivot taulukossa sarakeotsikko kenttään valittiin kunto ja riviotsikko kenttään testi. Vastaavasti järvien lukumäärä tiedot siirrettiin - arvot -kenttään.
2 Tässä kentässä oltiin kiinnostuneita järvien lukumäärästä, joten arvokentän asetuksista valittiin laskentaperusteeksi määrä ja arvojen esiintymismuodoksi prosenttia kokonaissummasta. Saatu Pivot taulukko kopioitiin erilliseksi Excel-taulukoksi, joka mahdollisti tehdä muutoksia taulukon rivi ja sarake otsikoihin. Excelissä olleet järvitestin tiedot siirrettiin Excelin pivot- taulukkoon, jossa määrät (kunkin kuntoluokan kappalemäärä) vaihdettiin summa kentässä prosenttiosuudeksi. K1 on järven kuntoluokka huono, K2 kohtalainen ja K3 on hyvä. Testin mukaan kuntoluokat jakautuvat T1 on huono, T2 kohtalainen ja T3 hyvä. TAULUKKO 1: Järvien kuntoluokkien prosenttiosuus Riviotsikot K1 K2 K3 Kaikki yhteensä T1 15,00 % 6,00 % 2,00 % 23,00 % T2 4,00 % 40,00 % 3,00 % 47,00 % T3 1,00 % 4,00 % 25,00 % 30,00 % Kaikki yhteensä 20,00 % 50,00 % 30,00 % 100,00 % Seuraavaksi laskettiin ehdolliset todennäköisyydet testin tuloksille eri kuntoluokissa. Ehdollinen todennäköisyys sille, että testin mukaan esim. (T1) ja järven todellisen kuntoluokan mukaan esim. ( järven kunto oli huono, saatiin laskettua kaavalla: T1 15% P ( T1 75% 20% Eli tässä laskussa verrattiin huonon kuntoluokan ( ja huonon testiluokan (T1) prosenttiosuutta huonon kuntoluokan yhteismäärään. Ehdollisten todennäköisyyksien prosenttiosuudet laskettiin kaikkien kuntoluokkien osalta vastaavalla tavalla. TAULUKKO 2: Kuntoluokkien ehdolliset todennäköisyydet P ( K2) P ( K3) T1 75 % 12 % 7 % 94 % T2 20 % 80 % 10 % 110 % T3 5 % 8 % 83 % 96 % Todennäköisyysmallille huomioitiin kuntoluokkien priorijakauma. Nämä laskettiin kertomalla saadut ensitiedot taulukon 2 eri kuntoluokkien ehdollisilla todennäköisyyksillä: P ( T1 T1 * 40%*75% 30%
Vastaavalla tavalla laskettiin testin ehdollinen todennäköisyys kaikille kuntoluokille. 3 TAULUKKO 3: Kuntoluokkien todennäköisyydet priorijakauman kanssa P ( K2) P ( K3) T1 30 % 4 % 2 % 36 % T2 8 % 24 % 3 % 35 % T3 2 % 2 % 25 % 29 % Priorijakauma 40 % 30 % 30 % Priorijakauman avulla saadaan testin todennäköisyysmallin posteriorijakauma. Priorijakaumaa hyväksikäyttäen todennäköisin kuntoluokka testin mukaan näyttäisi olevan huono, sillä huonon testituloksen yhteenlaskettu todennäköisyys on noin 36 %. Lisäksi laskettiin testi-rivit yhteen, jolloin saatiin selville testin antaman todennäköisyyden kokonaismäärä eri kuntoluokille. T1 30,0% P ( K T) 84,3% T1) 35,6% Vastaavalla tavalla laskettiin arvot kaikille kunto- ja testiluokille. TAULUKKO 4: Kuntoluokkien posteriorijakauma P ( K2) P ( K3) P ( T1) 84 % 10 % 6 % P ( T2) 23 % 69 % 9 % P ( T3) 7 % 8 % 85 % Oletetaan, että yksi alueen järvistä on testattu ja testin mukaan järven kunto on kohtalainen (tehtäväksiannossa pyydettiin vapaasti valitsemaan joku järven kuntoluokista). Tällöin todennäköisyysmallin mukaan testin antama kuntoluokka on 69 %:n todennäköisyydellä oikein. Huomattavaa on, että lähes neljäsosa (23%) testin kohtalainen - kuntoluokan tapauksista ovatkin oikeasti kuntoluokan huono järviä. Järven todellinen tila voi suurella todennäköisyydellä olla korkeintaan kohtalainen kuntoluokkaa.
4 Testin luotettavuus 100% 80% 60% 40% 20% 0% Huono Kohtalainen Hyvä Todellinen kunto Testi huono Testi Kohtalainen Testi hyvä KUVA 1: Testin luotettavuus Järven kuntoluokkaa huono mittaa myös testin antama huono tulos noin 84 prosentin todennäköisyydellä (kuva 1). Testille lasketun todennäköisyyden perusteella tehtiin pylväsdiagrammit, josta näkyy etukäteen tiedossa oleva priorijakauma sekä testin ehdollinen todennäköisyys eri kuntoluokkien kohdalla. Johtopäätökset Pivot taulukoinnin avulla Excelissä olevat järvien kuntoluokkien ja testien tulokset saatiin käsiteltyä ja laskettua ilman monivaiheisia laskutoimenpiteitä. Annettuja esitietoja hyväksikäyttäen saatiin selville todennäköisin kuntoluokka testin mukaan eli huono noin 36 %:n todennäköisyydellä. Posteriorijakauman perusteella saadaan selville miten luotettava testi on vertailtaessa tiedossa olevaan järven kuntoluokkaan. Tulosten mukaan testi näyttäisi olevan suhteellisen luotettava siinä tapauksessa kun järven kuntoluokka on huono (84 %) tai hyvä (85 %). Kuntoluokalle kohtalainen testin tulos antaa tulokseksi kohtalainen vain 69 % todennäköisyydellä. Jos taas järven kunto on todellisuudessa kohtalainen, voi testi antaa järven kuntoluokaksi huonon noin 23 %:n ja hyvän noin 8,6 %:n todennäköisyydellä.
LÄHTEET: 5 Sarkola, Eino 2013. Tilastomatematiikan moodle-kurssi. www-dokumentti. https://moodle.mikkeliamk.fi/course/view.php?id=1775. Päivitetty 18.2.2013. Luettu 5.5.2013.