9. Tilasto+eteen eri/äin alkeelliset alkeet ja virheen arvioin+

9. Tilasto+eteen eri/äin alkeelliset alkeet ja virheen arvioin+ Kemiassa ja muissa luonnon+eteissä käsitellään usein suuria määriä mi/ausdataa. Mi/ausdatan käsi/elyä ja jatkojalostusta varten (esim: selostusten ja rapor>en kirjoi/aminen) pitää hallita ainakin +lasto+eteen alkeet, eli käsi/eet kuten jakauma, otos, luokka, keskiarvo ja keskihajonta. Tällä kurssilla vain hyvin hyvin pintapuolises+: käykää +lasto+eteen kursseja jos tarvitse/e näitä taitoja enemmän! Mi/auksissa esiintyy väistämä/ä ainakin jonkin verran virheitä. Näiden virhelähteiden käsi/elyyn lii/yvä matema+ikka on siis myös syytä osata.

Peruslähtökohta: havainto, mi/aus, malliajo (tms) tuo/aa dataa. Luonnon+eteissä data on yleensä numeerista, eli sitä voidaan kuvata numeroilla, tai se voidaan ainakin muu/aa tällaiseen muotoon. Olkoon meillä N kappale/a datapiste/ä (jokainen vastaa esim. yhtä mi/austa, havaintoa tms). Merkitään ne x 1, x 2, x 3,,x N. Tätä joukkoa sanotaan usein otokseksi. Havainnon/tuloksen frekvenssi kertoo kuinka usein se esiintyy otoksessa. Esimerkiksi 5 kolikonheiton sarja saa/aisi tuo/aa tuloksen: kruuna, klaava, klaava, kruunu, klaava. Tällöin kruunan frekvenssi on 2 ja klaavan 3. Mikäli otos koostuu esim. reaaliluvuista, se joudutaan yleensä jakamaan luokkiin jo/a frekvenssien laskeminen olisi mielekästä. Luokkiin jae/u otos esitetään usein histogrammina.

Histogrammi Histogrammissa x- akselina on muu/ujan (esim. mitatun suureen) arvo, ja y- akselina frekvenssi. Allaolevassa kuvassa (lähde: wikipedia) 100 datapisteen otos on jae/u luokkiin 0.5 yksikön välein.

Jatkuva ja diskree> jakauma Luonnon+eteellisessä kokeessa mitataan yleensä jonkin suureen arvo äärellinen määrä kertoja. Tilasto+eteellisessä mielessä otetaan siis otos k.o. suureen jakaumasta. Jakaumat voivat olla diskree4ejä, jolloin mita/ava suure voi saada vain +e/yjä arvoja (esim. kolikon hei/ämisen tulos voi olla joko kruuna tai klaava, elektronin spin voi olla joko α tai β, jne). Matemaa>ses+: diskree' suure voi saada äärellisen tai korkeintaan numeroituvas2 ääre3ömän määrän arvoja (esim. kokonaisluvut mu3a ei reaaliluvut). Toinen vaihtoehto on jatkuva jakauma, jolloin mita/ava suure voi saada ei- numeroituvas+ ääre/ömän määrän eri arvoja (käytännössä siis mikä tahansa suure joka voi saada reaalilukuarvoja).

Periaa/eessa useimmat luonnon+eteessä esiintyvä jakaumat ovat aineen atomiluonteen ja kvan>mekaniikan ansiosta diskree/ejä, mu/a käytännössä on mielekästä ole/aa monet jakaumat jatkuviksi. Esim. pitoisuuksia, aerosolihiukkasten halkaisijoita tai molekyylien liike- energioita kuvataan jatkuvilla jakaumilla. Käytännön sovelluksissa joudutaan usein mallintamaan diskree/ejä jakaumia jatkuvina tai päinvastoin. Esimerkki diskree+stä jakaumasta

Kolme esimerkkiä jatkuvasta jakaumasta (y - akselilla suhteellinen todennäköisyys e/ä saadaan +e/y mi/austulos)

Otoksia kuvaavat tunnusluvut Yleensä halutaan kuvata otoksia erinäisillä tunnusluvuilla. Tärkein ja tunnetuin näistä on aritmee>nen keskiarvo; tämän lisäksi on myös muita keskilukuja kuten geometrinen keskiarvo, mediaani tai moodi. Keskiarvon lisäksi myös hajontaa kuvaavat luvut (varianssi ja keskihajonta) ovat yleensä oleellisia. Jos otoksessa on enemmän kuin yksi muu/uja (esim mitataan y i, x i lukupareja, vaikkapa aika ja pitoisuus) tarvitaan muitakin tunnuslukuja, esim. kovarianssi ja korrelaa+okerroin.

Erilaisia keskiarvoja Aritmee7nen keskiarvo lienee kaikille tu/u: x = 1 N N Joskus käytetään myös geometrista keskiarvoa (jonka laskeminen edelly/ää, e/ä kaikki luvut ovat posi+ivisia): x i N x 1 x 2 x 3... x N Mediaani eli keskiluku: järjestetään havainnot suuruusjärjestykseen; mediaani on keskimmäinen luku (tai kahden keskimmäisen luvun keskiarvo jos N on parillinen). Moodi: yleisin arvo (se havainto jolla on suurin frekvenssi). Huom: moodeja voi olla yksi tai useampi.

Esimerkki: ympäristömyrkyn pitoisuuden c määri/ämiseksi järvidedessä suorite>in eri puolilla järveä yhteensä 7 mi/austa, joista saa+in tulokseksi (yksiköissä μmol/l): c i = {1,15 1,20 1,20 1,34 1,52 1,71 2,12} Mi/austen aritmee>nen keskiarvo on: c = 1,15+1, 20 +1, 20 +1,34 +1, 52 +1, 71+ 2,12 7 µmol/l 1,46 µmol/l Geometrinen keskiarvo on 1,43 μmol/l, mediaani 1,34 μmol/l ja moodi (1 kpl) 1,20 μmol/l. (Tässä esimerkissä nämä luvut lienevät paljon vähemmän hyödyllisiä kuin aritmee>nen keskiarvo.)

Hajontaa kuvaavat luvut Pelkkä keskiarvo ei yleensä kerro jakaumasta rii/äväs+, vaan tarvitaan myös +etoa sen leveydestä. Kaksi tärkeää lukua ovat varianssi ja keskihajonta. Varianssi σ 2 : σ 2 = 1 N N (x i x) 2 = x 2 (x) 2 Keskihajonta σ (varianssin neliöjuuri): σ = 1 N N (x i x) 2

Lasketaan varianssi ja keskihajonta edellä esitetylle otokselle c i = {1,15 1,20 1,20 1,34 1,52 1,71 2,12} μmol/l σ 2 = 1 7 ((1,15 1, 46)2 + (1, 20 1, 46) 2 + (1, 20 1, 46) 2 + (1,34 1, 46) +(1, 52 1, 46) 2 + (1, 71 1, 46) 2 + (2,12 1, 46) 2 )µmol 2 /L 2 0.125µmol 2 /L 2 σ = σ 2 0.353µmol/L (Oikeas2 pitäisi 2etys2 laskea tarkemmalla keskiarvon arvolla, mu3a tämä ei mahtunut kalvolle). Tästä nähdään keskihajonnan hyöty varianssiin nähden: se on samoissa yksiköissä kuin alkuperäinen data. Ope4ele laskemaan keskiarvoja ja hajontoja +etokoneella, esim Excelissä AVERAGE, VAR ja STDEV.

Kuvassa olevissa jakaumissa A:n ja B:n keskiarvo on sama, mu/a A:lla on suurempi keskihajonta. A:lla ja C:llä taas on sama keskihajonta, mu/a eri keskiarvo. Jatkuvien jakaumien keskiarvo ja keskihajonta voidaan laskea integroimalla, mu3a näitä laskuja ei käsitellä tällä kurssilla; kts kirjan luvut 21.2-21.6.

Pienten otosten keskihajonta Usein yritetään arvioida jakauman +lastollisia ominaisuuksia pienen otoksen avulla. Esimerkiksi jonkin aineen pitoisuuksia ilmassa tai vedessä arvioidaan suori/amalla rajallinen joukko mi/auksia. Jos otoskoko (N) on kovin pieni, antaa edellä esitelty kaava hieman liian pienen arvon keskihajonnalle. Tarkempi kaava on tällöin: σ otos = 1 N 1 N (x i x) 2 Wikipedia: Intui2ivises2 tämä seli3yy sillä, e3ä otoskeskiarvo poikkeaa joukon todellisesta keskiarvosta otoksen suuntaan, mikä tuo3aisi keskihajonnan kaavaan liian pienen osoi3ajan. Yhdellä pienenne3y nimi3äjä kompensoi tämän harhan ja näin saadaan mahdollisimman hyvä es2maa' perusjoukon keskihajonnasta.

Normaalijakauma Monien suureiden jakaumat nouda/avat ainakin likimain ns. normaalijakaumaa (tunnetaan myös Gaussian jakaumana tai kellokäyränä). Normaalijakauman kaava on: f (x) = σ 1 2π e (x µ ) 2 2σ 2 missä μ on jakauman keskiarvo ja σ sen keskihajonta. Huom: μ on samalla myös mediaani ja moodi. Useat yksinkertaiset matemaa>set jakaumat (esim. binomijakauma) nouda/avat myös normaalijakaumaa, kun N on rii/ävän suuri. Aiempien kalvojen jatkuvat jakaumat olivat juuri normaalijakaumia.

Normaalijakauma luonnossa Muu/uja joka määräytyy monen toisistaan riippuma/oman toisen muu/ujan kumula+ivisesta vaikutuksesta nouda/aa normaalijakaumaa. Esimerkiksi ihmisten pituus (joka määräytyy usean geenin sekä ympäristötekijöiden yhteisvaikutuksesta). Satunnaisvirheistä johtuva mi/austulosten hajonta nouda/aa yleensä myös normaalijakaumaa. Monet +lastolliset menetelmät ja tes+t ole/avat virheiden olevan normaalis+ jakautuneita.

t- tes+ (Studen+n t- tes+) t- tes+llä (josta on useita eri versioita) voidaan laskea todennäköisyys e/ä kaksi otosta ovat peräisin samasta alkuperäisestä jakaumasta. Toinen sovellus: todennäköisyys e/ä sovitetun regressiosuoran (tästä lisää myöhemmin) kulmakerroin poikkeaa +lastollises+ merki/äväs+ nollasta. Tes+t ole/avat e/ä muu/ujat ovat normaalis+ jakautuneet. Käytännössä t- tes+t lasketaan +etokoneella, esim Excelissä komento TTEST. Näitä ei käsitellä tällä kurssilla pidemmälle (tes+en olemassaolo on hyvä +etää opetelkaa käy/ämään jos ja kun tarvitse/e).

Virheen arvioin+ = mi3austarkkuden ja määritystarkkuuden arvioin2. Erilaisia virheitä: 1. Karkeat virheet Huolima/omuudesta tai työvirheestä johtuva moka Usein huomaa äly/ömänä tuloksena 2. Systemaa>set virheet Johtuu esim lai/eiston kalibroinnista väärin; mi/a- asteikko on väärä Vaiku/aa aina samaan suuntaan, pystytään usein poistamaan 3. Satunnaiset mi/ausvirheet Vaiku/aa "oikean tuloksen" molemmilla puolilla Esim. silmän tai mi/alai/een tarkkuus Ei voi kokonaan ehkäistä, mu/a suuruu/a voi arvioida

systemaa>nen vs satunnainen virhe

Tärkeitä määritelmiä Mi4auksen sisäinen tarkkuus Mi/aus on sisäises+ tarkka, jos satunnaisten mi/ausvirheiden suuruus on pieni. Tulos voi sil+ olla aivan väärä, jos systemaa>nen virhe on suuri! Mi4auksen ulkoinen tarkkuus Mi/aus on ulkoises+ tarkka jos se on "oikeas+ oikein".

Virheen esi/äminen Absoluu7nen virhe Esim: V = (5,4 ± 0,1) L Suhteellinen virhe = absoluuttinen virhe suureen arvo = 0,1L 5,4L 100% 1,9%

Esim: virheiden vertaaminen Titraustulokset olivat (5,4 ± 0,1) ml ja (108,6 ± 0,8) ml Kumpi mi/aus on tarkempi? Vastaus: riippuu tarkoitetaanko absoluu7sta vai suhteellista virhe4ä. Absoluu>nen virhe on suurempi jälkimmäiseässä mi/auksessa. Suhteellinen virhe taas on pienempi jälkimmäisessä mi/auksessa: 0,1 ml 5,4 ml 100% 1,9% ja 0,8 ml 100% 0,74% 108,6 ml

Mi/austulosten virherajat Riippuvat siitä suoritetaanko mi/aus kerran vai toistokokeena. Jos mi4aus suoritetaan kerran: Mi/arin, silmän tms. lukematarkkuus määrää tarkkuuden Esim. punni/u massa (12,2 ± 0,2) g Monissa lai/eissa tai laboratorioas+oissa on kerro/u tarkkuus.

Mi/austulosten virherajat Jos mi4aus suoritetaan moneen kertaan Huom: oletuksena e/ä toistokerrat ovat toisistaan riippuma/omia; esim. +traus, sekun+kellon käy/ö Mi/auksen arvo saadaan keskiarvona: x = 1 N N x i Mi/auksen tarkkuus saadaan keskiarvon keskivirheenä: Δx = N (x i x) 2 N(N -1)

Esim: NaOH - liuoksen pitoisuus selvitetään +traamalla se 0,001M HCl:llä. Titraustulokset ovat 5,21 ml, 5,32 ml ja 5,27 ml kun 100 ml NaOH - näyte +trataan. Laske NaOH konsentraa+o. Ratkaisu: Mi/austen keskiarvo on (5,21 ml+ 5,32 ml+ 5,27 ml) V= 3 Keskivirhe on ΔV= (5,21 ml V)2 + (5,32 ml V) 2 + (5,27 ml V) 2 3 2 V 0,001M NaOH konsentraa+o on c= 100 ml ΔV 0,001M Ja sen virhe Δc= 100 ml Huom: tässä on olete/u e/ä HCl:n konsentraa+o ja NaOH näy/een määrä (100 ml) ovat tarkkoja.

Suoran sovituksen virheet Suoran sovituksessa etsitään vakiotermi ja kulmakerroin siten e/ä mi/auspisteet sopivat mahdollisimman hyvin suoralle. Käytännössä mitatun ("todellisen") ja lasketun arvon välillä on aina eroa. Tämän eron suuruuden kertovat vakiotermin ja kulmakertoinen standardipoikkeamat ("virherajat"). Origin- ohjelma, Mathema+ca, Matlab jne (jopa jotkin taskulaskimet) antavat nämä standardipoikkeamat. Kaavat löytyvät oppikirjoista, ei käydä läpi tässä.

Lasketun suureen virhe Joskus käyte/ävissä oleva mi/alaite mi/aa suoraan halu/ua suure/a. Esimerkiksi vaaka antaa suoraan painon. Tällöin tuloksen virherajan pää/elemiseen tarvitaan vain +etoa mi/alai/een tarkkuudesta (ja toistomi/austen määrästä kuten edellisissä esimerkeissä). Usein (yleensä) halu/u suure joudutaan kuitenkin jollakin tavalla laskemaan mitatusta suureesta tai suureista. Tähän törmää jo kemian alkeiskursseilla: jos liuoksen pitoisuus päätellään esimerkiksi +traamalla, tarvitaan +eto sekä +tran>liuoksen pitoisuudesta e/ä sen määrästä. Molemmissa voi olla virheitä: tuloksessa on (ainakin) kaksi virhelähde/ä!

Lasketun suureen virhe Miten mita/ujen suureiden virheet ja suoran sovituksen virheet vaiku/avat laske/avana olevaan suureeseen? Lähtökohta: suure u lasketaan N toisen suureen avulla u = u(x 1, x 2, x 3,..., x N ) x i :t toisistaan riippuma/omia x 1, x 2,..., x N ovat mi/austuloksia, suoran parametrejä tai toistokokeen keskiarvoina saatavia tuloksia (tjsp). Niiden virheet ovat Δx 1, Δx 2,..., Δx N Tavoite on määritellä suureen u määritystarkkuus Δu.

1. Funk+on maksimivirhe Δu max = N ( U x i ) MP 2. Funk+on keskivirhe Δu keskivirhe = Δx i 3. Maksimi- minimimenetelmä Osi/aisderivaa/a arvioidaan mi/auspisteessä N ( U 2 ) (Δx i ) 2 x MP i u max = arvo jonka u saa kun jokainen virhelähde kasva/aa u:ta u min = arvo jonka u saa kun jokainen virhelähde pienentää u:ta Δu max-min = u max - u min 2

Esim: Tarkas+ mita/u 0,1 mol ideaalikaasua suljetaan as+aan, jonka +lavuus on V = (4,0 ± 0,2) L, ja kaasun paineeksi mita>in p = (754,7 ± 0,2) torr. Laske kaasun lämpö+la. Ratkaisu: pv = nrt T = pv nr Arvioidaan seuraavaksi eri virheet. 1) T:n maksimivirhe: = 484 K. ΔT max = 2 ( T x i ) MP Δx i x i = V, p = ( T V ) MP ΔV + ( T p ) MP Δp $ = p ' $ & ) ΔV + V ' & ) % nr ( MP % nr ( MP Δp

" ΔT max = p % " $ ' ΔV + V % $ ' Δp # nr & MP # nr & MP 100618,4 Pa = 0,1 mol 8,31451 J K -1 mol 2-1 10 4 m 3 0,004 m 3 + 26,7 Pa=24,3K 0,1 mol 8,31451 J K -1-1 mol maksimivirhettä käyttäen saadaan siis T=(484 ± 24)K 2) T:n keskivirhe ΔT keskivirhe = = 24,2 K ( T V ) 2 (ΔV ) 2 + ( T MP p ) 2 (Δp) 2 MP Keskivirhettä käyttäen saadaan siis T = (484 ± 24) K

3) Maksimi minimikeino T max = T min = (p + Δp)(V + ΔV ) = 508,3996 K nr (p - Δp)(V - ΔV ) = 459, 7366 K nr ΔT max-min = T T max min 24K 2 Maksimi-minimikeino käyttäen saadaan siis T = (484 ± 24) K Tässä tapauksessa kaikki kolme keinoa antoivat saman tuloksen, mu/a näin ei aina ole.

Esim: Otetaan funk+o ϒ joka riippuu 7 muu/ujasta seuraavas+: Oletetaan: 26r 2 (g γ= p g n )t 9 l (1+2,2x)(1,65y) r mittaustarkkuus on Δr, g p mittaustarkkuus on Δg p g n mittaustarkkuus on Δg n, t mittaustarkkuus on Δt l mittaustarkkuus on Δl, x mittaustarkkuus on Δx y mittaustarkkuus on Δy Lasketaan virheraja maksimi- minimikeinolla: γ max = 26(r+Δr)2 (g p + Δg p (g n -Δg n ))(t+δt) 9 (l-δl) (1+2,2(x-Δx))(1,65(y-Δy)) γ min = 26(r-Δr)2 (g p Δg p (g n +Δg n ))(t-δt) 9 (l+δl) (1+2,2(x+Δx))(1,65(y+Δy)) Δγ = γ max γ min 2

Pienimmän neliösumman sovitus = PNS - sovitus (englanniksi least squares fit). Tavoite: etsiä sovite/avan funk+on parametrit jotka kuvaavat mi/ausaineistoa mahdollisimman hyvin. Esim: mi/ausaineisto {x i, y i }, eli on mita/y y:n arvoja y i muu/ujan x arvoilla x i. Sovitetaan funk+oon y = a + bx ja yritetään löytää paras mahdollinen a ja b. Mkä määrää "parhaan mahdollisimman" sovituksen?

Residuaalien neliöiden summa Lähtökohtana on residuaalien neliöiden summa: mittauspisteet (a + bx i y i ) 2 = (y i a bx i ) 2 mittauspisteet Residuaalin neliöiden summan minimi antaa parhaan mahdollisen sovituksen. Yleises+: jos sovite/avassa funk+ossa on N kpl parametrejä, minimoimistehtävään tulee N yhtälöä, joiden avulla parametrien arvot ratkaistaan. Suoran sovituksessa parametrejä on kaksi (a ja b), joten minimoimistehtävässä on kaksi yhtälöä.

Suoran sovitus n havaintoa {x i, y i } sovitetaan funk+oon y = a + bx. Residuaalin neliöiden summa on: S = n 2 Huom: tässä yhteydessä a ja b ovat siis (y i - a - bx i ) tuntema/omia muu/ujia; mitatut y i ja x i taas tunne/uja vakioita! Ja sen minimissä: ds da = ds db = n 2(y i a bx i ) 1= 0 n 2(y i a bx i ) x i = 0

Jaetaan molemmat yhtälöt - 2:lla; saadaan yhtälöpari: n (y i a bx i ) = 0 n 2 (y i x i ax i bx i ) = 0 Jaetaan molemmat yhtälöt n:llä, saadaan: = = n ( y i n a n b x i ) = 0 n n ( y x i i n a x i n b x 2 i ) = 0 n y a bx = 0 yx ax bx 2 = 0 Huom! x:n ja y:n keskiarvot n x = 1 x i, y = 1 n n lisäksi: n y i n a n = a n 1= a n n n = a

y a bx = 0 x yx ax bx 2 = 0 = y x ax b(x) 2 = 0 yx ax bx 2 = 0 Vähennetään ylemmästä yhtälöstä puoli/ain alempi: y x ax b(x) 2 yx + ax + bx 2 = 0 y x yx b(x) 2 + bx 2 = 0 b = yx y x x 2 (x) 2 Ylemmästä yhtälöstä saadaan nyt: a = y x b(x)2 x = y bx

Suoran sovitus Origin - ohjelmalla Työn vaiheet: 1. Muuta kemiaa kuvaava laki suoran yhtälöksi. (Tämä kanna/aa tehdä jo ennen harjoitusta +etokoneluokassa!) Esim: p = p 0 e Δ v H R ( 1 T 1 T o ) ln(p) = ln(p 0 )- Δ v H R ( 1 T 1 T o ) # ln(p) = ln(p 0 )+ Δ H & v % ( Δ H v $ RT 0 ' R 1 T y = a + bx

Suoran sovitus Origin - ohjelmalla 2. Kirjoita (ja tarvi4aessa laske) annetut arvot Origin- taulukkoon T p 1/T ln p............................................................

Suoran sovitus Origin - ohjelmalla 3. Piirrä pisteet koordinaanstoon. MieN näy4ääkö kuva järkevältä. ln (p) Kuvaajan nimi ln(p) = 0.002 5.419(1/T) 1/T 4. Tee suoran sovitus PNS menetelmällä (muista o4aa muisnin myös virherajat!) 5. Viimeistele kuvaaja! Akselien nimeäminen Kuvaajan nimeäminen Liitä suoran sovituksen Nedot (virherajoineen!) kuvaan

Korrelaa+o ja kovarianssi Palataan vielä hetkeksi +lasto+eteelliseen tarkasteluun. Edellisessä esimerkissä sovite>in suoraa dataan, joka koostui N lukuparista {x i, y i }, missä i = 1 N. Aiemmin esitellyillä kaavoilla voidaan helpos+ laskea esim. x:n ja y:n keskiarvot ja keskihajonnat. Kahden muu/ujan otoksen kuvamiseen tarvitaan aiemmin määriteltyjen käsi/eiden lisäksi pari uu/a; kovarianssi cov(x,y) ja korrelaa+okerroin ρ. Määritelmät: cov(x, y) = 1 N ρ = cov(x, y) σ x σ y n (x i x)(y i y) = xy x y σ x σ y 1 ρ +1

Kovarianssin yksikkö on x:n ja y:n yksiköiden tulo; korrelaa+okerroin taas on dimensioton ja itseisarvoltaan 1. Jos muu/ujat ovat toisistaan riippuma/omat, kovarianssi ja korrelaa+o ovat nolla. Alhaista korrelaa+ota käytetäänkin usein todisteena riippuma/omuudesta (vaikka se voi johtua muistakin syistä). Jos x:n suuret (ts x:n keskiarvoa suuremmat) arvot esiintyvät todennäköisemmin myös y:n suurten (ts. y:n keskiarvoa suurempien) arvojen kanssa, kovarianssi ja korrela+okerroin ovat posinivisia. Jos x:n suuret arvot esiintyvät todennäköisemmin y:n pienten arvojen kanssa, kovarianssi ja korrelaa+okerroin ovat neganivisia. Itseisarvoltaan suuri korrelaa+okerroin saa/aa tarkoi/aa e/ä x ja y riippuvat jollain tavalla toisistaan, mu/a korrelaa+o ei aina tarkoita syy- seuraussuhde/a; esim. jäätelönsyön+ ei aiheuta hukkumiskuolemia.