Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012
Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe
Otanta Tavoitteena edustava otos = perusjoukko pienoiskoossa Otos valitaan satunnaisesti (sattumaa hyväksikäyttäen) Apuna satunnaisotanta, systemaattinen otanta, ositettu otanta, ryväsotanta tai näiden yhdistelmä Otoksen perusteella voidaan tehdä päätelmiä perusjoukosta 3
Satunnaisotanta Perusjoukko Otos 4
Systemaattinen otanta Valitaan poimintaväli (esimerkiksi 5) Arvotaan ensimmäinen (esimerkiksi ensimmäisen 5 joukosta) Poimitaan arvotusta alkaen poimintavälin mukaisesti (esimerkiksi joka viides) 5
Ositettu otanta Perusjoukko 30-49 18-29 Halutaan taata otoksen edustavuus ryhmien suhteen -> suhteellinen kiintiöinti Otos Suhteellinen kiintiöinti 65+ 50-64 Tasainen kiintiöinti Halutaan vertailla ryhmiä -> tasainen kiintiöinti Otos 6
Ryväsotanta Jaetaan perusjoukko ryppäisiin (kouluja, kaupunginosia, ) Valitaan arpomalla mukaan otettavat ryppäät Valituista ryppäistä poimitaan otos tai tutkitaan valitut ryppäät kokonaan Otos 7
Näyte Tutkijalla sormensa pelissä, harkinnanvarainen otos Otos itse valikoituva, otokseen osallistuvat valitsevat itse itsensä Tyydytään saatavilla oleviin, esimerkiksi katuhaastattelu Näytteen perusteella ei yleensä voi tehdä päätelmiä perusjoukosta 8
Tilastollinen päättely Tilastollinen päättely on perusjoukkoa koskevien päätelmien tekemistä otoksen perusteella Tilastollisen päättelyn käyttöedellytyksenä on, että otos on satunnaisesti poimittu perusjoukosta 9
Otantavirhe Samasta perusjoukosta poimitut otokset antavat erilaisia tuloksia Tämä johtuu sattumasta Otos 1 keskiarvo 40,5 Perusjoukko keskiarvo 40,8 Otos 2 keskiarvo 40,3 Otos 3 keskiarvo 41,4 10
Virhemarginaali - Luottamusväli Keskiarvon virhemarginaali Prosenttiluvun virhemarginaali
Virhemarginaali - Luottamusväli Otoksesta laskettu tunnusluku on paras arvaus perusjoukon vastaavan tunnusluvun arvoksi Jos perusjoukon tunnusluku arvioidaan otoksesta lasketun tunnusluvun suuruiseksi, niin arvioon liittyy epävarmuutta Epävarmuus on seurausta otantavirheestä Epävarmuuden suuruus ilmaistaan virhemarginaalina Luottamusväli: tunnusluku ± virhemarginaali 12
Keskiarvon virhemarginaali 95 % virhemarginaali on likimain (s on otoksesta laskettu keskihajonta, n on otoskoko): 2 s n Jos perusjoukon keskihajonta on tiedossa, niin sitä käytetään otoksesta lasketun sijasta 95 % todennäköisyydellä luottamusväli otoskeskiarvo ± virhemarginaali sisältää todellisen perusjoukon keskiarvon 13
Keskiarvon virhemarginaali esimerkki Moottorien osien pituuden pitäisi olla 156,0 millimetriä Saapuneesta erästä otetaan 50 kappaleen otos. Otoksesta laskettu keskiarvo 156,30 millimetriä ja keskihajonta 0,34 millimetriä 95 % virhemarginaali 0,10 millimetriä 95 % luottamusväli 156,2 mm 156,4 mm Otoksen perusteella voidaan todeta, että moottorin osien pituus ei ilmeisesti ole tavoiteltu 156,0 mm 14
Prosenttiluvun virhemarginaali Prosenttiluvun 95 % virhemarginaali on likimain (p on otoksesta laskettu prosenttiluku, n on otoskoko): 2 p (1 p) n 95 % todennäköisyydellä luottamusväli otosprosenttiluku ± virhemarginaali sisältää todellisen perusjoukon prosenttiluvun 15
Prosenttiluvun virhemarginaali esimerkki Otoksesta (n=1800) laskettu viallisten tuotteiden osuus on 5,0 % ja virhemarginaali 1,0 prosenttiyksikköä 95 % luottamusväli viallisten osuudelle on 4,0 % - 6,0 %. 16
Hypoteesin testaus Nollahypoteesi Vaihtoehtoinen hypoteesi 2-suuntainen testaus 1-suuntainen testaus Hylkäämisvirhe P-arvo
Hypoteesi Hypoteesi on perusjoukkoa koskeva uskomus Uskon, että aamiaismuropakettien paino on keskimäärin 300 grammaa! 18
Nollahypoteesi ja vaihtoehtoinen hypoteesi Nollahypoteesi H 0 on perusolettamus, vallitseva käsitys, aiempi tilanne, valmistajan ilmoitus, vallitsevan teorian mukainen arvo,... Usein nollahypoteesi on muotoa ei eroa tai ei riippuvuutta Vaihtoehtoinen hypoteesi H 1 on kilpaileva käsitys Nollahypoteesia pidetään totena, kunnes löydetään todisteet sitä vastaan Jos otoksen tiedoista löydetään riittävät todisteet nollahypoteesia vastaan, niin nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi astuu voimaan 19
Esimerkkejä hypoteeseista H 0 : Laakerinkuulien halkaisijan keskiarvo on 2,30 mm H 1 : Laakerinkuulien halkaisijan keskiarvo on eri kuin 2,30 mm H 0 : Ydinvoiman kannattajien osuus on 50 % H 1 : Ydinvoiman kannattajien osuus suurempi kuin 50 % H 0 : Miehet ja naiset tekevät keskimäärin yhtä paljon ylitöitä H 1 : Miehet ja naiset eivät tee yhtä paljon ylitöitä H 0 : Korkotason ja kullan hinnan välillä ei ole riippuvuutta H 1 : Korkotason ja kullan hinnan välillä on riippuvuus 20
2-suuntainen vai 1-suuntainen testi Testi on 2-suuntainen, jollei ole erityistä syytä 1- suuntaisuuteen 2-suuntaisessa tutkija on kiinnostunut poikkeamasta kumpaan tahansa suuntaan nollahypoteesista Tämä näkyy vaihtoehtoisessa hypoteesissa, joka on muotoa erisuuri kuin 1-suuntaisessa tutkijaa kiinnostaa ainoastaan poikkeama tiettyyn suuntaan nollahypoteesista Tämä näkyy vaihtoehtoisessa hypoteesissa, joka on muotoa pienempi kuin tai muotoa suurempi kuin 21
Hypoteesin testauksen ajatuskulku Perusjoukko J J J J J J J Vallitsevan käsityksen mukaan tuon joukon keskiarvoikä on 50 vuotta (nollahypoteesi). Hylkää nollahypoteesi! Otoshan osoittaa jotain aivan muuta. Otos Keskiarvo=45 J J 22
Erehtymisriski Syytön kunnes toisin osoitetaan Nollahypoteesi totta kunnes toisin osoitetaan Joskus käy niin, että syytön tuomitaan Hypoteesin testauksessakin saatetaan todeta nollahypoteesi vääräksi, vaikkei se oikeasti olekaan väärä (otantavirheestä seuraava erehtymisriski) 23
Vaihtoehdot Todellinen tilanne Testauksen tulos Nollahypoteesi on totta Nollahypoteesi ei ole totta Nollahypoteesi jää voimaan Nollahypoteesi hylätään Oikea päätös Hylkäämisvirhe Hyväksymisvirhe Oikea päätös Nollahypoteesi on perusolettamus ja se on syytä jättää voimaan ellei ole riittäviä todisteita sitä vastaan Hylkäämisvirhettä pidetään vakavana virheenä Hylkäämisvirheen todennäköisyyttä kutsutaan p-arvoksi 24
Hylkäämisvirheen todennäköisyys eli p-arvo Nollahypoteesi hylätään vain jos p-arvo on riittävän pieni Yleensä rajana käytetään 0,05 (5 %) P-arvo on aina ilmoitettava päättelyn perusteluna Toinen tapa tulkita p-arvo: p-arvo on todennäköisyys sille, että havaittu poikkeama nollahypoteesista on sattuman (otantavirheen) aiheuttama 25
Testauksen kulku 1. Muotoile nollahypoteesi ja vaihtoehtoinen hypoteesi 2. Kerää havainnot (satunnaisesti valittu otos!) 3. Laske hylkäämisvirheen todennäköisyys eli p- arvo 4. Päättelysääntö: Hylkää nollahypoteesi, jos p- arvo on pienempi kuin 0,05 (5 %). Muussa tapauksessa nollahypoteesi jää voimaan. Ilmoita p-arvo perusteluna 26
Testejä eri tarkoituksiin 1. Yhtä muuttujaa koskevia testejä 2. Kahden ryhmän vertailuun tarkoitettuja testejä 3. Useamman ryhmän vertailuun tarkoitettuja testejä (ei käsitellä tällä kurssilla) 4. Riippuvuuden testaamiseen tarkoitettuja testejä 27
Yhtä muuttujaa koskevia testejä Keskiarvo Prosenttiluku
Keskiarvon testaus Pullotuskoneen pitäisi pullottaa 1/3 litran pulloja Nollahypoteesi: Pullojen sisällön keskiarvo 1/3 litraa Vaihtoehtoinen hypoteesi: Pullojen sisällön keskiarvo eri suuri kuin 1/3 litraa 15 pullon otos antaa keskiarvoksi 0,3420 litraa ja keskihajonnaksi 0,0115 litraa Kaksisuuntaisen t-testin p-arvoksi saadaan noin 0,011 Nollahypoteesi hylätään, koska p-arvo alle 0,05 29
Prosenttiluvun testaus Puolueen kannatus oli aiemmin 22,8 % Nollahypoteesi: Puolueen kannatus on 22,8 % Vaihtoehtoinen hypoteesi: Puolueen kannatus on laskenut aiemmasta (pienempi kuin 22,8 %) Satunnaisesti valitussa 800 henkilön otoksessa puolueen kannattajia oli 166 Yksisuuntaisen testin p-arvoksi saadaan 0,076 Nollahypoteesi jää voimaan, koska p-arvo yli 0,05 30
Kahden ryhmän vertailu Kahden riippumattoman otoksen t-testi Kahden riippuvan otoksen t-testi
Kahden riippumattoman otoksen t-testi Lamppujen valmistaja valmistaa samantyyppisiä lamppuja kahdella eri menetelmällä Nollahypoteesi: Kestoiän keskiarvo on sama molemmissa menetelmissä Vaihtoehtoinen hypoteesi: Kestoiän keskiarvot ovat erisuuret eri menetelmissä 40 lampun otos kummastakin menetelmästä Kaksisuuntaisen t-testin p-arvoksi saadaan 0,006 Nollahypoteesi hylätään, koska p-arvo alle 0,05 32
Kahden riippuvan otoksen t-testi Testattiin erityisruokavalion vaikutusta painoon Nollahypoteesi: Keskiarvoissa ei eroa Vaihtoehtoinen hypoteesi: Keskiarvo ruokavalion jälkeen pienempi 16 koehenkilön otoksesta saadaan yksisuuntaisen testin p-arvoksi 0,000 Nollahypoteesi hylätään, koska p-arvo alle 0,05 33
Riippuvuuden testaaminen Korrelaatiokertoimen testaus Khiin neliö -riippumattomuustesti
Korrelaatiokertoimen testaus Nollahypoteesi: Asiakkaiden mielikuva toimitusnopeudesta ei ole yhteydessä asiakkaan yleiseen tyytyväisyyteen Vaihtoehtoinen hypoteesi: Asiakkaan mielikuva toimitusnopeudesta on positiivisessa yhteydessä yleiseen tyytyväisyyteen Kysely suoritettiin 100 asiakkaalle Korrelaatiokerroin 0,65 Yksisuuntaisen testin p-arvo 0,000 Nollahypoteesi hylätään, koska p-arvo alle 0,05 35
Khiin neliö -riippumattomuustesti Nollahypoteesi: Sukupuolen ja tyytyväisyyden välillä ei ole riippuvuutta Vaihtoehtoinen hypoteesi: Sukupuolen ja tyytyväisyyden välillä on riippuvuutta Työntekijöistä otettiin satunnainen otos ja suoritettiin kyselytutkimus. Kyselyssä selvitettiin vastaajan sukupuoli ja tyytyväisyys johtoon Khiin neliö -testin p-arvo on 0,017 Nollahypoteesi hylätään, koska p-arvo alle 0,05 36
Tiekartta Tarkoitus Yhtä muuttujaa koskeva päättely Määrällinen Keskiarvon luottamusväli Keskiarvon testaus Muuttujan mitta-asteikko Kategorinen Prosenttiluvun luottamusväli Prosenttiluvun testaus Kahden ryhmän vertailu Kahden muuttujan välinen riippuvuus Kaksi riippumatonta otosta: -Riippumattomien otosten t-testi Kaksi riippuvaa otosta: -Riippuvien otosten t-testi Korrelaatiokertoimen testaus Khiin neliö riippumattomuustesti Khiin neliö - riippumattomuustesti Yllä mainittujen lisäksi on olemassa monia muita testejä. 37