Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1
Harjoituksen aiheita Tilastollinen testaus Testaukseen liittyvät hypoteesit P-arvot ja merkitsevyystasot Testit odotusarvolle Varianssianalyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt 2
Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai väitteet tulee pukea tutkimuskohteiden tutkittavaa ominaisuutta kuvaavaa jakaumaa tai sen parametreja koskeviksi hypoteeseiksi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 3
Testausasetelman hypoteesit Testausasetelma kiinnitetään tekemällä seuraavat kolme oletusta: (i) Testausasetelmaa koskevia yleisiä oletuksia kutsutaan testin yleiseksi hypoteesiksi. (ii) Testattavaa väitettä tai oletusta kutsutaan testin nollahypoteesiksi. (iii) Jos nollahypoteesi hylätään testissä, astuu voimaan vaihtoehtoinen hypoteesi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 4
Yleinen hypoteesi Yleinen hypoteesi H sisältää oletukset - perusjoukosta - käytetystä otantamenetelmästä - perusjoukon jakaumasta Yleisen hypoteesin oletuksista pidetään kiinni koko testauksen ajan. Yleisen hypoteesin sisältämiä jakaumaoletuksia voidaan ja on yleensä syytä testata erikseen. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 5
Nollahypoteesi Sitä perusjoukon jakauman parametreja koskevaa väitettä tai oletusta, jota halutaan testata kutsutaan nollahypoteesiksi, ja merkitään H 0. Nollahypoteesista H 0 pidetään kiinni, elleivät havaintojen sisältämät todisteet nollahypoteesia vastaan ole kyllin voimakkaita. Yksinkertaisissa testausasetelmissa nollahypoteesi on muotoa H 0 : θ = θ 0 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 6
Vaihtoehtoinen hypoteesi Vaihtoehtoinen hypoteesi H 1 on oletus, joka astuu voimaan, jos nollahypoteesi H 0 hylätään. Jos vaihtoehtoinen hypoteesi on muotoa H 1 : θ > θ 0 tai muotoa H 1 : θ < θ 0 vaihtoehtoista hypoteesia kutsutaan yksisuuntaiseksi. Jos vaihtoehtoinen hypoteesi on muotoa H 1 : θ θ 0 vaihtoehtoista hypoteesia kutsutaan kaksisuuntaiseksi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 7
Testisuure Tilastollinen testi perustuu testisuureeseen, joka mittaa havaintojen ja nollahypoteesin H 0 yhteensopivuutta. Testisuure on satunnaismuuttuja, jonka arvo riippuu havainnoista ja nollahypoteesista H 0. Havaintojen ja nollahypoteesin H 0 yhteensopivuuden mittaaminen tarkoittaa sitä, että tutkitaan kuinka todennäköistä on saada sellaisia testisuureen arvoja kuin on saatu, ehdolla että H 0 pätee. Yhteensopivuuden mittaaminen vaatii siis testisuureen jakauman tuntemista. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 8
Testisuureen normaaliarvo Testisuureen odotusarvoa nollahypoteesin H 0 pätiessä kutsutaan testisuureen normaaliarvoksi. Jos testisuureen havaittu arvo on lähellä normaaliarvoa, havainnot ovat sopusoinnussa nollahypoteesin H 0 kanssa. Jos testisuureen havaittu arvo poikkeaa merkitsevästi normaaliarvosta, havainnot sisältävät todisteita nollahypoteesia H 0 vastaan. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 9
Virheet testauksessa Jos nollahypoteesi H 0 hylätään silloin kun se on tosi, tehdään hylkäysvirhe. Hylkäysvirheen todennäköisyys α on muotoa Pr(H 0 hylätään H 0 on tosi) = α Jos nollahypoteesi H 0 jätetään voimaan silloin kun se ei ole tosi, tehdään hyväksymisvirhe. Hyväksymisvirheen todennäköisyys β on muotoa Pr(H 0 jätetään voimaan H 0 ei ole tosi) = β Hylkäysvirheen todennäköisyyttä α kutsutaan testin merkitsevyystasoksi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 10
Hylkäys- ja hyväksymisalueet Tilastollisessa testauksessa testisuureen mahdollisten arvojen joukko jaetaan kahteen osaan (i) Jos testisuureen Z havainnoista laskettu arvo joutuu hylkäysalueelle, nollahypoteesi H 0 hylätään. (ii) Jos testisuureen Z havainnoista laskettu arvo joutuu hyväksymisalueelle, nollahypoteesi H 0 jätetään voimaan. f(z H 0 pätee) 1 α α Hyväksymisalue Hylkäysalue Mat-2.2107 Sovelletun matematiikan tietokonetyöt 11
P-arvo ja merkitsevyystasot Testin p-arvo kertoo todennäköisyyden, että testisuureen poikkeama sen normaaliarvosta johtuu sattumasta. - H 0 voidaan hylätä, jos testin p-arvo on pienempi kuin testin merkitsevyystaso. Tilastolliset ohjelmistot tulostavat nykyään lähes aina testien p-arvot. - P-arvojen käyttö on lähes kokonaan syrjäyttänyt etukäteen valittujen kiinteiden merkitsevyystasojen käytön. f(z H 0 pätee) Testisuureen Z normaaliarvo Testisuureen Z arvo p arvo Mat-2.2107 Sovelletun matematiikan tietokonetyöt 12
Tilastollisen testin suorittamisen vaiheet Tilastollisen testin suorittaminen sisältää seuraavat vaiheet: (1) Asetetaan testin hypoteesit. (2) Valitaan testisuure. (3) Valitaan merkitsevyystaso α ja muodostetaan sitä vastaava hylkäysalue. (4) Poimitaan otos niin, että yleisen hypoteesin oletukset pitävät. (5) Lasketaan testisuureen arvo havainnoista. (6) Tehdään päätös nollahypoteesin hylkäämisestä. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 13
Testi perusjoukon odotusarvolle, kun otos on normaalijakaumasta Yleinen hypoteesi H : (1) X i N(µ, σ 2 ), i = 1,...,n (2) Satunnaismuuttujat X 1,...,X n ovat riippumattomia Nollahypoteesi H 0 : µ = µ 0 Vaihtoehtoiset hypoteesit H 1 : µ > µ 0, H 1 : µ < µ 0, H 1 : µ µ 0 Testisuure T = X µ 0 s/ n Testisuureen jakauma Jos nollahypoteesi pätee, T t(n 1). Mat-2.2107 Sovelletun matematiikan tietokonetyöt 14
Testejä suhdeasteikollisille muuttujille 1/2 Yhden otoksen t-testi - odotusarvon vertaaminen tunnettuun vakioon Kahden otoksen t-testi A - Kahden riippumattoman otoksen odotusarvojen vertaaminen, erisuuret varianssit Kahden otoksen t-testi B - Kahden riippumattoman otoksen odotusarvojen vertaaminen, yhtäsuuret varianssit t-testi parivertailuille - Kahden toisistaan riippuvan otoksen odotusarvojen erotuksen vertaaminen Mat-2.2107 Sovelletun matematiikan tietokonetyöt 15
Testejä suhdeasteikollisille muuttujille 2/2 Testi varianssille - Varianssin vertaaminen tunnettuun vakioon Varianssien vertailutesti - Kahden riippumattoman otoksen varianssien vertaaminen Mat-2.2107 Sovelletun matematiikan tietokonetyöt 16
Varianssianalyysi Varianssianalyysi voidaan ymmärtää kahden riippumattoman otoksen t-testin yleistykseksi tilanteisiin, jossa perusjoukko koostuu useammasta kuin kahdesta ryhmästä: (i) Perusjoukko koostuu kahdesta tai useammasta ryhmästä. (ii) Havainnot noudattavat jokaisessa ryhmässä normaalijakaumaa. (iii) Jokaisesta ryhmästä poimitaan toisistaan riippumattomat yksinkertaiset satunnaisotokset. (iv) Tehtävänä on testata ryhmäkohtaisten odotusarvojen yhtäsuuruutta. Nollahypoteesi: Ryhmien odotusarvoissa ei ole eroja. H 0 : µ 1 = µ 2 =... = µ i = µ Mat-2.2107 Sovelletun matematiikan tietokonetyöt 17
Yksi- ja useampisuuntainen varianssianalyysi Perusjoukon jako ryhmiin voidaan tehdä yhden tai useamman tekijän perusteella. Jos perusjoukon jako ryhmiin perustuu yhteen tekijään, puhutaan yksisuuntaisesta varianssianalyysista. Jos perusjoukon jako ryhmiin perustuu m tekijään, puhutaan m-suuntaisesta varianssianalyysista. Varianssianalyysin nimi johtuu siitä, että ryhmäkohtaisten odotusarvojen yhtäsuuruuden testaaminen perustuu kahden eri varianssiestimaattorin yhtäsuuruuden testaamiseen F-testeillä. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 18
Milloin varianssianalyysiä voidaan käyttää Varianssianalyysin hyöty: Usean ryhmän odotusarvoja voidaan vertailla yhdellä kokeella. - T-testillä olisi pitänyt suorittaa parivertailu jokaiselle parille erikseen Työlästä Kuten t-testiä käytettäessä, myös varianssianalyysiä käytettäessä havaintojen tulee olla peräisin normaalijakaumasta. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 19
NCSS NCSS (Number Cruncher Statistical System) on nopea ja monipuolinen havaintoaineiston tilastolliseen käsittelyyn soveltuva ohjelmisto. Ohjelmiston avulla voidaan suorittaa useimmat tilastolliset analyysit sekä tulostaa tulokset numeerisessa ja graafisessa muodossa. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 20
NCSS-ohjelmiston osat NCSS Datassa suoritetaan tiedonhallinta. Analysoitava aineisto voidaan syöttää näppäimistöltä tai lukea erillisestä tiedostosta. Ohjelma osaa lukea useita eri tiedostoformaatteja. Käyttöliittymä on kuten taulukkolaskennassa. NCSS Templatessa määritetään kulloinkin tehtävän analyysin yksityiskohdat. Joissain tapauksissa määritettäviä kohteita on todella paljon. NCSS Outputiin tulostuvat analyysin tulokset halutussa muodossa. Tulostusta tulee perusasetuksilla runsaasti. Vaikeinta onkin löytää se oleellinen. Lisäksi loki-ikkunaan voidaan siirtää tallennettavaksi haluttavia tulosteita. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 21
Kysymyksiä 1. Mitä tarkoitetaan termeillä yleinen hypoteesi, nollahypoteesi ja vaihtoehtoinen hypoteesi? 2. Mitkä p-arvot aiheuttavat H 0 :n hylkäämisen, kun merkitsevyystaso α = 0.05? 3. Millä tilastollisella testillä voidaan tutkia, poikkeaako otoksen keskiarvo oletetusta, kun havaintoaineisto oletetaan normaalijakautuneeksi? 4. Millä tilastollisella testillä voidan tutkia, poikkeaako otoksen mediaani oletetusta? Perustuuko testi oletukseen, että havaintoaineisto on normaalijakautunut? 5. Mitä varianssianalyysillä voidaan tutkia? 6. Mitä eroa on yksi- ja kaksisuuntaisessa varianssianalyysissa? Mat-2.2107 Sovelletun matematiikan tietokonetyöt 22