Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla

Transkriptio

1 1 Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla Raija Leppälä Opetusmoniste B uudistettu painos Matematiikan, tilastotieteen ja filosofian laitos Toukokuu TAMPEREEN YLIOPISTO ISBN ISSN

2 2

3 3 ALUKSI Tämä opas on tarkoitettu tilastollisen tutkimuksen tekemisen oppaaksi, kun toteutuksessa käytetään SPSS for Windows -ohjelmistoa. Opas on syntynyt vuosien varrella Tampereen yliopistossa pitämieni tilastotieteen peruskurssien yhteydessä tapahtuneiden SPSS -ohjelmiston käytön opetuksen sekä erillisten SPSS -kurssien pohjalta.. Oppaassa kiinnitetään erityistä huomiota analyysin oikeaan valintaan ja tulosten tulkintaan. Eri toimintojen teknistä toteuttamista ei esitellä yksityiskohtaisesti, vaan annetaan ainoastaan ohjeet siitä, mistä haluttu analyysi löytyy. Tarvittaessa teknisiä oppaita löytyy lukuisia (ks. liite 1). Lukijalta edellytetään perustietoja tilastotieteestä, mutta toisaalta opasta voi käyttää vaikka tiedot olisivatkin melko vähäiset. Opas tarjoaakin mahdollisuuden tietojen ajan tasalle saattamiseksi sekä täydentämiseksi, sillä oppaassa esitellään lyhyesti myös tilastotieteen perusteita. Opas soveltuu tilastollisen analyysin tekemisen tueksi silloin, kun käytetään tavanomaisempia tilastollisia analyysejä. Tilastotieteen teorian perinpohjainen hallitseminen ei siis ole oppaan käytön kannalta tarpeellista. Opas on paremminkin pyritty kirjoittamaan soveltajan näkökulma huomioiden. Pyritään siis avustamaan tutkijaa menetelmien valinnassa ja ohjelmiston antamien tulosten tulkinnassa.

4 4 Tässä painoksessa on korjattu aiemman painoksen virheitä sekä täydennetty ja päivitetty tietoja. Esimerkeissä käytetyt aineistot ovat nyt myös saatavilla ja osoitteet kerrotaan esimerkkien yhteydessä. Näin lukija voi itse tehdä esimerkkien analyysit. Jos lukijalla ei ole käytössään SPSS -ohjelmaa, hän voi ladata sen 30 päivän koekäyttöön omalle tietokoneelleen sivulta Tampereella 5. toukokuuta 2004 Raija Leppälä sähköposti

5 5 SISÄLLYSLUETTELO 1 JOHDANTO SPSS -YMPÄRISTÖ HAVAINTOMATRIISIN LUOMINEN JA MUOKKAAMINEN MUUTTUJIEN JAKAUMAT JA TUNNUSLUVUT Jakaumat Ehdollistaminen Tunnuslukuja PISTEPARVI JA KORRELAATIOKERROIN JOITAIN YLEISESTI KÄYTETTYJÄ ANALYSOINTIMENETELMIÄ Ristiintaulukko Odotusarvojen yhtäsuuruuden testaaminen t -testillä Varianssianalyysi Regressioanalyysi LOPUKSI LIITE 1 Joitain SPSS -oppaita sekä kirjallisuutta, jossa on yhdistetty tilastollinen tutkimus sekä SPSS -opastus... 41

6 6

7 7 1 JOHDANTO Tilastollinen analyysi voidaan karkeasti jakaa kuvailevaan analyysiin ja tilastolliseen inferenssiin (päättelyyn). Kuvaileva osuus pyrkii kuvailemaan tietoaineistoa erilaisten graafisten esitysten ja tunnuslukujen sekä taulukoiden avulla. Tilastollinen päättely käsittelee johtopäätelmien tekoa populaatiosta aineiston (otoksen) perusteella. Inferenssi perustuu todennäköisyysjakaumiin ja niiden hyväksi käyttöön erilaisten testien ja analyysien yhteydessä. Tässä monisteessa esitellään lyhyesti joitain analysointimenetelmiä, annetaan ohjeita menetelmän valinnasta ja analyysin suorittamisesta SPSS (Statistical Package for Social Sciences) 11.0 for Windows -ohjelmiston avulla sekä tulkitaan esimerkeissä saatuja tuloksia. Lähdetään liikkeelle aineiston tallennuksesta, muokkauksesta ja kuvailusta. Sitten tutustutaan joihinkin testeihin ja menetelmiin, joita voidaan käyttää tilastollisen tutkimuksen teossa. SPSS for Windows -ohjelmisto on helppokäyttöinen, Windows -ympäristössä toimiva, valikko-ohjattu tilastollinen ohjelmisto, jolla on mahdollista suorittaa empiirisen aineiston tallennus ja muokkaus sekä tilastolliset analyysit graafisine esityksineen. Ohjelmisto sisältää hyvin laajan valikoiman analysointimenetelmiä aina aineiston kuvailuun liittyvistä menetelmistä epäparametrisiin testeihin, monimuuttujamenetelmiin, epälineaarisiin malleihin ja aikasarjaanalyysiin. Vaikka tässä monisteessa viitataan SPSS:n versioon 11.0, niin ohjeistus soveltuu hyvin käytettäessä sekä aiempien että uudempien versioita. Teknisiä ohjeita löytyy esimerkiksi sivun kautta (ks. lisäksi liite 1). Sivulla on myös linkki SPSS for Windows demonversion lataussivulle.

8 8 2 SPSS -YMPÄRISTÖ Käynnistettäessä SPSS -ohjelma avautuu Data Editor -ikkuna, jossa on välilehdet Data View (aineiston tallennus) sekä Variable View (muuttujien määrittely). Tämä ikkuna sisältää ohjelman päävalikon. Analysointeja tehtäessä tulokset tulevat automaattisesti avautuvaan Output -ikkunaan (tulostusikkunaan), jonka valikko poikkeaa jonkin verran päävalikosta. Päävalikko, jonka avulla käyttäjä pyytää ohjelmaa suorittamaan toiminnot, sisältää seuraavat kohdat: File Havaintomatriisin luominen, avaaminen, tallennus, tulostaminen,..., ohjelman käytön lopetus. Edit Cut-, Copy-, Paste-, Clear -toiminnot (mm. muuttujien/havaintojen poisto). View Näyttöön liittyviä lisämääreitä. Data Havaintomatriisiin liittyvien määritysten teko, kuten muuttujien lisääminen ja määritteleminen, tilastoyksiköiden lisääminen, ehdollistaminen. Transform Muunnosten teko muuttujille, uusien muuttujien määrittäminen olemassa olevien muuttujien avulla, luokituksen teko,... Analyze Valitaan haluttu analyysi (esim. tunnuslukujen lasku, ristiintaulukointi, varianssianalyysi, regressioanalyysi). Graphs Graafisten esitysten tekeminen (esim. jakaumat, pisteparvet, laatikko-jana - kuviot). Utilities Muuttujien määrittelytietojen katsominen, muuttujien arvojen selitteiden näyttäminen havaintomatriisissa. Window Ikkunasta toiseen siirtyminen. Help Ohjeita. Seuraavassa esitellään näiden valikoiden käyttöä tilastollisen tutkimuksen teon edetessä aineiston tallennuksesta analysointeihin. Lähdetään siis liikkeelle havaintoaineiston talletuksesta ja muokkauksesta. Kun aineisto on talletettu, voidaan aineiston analysointi aloittaa jakaumien teolla ja tunnuslukujen laskulla. Kuvailevan osuuden jälkeen on vuorossa tilastollisten analysointien

9 9 teko riippuvuuksien selvittämiseksi. Suoritettaessa analyysiä valitaan tilanteeseen sopiva komento, jonka jälkeen ohjelma pyytää tarvittavat lisämääreet kuten mm. muuttuja(t). Muuttujat voidaan valita esillä olevasta muuttujaluettelosta; valitaan muuttuja(t), jolle halutaan jakauma, joista piirretään pisteparvi, jne. 3 HAVAINTOMATRIISIN LUOMINEN JA MUOKKAAMINEN Empiirisen aineiston esitysmuotona käytetään havaintomatriisia, jossa n tilastoyksikön p muuttujan arvot esitetään tilastoyksiköittäin seuraavasti: x 1 x 2... x j... x p a 1 x 11 x x 1j... x 1p a 2 x 21 x x 2j... x 2p.. a i x i1 x i2... x ij... x ip.. a n x n1 x n2... x nj... x np missä x ij on i. tilastoyksikön mittaluku ominaisuudelle xj. Muuttujan x j jakauma on havaintomatriisissa j. pystyrivi eli sarake. Tilastoyksikön a i havaintovektori muodostuu i. vaakarivistä. Muuttujia on kahdenlaisia: kvalitatiivisia (kategorisia) ja kvantitatiivisia (numeerisia). Kvalitatiivinen mittaaminen on vain laadullista mittaamista ja se voidaan jakaa nominaali- eli luokitteluasteikolliseksi ja järjestys- eli ordinaaliasteikolliseksi mittaamiseksi. Kvantitatiivinen mittaaminen on numeerista mittaamista, mitta-asteikkoina intervalli- ja suhdeasteikko sekä absoluuttinen asteikko.

10 10 SPSS:llä käsiteltävä aineisto on aluksi saatettava havaintomatriisimuotoon, joka siis on kaksiulotteinen taulukko, jossa määritellään sarakkeille muuttujat ja kirjataan riveille tilastoyksiköittäin mittaustulokset. Tilastoyksiköitä ei havaintomatriisiin tarvitse nimetä, mutta identifioiva tunnusmuuttuja (vaikkapa juokseva numero) on syytä olla, jotta tarvittaessa löydetään vastaavuus aineiston ja havaintomatriisin talletetun tiedon välillä. Havaintomatriisin avaaminen tai uuden luominen tapahtuu valikosta File New> uuden luominen Data... Open vanhan avaaminen (oletusarvoisesti näkyvät.sav-tunnisteella olevat). Kun ohjelma käynnistetään, avautuu automaattisesti tyhjä havaintomatriisi- talletus aloitetaan muuttujien määrityksillä; pohja. Uuden havaintoaineiston määritellään mm. muuttujan nimi; tyyppi, joka on yleensä numeerinen, mutta voi olla myös merkkitietoa; desimaalien lukumäärä; selitteet muuttujalle ja sen koodeille. Muuttujan määritteleminen tapahtuu Data Editor -ikkunan Variable View -välilehdellä. Kun muuttuja/muuttujat on määritelty, syötetään arvot muuttujille jokaiselta tilastoyksiköltä (muuttuja kerrallaan, useampia muuttuja yhdessä tai tilastoyksikkö kerrallaan) Data Editor -ikkunan Data View -välilehdellä. Jos tietoja puuttuu, niin syötettäessä kyseinen solu jätetään tyhjäksi. Tällöin ohjelma tulkitsee sen puuttuvaksi tiedoksi eikä käyttäjän yleensä tarvitse huolehtia puuttuvista tiedoista; ohjelma jättää ne pois käsittelystä. Joissain graafisissa esityksissä tulee puuttuvan tiedon ryhmä oletusarvoisesti mukaan. Sen saa lisämäärityksillä pois. SPSS voi avata myös muilla ohjelmilla talletettuja aineistoja. Esimerkiksi Exceltiedosto voidaan avata, kunhan se on talletettu Excel versio 4 (tai vanhempi)

11 11 taulukoksi. Excel -taulukossa voi muuttujien nimet olla 1. rivillä, jolloin tieto tästä annetaan SPSS:lle lisämäärittelynä. Usein tarvitaan uusia laskennallisia muuttujia. Uuden muuttujan tekeminen havaintomatriisissa olemassa olevien muuttujien avulla (esimerkiksi summat, suhteet, mittayksikkövaihdot,...) suoritetaan valikosta Transform Compute... Avautuvassa ikkunassa nimetään uusi muuttuja (Target Variable) ja määritellään laskukaava (Numeric Expression). Esimerkki 1. Tarkastellaan Tampereella myynnissä olleita kerrostalohuoneistoja (aineisto sivulla lähde Aamulehti ). Tässä havaintomatriisissa on muuttujat asunnon koko neliöinä (NELIÖT) ja asunnon myyntihinta (HINTA) markkoina. Asunnon neliöhinta euroina NELIÖH = HINTA/( *NELIÖT). Tällöin tehtävä uusi muuttuja Target Variable on NELIÖH ja Numeric Expression HINTA/( *NELIÖT). 4 MUUTTUJIEN JAKAUMAT JA TUNNUSLUVUT 4.1 Jakaumat Kun havaintomatriisi on kunnossa, voidaan aloittaa aineiston analysointi. Ensin muodostetaan muuttujien frekvenssijakaumat (suorat jakaumat) joko graafisesti tai taulukkona. Muuttujien jakaumista voidaan huomata mahdollisesti tehtyjä tallennusvirheitä. Frekvenssijakauman graafiset esitykset valitaan muuttujan mitta-asteikon perusteella. Histogrammeja käytetään kvantitatiivisen muuttujan jakauman esittämiseen, pylväitä/janoja yleensä kvalitatiiviselle muuttujalle ja piirakoita luokitteluasteikollisen muuttujan tapauksessa. Graafiset esitykset löytyvät valikosta

12 12 Graphs Bar... pylväs- ja janadiagrammit, Pie... piirakat, Histogram... frekvenssihistogrammit; esityksen valinnan jälkeen annetaan muuttuja(t), jolle graafinen esitys tehdään. Numeerisen muuttujan yhteydessä itse määritellyn luokituksen tekeminen (tasavälisen luokituksen saa myös editoimalla histogrammia) tai kategoristen muuttujien tapauksessa luokkien yhdistäminen tapahtuu tekemällä uusi muuttuja havaintomatriisiin uudelleen koodauksen kautta. Koodaus tapahtuu valikosta Transform Recode> Into Different Variables... jossa annetaan luokiteltava muuttuja (Input Variable), luokituksen seurauksena syntyvän muuttujan nimi (Output Variable) sekä koodauksen (luokituksen) määrittely (Old and New Values...); havaintomatriisiin syntyy siis uusi muuttuja. Esimerkki 2. Asuntojen neliöhinnan uudelleen koodaus halpoihin, keskihintaisiin ja kalliisiin. Muodostetaan uusi muuttuja, joka saa arvot (vaikkapa 1, 2 ja 3) asunnon neliöhinnan perusteella. Frekvenssijakauman saa taulukkona valikosta Analyze Descriptive Statistics> Frequencies... Frekvenssitau lukkoa tehtäessä ohjelma luokittelee muuttujan jokaisen arvon omaan luokkaansa riippumatta siitä, montako arvoa muuttujalla on. Näin ollen numeeristen muuttujien yhteydessä taulukko on useimmiten käyttökelpoinen vasta, kun muuttuja on ensin luokiteltu (ks. luokituksen teko edellä).

13 13 Esimerkki 3. Asuntojen luokittelu neliöhinnan perusteella halpoihin, keskihintaisiin ja kalliisiin tapahtuu siten, että muodostetaan esimerkissä 2 esitetty uudelleen koodaus ja tehdään sitten tälle uudelle muuttujalle frekvenssijakauma. Jos uudelleen koodauksen yhteydessä on annettu koodeille selitteet halpa, keskihintainen, kallis sekä uudelle NELIOH -muuttujalle selite Asunnon hinta, saadaan seuraava taulukko Asunnon hinta Valid halpa keskihintainen kallis Total Cumulative Frequency Percent Valid Percent Percent 13 23,2 23,2 23, ,4 55,4 78, ,4 21,4 100, ,0 100,0 missä on hintaluokittain asuntojen lukumäärät (Frequency) ja prosentuaaliset määrät (Valid Percent) sekä kumulatiiviset prosentit (Cumulative Percent). Siis vähän yli puolet myynnissä (otoksessa) olleista asunnoista oli keskihintaisia. Jos aineistossa on puuttuvia tietoja, niin niiden lukumäärä näkyy frekvenssijakaumassa. Kun käyttää uudelleen koodausta, niin on syytä tarkistaa, että havaintoja ja puuttuvia tietoja on saman verran kuin alkuperäisessäkin muuttujassa. 4.2 Ehdollistaminen Muuttujan frekvenssijakaumaa voidaan tarkastella toisen muuttujan eri luokissa. Voidaan tutkia miten tämä ehdollistettu muuttuja vaikuttaa tarkasteltavan muuttujan jakaumaan vertailemalla ehdollisia prosenttijakaumia. Ehdollisten jakaumien (tai yleensä ehdollistamisen) teon yhteydessä ilmoitetaan ohjelmistolle, että jatkossa halutaan analysoinnit tehtävän jonkun muuttujan

14 14 (tai muuttujien) eri luokissa erikseen (esimerkiksi miehillä ja naisilla erikseen) antamalla ehdollistava muuttuja valikossa Data Split file... vaihtoehto Compare groups ja valitsemalla muuttujaluettelosta ryhmittelymuuttuja; ryhmittelyn purkaminen vaihtoehto Analyze all cases. Tämän määrityksen jälkeen tehtävät analyysit tapahtuvat erikseen kaikissa ehtomuuttujan ryhmissä (myös puuttuvien tietojen ryhmässä!). Jos ehtomuuttuja on numeerinen, se on ensin luokiteltava halutulla tavalla. Ehto on päällä siihen asti, kun se otetaan pois. Huom! Split file järjestää havaintomatriisin uudelleen ryhmittelymuuttujan mukaan. Tästä saattaa olla haittaa, jos aineistoon ei ole talletettu havaintoja identifioivaa tunnusmuuttujaa. Esimerkki 4. SAIDIT -aineistossa (sivulla on tietoja vastasyntyneistä lapsista. Halutaan vertailla syntymäpainon (g) (PAINO) jakaumia tytöillä ja pojilla. Voidaan lähteä liikkeelle piirtämällä frekvenssihistogrammin erikseen tytöille ja pojille. Tällöin Split file ehtomuuttujaksi annetaan muuttuja, joka kertoo lapsen sukupuolen (SEX). Tämän jälkeen muodostetaan histogrammi muuttujasta PAINO. Ehdollistaminen voi tapahtua myös valitsemalla käsittelyyn vain tietyt tilastoyksiköt. Tämä tapahtuu valikosta Data Select cases... valitsemalla If condition is satisfied ja määrittelemällä sopivan if - ehdon (ehdon purku All cases).

15 15 Esimerkki 5. Halutaan esimerkin 4 aineistossa tarkastella vastasyntyneitä lapsia siten, että jätetään keskoset pois analyyseistä. Tällöin voidaan Select cases -kohdassa antaa if -ehto esimerkiksi PAINO > Tunnuslukuja Tunnusluvun avulla pyritään kuvaamaan muuttujan jakaumaa muuttujan arvoista lasketulla luvulla. Kuvataan esimerkiksi jakauman sijaintia sopivan keskiluvun avulla tai muuttujien arvojen vaihtelua hajontalukujen avulla. Muuttujan mitta-asteikko määrää, mitkä tunnusluvut ovat sallittuja käyttää. Keskilukuja ovat moodi, mediaani ja keskiarvo. Moodi on se muuttujan arvo, joka esiintyy useimmin ja sitä voidaan käyttää myös kvalitatiivisten muuttujien yhteydessä. Moodiluokka on usein käyttökelpoinen, kun muuttuja on kvantitatiivisen. Mediaani on sellainen muuttujan arvo, jota pienempiä ja suurempia arvoja on yhtä paljon. Mediaania voidaan käyttää, kun järjestyksellä on tulkinta eli muuttujan on vähintään järjestysasteikollinen. Aritmeettinen keskiarvo on sallittu kvantitatiivisten muuttujien yhteydessä. Tunnuslukuja voidaan tarkastella ehdollisina. Ehdollisia keskiarvoja (tai mediaaneja) voidaan käyttää tutkittaessa riippuvuutta kahden muuttujan välillä. Ehdollisten keskiarvojen käyttö riippuvuuden tutkimisessa edellyttää tietysti sitä, että selitettävä muuttuja on kvantitatiivinen. Esimerkki 6. Vaikuttaako sukupuoli lapsen syntymäpainoon? Tällöin lapsen syntymäpaino (PAINO) on selitettävä eli riippuva muuttuja (y) ja sukupuoli (SEX) selittävä eli riippumaton muuttuja (x). Pyritään selvittämään PAINO - muuttujan arvojen vaihtelua sillä, onko lapsi tyttö vai poika. Eräs mahdollisuus riippuvuuden selvittämisessä on keskiarvojen vertailu ryhmittäin eli ehdollisten keskiarvojen käyttö. Lasketaan PAINO -muuttujasta keskiarvot

16 16 tytöillä ja pojilla sekä vertaillaan keskiarvoeroja. Jos ehdolliset keskiarvot poikkeavat toisistaan sanotaan, että SEX -muuttujalla voidaan selittää PAINO - muuttujan vaihtelua. Sanotaan, että PAINO -muuttuja riippuu SEX - muuttujasta. Jos ehdolliset keskiarvot ovat lähes samoja, niin riippuvuutta ei ole (ks. tarkemmin esimerkit 7 ja 10). Muuttujan arvot vaihtelevat tilastoyksiköstä toiseen. Vaihtelun voimakkuutta pyritään mittaamaan erilaisia tunnuslukuja käyttäen. Kvantitatiivisten muuttujien yhteydessä vaihtelua mitataan usein varianssin avulla. Varianssi mittaa kuinka tiiviisti muuttujien arvot ovat keskittyneet keskiarvon ympärille. Varianssin neliöjuuri on nimeltään keskihajonta. Alakvartiili ja yläkvartiili ovat mediaanin kaltaisia tunnuslukuja, jotka kuvaavat jakauman sijaintia. Alakvartiili on luku, joka jakaa muuttujan arvot kahteen osaan siten, että korkeintaan 25 % havaituista arvoista on pienempiä kuin alakvartiili. Yläkvartiili on luku, joka jakaa muuttujan arvot kahteen osaan siten, että korkeintaan 75 % havaituista arvoista on pienempiä kuin yläkvartiili. Alakvartiili, mediaani ja yläkvartiili jakavat muuttujan arvot neljään havaintomääriltään yhtä suuriin osiin. Yhdessä näitä tunnuslukuja kutsutaan kvartiileiksi. Muuttujan arvot voidaan jakaa viiteen, kuuteen, jne. havaintomääriltään yhtä suuriin osiin. Yleisesti näitä osiin jakavia tunnuslukuja kutsutaan fraktiileiksi.

17 17 Jakaumaa kuvaavia erilaisia tunnuslukuja (myös ehdollisia tunnuslukuja) saadaan mm. seuraavilla tavoilla: Analyze Descriptive Statistics> Frequencies...Statistics saadaan halutuista muuttujista mm. keskiarvo, mediaani, fraktiilit, moodi, keskihajonta, varianssi, pienin arvo, suurin arvo Descriptives... Options saadaan halutuista muuttujista mm. keskiarvo, keskihajonta, varianssi, pienin arvo, suurin arvo, vaihteluväli Explore... saadaan halutuista muuttujista (Dependent List) mm. keskiarvo, keskihajonta, varianssi, pienin arvo, suurin arvo, vaihteluväli sekä tunnusluvut ehdollisina antamalla (kvalitatiivinen) ehtomuuttuja kohtaan Factor List Compare Means> Means... saadaan tunnusluvut ehdollisina antamalla ehtomuuttuja (kvalitatiivinen) selittäväksi muuttujaksi. Histogrammin teon yhteydessä saa automaattisesti muuttujan keskiarvon ja keskihajonnan. Ehdollisia jakaumia voidaan havainnollistaa myös laatikko-jana-kuvion (boxplot) avulla. Kuvio perustuu eri fraktiileihin ja saadaan tehdyksi valikosta Esimerkki 7. Graphs Boxplot... antamalla Variable -kohtaan tutkittava muuttuja ja Category -kohtaan ryhmittelymuuttuja. Tarkastellaan esimerkin 4 aineistoa. Tutkittaessa lapsen syntymäpainon riippuvuutta sukupuolesta, voidaan aluksi laske ehdolliset keskiarvot ja piirtää laatikko-jana -kuvio. Jos ehdolliset keskiarvot lasketaan valikosta Compare Means> Means..., niin annetaan Dependent List -muuttujaksi PAINO ja Independent List -muuttujaksi SEX. Näin saadaan tulos

18 18 Report PAINO SEX poika tyttö Total Mean N Std. Deviation 3640, , , , , ,321 jossa on ehdolliset keskiarvot (Mean) ja keskihajonnat (Std.Deviation). Näyttäisi siis siltä, että pojat ovat syntyessään keskimäärin tyttöjä painavampia (ks. testaus esimerkissä 10). Painon jakaumissa esiintyvä vaihtelu on myös jonkin verran erilaista; tytöillä keskihajonta on suurempi. Tämä näkyy hyvin myös hyvin laatikko-jana -kuviosta PAINO 2000 N = 65 poika 55 tyttö SEX joka on tehty valikosta Graphs>Boxplot... antamalla Variable -kohtaan PAINO ja Category -kohtaan SEX. Laatikko-jana -kuviossa keskimmäinen viiva on syntymäpainon mediaanin kohdalla ja laatikon ylä- ja alareunat ylä - ja alakvartiileissa. Kuviosta nähdään, että tyttöjen jakauma on alempana kuin poikien ja siinä on enemmän vaihtelua. Laatikot sisältävät 50 % havainnoista.

19 19 5 PISTEPARVI JA KORRELAATIOKERROIN Kun tarkastellaan kahta muuttujaa samanaikaisesti, niin on kyse kaksiulotteisesta jakaumasta. Tällöin ollaan kiinnostuneita muuttujien välisestä riippuvuudesta. Kaksiulotteisen jakauman graafinen esitystapa on pisteparvi eli korrelaatiodiagrammi, joka antaa hyvän yleiskuvan mahdollisesta riippuvuudesta ja sen laadusta. Pisteparvi on järkevä piirtää, kun selitettävä on kvantitatiivinen. Tulkinnassa on huomattava selittävän muuttujan mittaasteikko. Pisteparvi saadaan valikosta Graphs Scatter antamalla selitettävä y pystyakselille ja selittävä x vaaka-akselille. Myös kaksiulotteisista jakaumista voidaan määritellä tunnuslukuja, jotka nyt mittaavat riippuvuuden voimakkuutta. Yksi tällainen tunnusluku on korrelaatiokerroin, joka mittaa kahden kvantitatiivisen muuttujan välistä suoranomaista eli lineaarista riippuvuutta; sen voimakkuutta. Korrelaatiokertoimen ollessa lähellä nollaa lineaarista riippuvuutta ei ole. Täydellinen lineaarinen riippuvuus on silloin, kun korrelaatiokerroin on itseisarvoltaan 1. Korrelaatiokertoimen (korrelaatiomatriisin) voi laskea valikosta Analyze Correlate> Bivariate... (Pearson) antamalla halutut muuttujat.

20 20 Esimerkki 8. Esimerkin 4 aineistossa on muuttuja, joka ilmoittaa lapsen syntymäpituuden (PITUUS). Kun piirretään pisteparvi PAINO -muuttuja y - akselille ja PITUUS -muuttuja x - akselille saadaan kuvio PAINO PITUUS josta huomataan voimakas suoranomainen (lineaarinen) riippuvuus. Siis lapsen paino riippuu lineaarisesti pituudesta (ks. tarkemmin esimerkit 14 ja 15). Korrelaatiomatriisiksi saadaan PAINO PITUUS Correlations Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2 il d) PAINO PITUUS 1,720**,, ,720** 1,000, jossa korrelaatiokerroin pituuden ja painon välillä on 0.72 kertoen voimakkaasta lineaarisesta riippuvuudesta (ks. testaus esimerkissä 14).

21 21 6 JOITAIN YLEISESTI KÄYTETTYJÄ ANALYSOINTIMENETELMIÄ Tilastollinen hypoteesi on väittämä populaatiosta, sen jakaumasta ja/tai jakauman parametrista. Hypoteesin testaus tarkoittaa väittämän tutkimista otoksen perusteella. Väitteen paikkansa pitävyyttä tutkitaan otoksen (käytettävissä olevan aineiston) perusteella laskemalla tilanteeseen sopiva nk. testisuure. Tämän testisuureen arvon perusteella joko uskotaan väite tai ei uskota (jolloin vaihtoehtoinen väite hyväksytään). Johtopäätelmän tekeminen perustuu siihen, että selvitetään voidaanko otoksesta laskettua testisuureen arvoa väitteen ollessa tosi pitää tavanomaisten arvojen joukkoon kuuluvana vai katsotaanko se harvinaisten arvojen joukkoon kuuluvaksi. Jos testisuureen arvo kuuluu harvinaisten arvojen joukkoon, niin väitettä ei uskota. Mikä sitten on harvinaista? Testauksessa harvinaisiksi arvoiksi katsotaan sellaisten arvojen joukko, jonka todennäköisyys on melko pieni, esim. pienempi kuin Testauksessa onkin tapana ilmoittaa nk. p -arvo, joka kertoo todennäköisyyden saada väitteen ollessa tosi otoksesta saatua arvoa harvinaisempi arvo. Tämä on siis pienin ristitaso, jolla asetettu väite voidaan hylätä. Jos siis testaukseen liittyvä p -arvo on pieni, sanotaan vaikkapa 0.01, niin asetettua väitettä ei uskota; se hylätään ja hyväksytään vaihtoehtoinen väittämä. Se milloin p -arvon katsotaan olevan tarpeeksi pieni, riippuu siitä millainen todennäköisyys sallitaan sille, että tehdään väärä johtopäätelmä; väärä siten, että väittämä hylätään vaikka sen on tosi. Tämä virhetodennäköisyys ei saa olla suuri; sen halutaan usein olevan suuruusluokkaa pienempi kuin 5 %, 2.5 %, 1 %,... Jos p arvon on < 0.05 on tapana sanoa, että tulos on tilastollisesti melkein merkitsevä, jos p arvon on < 0.01 tilastollisesti merkitsevä ja jos p arvon on < tilastollisesti erittäin merkitsevä.

22 22 Hypoteesin testauksessa asetetaankin siis kaksi väittämää, joista toinen on välttämättä voimassa. Nollahypoteesi H 0, jonka ollessa tosi, testisuuren todennäköisyysjakauma tunnetaan, sekä vaihtoehtoinen hypoteesi H 1. Nollahypoteesi H 0 tulee aina asettaa käytetyn testin sanelemalla tavalla. Seuraavaksi esiteltävissä menetelmissä pyritään selittämään yhtä muuttuja. Selittäviä muuttujia on yksi tai useampia. Analysointimenetelmän valintaan vaikuttaa muuttujien mittaustaso. Tässä esityksessä käydään läpi kolme perustyyppiä. 6.1 Ristiintaulukko Kahden kvalitatiivisen muuttujan välinen riippuvuustarkastelu voidaan tehdä ristiintaulukon avulla vertailemalla selitettävän muuttujan ehdollisia prosenttijakaumia. Riippuvuuden merkitsevyys voidaan testata. Testisuureena käytetään χ 2 -riippumattomuustestisuuretta ja hypoteesit asetetaan H 0 : ei riippuvuutta H 1 : on riippuvuutta Testin käyttöön liittyy joitain oletuksia (ei mitta-asteikkovaatimuksia). Tilanteissa, jossa ristiintaulukointi on tehty siten, että molemmilla muuttujilla on kaksi luokkaa, testiä voidaan käyttää, jos n > 40. Jos nelikentässä 20 n 40, niin kaikkien nk. teoreettisten frekvenssien (frekvenssit, jos riippuvuutta ristiintaulukon perusteella ei olisi) on oltava 5. Muulloin kaikkien teoreettisten frekvenssien on oltava > 1 sekä enintään 20 % saa olla < 5. Jos vaatimukset eivät täyty, on ristiintaulukointi tehtävä uudella luokituksella.

23 23 χ 2 -testisuureen arvot ovat 0, joten harvinaisten arvojen joukko muodostuu suurista arvoista. Ristiintaulukointi ja testaus tehdään valikosta Analyze Descriptive Statistics> Crosstabs... annetaan sarake- ja rivimuuttujat, lisämääreinä Statistics... -painike>chi-square, χ 2 -testisuure Cells... -painike, ehdolliset prosenttijakaumat, suunta valitaan siten, että saadaan selitettävän prosenttijakaumat selittäjän luokissa. SPSS muodostaa ristiintaulukon siten, että molempien muuttujien jokainen arvo on omana luokkanaan. Jos on tarvetta yhdistellä muuttujien arvoja, tehdään se muodostamalla uusi muuttuja havaintomatriisiin (Transform>Recode>). Kvantitatiivista muuttujaa voi halutessaan myös käyttää ristiintaulukoinnissa, kunhan luokittelee sen ensin. Esimerkki 9. Tarkastellaan eräältä kurssilta saatua opiskelijapalautetta. Halutaan selvittää, onko opintosuunnalla vaikutusta annettuun palautteeseen. ARVIO -aineistossa (sivulla ) on muuttuja OPINTOJAKSON TYÖLÄYS, joka kertoo vastaajan mielipiteen opintojakson työläydestä (työläs/sopiva/vähätöinen) sekä palautteen antajan opintosuunta (OPSUUNTA). Nyt asetetaan H 0 : Opintosuunta ei vaikuta annettuun arvioon H 1 : Opintosuunta vaikuttaa annettuun arvioon. Kun nyt suoritetaan edellä esitetyllä tavalla ristiintaulukointi, saadaan taulukko

24 24 Opintojakson työläys * OPSUUNTA Crosstabulation Opintojakson työläys Total työläs sopiva vähätöinen Count % within OPSUUNTA Count % within OPSUUNTA Count % within OPSUUNTA Count % within OPSUUNTA OPSUUNTA hallinto taloust Total ,4% 34,8% 44,6% ,3% 32,6% 30,8% ,3% 32,6% 24,6% ,0% 100,0% 100,0% Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (2-sided) 7,668 a 2,022 8,680 2,013 7,548 1, a. 1 cells (16,7%) have expected count less than 5. The minimum expected count is 4,68. Aluksi huomataan, että OPINTOJAKSON TYÖLÄYDEN prosentuaaliset jakaumat opintosuunnittain poikkeavat huomattavasti toisistaan. Mutta ovatko erot riittävän suuria, jotta voidaan tehdä päätelmä riippuvuuden olemassaolosta? Tuloksesta (kohta a.) nähdään ensin, että oletuksen testin käyttöön ovat voimassa (pienin teoreettinen (odotettu) frekvenssi on 4.68 ja alle 5 teoreettisia frekvenssejä 16.7 %). χ 2 -riippumattomuustestisuureen arvo (Pearson Chi-Square) on 7.668, joka voidaan katso harvinaisten arvojen joukkoon kuuluvaksi, jos harvinaisena pidetään sellaisten arvojen joukkoa, joiden todennäköisyys on esim. pienempi kuin Tällöin H 0 hylätään ja H 1 hyväksytään ja tehdään johtopäätelmä, että opintosuunta vaikuttaa annettuun arvioon. Tässä siis p -arvo on Jos halutaankin ottaa esimerkiksi vain 1 %:n riski, niin silloin H 0 hyväksytään, koska > 0.01.

25 25 Tilastollisten testin suorittaminen tapahtuu periaatteessa kaikissa tilanteissa edellä esitetyllä tavalla. Asetetaan testattava hypoteesi, lasketaan testisuureen arvo ja pienin riskitaso, jolla nollahypoteesi voidaan hylätä. Tämän p -arvon perusteella joko hyväksytään väittämä tai hylätään se. Eri tilanteissa nollahypoteesi, testisuure ja sen jakauma ovat erilaisia. 6.2 Odotusarvojen yhtäsuuruuden testaaminen t -testillä Tutkittaessa kvantitatiivisen muuttujan riippuvuutta kvalitatiivisesta muuttujasta, jolla on kaksi luokkaa, voidaan käyttää riippumattomien otosten t -testiä kahden populaation keskiarvojen (odotusarvojen) yhtäsuuruuden testaamiseksi. Hypoteesit asetetaan H 0 : populaation keskiarvot ovat samoja ( ei riippuvuutta ) H 1 : populaation keskiarvot eivät ole yhtä suuria ( on riippuvuutta ) Vaihtoehtoinen hypoteesi voidaan asettaa myös yksisuuntaisena, jolloin H 1 : toisen populaation keskiarvo on toista suurempi. Riippumattomien otosten t - testissä oletetaan, että käytössä on riippumattomat satunnaisotokset normaalijakaumista, joiden varianssit ovat yhtä suuret, mutta tuntemattomat. Testisuure, jota käytetään, noudattaa nollahypoteesin ollessa tosi nk. Studentin t -jakaumaa, joka määritellään nk. vapausastein. Jakauma on symmetrinen origon suhteen. Siis harvinaisten arvojen joukko muodostuu kaksisuuntaisessa testissä itseisarvoltaan suurista arvoista. Riippumattomien otosten t -testi saadaan valikosta Analyze Compare Means> Independent Samples T-test... (riippumattomat otokset) annetaan selitettävä (Test Variables) sekä selittävä, ryhmittely -muuttuja (Grouping Variable).

26 26 Tuloksena saadaan testisuureen lisäksi myös ehdolliset keskiarvot ja varianssit sekä testisuure varianssien yhtäsuuruuden testaamiseksi. Esimerkki 10. Onko tytöillä ja pojilla eroja syntymäpainossa? H 0 : Painon keskiarvot samoja molemmissa populaatioissa H 1 : Painon keskiarvot eivät samoja molemmissa populaatioissa. SAIDIT -aineistossa sivulla on muuttujat PAINO (g) ja SEX. Nyt siis selitetään muuttujaa PAINO, joka on kvantitatiivinen. Selittäjä on SEX -muuttuja, joka on kvalitatiivinen, kaksiluokkainen. Suoritetaan riippumattomien otosten t -testi ja saadaan tulokset Group Statistics PAINO SEX poika tyttö Std. Error N Mean Std. Deviation Mean ,46 438,244 54, ,27 523,280 70,559 Independent Samples Test PAINO Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper,293,589 2, , ,19 87,765 15, ,99 2, ,7, ,19 89,069 12, ,78 Tässä on siis riippumattomat otokset tyttö- ja poikapopulaatioista. Otoskoot ovat 65 ja 55. Syntymäpainon keskiarvojen erotus on g. Kuten jo aiemmin on todettu painon otosvarianssit ( ja ) poikkeavat toisistaan. Tuloksista löytyy testisuure (Levene s Test for Equality of Variances) hypoteesille H 0 : Populaatioidn varianssit samoja. Koska tähän liittyvä p -arvo on (>0.05), H 0 hyväksytään ja todetaan, että vaatimus varianssien

27 27 yhtäsuuruudesta voidaan kuitenkin olettaa olevan täytetty. Jos näin ei olisi, niin t -testin tulokset luettaisiin toiselta riviltä. Normaalijakauma -oletus jätetään tässä testaamatta. Varsinaisen testisuureen arvo on siis ja tähän kaksisuuntaiseen testiin liittyvä p -arvo 0.033, yksisuuntaisessa testissä se olisi 0.033/2. Jos riskitasoksi valitaan 5 %, niin nollahypoteesi hylätään (koska p < 0.05) ja tehdään päätelmä, että tytöt ja pojat ovat syntyessään keskimäärin eri painoisia. Jos otettaisiin riski, joka olisi pienempi kuin 3.3 % (vaikkapa 1 %) niin tehtäisiin päinvastainen päätelmä! Tulostuksesta löytyy myös 95 % luottamusväli odotusarvojen erotukselle. Testin sijaan voidaan käyttää tätä luottamusväliä johtopäätelmän tekemisessä. Jos luottamusväli sisältää nollan niin populaation keskiarvojen erotus voidaan arvioida olevan nolla (eri tyttö- ja poikapopulaatiossa syntymäpainon keskiarvot samoja!). Tässä luottamusväli, jolle populaatioiden keskiarvojen erotuksen arvellaan kuuluvan, on

28 28 Esimerkki 11. Halutaan tutkia, miten saunan olemassaolo vaikuttaa asunnon neliöhintaan (aineisto esim. 1). Koska neliöhinnat ovat hyvin erilaiset keskustaja lähiöalueilla, tutkitaan asiaa erikseen keskustassa ja muualla. Aineistossa on muuttuja, joka kertoo onko kyseessä keskusta-asunto (KESK). Samoin löytyy muuttuja, joka kertoo saunan olemassaolon (SAUNA). Suoritetaan riippumattomien otosten t -testi selittäen muuttujaa NELIÖH (määritelty esimerkissä 1) muuttujalla SAUNA. Tehdään tämä analyysi erikseen keskustaja lähiöasunnoille käyttäen ennen t -testin tekoa komentoa Split file, jossa ehtomuuttujaksi annetaan muuttuja KESK. Saadaan seuraavat tulokset: Group Statistics Keskustassa? ei kyllä Neliöhinta Neliöhinta Onko sauna? ei kyllä ei kyllä Std. Error N Mean Std. Deviation Mean , , , , , , , , , , , ,46605 Independent Samples Test Keskustassa? ei kyllä Neliöhinta Neliöhinta Equal variances assumed Equal variances not assumed Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 1,031,320-1,866 24, , , ,22 22,77-1,593 9,849, , , ,83 86,37,014,906-5,004 28, , , ,81-175,1-4,909 22,15, , , ,67-171,3 Huomataan ensin, että molemmissa tilanteissa varianssioletus on kunnossa (p - arvot 0.320, 0.906). Testattaessa odotusarvojen yhtäsuuruutta saadaan keskustaasunnoille t = , p = 0.00 ja lähiöasunnoille t = , p = Siis sauna vaikuttaa asunnoin keskihintaan keskustassa mutta ei lähiössä. Keskustassa saunallisen huoneiston neliöhinta on keskimäärin korkeampi kuin saunattoman. Johtopäätelmät voidaan tehdä myös luottamusvälien avulla; keskusta-asunnoissa nolla ei kuulu luottamusvälille, lähiöasunnoissa kylläkin.

29 29 Esimerkki 12. Tutkitaan lääkkeen vaikutusta suoritukseen. Mitataan koehenkilöiltä suoritus (kvantitatiivisesti) normaalitilanteessa sekä lääkkeen vaikutuksen alaisena. Vaikuttaako lääke suoritukseen? Esimerkissä 12 ei ole kyse riippumattomista otoksista, koska samoilta henkilöilta on mitattu (kvantitatiivista) ominaisuutta ennen - jälkeen tilanteessa. Nyt tutkitaankin sitä, onko suorituksen muutos peräisin (normaali)jakaumasta, jonka odotusarvo on nolla (H 0 ). Tässä käytetään riippuvien otosten (vastinparien) t-testiä, joka saadaan valikosta Analyze Compare Means> Paired-Samples T-test... annetaan kaksi muuttujaa, toisessa arvot ennen toisessa jälkeen. 6.3 Varianssianalyysi Tutkittaessa kvantitatiivisen muuttujan riippuvuutta kvalitatiivisesta muuttujasta, jolla on useampi kuin kaksi luokkaa voidaan käyttää yksisuuntaista varianssianalyysiä populaatioiden keskiarvojen (odotusarvojen) yhtäsuuruuden testaamiseksi. Tämä on siis yleistys edellä esitetylle riippumattomien otoksien t -testille. Nytkin testattavana hypoteesina on H 0 : populaation keskiarvot ovat samoja ( ei riippuvuutta ) H 1 : populaation keskiarvot kaikki eivät yhtä suuria ( on riippuvuutta ) Testin käyttöön liittyy samat oletukset kuin t -testissäkin. On tehty riippumattomat otokset normaalijakaumista, joiden varianssit yhtä suuret mutta tuntemattomat. Jos otoksia on kaksi, voi tehdä joko t -testin tai suorittaa varianssianalyysin. Tässä tilanteessa ne ovat identtiset. Varianssianalyysissä käytetään nk. F -testisuuretta odotusarvojen yhtäsuuruuden testaamiseksi. Varianssianalyysi suoritetaan valikosta

30 30 Analyze Compare Means> One-Way ANOVA... annetaan selitettävä, riippuva (Dependent List) muuttuja sekä selittävä (Factor) muuttuja. Tuloksena saadaan testisuureen lisäksi pyydettäessä (Options...) myös ehdolliset keskiarvot ja varianssit sekä testisuure varianssien yhtäsuuruuden testaamiseksi. F -testisuuretta käytettäessä suurten arvojen joukko muodostaa harvinaisten arvojen joukon. Jos saadaan tulos, että odotusarvot eivät kaikki ole yhtä suuria, voidaan myös tehdä monivertailuja ryhmittäin (PostHoc...). Nimitys yksisuuntainen (varianssianalyysi) tulee siitä, että on yksi selittäjä. Nimitys varianssianalyysi on hieman harhaanjohtava, koska analyysissä ei testata varianssien yhtäsuuruutta (paitsi oletusten tutkimisessa) vaan odotusarvojen yhtäsuuruutta. Esimerkki 13. Halutaan tutkia, vaikuttaako tomaattilajike keskimääräiseen satomäärään. TOMSATO -aineistossa (sivulla on SATO -muuttuja, joka on kvantitatiivinen sekä LAJIKE -muuttuja, joka ilmoittaa käytetyn lajikkeen (kolme lajiketta). Nyt H 0 : sadon odotusarvot ovat samoja kaikilla lajikkeilla ( ei riippuvuutta ) H 1 : sadon odotusarvot kaikki eivät yhtä suuria ( on riippuvuutta ) Saadaan seuraavat tulokset: Descriptives SATO 1,00 2,00 3,00 Total 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 12 11,3333 1,88310, , ,5298 7,90 14, ,2083 2,34887, , ,7007 8,10 15, ,1250 1,73369, , , ,30 21, ,8889 3,62671, , ,1160 7,90 21,00

31 31 Test of Homogeneity of Variances SATO Levene Statistic df1 df2 Sig., ,442 ANOVA SATO Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 327, ,799 40,716, , , , Multiple Comparisons Dependent Variable: SATO Bonferroni (I) LAJIKE 1,00 2,00 3,00 (J) LAJIKE 2,00 3,00 1,00 3,00 1,00 2,00 Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound -,8750,81884,879-2,9403 1,1903-6,7917*,81884,000-8,8570-4,7264 *. The mean difference is significant at the.05 level.,8750,81884,879-1,1903 2,9403-5,9167*,81884,000-7,9820-3,8514 6,7917*,81884,000 4,7264 8,8570 5,9167*,81884,000 3,8514 7,9820 Ensin huomataan, että ehdolliset otoskeskiarvot näyttäisivät poikkeavan toisistaan ainakin verrattaessa lajikkeen 3 keskiarvoja muihin. Kun testataan varianssien yhtäsuuruutta (kolmessa populaatiossa, tarkastellaan satomäärää kolmella lajikkeella), voidaan olettaa niiden olevat yhtä suuret, koska p = Testattaessa odotusarvojen yhtäsuuruutta saadaan F = ja p = 0.000, joten H 0 hylätään ja tehdään johtopäätelmä, että kaikki lajitteet eivät tuota keskimäärin samanlaista satoa. Missä sitten on eroja? Lajikkeittain vertailu (Multiple Comparisons) kertoo, että eroja on lajikkeiden 3 ja 1 (p = 0.000) sekä 3 ja 2 (p = 0.000) välillä mutta ei lajikkeiden 1 ja 2 välillä (p = 0.879).

32 32 Jos halutaan selittää kvantitatiivista muuttuja kahdella kvalitatiivisella samanaikaisesti, kaksisuuntaista varianssianalyysiä saattaa olla käyttökelpoinen. Analyysi saadaan tehtyä valikosta Analyze General Linear Model> Univariate... annetaan selitettävä, riippuva (Dependent Variable) muuttuja sekä selittävät (Fixed Factors) muuttujat Kaksisuuntaisessa varianssianalyysissä voidaan tutkia molempien selittäjien omavaikutusta sekä yhdysvaikutusta. Jokaiseen tehdään omat F -testit. 6.4 Regressioanalyysi Regressioanalyysillä tutkitaan muuttujan y riippuvuutta muuttujajoukosta x 1, x 2,..., x k. Pyritään löytämään malli, joka kertoisi y:n riippuvuuden selittäjistä. Kaikkien muuttujien oletetaan olevan kvantitatiivisia. Tosin joissain tilanteissa selittäjissä voi olla dikotomisia muuttujia, mikä on sitten huomioitava mallin tulkinnassa tietyllä tavalla. Regressioanalyysin yhteydessä ajatellaan selitettävän muuttujan y riippuvuuden muuttujista x 1, x 2,..., x k olevan muotoa Y = β 0 + β 1 x 1 + β 2 x β k x k + ε, missä Y on satunnaismuuttuja (response) selitettävä muuttuja, havaittavissa oleva; x 1, x 2,..., x k ovat selittäviä, ei-satunnaisia, havaittuja, kontrolloitavissa olevia; ε on satunnaismuuttuja, virhetermi (ei havaittavissa oleva, oletetaan jokainen ε i ~ N(0, σ 2 ), i = 1, 2, n, ja ε i :t riippumattomia); β 0, β 1, β 2,..., β k ovat mallin tuntemattomat parametrit, jotka aineiston perusteella ovat estimoitavissa. Jos k = 1, on kyse yhden selittäjän regressiomallista, jos k = 2 kahden selittäjän, jne. Vakiokerroin β 0 voi tarvittaessa puuttua mallista.

33 33 Tavanomainen yhden selittäjän regressioanalyysi tuottaa tulosta lineaarisesti riippuvien muuttujien yhteydessä. Tällöin pisteparveen voidaan sovittaa suora, jonka ympärille pisteiden ajatellaan ryhmittyneen. Tällöin tarkastellaan mallia Y = β 0 + β 1 x + ε, missä β 0 ja β 1 ovat mallin parametrit sekä ε satunnaisvirhe. Tässä yhden selittäjän regressiomallissa ajatellaan siis satunnaismuuttujan Y:n muodostuvan x:n avulla selitettävästä osasta β 0 + β 1 x sekä satunnaisvaihtelusta ε. Mallin estimointi sisältää parametrien β 0 ja β 1 estimoinnin. Tässä siis estimoidaan suora, jonka ajatellaan kuvaavan y:n riippuvuutta x:stä. Estimoitu malli (suora) on yˆ = ˆ β + ˆ β x 1. 0 Yhden selittäjän regressioanalyysissä siis estimoidaan pisteparveen sovitettava suora; suoran vakiokerroin sekä kulmakerroin. Ajatellaan, että y:n arvot määräytyvät keskimäärin x:n arvoista estimoidun suoran yhtälön mukaisesti. Mitä paremmin pisteet ovat keskittyneet suoran ympärille, sitä voimakkaampaa on riippuvuus. Korrelaatiokerroin mittaa tätä lineaarisen riippuvuuden voimakkuutta. Otoksesta laskettua korrelaatiokerrointa käyttäen voidaankin testata, onko populaatiossa kahden muuttujan välinen korrelaatiokerroin nolla. Tällöin H 0 : populaation korrelaatiokerroin on nolla ( ei lineaarista riippuvuutta ) H 1 : populaation korrelaatiokerroin ei ole on nolla ( on lineaarista riippuvuutta ). Tässä käytetään testisuuretta, joka noudattaa Studentin t -jakaumaa nollahypoteesin ollessa tosi. Harvinaiset arvot (kaksisuuntaisessa testissä) muodostuvat itseisarvoltaan suurista arvoista. Kun SPSS:llä lasketaan

34 34 korrelaatiomatriisi (ks. luku 5), niin saadaan samalla tähän t -testisuureeseen liittyvä p -arvo. Esimerkki 14. Esimerkin 8 aineistossa korrelaatiokerroin lapsen syntymäpituuden ja -painon välillä on Kun testataan hypoteesia H 0 : lapsen paino ja pituus eivät riipu lineaarisesti toisistaan, se hylätään, koska p = Lineaarista riippuvuutta siis on ja se voidaan mallittaa suorittamalla regressioanalyysi (ks. esimerkki 15). Regressioanalyysissä estimoinnin lisäksi suoritetaan erilaisia mallin uskottavuuden ja hyvyyden tarkasteluja. Ensimmäisenä on selvitettävä voidaanko estimoitujen parametrien perusteella päätellä, että mallin parametrit ovat nollasta poikkeavia. Testataan yhden selittäjän mallissa aluksi sitä onko x merkittävä selittäjä. Tällöin testattavana hypoteesina on H 0 : β 1 = 0 H 1 : β 1 0, johon saadaan t -testisuure. Jos x on todettu merkittäväksi selittäjäksi, niin halutessa voidaan myös tutkia, onko vakiokertoimen β 0 syytä olla mallissa. Tällöin H 0 : β 0 = 0 H 1 : β 0 0. Tähänkin saadaan t -testisuure. Lisäksi saadaan mallin selityskerroin R 2. Ilmoittamalla 100R 2, voidaan puhua mallin selitysasteesta. Yhden selittäjän regressiomallissa 100R 2 = 100(r xy ) 2 kertoen kuinka monta prosenttia y:n vaihtelusta kyseisellä yhden selittäjän

35 35 mallilla voidaan x:n avulla selittää. R 2 :lla on tämä tulkinta vain silloin, kun mallissa on vakiokerroin. Regressioanalyysin suoritus tapahtuu valikosta Analyze Regression> Linear... annetaan selitettävä, riippuva (Dependent) muuttuja sekä selittävä(t), (riippumattomat, Independent(s)) muuttuja(t), lisävalintana mm. mallinvalintamenetelmä (Method). Esimerkki 15. Tarkastellaan lapsen syntymäpainon riippuvuutta syntymäpituudesta. Käytetään esimerkin 4 aineistoa. Esimerkissä 8 olevasta pisteparvesta nähdään, että pisteparveen voidaan sovittaa suora. Kun suoritetaan regressioanalyysi selittäen PAINO -muuttujaa PITUUS - muuttujalla, saadaan tulokset Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate,720 a,518, ,132 a. Predictors: (Constant), PITUUS Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig ,20 126,711,000 a , a. Predictors: (Constant), PITUUS b. Dependent Variable: PAINO Model 1 (Constant) PITUUS a. Dependent Variable: PAINO Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig , ,297-6,688, ,142 15,381,720 11,257,000

36 36 Merkitään (teknisistä syistä) PAINO = Y ja PITUUS = x. Tarkasteltava regressiomalli on nyt Y = β 0 + β 1 x + ε. Kun malli on estimoitu, saadaan suora ŷ = x. Esimerkiksi 50 cm pitkä lapsi painaa keskimäärin g. Siis lapsen paino lisääntyy keskimäärin g pituuden lisääntyessä 1 cm. Mallissa molemmat kertoimet ovat merkittäviä (t = , p =.000; t = , p =.000). Painoa voidaan siis selittää pituudella esitetyn mallin mukaisesti. Lisäksi saadaan selitysprosentiksi Pituus siis selittää lapsen painon vaihtelusta 51.8 %. Useamman selittäjän malliin liittyvät samalla tavalla yksittäisten kertoimien testaukset t -testien avulla. Tällöin tutkitaan sitä, lisääkö kyseisen selittäjän tuonti malliin, muiden jo siellä ollessa, mallin selitysastetta riittävästi. Tällöin H 0 : β i = 0 H 1 : β i 0. Lisäksi voidaan testata F -testillä kaikkien selittäjien yhteisvaikutusta eli tutkia sitä saadaanko y:n vaihtelua selitettyä siten, että otetaan kaikki tarkasteltavat selittäjät samanaikaisesti malliin mukaan. Tämä regressiokertoimien yhteistestaus (kun vakiokerroin on mallissa mukana) voidaan muotoilla H 0 : β 1 = β 2 =... = β k = 0 H 1 : ainakin jokin β 0 i Mallin valinta ei aina ole kovin helppoa. Pyritään valitsemaan niin monta merkittävää selittäjää, että selitysaste on mahdollisimman hyvä. On kuitenkin pidettävä mielessä se, että mallin on oltava käyttötarkoitukseensa sopiva ja tulkittavissa oleva. Vaikka on olemassa erilaisia automaattisia mallinvalintamenettelyjä, on niitä syytä käyttää hyvin harkiten.

37 37 Esimerkki 16. Tutkitaan, miten tuotteen myyntiin (SALE) vaikuttaa mainontaan (ADVERTISING) ja myyntihenkilöstön palkkoihin (SALESMEN) käytetty rahamäärä, (aineisto Newbold, P., (1995) Statistics for Business and Economics, s. 560 sivulla Kaikkia muuttujia on mitattu tuhansina dollareina. Estimoidaan ensin paras yhden selittäjän regressiomalli ja täydennetään se kahden selittäjän malliksi. Käytetään mallin valinnassa FORWARD -menetelmää. Estimointitulokset ovat Model 1 2 Model Summary Adjusted Std. Error of R R Square R Square the Estimate,905 a,818,800 10,37407,988 b,976,970 4,00315 a. Predictors: (Constant), Salesmen b. Predictors: (Constant), Salesmen, Advertising Model 1 2 Regression Residual Total Regression Residual Total ANOVA c Sum of Squares df Mean Square F Sig. 4848, ,454 45,051,000 a 1076, , , , , ,355,000 b 144, , , a. Predictors: (Constant), Salesmen b. Predictors: (Constant), Salesmen, Advertising c. Dependent Variable: Sale Model 1 2 (Constant) Salesmen (Constant) Salesmen Advertising a. Dependent Variable: Sale Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 65,152 11,738 5,550,000 6,261,933,905 6,712,000 32,277 6,253 5,162,001 4,759,410,688 11,596,000 2,506,329,452 7,626,000

38 38 Paras yhden selittäjän malli on SALE = β 0 + β 1 SALESMEN + ε. Mallin kertoimet ovat merkittäviä (p -arvot ja 0.000) ja selitysprosentti Koetetaan parantaa mallia lisäämällä mukaan toinen selittäjä. Tällöin malli on SALE = β 0 + β 1 SALESMEN + β 2 ADVERTISING + ε. Estimointituloksen perusteella nähdään, että yksittäisten kertoimien testauksen yhteydessä kaikki nollahypoteesit hylätään eli mallin kertoimet ovat merkittäviä (t = 5.162, p = 0.001; t = , p = 0.000; t = 7.626, p = 0.000) ja selitysprosentti Samoin yhteistestauksessa nollahypoteesi hylätään (F = , p = 0.000). Malli on siis kaikin puolin kunnossa ja keskimääräistä myyntiä (merkitään y) voidaan nyt estimoida ŷ = SALESMEN ADVERTISING. Tuotteen myynti on keskimäärin $32.277, vaikka resursseja ei käytettäisikään mainontaan eikä myyntihenkilöstön palkkaamiseen. Jos esimerkiksi mainontakulut ovat $ ja henkilöstökulut $11.000, niin tuotetta myydään keskimäärin $ LOPUKSI Oppaassa tarkasteltiin empiirisen tutkimuksen eri työvaiheita ja toteutusta SPSS -ohjelmalla. Seuraavassa on lyhyesti yhteenveto tutkimuksen työvaiheista. Kun havaintoaineisto on hankittu, muokataan se analysointia varten havaintomatriisimuotoon. Muuttujien mitta-asteikot on syytä selvittää, jotta analyysit tulee oikein valituksi. Havaintomatriisi talletetaan tietokoneelle joko käytettävällä tilastolaskentaohjelmalla tai siten, että analysoinnin apuvälineenä käytettävä tilastollinen ohjelmisto pystyy sen lukemaan. Tietojen taltioinnin oikeellisuus on syytä tarkistaa. Yleiskuvan saamiseksi aineistosta analysointi aloitetaan muuttujien jakaumien muodostamisella sekä tarpeellisten tunnuslukujen laskulla. Käytetään tarpeen mukaan tilanteeseen sopivia graafisia esityksiä. Jakaumien teon yhteydessä voidaan löytää tallennusvirheitä.

39 39 Seuraavaksi on vuorossa varsinainen analysointi. Valitaan kuhunkin tilanteeseen käyttökelpoinen menetelmä ja suoritetaan analyysi ja tulkitaan tulokset. Jokaiseen analysointivaiheeseen kuuluu siis johtopäätelmien teko. Esimerkiksi aineiston kuvailun yhteydessä voidaan kiinnittää huomio jakauman muotoon. Riippuvuustarkastelujen yhteydessä tehdään johtopäätelmiä riippuvuussuhteista perustaen päätelmien teko analysoinnissa saatuihin tuloksiin. Tilastollisen tutkimuksen keskeisen vaiheen muodostaakin näiden tutkimustulosten esittäminen sellaisessa kirjallisessa asussa, että lukija, jolle tutkimustulokset on tarkoitettu, saa sen sisältämän informaation mahdollisimman helposti, havainnollisesti ja yksikäsitteisessä muodossa. Työ on syytä jäsennellä selkeästi alaotsikointia ja kappalejakoa käyttäen. Kuviot ja taulukot laaditaan yleisten sopimusten mukaisesti, ne numeroidaan ja otsikoidaan. Kuvioiden ja taulukoiden on muodostettava sellaisia itsenäisiä kokonaisuuksia, että lukija voi muuhun tekstiin turvautumatta ymmärtää niissä esitetyn asian. (ks. )

Näytä lisää