Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla. TILTP1 (http://www.uta.fi/~strale/tiltp1.html) SPSS for Windows -ohjelmiston avulla



Samankaltaiset tiedostot
TUTKIMUSOPAS. SPSS-opas

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Tampereen yliopiston kirjasto, 2003

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

MTTTP1, luento KERTAUSTA

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTP1, luento KERTAUSTA

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

2. Aineiston kuvailua

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Kandidaatintutkielman aineistonhankinta ja analyysi

SPSS OPAS. Metropolia Liiketalous

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla

ja arvioita ohjelmiston soveltuvuudesta TILTP1 kurssin käyttöön

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

IBM SPSS Statistics 21 (= SPSS 21)

Summamuuttujat, aineiston pilkkominen ja osa-aineiston poiminta 1

SPSS-perusteet. Sisältö

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

Muuttujien määrittely

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

MONISTE 2 Kirjoittanut Elina Katainen

Kvantitatiiviset tutkimusmenetelmät maantieteessä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastomenetelmien lopputyö

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTP5, luento Luottamusväli, määritelmä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

Sovellettu todennäköisyyslaskenta B

Harjoittele tulkintoja

Til.yks. x y z

Tilastotieteen johdantokurssi [TILTP1]

Tilastotieteen johdantokurssi [TILTP1]

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

pisteet Frekvenssi frekvenssi Yhteensä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Määrällisen aineiston esittämistapoja. Aki Taanila

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Kvantitatiiviset menetelmät

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

StatCrunch -laskentasovellus

Määrällisen aineiston esittämistapoja. Aki Taanila

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

SPSS-ohjeita. Metropolia Pertti Vilpas

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %?

(Jos et ollut mukana viime viikolla, niin kopioi myös SPSS-havaintoaineistotiedostot Yritys2 ja neljän kunnan tiedot.)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset toiminnot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Luento JOHDANTO

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastotieteen johdantokurssi (TILTP1)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 6

Til.yks. x y z

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Ohjeita kvantitatiiviseen tutkimukseen

Näillä sivuilla Tilastomatematiikan esimerkit, joissa käsitellään tietokoneen käyttöä tilastollissa operaatioissa, on tehty Excel versiolla.

Perusnäkymä yksisuuntaiseen ANOVAaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Teema 5: Ristiintaulukointi

Tilastotieteen johdantokurssi (TILTP1)

SPSS* - tilastoanalyyttinen ohjelma

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Tilastotieteen johdantokurssi [MTTTP1] Lukuvuosi

STATLETS -TILASTO-OHJELMISTON KÄYTETTÄVYYS TILASTOTIETEEN OPISKELUSSA

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

2. Aineiston kuvaaminen graafisesti 1

Transkriptio:

Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla TILTP1 (http://www.uta.fi/~strale/tiltp1.html) SPSS for Windows -ohjelmiston avulla Raija Leppälä (raija.leppala@uta.fi) ALUKSI Tämä opas on tarkoitettu harjoitustyön tekemisen tueksi ja oppaaksi opintojaksolla TILTP1, kun toteutuksessa käytetään SPSS for Windows - ohjelmistoa. Tässä ei esitellä yksityiskohtaisesti eri toimintojen teknistä toteuttamista, vaan annetaan ainoastaan ohjeet siitä, mistä haluttu analyysi löytyy, ja kiinnitetään huomiota analyysin oikeaan valintaan ja tulkintaan. Tarvittaessa teknisiä oppaita löytyy lukuisia (ks. Liite 1, esimerkiksi Karjalainen (1999), Kanniainen (1999)). Tähän oppaaseen on poimittu opintojaksolle TILTP1 soveltuvia osia opetusmonisteesta Leppälä, R., Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla, Tampereen yliopisto, Matematiikan, tilastotieteen ja filosofian laitos, B53, 2000. Tampereella 27.8.2001

2 SISÄLLYSLUETTELO 1 Johdanto 3 2 SPSS -ympäristö 3 3 Havantomatriisin luominen ja muokkaaminen 5 4 Muuttujien jakaumat ja tunnusluvut 7 4.1 Jakaumat 7 4.2 Ehdollistaminen 9 4.3 Tunnuslukuja 10 5 Pisteparvi ja korrelaatiokerroin 13 6 Ristiintaulukko 14 7 Lopuksi 15 Liite 1 Joitain SPSS -oppaita sekä kirjallisuutta, jossa yhdistetty tilastollinen tutkimus sekä SPSS -opastus. 16

3 1 JOHDANTO Tilastollinen analyysi voidaan karkeasti jakaa kuvailevaan analyysiin ja tilastolliseen inferenssiin (päättelyyn). Kuvaileva osuus pyrkii kuvailemaan tietoaineistoa erilaisten graafisten esitysten ja tunnuslukujen sekä taulukoiden avulla. Tilastollinen päättely käsittelee johtopäätelmien tekoa populaatiosta aineiston (otoksen) perusteella. Inferenssi perustuu todennäköisyysjakaumiin ja niiden hyväksi käyttöön erilaisten testien ja analyysien yhteydessä. Tässä monisteessa esitellään lyhyesti joitain kuvailevaan analyysiin liittyviä menetelmiä, annetaan ohjeita menetelmän valinnasta ja analyysin suorittamisesta SPSS (Statistical Package for Social Sciences) 9.0 for Windows - ohjelmiston avulla. Lähdetään liikkeelle aineiston tallennuksesta, muokkauksesta ja kuvailusta, jonka jälkeen esitellään joitain menetelmiä riippuvuussuhteiden selvittämiseksi. SPSS for Windows -ohjelmisto on helppokäyttöinen, Windows -ympäristössä toimiva, valikko-ohjattu tilastollinen ohjelmisto, jolla on mahdollista suorittaa empiirisen aineiston tallennus ja muokkaus sekä tilastolliset analyysit graafisine esityksineen. Ohjelmisto sisältää hyvin laajan valikoiman analysointimenetelmiä aina aineiston kuvailuun liittyvistä menetelmistä ei-parametrisiin testeihin, monimuuttujamenetelmiin, epälineaarisiin malleihin ja aikasarjaanalyysiin. 2 SPSS -YMPÄRISTÖ Käynnistettäessä SPSS -ohjelma avautuu Data Editor -ikkuna (aineistoikkuna). Tämä ikkuna sisältää ohjelman päävalikon. Analysointeja tehtäessä tulokset tulevat automaattisesti avautuvaan Output navigator -ikkunaan (tulostusikkunaan), jonka valikko poikkeaa jonkin verran Data Editor -ikkunan valikosta.

4 Päävalikko, jonka avulla käyttäjä pyytää ohjelmaa suorittamaan toiminnot, sisältää seuraavat kohdat: File Havaintomatriisin luominen, avaaminen, tallennus, tulostaminen,..., ohjelman käytön lopetus. Edit Cut-, Copy-, Paste-, Clear -toiminnot (mm. muuttujien/havaintojen poisto). Data (vain Data Editor -ikkunassa) Havaintomatriisiin liittyvien määritysten teko, kuten muuttujien lisääminen ja määritteleminen, tilastoyksiköiden lisääminen, ehdollistaminen. Transform (vain Data Editor -ikkunassa) Muunnosten teko muuttujille, uusien muuttujien määrittäminen olemassa olevien muuttujien avulla,... Analyze (aiemmissa versioissa Statistics) Valitaan haluttu analyysi (esim. tunnuslukujen lasku, ristiintaulukointi, ehdolliset keskiarvot, korrelaatikertoimet). Graphs Graafisten esitysten tekeminen (esim. jakaumat, pisteparvet, laatikko-jana - kuviot). Utilities Muuttujien määrittelytietojen katsominen, muuttujien arvojen selitteiden näyttäminen havaintomatriisissa. Window Ikkunasta toiseen siirtyminen. Help Ohjeita. Seuraavassa esitellään näiden valikoiden käyttöä tilastollisen tutkimuksen teon edetessä aineiston tallennuksesta analysointeihin. Lähdetään siis liikkeelle havaitoaineiston talletuksesta ja muokkauksesta. Kun aineisto on talletettu, voidaan aineiston analysointi aloittaa jakaumien teolla ja tunnuslukujen laskulla. Kuvailevan osuuden jälkeen on vuorossa tilastollisten analysointien teko riippuvuuksien selvittämiseksi. Suoritettaessa analyysiä valitaan tilanteeseen sopiva komento, jonka jälkeen ohjelma pyytää tarvittavat lisämääreet kuten mm. muuttuja(t). Muuttujat voidaan valita esillä olevasta muuttujaluettelosta; valitaan muuttuja(t), jolle halutaan jakauma, joista piirretään pisteparvi, jne.

5 3 HAVAINTOMATRIISIN LUOMINEN JA MUOKKAAMINEN Empiirisen aineiston eritysmuotona käytetään havaintomatriisia, jossa n tilastoyksikön p muuttujan arvot esitetään tilastoyksiköittäin seuraavasti: x 1 x 2... x j... x p a 1 x 11 x 12... x 1j... x 1p a 2 x 21 x 22... x 2j... x 2p.. a i x i1 x i2... x ij... x ip.. a n x n1 x n2... x nj... x np missä x ij on i. tilastoyksikön mittaluku ominaisuudelle x j. Muuttujan x j jakauma on j. pystyrivi eli sarake havaintomatriisissa. Tilastoyksikön a i havaintovektori muodostuu i. vaakarivistä. Muuttujia on kahdenlaisia: kvalitatiivisia (kategorisia) ja kvantitatiivisia (numeerisia). Kvalitatiivinen mittaaminen on vain laadullista mittaamista ja se voidaan jakaa nominaali- eli luokitteluasteikolliseksi ja järjestys- eli ordinaaliasteikolliseksi mittaamiseksi. Kvantitatiivinen mittaaminen on numeerista mittaamista, mitta-asteikkoina intervalli- ja suhdeasteikko sekä absoluuttinen asteikko. SPSS:llä käsiteltävä aineisto on aluksi saatettava havaintomatriisimuotoon, joka siis on kaksiulotteinen taulukko, jossa määritellään sarakkeille muuttujat ja kirjataan riveille tilastoyksiköittäin mittaustulokset. Tilastoyksiköitä ei havaintomatriisiin tarvitse nimetä, mutta identifioiva tunnusmuuttuja (vaikkapa juokseva numero) on syytä olla, jotta tarvittaessa löydetään vastaavuus aineiston ja talletetun havaintomatriisin välillä.

6 Havaintomatriisin avaaminen tai uuden luominen tapahtuu valikosta File New> uuden luominen Data... Open vanhan avaaminen (oletusarvoisesti näkyvät.sav-tunnisteella olevat). Kun ohjelma käynnistetään, avautuu automaattisesti tyhjä havaintomatriisipohja. SPSS voi lukea myös muilla ohjelmilla talletettuja aineistoja. Esimerkiksi Excel-tiedosto voidaan lukea, kunhan se on talletettu Excel versio 4 (tai vanhempi) taulukoksi. Excel -taulukossa voi muuttujien nimet olla 1. rivillä, jolloin tieto tästä annetaan SPSS:lle lisämäärittelynä. Samasta File -valikosta voidaan avata myös uusi tulostusikkuna. Oletusarvona on se tiedostotyyppi, jota vastaava ikkuna on sillä hetkellä aktiivinen. Uuden havaintoaineiston talletus aloitetaan muuttujien määrityksillä: määritellään mm. muuttujan nimi; tyyppi, joka on yleensä numeerinen, mutta voi olla myös merkkitietoa; desimaalien lukumäärä; selitteet muuttujalle ja sen koodeille. Muuttujan määritteleminen tapahtuu valikosta Data Define Variable... tai kaksoisosoittamalla kyseistä sarakeotsikkoa. Kun muuttuja/muuttujat on määritelty, syötetään arvot muuttujille jokaiselta tilastoyksiköltä (muuttuja kerrallaan, useampia muuttuja yhdessä tai tilastoyksikkö kerrallaan). Jos tietoja puuttuu, niin syötettäessä kyseinen solu jätetään tyhjäksi. Tällöin ohjelma tulkitsee sen puuttuvaksi tiedoksi eikä käyttäjän yleensä tarvitse huolehtia puuttuvista tiedoista; ohjelma jättää ne pois käsittelystä. Joissain graafisissa esityksissä oletusarvoisesti tulee puuttuvan tiedon ryhmä mukaan. Sen saa lisämäärityksillä pois.

7 Usein tarvitaan uusia laskennallisia muuttujia. Uuden muuttujan tekeminen havaintomatriisissa olemassa olevien muuttujien avulla (esimerkiksi summat, suhteet, mittayksikkövaihdot,...) suoritetaan valikosta Transform Compute... Avautuvassa ikkunassa nimetään uusi muuttuja (Target Variable) ja määritellään laskukaava (Numeric Expression). Esimerkki 1. Tarkastellaan Tampereella myynnissä olleita kerrostalohuoneistoja (Aamulehti 31.10.99). Olkoon havaintomatriisissa muuttujat asunnon koko neliöinä (NELIÖT) ja asunnon myyntihinta (HINTA). Asunnon neliöhinta NELIÖH = HINTA/NELIÖT. Tällöin uusi muuttuja Target Variable on NELIÖH ja Numeric Expression HINTA/NELIÖT. 4 MUUTTUJIEN JAKAUMAT JA TUNNUSLUVUT 4.1 JAKAUMAT Kun havaintomatriisi on kunnossa, voidaan aineiston analysointi aloittaa. Ensin muodostetaan muuttujien frekvenssijakaumat (suorat jakaumat) joko graafisesti tai taulukkona. Muuttujien jakaumista voidaan huomata mahdollisesti tehtyjä tallennusvirheitä. Frekvenssijakauman graafiset esitykset valitaan mitta-asteikosta perusteella. Histogrammeja käytetään kvantitatiivisen muuttujan jakauman esittämiseen, pylväitä/janoja yleensä kvalitatiiviselle muuttujalle ja piirakoita luokitteluasteikollisen muuttujan tapauksessa. Graafiset esitykset löytyvät valikosta Graphs Bar... pylväs- ja janadiagrammit, Pie... piirakat, Histogram... frekvenssihistogrammit; esityksen valinnan jälkeen annetaan muuttuja(t), jolle graafinen esitys tehdään. Numeerisen muuttujan yhteydessä itse määritellyn luokituksen tekeminen (tasavälisen luokituksen saa myös editoimalla histogrammia) tai kategoristen

8 muuttujien tapauksessa luokkien yhdistäminen tapahtuu tekemällä uusi muuttuja havaintomatriisiin uudelleen koodauksen kautta. Koodaus tapahtuu valikosta Transform Recode > Into Different Variables... jossa annetaan luokiteltava muuttuja (Input Variable), luokituksen seurauksena syntyvän muuttujan nimi (Output Variable) sekä koodauksen (luokituksen) määrittely (if...); havaintomatriisiin syntyy siis uusi muuttuja. Esimerkki 2. Asuntojen neliöhinnan uudelleen koodaus halpoihin, keskihintaisiin ja kalliisiin. Muodostetaan uusi muuttuja, joka saa arvot (vaikkapa 1, 2 ja 3) asunnon neliöhinnan perusteella. Frekvenssijakauman saa taulukkona valikosta Analyze Descriptive Statistics> Frequencies... Frekvenssitaulukkoa tehtäessä ohjelma luokittelee muuttujan jokaisen arvon omaan luokkaansa riippumatta siitä montako arvoa muuttujalla on, joten numeeristen muuttujien yhteydessä taulukko on useimmiten käyttökelpoinen vasta, kun muuttuja on ensin luokiteltu (ks. luokituksen teko edellä). Esimerkki 3. Asuntojen luokittelu neliöhinnan perusteella halpoihin, keskihintaisiin ja kalliisiin tapahtuu siten, että muodostetaan esimerkissä 2 esitetty uudelleen koodaus ja tehdään sitten tälle uudelle muuttujalle frekvenssijakauma. Uudelleen koodauksen yhteydessä voidaan antaa selitteet koodeille (halpa, keskihintainen, kallis) sekä uudelle muuttujalle (Asunnon hinta). Tulokseksi saadaan asuntojen lukumäärät (Frequency) ja prosentuaaliset määrät (Valid Percent) hintaluokittain sekä kumulatiiviset prosentit (Cumulative Percent). Jos aineistossa on puuttuvia tietoja, niin niiden lukumäärä näkyy frekvenssijakaumassa. Kun käyttää uudelleen koodausta, niin on syytä

9 tarkistaa, että havaintoja ja puuttuvia tietoja on saman verran kuin alkuperäisessäkin muuttujassa. 4.2 EHDOLLISTAMINEN Muuttujan frekvenssijakaumaa voidaan tarkastella toisen muuttujan eri luokissa. Voidaan tutkia miten tämä ehdollistettu muuttuja vaikuttaa tarkasteltavan muuttujan jakaumaan vertailemalla ehdollisia prosenttijakaumia. Ehdollisten jakaumien (tai yleensä ehdollistamisen) teon yhteydessä ilmoitetaan ohjelmistolle, että jatkossa halutaan analysoinnit tehtävän jonkun muuttujan (tai muuttujien) eri luokissa erikseen (esimerkiksi miehillä ja naisilla erikseen) antamalla ehdollistava muuttuja valikossa Data Split file... vaihtoehto Compare groups ja valitsemalla muuttujaluettelosta ryhmittelymuuttuja; ryhmittelyn purkaminen vaihtoehto Analyze all cases. Tämän määrityksen jälkeen tehtävät analyysit tapahtuvat erikseen kaikissa ehtomuuttujan ryhmissä (myös puuttuvien tietojen ryhmässä!) erikseen. Jos ehtomuuttuja on numeerinen, se on ensin luokiteltava halutulla tavalla. Ehto on päällä siihen asti kuin se otetaan pois. Huom! Split file järjestää havaintomatriisin uudelleen ryhmittelymuuttujan mukaan. Tästä saattaa olla haittaa, jos aineistoon ei ole talletettu havaintoja identifioivaa tunnusmuuttujaa. Esimerkki 4. Olkoon aineistossa tietoja vastasyntyneistä lapsista. Halutaan vertailla syntymäpainon (g) (PAINO) jakaumia tytöillä ja pojilla. Voidaan lähteä liikkeelle piirtämällä frekvenssihistogrammin erikseen tytöille ja pojille. Tällöin Split file ehtomuuttujaksi annetaan muuttuja, joka kertoo lapsen sukupuolen (SEX) ja sitten muodostetaan histogrammi muuttujana PAINO.

10 Ehdollistaminen voi tapahtua myös valitsemalla käsittelyyn mukaan vain tietyt tilastoyksiköt. Tämä tapahtuu valikosta Data Select cases... valitsemalla If condition is satisfied ja määrittelemällä sopivan if - ehdon (ehdon purku All cases). Esimerkki 5. Jos halutaan esimerkin 4 aineistossa tarkastella vastasyntyneitä lapsia siten, että jätetään keskoset pois analyyseistä, niin annetaan if -ehto esimerkiksi PAINO > 2500. 4.3 TUNNUSLUKUJA Tunnusluvun avulla pyritään kuvaamaan muuttujan jakaumaa muuttujan arvoista lasketulla luvulla. Kuvataan esimerkiksi jakauman sijaintia sopivan keskiluvun avulla tai muuttujien arvojen vaihtelua hajontalukujen avulla. Muuttujan mitta-asteikko määrää, mitkä tunnusluvut ovat sallittuja käyttää. Keskilukuja ovat moodi, mediaani ja keskiarvo. Moodi on se muuttujan arvo, joka esiintyy useimmin ja sitä voidaan käyttää myös kvalitatiivisten muuttujien yhteydessä. Moodiluokka on usein käyttökelpoinen, kun muuttuja on kvantitatiivisen. Mediaani on sellainen muuttujan arvo, jota pienempiä ja suurempia arvoja on yhtä paljon. Mediaania voidaan käyttää, kun järjestyksellä on tulkinta eli muuttujan on vähintään järjestysasteikollinen. Aritmeettinen keskiarvo on sallittu kvantitatiivisten muuttujien yhteydessä. Tunnuslukuja voidaan tarkastella ehdollisina. Ehdollisia keskiarvoja (tai mediaaneja) voidaan käyttää tutkittaessa riippuvuutta kahden muuttujan välillä. Ehdollisten keskiarvojen käyttö riippuvuuden tutkimisessa edellyttää tietysti sitä, että selitettävä muuttuja on kvantitatiivinen.

11 Esimerkki 6. Vaikuttaako sukupuoli lapsen syntymäpainoon? Tällöin lapsen syntymäpaino (PAINO) on selitettävä eli riippuva muuttuja (y) ja sukupuoli (SEX) selittävä eli riippumaton muuttuja (x). Pyritään selvittämään PAINO - muuttujan arvojen vaihtelua sillä, onko lapsi tyttö vai poika. Eräs mahdollisuus riippuvuuden selvittämisessä on keskiarvojen vertailu ryhmittäin, ehdollisten keskiarvojen käyttö. Lasketaan PAINO -muuttujasta keskiarvot tytöillä ja pojilla sekä vertaillaan keskiarvoeroja. Jos ehdolliset keskiarvot poikkeavat toisistaan sanotaan, että SEX -muuttujalla voidaan selittää PAINO -muuttujan vaihtelua. Sanotaan, että PAINO -muuttuja riippuu SEX -muuttujasta. Jos ehdolliset keskiarvot ovat lähes samoja, niin riippuvuutta ei ole. Muuttujan arvot vaihtelevat tilastoyksiköstä toiseen. Vaihtelun voimakkuutta pyritään mittaamaan erilaisia tunnuslukuja käyttäen. Kvantitatiivisten muuttujien yhteydessä vaihtelua mitataan usein varianssin avulla. Varianssi mittaa kuinka tiiviisti muuttujien arvot ovat keskittyneet keskiarvon ympärille. Varianssin neliöjuuri on nimeltään keskihajonta. Alakvartiili ja yläkvartiili ovat mediaanin kaltaisia tunnuslukuja, jotka kuvaavat jakauman sijaintia. Alakvartiili on luku, joka jakaa muuttujan arvot kahteen osaan siten, että korkeintaan 25% havaituista arvoista on pienempiä kuin alakvartiili. Yläkvartiili on luku, joka jakaa muuttujan arvot kahteen osaan siten, että korkeintaan 75% havaituista arvoista on pienempiä kuin yläkvartiili. Alakvartiili, mediaani ja yläkvartiili jakavat muuttujan arvot neljään havaintomääriltään yhtä suuriin osiin. Yhdessä näitä tunnuslukuja kutsutaan kvartiileiksi. Muuttujan arvot voidaan jakaa viiteen, kuuteen, jne. havaintomääriltään yhtä suuriin osiin. Yleisesti näitä osiin jakavia tunnuslukuja kutsutaan fraktiileiksi.

12 Jakaumaa kuvaavia erilaisia tunnuslukuja saadaan mm. seuraavilla tavoilla: Analyze Descriptive Statistics> Frequencies... saadaan halutuista muuttujista mm. keskiarvo, mediaani, fraktiilit, moodi,keskihajonta, varianssi, pienin arvo, suurin arvo Descriptives... saadaan halutuista muuttujista mm. keskiarvo, keskihajonta, varianssi, pienin arvo, suurin arvo, vaihteluväli Explore... saadaan mm. keskiarvo, keskihajonta, varianssi, pienin arvo, suurin arvo, vaihteluväli sekä tunnusluvut ehdollisina antamalla (kvalitatiivinen) selittäväksi muuttujaksi Compare Means> Means... saadaan tunnusluvut ehdollisina antamalla ehtomuuttuja (kvalitatiivinen) selittäväksi muuttujaksi. Histogrammin teon yhteydessä saa muuttujan keskiarvon ja keskihajonnan automaattisesti. Ehdollisia jakaumia (tai jakaumia) voidaan havainnollistaa myös laatikko-janakuvion (boxplot) avulla. Kuvio perustuu eri fraktiileihin ja saadaan tehdyksi valikosta Graphs Boxplot... antamalla Variable -kohtaan tutkittava muuttuja ja Category -kohtaan ryhmittelymuuttuja. Esimerkki 7. Tutkittaessa lapsen syntymäpainon riippuvuutta sukupuolesta, voidaan aluksi laske ehdolliset keskiarvot ja piirtää laatikko-jana -kuvio. Jos ehdolliset keskiarvot lasketaan valikosta Compare Means> Means..., niin annetaan Dependent List -muuttujaksi PAINO ja Independent List -muuttujaksi SEX. Tulokseksi saadaan keskiarvot (Mean) ja keskihajonnat (Std.Deviation). Laatikko-jana -kuviosta saadaan valikosta Graphs>Boxplot... antamalla Variable - kohtaan PAINO ja Category -kohtaan SEX. Laatikko-jana -kuviossa keskimmäinen viiva on syntymäpainon mediaanin kohdalla ja laatikon ylä- ja alareunat ylä - ja alakvartiileissa.

13 5 PISTEPARVI JA KORRELAATIOKERROIN Kun tarkastellaan kahta muuttujaa samanaikaisesti, niin on kyse kaksiulotteisesta jakaumasta. Tällöin ollaan kiinnostuneita muuttujien välisestä riippuvuudesta. Kaksiulotteisen jakauman graafinen esitystapa on pisteparvi eli korrelaatiodiagrammi, joka antaa hyvän yleiskuvan mahdollisesta riippuvuudesta ja sen laadusta. Pisteparvi on järkevä piirtää, kun selitettävä on kvantitatiivinen. Tulkinnassa on huomattava selittävän muuttujan mittaasteikko. Pisteparvi saadaan valikosta Graphs Scatter... antamalla selitettävä y pystyakselille ja selittävä x vaaka-akselille. Myös kaksiulotteisista jakaumista voidaan määritellä tunnuslukuja, jotka nyt mittaavat riippuvuuden voimakkuutta. Tällainen tunnusluku on korrelaatiokerroin, joka mittaa kahden kvantitatiivisen muuttujan välistä suoranomaista eli lineaarista riippuvuutta; sen voimakkuutta. Korrelaatiokertoimen ollessa lähellä nollaa lineaarista riippuvuutta ei ole. Täydellinen lineaarinen riippuvuus on silloin, kun korrelaatiokerroin on itseisarvoltaan 1. Korrelaatiokertoimen (korrelaatiomatriisin) voi laskea valikosta Analyze Correlate> Bivariate... (Pearson) antamalla halutut muuttujat. Esimerkki 8. Olkoon esimerkin 4 aineistossa myös muuttuja, joka ilmoittaa lapsen syntymäpituuden (PITUUS). Kun piirretään pisteparvi, asetetaan PAINO -muuttuja y -akselille ja PITUUS -muuttuja x - akselille

14 6 RISTIINTAULUKKO Kahden kvalitatiivisen muuttujan välinen riippuvuustarkastelu voidaan tehdä ristiintaulukon avulla vertailemalla selitettävän muuttujan ehdollisia prosenttijakaumia. Ristiintaulukointi tehdään valikosta Analyze Descriptive Statistics> Crosstabs... annetaan sarake- ja rivimuuttujat, lisämääreinä Cells... -painike, ehdolliset prosenttijakaumat, suunta valitaan siten, että saadaan selitettävän prosenttijakaumat selittäjän luokissa. SPSS muodostaa ristiintaulukon siten, että molempien muuttujien jokainen arvo on omana luokkanaan. Jos on tarve yhdistellä muuttujien arvoja, tehdään se muodostamalla uusi muuttuja havaintomatriisiin (Transform>Recode>). Kvantitatiivista muuttujaa voi halutessaan käyttää ristiintaulukoinnissa, kunhan sen ensin luokittelee tekemällä uuden muuttujan havaintomatriisiin. Esimerkki 9. Tarkastellaan eräältä kurssilta saatua kurssipalautetta. Halutaan selvittää, onko opintosuunnalla vaikutusta annettuun palautteeseen. Aineistossa on muuttuja OPINTOJAKSON TYÖLÄYS, joka kertoo vastaajan mielipiteen opintojakson työläydestä (työläs/sopiva/vähätöinen) sekä palautteen antajan opintosuunta (OPSUUNTA). Nämä muuttujat voidaan ristiintaulukoida ja laskea OPINTOJAKSON TYÖLÄYDEN prosentuaaliset jakaumat opintosuunnittain. Vertaillaan näitä jakaumia.

15 7 LOPUKSI Oppaassa tarkasteltiin empiirisen tutkimuksen aloitukseen liittyviä työvaiheita ja toteutusta SPSS -ohjelmalla. Seuraavassa lyhyesti yhteenveto tutkimuksen työvaiheista. Kun havaintoaineisto on hankittu, muokataan se analysointia varten havaintomatriisimuotoon. Muuttujien mitta-asteikot on syytä selvittää, jotta analyysit tulee oikein valituksi. Havaintomatriisi talletetaan tietokoneelle siten, että analysoinnin apuvälineenä käytettävä tilastollinen ohjelmisto pystyy sen lukemaan. Tietojen taltioinnin oikeellisuus on syytä tarkistaa. Yleiskuvan saamiseksi aineistosta analysointi aloitetaan muuttujien jakaumien muodostamisella sekä tarpeellisten tunnuslukujen laskulla. Käytetään tarpeen mukaan tilanteeseen sopivia graafisia esityksiä. Jakaumien teon yhteydessä voidaan löytää tallennusvirheitä. Seuraavaksi on vuorossa varsinainen analysointi. Valitaan kuhunkin tilanteeseen käyttökelpoinen menetelmä ja suoritetaan analyysi ja tulkitaan tulokset. Jokaiseen analysointivaiheeseen kuuluu siis johtopäätelmien teko. Esimerkiksi aineiston kuvailun yhteydessä voidaan kiinnittää huomio jakauman muotoon. Riippuvuustarkastelujen yhteydessä tehdään johtopäätelmiä riippuvuussuhteista perustaen päätelmien teko analysoinnissa saatuihin tuloksiin. Tilastollisen tutkimuksen keskeisen vaiheen muodostaakin näiden tutkimustulosten esittäminen sellaisessa kirjallisessa asussa, että lukija, jolle tutkimustulokset on tarkoitettu, saa sen sisältämän informaation mahdollisimman helposti, havainnollisesti ja yksikäsitteisessä muodossa. Työ on syytä jäsennellä selkeästi alaotsikointia ja kappalejakoa käyttäen. Kuviot ja taulukot laaditaan yleisten sopimusten mukaisesti, ne numeroidaan ja otsikoidaan. Kuvioiden ja taulukoiden on muodostettava sellaisia itsenäisiä

16 kokonaisuuksia, että lukija voi muuhun tekstiin turvautumatta ymmärtää niissä esitetyn asian. Tässä oppaassa käytettiin vain TILTP1:llä esiteltyjä menetelmistä. Lopuksi vielä yhteenveto näiden analyysien suorittamisesta SPSS -ohjelmalla: Analyze Descriptive Statistics> frekvenssijakaumat, tunnusluvut, ristiintaulukot Compare Means> ehdolliset keskiarvot Correlate> korrelaatiomatriisi Graphs Bar... pylväs- ja janadiagrammit Pie... piirakat Boxplot... laatikko-jana-kuviot Scatter... pisteparvet Histogram... frekvenssihistogrammit. =================================================== LIITE 1 Joitain SPSS -oppaita sekä kirjallisuutta, jossa yhdistetty tilastollinen tutkimus sekä SPSS -opastus. Agresti, A. & Finlay, B., Statistical Methods for the Social Sciences, Prentice Hall, 1997. Gerber, S. & Voelkl, K., The SPSS guide to The new statistical analysis of data, Springer, 1997. Heikkilä, T., Tilastollinen tutkimus. Oy Edita Ab, 1998. Kanninen, A., SPSS for Window 9.0, perusteet Oulun yliopisto, ATK-keskus, 1999. Kanninen, A., SPSS for Window: menetelmiä, Oulun yliopisto, ATK-keskus, 1999. Karjalainen, L., SPSS -perusteet 9.0. Pii-Kirjat Ky, 1999. Kinnear, P. &Gray, C., SPSS for Windows Made Simple, Psychology Press, 1997. SPSS Base 9.0 User s Guide, SPSS Inc., 1999. SPSS Categories 8.0 User s Guide, SPSS Inc., 1998. SPSS Regression Models 9.0, SPSS Inc., 1999.