1 Metropolia Pertti Vilpas SPSS-ohjeita Aihe sivu 1. Ohjelman periaate 2 2. Aineistoikkuna 3 3. Frekvenssit 4 4. Muuttujien arvojen luokittelu 5 5. Tunnusluvut 6 6. Ristiintaulukointi 7 7. Hajontakaavio 8 8. Korrelaatio 8 9. Regressio 9 10. Osajoukon valinta 10 11. Graafinen esittäminen 10 12. Output-ikkuna 12 13. Siirrot muihin sovelluksiin 13 14. Keskiarvojen välisen eron testaaminen 15 15. Faktorianalyysi 17
2 SPSS on ohjelmisto tilastollisten analyysien, aineiston käsittelemisen sekä tilastollista tietoa kuvaavien taulukoiden ja graafien tuottamiseen. Tilastollisten analyysien kirjo ulottuu kuvailevasta tilastotieteestä kuten keskiarvoista ja frekvensseistä kehittyneeseen johtopäätöksiä sisältävään tilastotieteeseen kuten korrelaatioon ja regressioon. SPSS tarjoamista käyttöliittymä näkymistä pääsääntöisesti käytössä ovat: Aineistoikkuna (Data Editor), joka avautuu ohjelman käynnistyessä ja käytetään aineiston syöttämiseen ja tallentamiseen taulukkolaskenta muodossa. Tulostusikkuna (Output), joka avautuu automaattisesti kun ensimmäinen tulostukseen liittyvä toimenpide (analyysit, taulukot, kuviot) on määritelty tehtäväksi. Ikkuna sisältää oletusarvoisesti tulokset kaikista istunnon aikana tehdyistä tulosteista 1. Ohjelman periaate Analyysissä noudetaan seuraavaa perusperiaattetta: 1. Tiedot syötetään SPSS-ohjelmaan. Voidaan myös avata aiemmin tallennettu tiedosto. 2. Valitse sopiva analyysi ohjelman valikoista. 3. Valitaan muuttujat 4. Toteutuneen analyysin tulokset tulevat näkyviin Output ikkunaan. SPSS tiedostot 1. Aineistoikkunassa tiedostot tallentuvat automaattisesti **.sav muodossa 2. Tulostusikkuna tiedostot tallentuvat automaattisesti ***.spo muodossa Lisäksi tiedostoja, jotka ovat tallennettavissa SPSS-muodossa (*.sav), voidaan myös avata ja tallentaa Excel tiedostoina.
3 2. Aineistoikkuna 2.1. Valikot Käytössä on seuraavat valikot: FILE => aineiston tallentamiseen ja avaamiseen EDIT => aineiston arvojen kopioimiseen ja liittämiseen sekä aineiston etsimiseen tiedoston sisällä VIEW => ikkunan näkymä asetuksien muuttamiseen; solujen sisältönä olevien muuttujien näkyvyys voidaan esimerkiksi muuttaa numeerisesta merkkitiedosta sanalliseen sisällönkuvaukseen DATA=> muuttujien ja havaintojen lisääminen; valitseminen; havaintojen lajittelu tai painottaminen sekä tiedostojen liittäminen tiedostoihin TRANSFORM => uusien muuttujien muodostaminen, muuttujien koodaaminen uudestaan, jne. ANALYZE => erilaisia tilastollisia toimenpiteitä aineiston kuvaamisesta analyysiin GRAPHS=> pylväs ja ympyrädiagrammien ym. laatimista. 2.2. Ominaisuudet 1. Rivit ovat havaintoja eli tilastoyksikköjä. Jokainen rivi edustaa havaintoa eli tilastoyksikköä. 2. Sarakkeet ovat muuttujia. Jokainen sarake edustaa mitattua muuttujaa tai ominaisuutta. 3. Solujen sisältö. Jokainen solu sisältää yhden aineiston tilastoyksikköön liittyvän muuttujan arvon, yleisesti numeerisessa muodossa. 2.3. Uuden SPSS tiedoston luominen Muuttuja näkymässä (Muuttuja View) määritellään uudet muuttujat. 1. Data View on taulukko johon aineiston numeeriset arvot sisältyvät 2. Variable View näyttää muuttujaan liittyvän informaation => nimet (names) => muuttujan tulosteissa esiintyvät nimet (labels) => jne.
4 Seuraavat määrittelyt ovat tarpeen uutta muuttujaa määriteltäessä: 1. Name Käytä lyhyttä nimeä kuten sukup, palkka, var1, V1jne. 2. Type Yleisemmin numeerinen (numeerinen) on käytössä. 3. Label Muuttuja voidaan kuvailla 256 merkillä. Tulosteissa (Output) näkyy tämä laajempi kuvaileva nimi, selite (label). 4. Values Muuttujan arvoissa käytettävät numeeriset koodit kannattaa määrittää erikseen tulosteissa näkyviksi. EXAMPLE: 1=male, 2=female. 5. Missing Jos vastauslomakkeessa ei ollut vastauksia kaikkiin esitettyihin kysymyksiin jäävät puuttuvaan vastaukseen liittyvät solut tyhjiksi, ilman mitään erillistä määrittelyä. Huom! Suurin osa tiedoista on siirrettävissä muuttujasta toiseen toimintoparilla kopioi ja liitä. 3. Frekvenssit Taulukoidaan muuttujan saamien eri arvojen esiintymistaajuudet lukumäärinä. Analyze => Descriptive Statistics =>Frequencies =>Valitse muuttujat... 1. Voit valita myös perusgrafiikkaa frekvenssien yhteydessä välitsemalla myös Charts 2. Saat tunnuslukuja frekvenssien yhteydessä valitsemalla myös Statistics
5 4. Muuttujien arvojen luokittelu Mikäli muuttuja sisältää paljon eri arvoja, kannattaa arvot luokitella ennen frekvenssien määrittämistä. Luokiteltu muuttuja on uusi muuttujalistaan automaattisesti tulostuva muuttuja ESIMERKKI Aineistosta luodaan kolme luokkaa muuttujalle IKÄ 18-24 25-34 35-49 Tapa 1 Luokkarajat syötetään manuaalisesti. Transform =>Recode =>Into different muuttuja =>. 1. Valitaan aineiston muuttuja Age ja nimetään uusi muuttujaksi Ageclass ja tulostuvaksi muuttujaksi (label) Age in classes 2. Change 3. Old and new values => anna luokkarajat => anna luokan numero Tapa 2 Transform => Visual Bander => 1. Valitse Age 2. Valitse Make Cutpoints => Anna alaraja => Anna luokkien lkm 3. Make labels
6 5. Tunnusluvut Kaksi merkittävää aineistoa kuvaavaa tunnuslukuryhmää ovat: 1) Sijaintiluvuilla ilmaistaan aineiston keskikohdan sijainti 2) Hajontaluvuilla ilmaistaan aineiston poikkeavuutta, hajontaa keskikohdasta Seuraavat valinnat ovat mahdollisia: 1. Analyze => Descriptive Statistics =>Descriptive =>... Descriptive Statistics Kuinka monta kupillista juot kahvia tavallisesti päivässä? Valid N (listwise) N Minimum Maximum Mean Std. Deviation 218 0 10 2,01 2,130 218 2. Analyze => Descriptive Statistics =>Explore =>Valitse muuttuja... Tarkastelu voidaan totetuttaa myös sukupuolittain => Factor list => sukupuoli Descriptives Kuinka monta kupillista juot kahvia tavallisesti päivässä? Sukupuoli Mies Nainen Mean Median Std. Deviation Minimum Maximum Mean Median Std. Deviation Minimum Maximum Statistic 2,32 2,00 2,393 0 10 1,67 1,00 1,748 0 7
7 Keskiarvot ryhmittäin Toiminto COMPARE MEANS laskee riippuvalle (Dependent) muuttujalle alaryhmittäin ryhmiteltyjä keskiarvoja. Analyze => Compare Means =>Means =>Valitse muuttujat... Independent =>Luokittelu/Luokiteltu muuttuja (sp) Dependent muuttuja => Tutkittava muuttuja (iikuntakerrat) Report Kuinka usein harrastat vapaa-ajan liikuntaa? Sukupuoli Mean N Std. Deviation Mies 3,83 114 1,363 Nainen 3,71 104 1,259 Total 3,78 218 1,313 Data => Split File
8 6. Ristiintaulukointi Ristiintaulukoinnissa tutkitaan riippuvuuden mahdollisuutta kahden muuttujan välillä. Ristiintaulukointia voidaan käyttää, jos ainakin toinen muuttujista on luokitteluasteikollinen Analyze => Descriptive Statistics =>Crosstabs =>Valitse muuttujat.. Rivit => Dependent muuttuja Sarakkeet => Independent muuttuja Lisävalinnat 1.Cells => Percentages in columns 2. Statistics => Chi-testi Chi-testi mittaa riippumattomuutta ja testi saadaan käyttöön samasta valintaikkunasta, jossa toteutettiin ristiintaulukointi. 7. Hajontakaavio Hajontakaaviot tarjoavat työkalun kahden muuttujan välisen riippuvuuden visualisoimiseen. Hajontakuviot ovat erityisen käytännöllisiä tutkittaessa jatkuvien muuttujien välistä riippuvuutta esimerkiksi korrelaatiolla tai regressiolla. Graphs => Scatter => Simple => Valitse muuttujat
9 8. Korrelaatiot Kun molemmat muuttujat ovat kvantitatiivisia, korrelaatiokertoimella etistään vastausta kysymykseen: ovatko muuttujat x ja y lineaarisesti riippuvia? Kvantitatiivisina muuttujina sekä x että y mitattu numeeristen muuttujien asteikolla. y = riippuva muuttuja (dependent muuttuja) x = riippumaton muuttuja (independent muuttuja) Korrelaatiotoiminto tuottaa oletusarvoisesti Pearsonin korrelaatiokertoimen. Analyze => Correlate => Bivariate => Valitse muuttujat =>
10 9. Regressio Toimintoa käytetään sovittamalla hajontakuvioon pistejoukkoa parhaiten kuvaava suoran yhtälö. Regressiolla voidaan siis määrittää kuinka hyvin riippumattomalla muuttujalla voidaan ennustaa riippuvan muuttujan arvoja. Analyze => Regression => Linear => Valitse muuttujat => y = dependent muuttuja x = independent muuttuja Parhaiten sovitettava suora määritetään seuraavasti: y = a + bx SPSS laskee arvot a:lle ja b:lle.
11 10. Osajoukon valinta Usein on tarpeen tarkastella tiettyn osaryhmän esim. tietyn ammattiryhmän antamia vastauksia Seuraavalla valinnalla voidaan suodattaa koko aineistosta ehdon täyttävät vastaajat. Aineisto => ValitseCases =>If the condition is satisfied =>IF 1. Valitse muuttuja luokittelun kriteeri muuttujaksi (JOBTIME) 2. Syötä numeerinen tieto käyttämällä valintaikkunan valikkonäppäimistöä (JOBTIME<60) 3. Continue ja OK Kun aineiston analyysejä toteutetaan, ainoastaan suodatuksella valitut muuttujan arvot ovat analyysin lähdeaineistona. HUOM! Muista palauttaa kaikki tiedot käyttöösi Aineisto => ValitseCases =>All cases
12 11. Graafinen esittäminen Graphs => Bar / Pie / Histogram. Pylväsdiagrammi Pylväsdiagrammit ovat yleisesti käytettyjä graafisia aineiston muuttujien frekvenssien havainnollistamistapoja. Jos pylväsdiagrammi laaditaan jatkuvalle muuttujalle valitaan kuvaajaksi Histogrammi. Pylväsdiagrammin valintaikkunassa on valittavana kolme vaihtoehtoa: 1. Yksinkertainen (Simple), tällöin vain yksi muuttuja valittavissa 2. Kaksi muuta pylväsdiagrammia ovat käytössä, jos kuvaaja halutaan toteuttaa useammalle kuin yhdelle muuttujalle. => ryhmitellyt (Clustered) pylväät => pinotut (Stacked) pylväät Muita kuvatyyppejä Line (viivakuva) Histrogrammi 50 50 40 30 40 Count 20 10 Frequency 30 20 0 16 17 18 19 20 21 22 23 Ikä 24 25 26 27 28 29 30 10 0 Mean =20,5 Std. Dev. =3,422 N =218 15 20 25 30 Ikä
13 12. Output-ikkuna * Tulokset listautuvat tulostusnäkymään, jossa voi tarkastella istunnon aikana syntyneitä tuloksia. * Tulosteiden tallentaminen: File => Save => ***.spo Taulukon muotoilu Kaksoisnapauta hiirellä taulukkoa ja valitse muodostuvasta valikosta => Format => 1) Table Looks =>... Valmiita malleja käytössä 2) Table Properties => Muita määritelmiä Kuvan editointi Kaikki diagrammien muutokset tehdään kuvaajaikkunassa. Avaat ikkunan kaksoisnapauttamalla hiirellä kuvaa Valitse Pylväs, Ympyrä jne. Muuta värejä Muuta asteikkoa Muuta ulkoasua Poistu näkymästä tallentaen tekemäsi muutokset
14 13. Siirrot muihin sovelluksiin Taulukon siirto 1. Valitse taulukko napauttamalla hiirellä 2. Valitse Copy 3. Siirry Word tai Excel näkymään 4. Valitse Paste Voit myös käyttää komentoa Copy Objects, jolloin SPSS luo kuvan jota ei voi enää editoida Wordissa tai Excelissä. Kuvan siirto 1. Valitse kuva napauttamalla hiirellä 2. Valitse Copy Objects 3. Siirry Word tai Excel näkymään 4. Valitse Paste File => Export Valinnalla voi tuoda kerralla kaikki Output-ikkunan taulukot ja kuvat kerralla esim. Wordiin/ Exceliin 1. Luo ensin Wordilla tiedosto tietyllä nimellä, esim. tulokset1.doc 2. Valitse File => Export 3. Valitse File type => Doc/ rtf (esimerkiksi) 4. Valitse tallennettu tiedosto (tulokset1.doc) 5. Valitse All visibile objects 6. Ok
15 14. Keskiarvojen välisen eron testaaminen * Keskiarvotesteillä verrataan otoksesta laskettua keskiarvoa hypoteesin mukaiseen vakio-arvoon tai vertaillaan ryhmien keskiarvoja toisiinsa. Keskiarvoissa on yleensä eroja, mutta testattavaksi jää, kuinka todennäköistä on, että erot johtuvat sattumasta. Vertailtavien ryhmien (otosten) on oltava toisistaan riippumattomia. Keskiarvojen välistä tilastollista merkitsevyyttä voidaan testata mm. kahdella eri testillä: Mann.Whitneyn U-testi Pienet otoskoot ryhmissä (N<20) Normaalisuudesta ei varmuutta Mittaus luokittelu/järjestysasteikoll. T- testi Suurehko otoskoko ryhmissä (N>20-30 molemmissa ryhmissä) Muuttujan arvot jakautuneet normaalisti molemmilla ryhmillä Mittaus vähintään välimatka-asteikolla U-testi SPSS = > Analyse => Nonparametric tests => 2 Independent Samples => Mann-Whitney U Wilcoxon W Z Test Statistics b Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a. Not corrected for ties. Vastaajan pituus 4,500 59,500-3,442,001,000 a b. Grouping Variable: sp_numeerinen Tulkinta => Asymp. Sig kertoo että riskitaso on 0,1 % ts. 99,9 % tilastollisella varmuudella voidaan sanoa että miesten keskipituus on naisia suurempi.
16 T- testi Histogram Normaalisuus voidaan todeta graafisesti: 40 1. Valitaan osa-joukoksi miehet => Data => Select Cases => if condition is satisfied => if = 2. Analyse => Frequencies => Valitse muuttuja salary => Chart => Histogram => With normal curve Frequency 30 20 10 3. Vastaava naisille 0 $10 000 $20 000 $30 000 $40 000 $50 000 $60 000 Mean =$26 031,92 Std. Dev. =$7 558,021 N =216 Current Salary SPSS => Analyse => Compare Means => Independent Samples => T Test TULKINTA => ENSIN KATSOTAAN YLEMPÄÄ RIVIÄ (Equal variances assumed) => MIKÄLI Sig-arvo ON YLI 0,05 => LUETAAN YLEMPÄÄ RIVIÄ => MIKÄLI Sig-arvo ON ALLE 0,05 => LUETAAN ALEMPAA RIVIÄ TÄSSÄ TAPAUKSESSA KATSOTAAN ALEMMALTA RIVILTÄ SIG-ARVO, JOKA ON 0,000 VOIDAAN SANOA ETTÄ RYHMIEN VÄLISET KESKIARVOT POIKKEAVAT TILASTOLLISESTI TOISISTAAN YLI 99,9 % TILASTOLLISELLA VARMUUDELLA.
17 15. Monimuuttuja menetelmät Monimuuttujamenetelmissä tarkastellaan yhtäaikaisesti useiden muuttujien välisiä yhteyksiä. Yleisin tavoite on monimutkaisen tai laajan aineiston sisältämän informaation pelkistäminen. 1. Analyze / Data Reduction 2. Descriptives / Initial Solution 3. Extraction / Maximum Likehood / Eigenvalues (ominaisarvot) over 1 4. Rotation /Varimax 5. Scores / tässä voit valita, halutaanko faktoripisteiden avulla muodostaa uusi muuttuja 6. Options / missing values => replace with mean / Coefficient Display Format/ Sorted by size / Suppress absolute values less than 0,30.