Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla

Koko: px
Aloita esitys sivulta:

Download "Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla"

Transkriptio

1 1 Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla Raija Leppälä Opetusmoniste B uudistettu painos Matematiikan, tilastotieteen ja filosofian laitos Toukokuu TAMPEREEN YLIOPISTO ISBN ISSN

2 2

3 3 ALUKSI Tämä opas on tarkoitettu tilastollisen tutkimuksen tekemisen oppaaksi, kun toteutuksessa käytetään SPSS for Windows -ohjelmistoa. Opas on syntynyt vuosien varrella Tampereen yliopistossa pitämieni tilastotieteen peruskurssien yhteydessä tapahtuneiden SPSS -ohjelmiston käytön opetuksen sekä erillisten SPSS -kurssien pohjalta.. Oppaassa kiinnitetään erityistä huomiota analyysin oikeaan valintaan ja tulosten tulkintaan. Eri toimintojen teknistä toteuttamista ei esitellä yksityiskohtaisesti, vaan annetaan ainoastaan ohjeet siitä, mistä haluttu analyysi löytyy. Tarvittaessa teknisiä oppaita löytyy lukuisia (ks. liite 1). Lukijalta edellytetään perustietoja tilastotieteestä, mutta toisaalta opasta voi käyttää vaikka tiedot olisivatkin melko vähäiset. Opas tarjoaakin mahdollisuuden tietojen ajan tasalle saattamiseksi sekä täydentämiseksi, sillä oppaassa esitellään lyhyesti myös tilastotieteen perusteita. Opas soveltuu tilastollisen analyysin tekemisen tueksi silloin, kun käytetään tavanomaisempia tilastollisia analyysejä. Tilastotieteen teorian perinpohjainen hallitseminen ei siis ole oppaan käytön kannalta tarpeellista. Opas on paremminkin pyritty kirjoittamaan soveltajan näkökulma huomioiden. Pyritään siis avustamaan tutkijaa menetelmien valinnassa ja ohjelmiston antamien tulosten tulkinnassa.

4 4 Tässä painoksessa on korjattu aiemman painoksen virheitä sekä täydennetty ja päivitetty tietoja. Esimerkeissä käytetyt aineistot ovat nyt myös saatavilla ja osoitteet kerrotaan esimerkkien yhteydessä. Näin lukija voi itse tehdä esimerkkien analyysit. Jos lukijalla ei ole käytössään SPSS -ohjelmaa, hän voi ladata sen 30 päivän koekäyttöön omalle tietokoneelleen sivulta Tampereella 5. toukokuuta 2004 Raija Leppälä sähköposti

5 5 SISÄLLYSLUETTELO 1 JOHDANTO SPSS -YMPÄRISTÖ HAVAINTOMATRIISIN LUOMINEN JA MUOKKAAMINEN MUUTTUJIEN JAKAUMAT JA TUNNUSLUVUT Jakaumat Ehdollistaminen Tunnuslukuja PISTEPARVI JA KORRELAATIOKERROIN JOITAIN YLEISESTI KÄYTETTYJÄ ANALYSOINTIMENETELMIÄ Ristiintaulukko Odotusarvojen yhtäsuuruuden testaaminen t -testillä Varianssianalyysi Regressioanalyysi LOPUKSI LIITE 1 Joitain SPSS -oppaita sekä kirjallisuutta, jossa on yhdistetty tilastollinen tutkimus sekä SPSS -opastus... 41

6 6

7 7 1 JOHDANTO Tilastollinen analyysi voidaan karkeasti jakaa kuvailevaan analyysiin ja tilastolliseen inferenssiin (päättelyyn). Kuvaileva osuus pyrkii kuvailemaan tietoaineistoa erilaisten graafisten esitysten ja tunnuslukujen sekä taulukoiden avulla. Tilastollinen päättely käsittelee johtopäätelmien tekoa populaatiosta aineiston (otoksen) perusteella. Inferenssi perustuu todennäköisyysjakaumiin ja niiden hyväksi käyttöön erilaisten testien ja analyysien yhteydessä. Tässä monisteessa esitellään lyhyesti joitain analysointimenetelmiä, annetaan ohjeita menetelmän valinnasta ja analyysin suorittamisesta SPSS (Statistical Package for Social Sciences) 11.0 for Windows -ohjelmiston avulla sekä tulkitaan esimerkeissä saatuja tuloksia. Lähdetään liikkeelle aineiston tallennuksesta, muokkauksesta ja kuvailusta. Sitten tutustutaan joihinkin testeihin ja menetelmiin, joita voidaan käyttää tilastollisen tutkimuksen teossa. SPSS for Windows -ohjelmisto on helppokäyttöinen, Windows -ympäristössä toimiva, valikko-ohjattu tilastollinen ohjelmisto, jolla on mahdollista suorittaa empiirisen aineiston tallennus ja muokkaus sekä tilastolliset analyysit graafisine esityksineen. Ohjelmisto sisältää hyvin laajan valikoiman analysointimenetelmiä aina aineiston kuvailuun liittyvistä menetelmistä epäparametrisiin testeihin, monimuuttujamenetelmiin, epälineaarisiin malleihin ja aikasarjaanalyysiin. Vaikka tässä monisteessa viitataan SPSS:n versioon 11.0, niin ohjeistus soveltuu hyvin käytettäessä sekä aiempien että uudempien versioita. Teknisiä ohjeita löytyy esimerkiksi sivun kautta (ks. lisäksi liite 1). Sivulla on myös linkki SPSS for Windows demonversion lataussivulle.

8 8 2 SPSS -YMPÄRISTÖ Käynnistettäessä SPSS -ohjelma avautuu Data Editor -ikkuna, jossa on välilehdet Data View (aineiston tallennus) sekä Variable View (muuttujien määrittely). Tämä ikkuna sisältää ohjelman päävalikon. Analysointeja tehtäessä tulokset tulevat automaattisesti avautuvaan Output -ikkunaan (tulostusikkunaan), jonka valikko poikkeaa jonkin verran päävalikosta. Päävalikko, jonka avulla käyttäjä pyytää ohjelmaa suorittamaan toiminnot, sisältää seuraavat kohdat: File Havaintomatriisin luominen, avaaminen, tallennus, tulostaminen,..., ohjelman käytön lopetus. Edit Cut-, Copy-, Paste-, Clear -toiminnot (mm. muuttujien/havaintojen poisto). View Näyttöön liittyviä lisämääreitä. Data Havaintomatriisiin liittyvien määritysten teko, kuten muuttujien lisääminen ja määritteleminen, tilastoyksiköiden lisääminen, ehdollistaminen. Transform Muunnosten teko muuttujille, uusien muuttujien määrittäminen olemassa olevien muuttujien avulla, luokituksen teko,... Analyze Valitaan haluttu analyysi (esim. tunnuslukujen lasku, ristiintaulukointi, varianssianalyysi, regressioanalyysi). Graphs Graafisten esitysten tekeminen (esim. jakaumat, pisteparvet, laatikko-jana - kuviot). Utilities Muuttujien määrittelytietojen katsominen, muuttujien arvojen selitteiden näyttäminen havaintomatriisissa. Window Ikkunasta toiseen siirtyminen. Help Ohjeita. Seuraavassa esitellään näiden valikoiden käyttöä tilastollisen tutkimuksen teon edetessä aineiston tallennuksesta analysointeihin. Lähdetään siis liikkeelle havaintoaineiston talletuksesta ja muokkauksesta. Kun aineisto on talletettu, voidaan aineiston analysointi aloittaa jakaumien teolla ja tunnuslukujen laskulla. Kuvailevan osuuden jälkeen on vuorossa tilastollisten analysointien

9 9 teko riippuvuuksien selvittämiseksi. Suoritettaessa analyysiä valitaan tilanteeseen sopiva komento, jonka jälkeen ohjelma pyytää tarvittavat lisämääreet kuten mm. muuttuja(t). Muuttujat voidaan valita esillä olevasta muuttujaluettelosta; valitaan muuttuja(t), jolle halutaan jakauma, joista piirretään pisteparvi, jne. 3 HAVAINTOMATRIISIN LUOMINEN JA MUOKKAAMINEN Empiirisen aineiston esitysmuotona käytetään havaintomatriisia, jossa n tilastoyksikön p muuttujan arvot esitetään tilastoyksiköittäin seuraavasti: x 1 x 2... x j... x p a 1 x 11 x x 1j... x 1p a 2 x 21 x x 2j... x 2p.. a i x i1 x i2... x ij... x ip.. a n x n1 x n2... x nj... x np missä x ij on i. tilastoyksikön mittaluku ominaisuudelle xj. Muuttujan x j jakauma on havaintomatriisissa j. pystyrivi eli sarake. Tilastoyksikön a i havaintovektori muodostuu i. vaakarivistä. Muuttujia on kahdenlaisia: kvalitatiivisia (kategorisia) ja kvantitatiivisia (numeerisia). Kvalitatiivinen mittaaminen on vain laadullista mittaamista ja se voidaan jakaa nominaali- eli luokitteluasteikolliseksi ja järjestys- eli ordinaaliasteikolliseksi mittaamiseksi. Kvantitatiivinen mittaaminen on numeerista mittaamista, mitta-asteikkoina intervalli- ja suhdeasteikko sekä absoluuttinen asteikko.

10 10 SPSS:llä käsiteltävä aineisto on aluksi saatettava havaintomatriisimuotoon, joka siis on kaksiulotteinen taulukko, jossa määritellään sarakkeille muuttujat ja kirjataan riveille tilastoyksiköittäin mittaustulokset. Tilastoyksiköitä ei havaintomatriisiin tarvitse nimetä, mutta identifioiva tunnusmuuttuja (vaikkapa juokseva numero) on syytä olla, jotta tarvittaessa löydetään vastaavuus aineiston ja havaintomatriisin talletetun tiedon välillä. Havaintomatriisin avaaminen tai uuden luominen tapahtuu valikosta File New> uuden luominen Data... Open vanhan avaaminen (oletusarvoisesti näkyvät.sav-tunnisteella olevat). Kun ohjelma käynnistetään, avautuu automaattisesti tyhjä havaintomatriisi- talletus aloitetaan muuttujien määrityksillä; pohja. Uuden havaintoaineiston määritellään mm. muuttujan nimi; tyyppi, joka on yleensä numeerinen, mutta voi olla myös merkkitietoa; desimaalien lukumäärä; selitteet muuttujalle ja sen koodeille. Muuttujan määritteleminen tapahtuu Data Editor -ikkunan Variable View -välilehdellä. Kun muuttuja/muuttujat on määritelty, syötetään arvot muuttujille jokaiselta tilastoyksiköltä (muuttuja kerrallaan, useampia muuttuja yhdessä tai tilastoyksikkö kerrallaan) Data Editor -ikkunan Data View -välilehdellä. Jos tietoja puuttuu, niin syötettäessä kyseinen solu jätetään tyhjäksi. Tällöin ohjelma tulkitsee sen puuttuvaksi tiedoksi eikä käyttäjän yleensä tarvitse huolehtia puuttuvista tiedoista; ohjelma jättää ne pois käsittelystä. Joissain graafisissa esityksissä tulee puuttuvan tiedon ryhmä oletusarvoisesti mukaan. Sen saa lisämäärityksillä pois. SPSS voi avata myös muilla ohjelmilla talletettuja aineistoja. Esimerkiksi Exceltiedosto voidaan avata, kunhan se on talletettu Excel versio 4 (tai vanhempi)

11 11 taulukoksi. Excel -taulukossa voi muuttujien nimet olla 1. rivillä, jolloin tieto tästä annetaan SPSS:lle lisämäärittelynä. Usein tarvitaan uusia laskennallisia muuttujia. Uuden muuttujan tekeminen havaintomatriisissa olemassa olevien muuttujien avulla (esimerkiksi summat, suhteet, mittayksikkövaihdot,...) suoritetaan valikosta Transform Compute... Avautuvassa ikkunassa nimetään uusi muuttuja (Target Variable) ja määritellään laskukaava (Numeric Expression). Esimerkki 1. Tarkastellaan Tampereella myynnissä olleita kerrostalohuoneistoja (aineisto sivulla lähde Aamulehti ). Tässä havaintomatriisissa on muuttujat asunnon koko neliöinä (NELIÖT) ja asunnon myyntihinta (HINTA) markkoina. Asunnon neliöhinta euroina NELIÖH = HINTA/( *NELIÖT). Tällöin tehtävä uusi muuttuja Target Variable on NELIÖH ja Numeric Expression HINTA/( *NELIÖT). 4 MUUTTUJIEN JAKAUMAT JA TUNNUSLUVUT 4.1 Jakaumat Kun havaintomatriisi on kunnossa, voidaan aloittaa aineiston analysointi. Ensin muodostetaan muuttujien frekvenssijakaumat (suorat jakaumat) joko graafisesti tai taulukkona. Muuttujien jakaumista voidaan huomata mahdollisesti tehtyjä tallennusvirheitä. Frekvenssijakauman graafiset esitykset valitaan muuttujan mitta-asteikon perusteella. Histogrammeja käytetään kvantitatiivisen muuttujan jakauman esittämiseen, pylväitä/janoja yleensä kvalitatiiviselle muuttujalle ja piirakoita luokitteluasteikollisen muuttujan tapauksessa. Graafiset esitykset löytyvät valikosta

12 12 Graphs Bar... pylväs- ja janadiagrammit, Pie... piirakat, Histogram... frekvenssihistogrammit; esityksen valinnan jälkeen annetaan muuttuja(t), jolle graafinen esitys tehdään. Numeerisen muuttujan yhteydessä itse määritellyn luokituksen tekeminen (tasavälisen luokituksen saa myös editoimalla histogrammia) tai kategoristen muuttujien tapauksessa luokkien yhdistäminen tapahtuu tekemällä uusi muuttuja havaintomatriisiin uudelleen koodauksen kautta. Koodaus tapahtuu valikosta Transform Recode> Into Different Variables... jossa annetaan luokiteltava muuttuja (Input Variable), luokituksen seurauksena syntyvän muuttujan nimi (Output Variable) sekä koodauksen (luokituksen) määrittely (Old and New Values...); havaintomatriisiin syntyy siis uusi muuttuja. Esimerkki 2. Asuntojen neliöhinnan uudelleen koodaus halpoihin, keskihintaisiin ja kalliisiin. Muodostetaan uusi muuttuja, joka saa arvot (vaikkapa 1, 2 ja 3) asunnon neliöhinnan perusteella. Frekvenssijakauman saa taulukkona valikosta Analyze Descriptive Statistics> Frequencies... Frekvenssitau lukkoa tehtäessä ohjelma luokittelee muuttujan jokaisen arvon omaan luokkaansa riippumatta siitä, montako arvoa muuttujalla on. Näin ollen numeeristen muuttujien yhteydessä taulukko on useimmiten käyttökelpoinen vasta, kun muuttuja on ensin luokiteltu (ks. luokituksen teko edellä).

13 13 Esimerkki 3. Asuntojen luokittelu neliöhinnan perusteella halpoihin, keskihintaisiin ja kalliisiin tapahtuu siten, että muodostetaan esimerkissä 2 esitetty uudelleen koodaus ja tehdään sitten tälle uudelle muuttujalle frekvenssijakauma. Jos uudelleen koodauksen yhteydessä on annettu koodeille selitteet halpa, keskihintainen, kallis sekä uudelle NELIOH -muuttujalle selite Asunnon hinta, saadaan seuraava taulukko Asunnon hinta Valid halpa keskihintainen kallis Total Cumulative Frequency Percent Valid Percent Percent 13 23,2 23,2 23, ,4 55,4 78, ,4 21,4 100, ,0 100,0 missä on hintaluokittain asuntojen lukumäärät (Frequency) ja prosentuaaliset määrät (Valid Percent) sekä kumulatiiviset prosentit (Cumulative Percent). Siis vähän yli puolet myynnissä (otoksessa) olleista asunnoista oli keskihintaisia. Jos aineistossa on puuttuvia tietoja, niin niiden lukumäärä näkyy frekvenssijakaumassa. Kun käyttää uudelleen koodausta, niin on syytä tarkistaa, että havaintoja ja puuttuvia tietoja on saman verran kuin alkuperäisessäkin muuttujassa. 4.2 Ehdollistaminen Muuttujan frekvenssijakaumaa voidaan tarkastella toisen muuttujan eri luokissa. Voidaan tutkia miten tämä ehdollistettu muuttuja vaikuttaa tarkasteltavan muuttujan jakaumaan vertailemalla ehdollisia prosenttijakaumia. Ehdollisten jakaumien (tai yleensä ehdollistamisen) teon yhteydessä ilmoitetaan ohjelmistolle, että jatkossa halutaan analysoinnit tehtävän jonkun muuttujan

14 14 (tai muuttujien) eri luokissa erikseen (esimerkiksi miehillä ja naisilla erikseen) antamalla ehdollistava muuttuja valikossa Data Split file... vaihtoehto Compare groups ja valitsemalla muuttujaluettelosta ryhmittelymuuttuja; ryhmittelyn purkaminen vaihtoehto Analyze all cases. Tämän määrityksen jälkeen tehtävät analyysit tapahtuvat erikseen kaikissa ehtomuuttujan ryhmissä (myös puuttuvien tietojen ryhmässä!). Jos ehtomuuttuja on numeerinen, se on ensin luokiteltava halutulla tavalla. Ehto on päällä siihen asti, kun se otetaan pois. Huom! Split file järjestää havaintomatriisin uudelleen ryhmittelymuuttujan mukaan. Tästä saattaa olla haittaa, jos aineistoon ei ole talletettu havaintoja identifioivaa tunnusmuuttujaa. Esimerkki 4. SAIDIT -aineistossa (sivulla on tietoja vastasyntyneistä lapsista. Halutaan vertailla syntymäpainon (g) (PAINO) jakaumia tytöillä ja pojilla. Voidaan lähteä liikkeelle piirtämällä frekvenssihistogrammin erikseen tytöille ja pojille. Tällöin Split file ehtomuuttujaksi annetaan muuttuja, joka kertoo lapsen sukupuolen (SEX). Tämän jälkeen muodostetaan histogrammi muuttujasta PAINO. Ehdollistaminen voi tapahtua myös valitsemalla käsittelyyn vain tietyt tilastoyksiköt. Tämä tapahtuu valikosta Data Select cases... valitsemalla If condition is satisfied ja määrittelemällä sopivan if - ehdon (ehdon purku All cases).

15 15 Esimerkki 5. Halutaan esimerkin 4 aineistossa tarkastella vastasyntyneitä lapsia siten, että jätetään keskoset pois analyyseistä. Tällöin voidaan Select cases -kohdassa antaa if -ehto esimerkiksi PAINO > Tunnuslukuja Tunnusluvun avulla pyritään kuvaamaan muuttujan jakaumaa muuttujan arvoista lasketulla luvulla. Kuvataan esimerkiksi jakauman sijaintia sopivan keskiluvun avulla tai muuttujien arvojen vaihtelua hajontalukujen avulla. Muuttujan mitta-asteikko määrää, mitkä tunnusluvut ovat sallittuja käyttää. Keskilukuja ovat moodi, mediaani ja keskiarvo. Moodi on se muuttujan arvo, joka esiintyy useimmin ja sitä voidaan käyttää myös kvalitatiivisten muuttujien yhteydessä. Moodiluokka on usein käyttökelpoinen, kun muuttuja on kvantitatiivisen. Mediaani on sellainen muuttujan arvo, jota pienempiä ja suurempia arvoja on yhtä paljon. Mediaania voidaan käyttää, kun järjestyksellä on tulkinta eli muuttujan on vähintään järjestysasteikollinen. Aritmeettinen keskiarvo on sallittu kvantitatiivisten muuttujien yhteydessä. Tunnuslukuja voidaan tarkastella ehdollisina. Ehdollisia keskiarvoja (tai mediaaneja) voidaan käyttää tutkittaessa riippuvuutta kahden muuttujan välillä. Ehdollisten keskiarvojen käyttö riippuvuuden tutkimisessa edellyttää tietysti sitä, että selitettävä muuttuja on kvantitatiivinen. Esimerkki 6. Vaikuttaako sukupuoli lapsen syntymäpainoon? Tällöin lapsen syntymäpaino (PAINO) on selitettävä eli riippuva muuttuja (y) ja sukupuoli (SEX) selittävä eli riippumaton muuttuja (x). Pyritään selvittämään PAINO - muuttujan arvojen vaihtelua sillä, onko lapsi tyttö vai poika. Eräs mahdollisuus riippuvuuden selvittämisessä on keskiarvojen vertailu ryhmittäin eli ehdollisten keskiarvojen käyttö. Lasketaan PAINO -muuttujasta keskiarvot

16 16 tytöillä ja pojilla sekä vertaillaan keskiarvoeroja. Jos ehdolliset keskiarvot poikkeavat toisistaan sanotaan, että SEX -muuttujalla voidaan selittää PAINO - muuttujan vaihtelua. Sanotaan, että PAINO -muuttuja riippuu SEX - muuttujasta. Jos ehdolliset keskiarvot ovat lähes samoja, niin riippuvuutta ei ole (ks. tarkemmin esimerkit 7 ja 10). Muuttujan arvot vaihtelevat tilastoyksiköstä toiseen. Vaihtelun voimakkuutta pyritään mittaamaan erilaisia tunnuslukuja käyttäen. Kvantitatiivisten muuttujien yhteydessä vaihtelua mitataan usein varianssin avulla. Varianssi mittaa kuinka tiiviisti muuttujien arvot ovat keskittyneet keskiarvon ympärille. Varianssin neliöjuuri on nimeltään keskihajonta. Alakvartiili ja yläkvartiili ovat mediaanin kaltaisia tunnuslukuja, jotka kuvaavat jakauman sijaintia. Alakvartiili on luku, joka jakaa muuttujan arvot kahteen osaan siten, että korkeintaan 25 % havaituista arvoista on pienempiä kuin alakvartiili. Yläkvartiili on luku, joka jakaa muuttujan arvot kahteen osaan siten, että korkeintaan 75 % havaituista arvoista on pienempiä kuin yläkvartiili. Alakvartiili, mediaani ja yläkvartiili jakavat muuttujan arvot neljään havaintomääriltään yhtä suuriin osiin. Yhdessä näitä tunnuslukuja kutsutaan kvartiileiksi. Muuttujan arvot voidaan jakaa viiteen, kuuteen, jne. havaintomääriltään yhtä suuriin osiin. Yleisesti näitä osiin jakavia tunnuslukuja kutsutaan fraktiileiksi.

17 17 Jakaumaa kuvaavia erilaisia tunnuslukuja (myös ehdollisia tunnuslukuja) saadaan mm. seuraavilla tavoilla: Analyze Descriptive Statistics> Frequencies...Statistics saadaan halutuista muuttujista mm. keskiarvo, mediaani, fraktiilit, moodi, keskihajonta, varianssi, pienin arvo, suurin arvo Descriptives... Options saadaan halutuista muuttujista mm. keskiarvo, keskihajonta, varianssi, pienin arvo, suurin arvo, vaihteluväli Explore... saadaan halutuista muuttujista (Dependent List) mm. keskiarvo, keskihajonta, varianssi, pienin arvo, suurin arvo, vaihteluväli sekä tunnusluvut ehdollisina antamalla (kvalitatiivinen) ehtomuuttuja kohtaan Factor List Compare Means> Means... saadaan tunnusluvut ehdollisina antamalla ehtomuuttuja (kvalitatiivinen) selittäväksi muuttujaksi. Histogrammin teon yhteydessä saa automaattisesti muuttujan keskiarvon ja keskihajonnan. Ehdollisia jakaumia voidaan havainnollistaa myös laatikko-jana-kuvion (boxplot) avulla. Kuvio perustuu eri fraktiileihin ja saadaan tehdyksi valikosta Esimerkki 7. Graphs Boxplot... antamalla Variable -kohtaan tutkittava muuttuja ja Category -kohtaan ryhmittelymuuttuja. Tarkastellaan esimerkin 4 aineistoa. Tutkittaessa lapsen syntymäpainon riippuvuutta sukupuolesta, voidaan aluksi laske ehdolliset keskiarvot ja piirtää laatikko-jana -kuvio. Jos ehdolliset keskiarvot lasketaan valikosta Compare Means> Means..., niin annetaan Dependent List -muuttujaksi PAINO ja Independent List -muuttujaksi SEX. Näin saadaan tulos

18 18 Report PAINO SEX poika tyttö Total Mean N Std. Deviation 3640, , , , , ,321 jossa on ehdolliset keskiarvot (Mean) ja keskihajonnat (Std.Deviation). Näyttäisi siis siltä, että pojat ovat syntyessään keskimäärin tyttöjä painavampia (ks. testaus esimerkissä 10). Painon jakaumissa esiintyvä vaihtelu on myös jonkin verran erilaista; tytöillä keskihajonta on suurempi. Tämä näkyy hyvin myös hyvin laatikko-jana -kuviosta PAINO 2000 N = 65 poika 55 tyttö SEX joka on tehty valikosta Graphs>Boxplot... antamalla Variable -kohtaan PAINO ja Category -kohtaan SEX. Laatikko-jana -kuviossa keskimmäinen viiva on syntymäpainon mediaanin kohdalla ja laatikon ylä- ja alareunat ylä - ja alakvartiileissa. Kuviosta nähdään, että tyttöjen jakauma on alempana kuin poikien ja siinä on enemmän vaihtelua. Laatikot sisältävät 50 % havainnoista.

19 19 5 PISTEPARVI JA KORRELAATIOKERROIN Kun tarkastellaan kahta muuttujaa samanaikaisesti, niin on kyse kaksiulotteisesta jakaumasta. Tällöin ollaan kiinnostuneita muuttujien välisestä riippuvuudesta. Kaksiulotteisen jakauman graafinen esitystapa on pisteparvi eli korrelaatiodiagrammi, joka antaa hyvän yleiskuvan mahdollisesta riippuvuudesta ja sen laadusta. Pisteparvi on järkevä piirtää, kun selitettävä on kvantitatiivinen. Tulkinnassa on huomattava selittävän muuttujan mittaasteikko. Pisteparvi saadaan valikosta Graphs Scatter antamalla selitettävä y pystyakselille ja selittävä x vaaka-akselille. Myös kaksiulotteisista jakaumista voidaan määritellä tunnuslukuja, jotka nyt mittaavat riippuvuuden voimakkuutta. Yksi tällainen tunnusluku on korrelaatiokerroin, joka mittaa kahden kvantitatiivisen muuttujan välistä suoranomaista eli lineaarista riippuvuutta; sen voimakkuutta. Korrelaatiokertoimen ollessa lähellä nollaa lineaarista riippuvuutta ei ole. Täydellinen lineaarinen riippuvuus on silloin, kun korrelaatiokerroin on itseisarvoltaan 1. Korrelaatiokertoimen (korrelaatiomatriisin) voi laskea valikosta Analyze Correlate> Bivariate... (Pearson) antamalla halutut muuttujat.

20 20 Esimerkki 8. Esimerkin 4 aineistossa on muuttuja, joka ilmoittaa lapsen syntymäpituuden (PITUUS). Kun piirretään pisteparvi PAINO -muuttuja y - akselille ja PITUUS -muuttuja x - akselille saadaan kuvio PAINO PITUUS josta huomataan voimakas suoranomainen (lineaarinen) riippuvuus. Siis lapsen paino riippuu lineaarisesti pituudesta (ks. tarkemmin esimerkit 14 ja 15). Korrelaatiomatriisiksi saadaan PAINO PITUUS Correlations Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2 il d) PAINO PITUUS 1,720**,, ,720** 1,000, jossa korrelaatiokerroin pituuden ja painon välillä on 0.72 kertoen voimakkaasta lineaarisesta riippuvuudesta (ks. testaus esimerkissä 14).

21 21 6 JOITAIN YLEISESTI KÄYTETTYJÄ ANALYSOINTIMENETELMIÄ Tilastollinen hypoteesi on väittämä populaatiosta, sen jakaumasta ja/tai jakauman parametrista. Hypoteesin testaus tarkoittaa väittämän tutkimista otoksen perusteella. Väitteen paikkansa pitävyyttä tutkitaan otoksen (käytettävissä olevan aineiston) perusteella laskemalla tilanteeseen sopiva nk. testisuure. Tämän testisuureen arvon perusteella joko uskotaan väite tai ei uskota (jolloin vaihtoehtoinen väite hyväksytään). Johtopäätelmän tekeminen perustuu siihen, että selvitetään voidaanko otoksesta laskettua testisuureen arvoa väitteen ollessa tosi pitää tavanomaisten arvojen joukkoon kuuluvana vai katsotaanko se harvinaisten arvojen joukkoon kuuluvaksi. Jos testisuureen arvo kuuluu harvinaisten arvojen joukkoon, niin väitettä ei uskota. Mikä sitten on harvinaista? Testauksessa harvinaisiksi arvoiksi katsotaan sellaisten arvojen joukko, jonka todennäköisyys on melko pieni, esim. pienempi kuin Testauksessa onkin tapana ilmoittaa nk. p -arvo, joka kertoo todennäköisyyden saada väitteen ollessa tosi otoksesta saatua arvoa harvinaisempi arvo. Tämä on siis pienin ristitaso, jolla asetettu väite voidaan hylätä. Jos siis testaukseen liittyvä p -arvo on pieni, sanotaan vaikkapa 0.01, niin asetettua väitettä ei uskota; se hylätään ja hyväksytään vaihtoehtoinen väittämä. Se milloin p -arvon katsotaan olevan tarpeeksi pieni, riippuu siitä millainen todennäköisyys sallitaan sille, että tehdään väärä johtopäätelmä; väärä siten, että väittämä hylätään vaikka sen on tosi. Tämä virhetodennäköisyys ei saa olla suuri; sen halutaan usein olevan suuruusluokkaa pienempi kuin 5 %, 2.5 %, 1 %,... Jos p arvon on < 0.05 on tapana sanoa, että tulos on tilastollisesti melkein merkitsevä, jos p arvon on < 0.01 tilastollisesti merkitsevä ja jos p arvon on < tilastollisesti erittäin merkitsevä.

22 22 Hypoteesin testauksessa asetetaankin siis kaksi väittämää, joista toinen on välttämättä voimassa. Nollahypoteesi H 0, jonka ollessa tosi, testisuuren todennäköisyysjakauma tunnetaan, sekä vaihtoehtoinen hypoteesi H 1. Nollahypoteesi H 0 tulee aina asettaa käytetyn testin sanelemalla tavalla. Seuraavaksi esiteltävissä menetelmissä pyritään selittämään yhtä muuttuja. Selittäviä muuttujia on yksi tai useampia. Analysointimenetelmän valintaan vaikuttaa muuttujien mittaustaso. Tässä esityksessä käydään läpi kolme perustyyppiä. 6.1 Ristiintaulukko Kahden kvalitatiivisen muuttujan välinen riippuvuustarkastelu voidaan tehdä ristiintaulukon avulla vertailemalla selitettävän muuttujan ehdollisia prosenttijakaumia. Riippuvuuden merkitsevyys voidaan testata. Testisuureena käytetään χ 2 -riippumattomuustestisuuretta ja hypoteesit asetetaan H 0 : ei riippuvuutta H 1 : on riippuvuutta Testin käyttöön liittyy joitain oletuksia (ei mitta-asteikkovaatimuksia). Tilanteissa, jossa ristiintaulukointi on tehty siten, että molemmilla muuttujilla on kaksi luokkaa, testiä voidaan käyttää, jos n > 40. Jos nelikentässä 20 n 40, niin kaikkien nk. teoreettisten frekvenssien (frekvenssit, jos riippuvuutta ristiintaulukon perusteella ei olisi) on oltava 5. Muulloin kaikkien teoreettisten frekvenssien on oltava > 1 sekä enintään 20 % saa olla < 5. Jos vaatimukset eivät täyty, on ristiintaulukointi tehtävä uudella luokituksella.

23 23 χ 2 -testisuureen arvot ovat 0, joten harvinaisten arvojen joukko muodostuu suurista arvoista. Ristiintaulukointi ja testaus tehdään valikosta Analyze Descriptive Statistics> Crosstabs... annetaan sarake- ja rivimuuttujat, lisämääreinä Statistics... -painike>chi-square, χ 2 -testisuure Cells... -painike, ehdolliset prosenttijakaumat, suunta valitaan siten, että saadaan selitettävän prosenttijakaumat selittäjän luokissa. SPSS muodostaa ristiintaulukon siten, että molempien muuttujien jokainen arvo on omana luokkanaan. Jos on tarvetta yhdistellä muuttujien arvoja, tehdään se muodostamalla uusi muuttuja havaintomatriisiin (Transform>Recode>). Kvantitatiivista muuttujaa voi halutessaan myös käyttää ristiintaulukoinnissa, kunhan luokittelee sen ensin. Esimerkki 9. Tarkastellaan eräältä kurssilta saatua opiskelijapalautetta. Halutaan selvittää, onko opintosuunnalla vaikutusta annettuun palautteeseen. ARVIO -aineistossa (sivulla ) on muuttuja OPINTOJAKSON TYÖLÄYS, joka kertoo vastaajan mielipiteen opintojakson työläydestä (työläs/sopiva/vähätöinen) sekä palautteen antajan opintosuunta (OPSUUNTA). Nyt asetetaan H 0 : Opintosuunta ei vaikuta annettuun arvioon H 1 : Opintosuunta vaikuttaa annettuun arvioon. Kun nyt suoritetaan edellä esitetyllä tavalla ristiintaulukointi, saadaan taulukko

24 24 Opintojakson työläys * OPSUUNTA Crosstabulation Opintojakson työläys Total työläs sopiva vähätöinen Count % within OPSUUNTA Count % within OPSUUNTA Count % within OPSUUNTA Count % within OPSUUNTA OPSUUNTA hallinto taloust Total ,4% 34,8% 44,6% ,3% 32,6% 30,8% ,3% 32,6% 24,6% ,0% 100,0% 100,0% Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (2-sided) 7,668 a 2,022 8,680 2,013 7,548 1, a. 1 cells (16,7%) have expected count less than 5. The minimum expected count is 4,68. Aluksi huomataan, että OPINTOJAKSON TYÖLÄYDEN prosentuaaliset jakaumat opintosuunnittain poikkeavat huomattavasti toisistaan. Mutta ovatko erot riittävän suuria, jotta voidaan tehdä päätelmä riippuvuuden olemassaolosta? Tuloksesta (kohta a.) nähdään ensin, että oletuksen testin käyttöön ovat voimassa (pienin teoreettinen (odotettu) frekvenssi on 4.68 ja alle 5 teoreettisia frekvenssejä 16.7 %). χ 2 -riippumattomuustestisuureen arvo (Pearson Chi-Square) on 7.668, joka voidaan katso harvinaisten arvojen joukkoon kuuluvaksi, jos harvinaisena pidetään sellaisten arvojen joukkoa, joiden todennäköisyys on esim. pienempi kuin Tällöin H 0 hylätään ja H 1 hyväksytään ja tehdään johtopäätelmä, että opintosuunta vaikuttaa annettuun arvioon. Tässä siis p -arvo on Jos halutaankin ottaa esimerkiksi vain 1 %:n riski, niin silloin H 0 hyväksytään, koska > 0.01.

25 25 Tilastollisten testin suorittaminen tapahtuu periaatteessa kaikissa tilanteissa edellä esitetyllä tavalla. Asetetaan testattava hypoteesi, lasketaan testisuureen arvo ja pienin riskitaso, jolla nollahypoteesi voidaan hylätä. Tämän p -arvon perusteella joko hyväksytään väittämä tai hylätään se. Eri tilanteissa nollahypoteesi, testisuure ja sen jakauma ovat erilaisia. 6.2 Odotusarvojen yhtäsuuruuden testaaminen t -testillä Tutkittaessa kvantitatiivisen muuttujan riippuvuutta kvalitatiivisesta muuttujasta, jolla on kaksi luokkaa, voidaan käyttää riippumattomien otosten t -testiä kahden populaation keskiarvojen (odotusarvojen) yhtäsuuruuden testaamiseksi. Hypoteesit asetetaan H 0 : populaation keskiarvot ovat samoja ( ei riippuvuutta ) H 1 : populaation keskiarvot eivät ole yhtä suuria ( on riippuvuutta ) Vaihtoehtoinen hypoteesi voidaan asettaa myös yksisuuntaisena, jolloin H 1 : toisen populaation keskiarvo on toista suurempi. Riippumattomien otosten t - testissä oletetaan, että käytössä on riippumattomat satunnaisotokset normaalijakaumista, joiden varianssit ovat yhtä suuret, mutta tuntemattomat. Testisuure, jota käytetään, noudattaa nollahypoteesin ollessa tosi nk. Studentin t -jakaumaa, joka määritellään nk. vapausastein. Jakauma on symmetrinen origon suhteen. Siis harvinaisten arvojen joukko muodostuu kaksisuuntaisessa testissä itseisarvoltaan suurista arvoista. Riippumattomien otosten t -testi saadaan valikosta Analyze Compare Means> Independent Samples T-test... (riippumattomat otokset) annetaan selitettävä (Test Variables) sekä selittävä, ryhmittely -muuttuja (Grouping Variable).

26 26 Tuloksena saadaan testisuureen lisäksi myös ehdolliset keskiarvot ja varianssit sekä testisuure varianssien yhtäsuuruuden testaamiseksi. Esimerkki 10. Onko tytöillä ja pojilla eroja syntymäpainossa? H 0 : Painon keskiarvot samoja molemmissa populaatioissa H 1 : Painon keskiarvot eivät samoja molemmissa populaatioissa. SAIDIT -aineistossa sivulla on muuttujat PAINO (g) ja SEX. Nyt siis selitetään muuttujaa PAINO, joka on kvantitatiivinen. Selittäjä on SEX -muuttuja, joka on kvalitatiivinen, kaksiluokkainen. Suoritetaan riippumattomien otosten t -testi ja saadaan tulokset Group Statistics PAINO SEX poika tyttö Std. Error N Mean Std. Deviation Mean ,46 438,244 54, ,27 523,280 70,559 Independent Samples Test PAINO Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper,293,589 2, , ,19 87,765 15, ,99 2, ,7, ,19 89,069 12, ,78 Tässä on siis riippumattomat otokset tyttö- ja poikapopulaatioista. Otoskoot ovat 65 ja 55. Syntymäpainon keskiarvojen erotus on g. Kuten jo aiemmin on todettu painon otosvarianssit ( ja ) poikkeavat toisistaan. Tuloksista löytyy testisuure (Levene s Test for Equality of Variances) hypoteesille H 0 : Populaatioidn varianssit samoja. Koska tähän liittyvä p -arvo on (>0.05), H 0 hyväksytään ja todetaan, että vaatimus varianssien

27 27 yhtäsuuruudesta voidaan kuitenkin olettaa olevan täytetty. Jos näin ei olisi, niin t -testin tulokset luettaisiin toiselta riviltä. Normaalijakauma -oletus jätetään tässä testaamatta. Varsinaisen testisuureen arvo on siis ja tähän kaksisuuntaiseen testiin liittyvä p -arvo 0.033, yksisuuntaisessa testissä se olisi 0.033/2. Jos riskitasoksi valitaan 5 %, niin nollahypoteesi hylätään (koska p < 0.05) ja tehdään päätelmä, että tytöt ja pojat ovat syntyessään keskimäärin eri painoisia. Jos otettaisiin riski, joka olisi pienempi kuin 3.3 % (vaikkapa 1 %) niin tehtäisiin päinvastainen päätelmä! Tulostuksesta löytyy myös 95 % luottamusväli odotusarvojen erotukselle. Testin sijaan voidaan käyttää tätä luottamusväliä johtopäätelmän tekemisessä. Jos luottamusväli sisältää nollan niin populaation keskiarvojen erotus voidaan arvioida olevan nolla (eri tyttö- ja poikapopulaatiossa syntymäpainon keskiarvot samoja!). Tässä luottamusväli, jolle populaatioiden keskiarvojen erotuksen arvellaan kuuluvan, on

28 28 Esimerkki 11. Halutaan tutkia, miten saunan olemassaolo vaikuttaa asunnon neliöhintaan (aineisto esim. 1). Koska neliöhinnat ovat hyvin erilaiset keskustaja lähiöalueilla, tutkitaan asiaa erikseen keskustassa ja muualla. Aineistossa on muuttuja, joka kertoo onko kyseessä keskusta-asunto (KESK). Samoin löytyy muuttuja, joka kertoo saunan olemassaolon (SAUNA). Suoritetaan riippumattomien otosten t -testi selittäen muuttujaa NELIÖH (määritelty esimerkissä 1) muuttujalla SAUNA. Tehdään tämä analyysi erikseen keskustaja lähiöasunnoille käyttäen ennen t -testin tekoa komentoa Split file, jossa ehtomuuttujaksi annetaan muuttuja KESK. Saadaan seuraavat tulokset: Group Statistics Keskustassa? ei kyllä Neliöhinta Neliöhinta Onko sauna? ei kyllä ei kyllä Std. Error N Mean Std. Deviation Mean , , , , , , , , , , , ,46605 Independent Samples Test Keskustassa? ei kyllä Neliöhinta Neliöhinta Equal variances assumed Equal variances not assumed Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 1,031,320-1,866 24, , , ,22 22,77-1,593 9,849, , , ,83 86,37,014,906-5,004 28, , , ,81-175,1-4,909 22,15, , , ,67-171,3 Huomataan ensin, että molemmissa tilanteissa varianssioletus on kunnossa (p - arvot 0.320, 0.906). Testattaessa odotusarvojen yhtäsuuruutta saadaan keskustaasunnoille t = , p = 0.00 ja lähiöasunnoille t = , p = Siis sauna vaikuttaa asunnoin keskihintaan keskustassa mutta ei lähiössä. Keskustassa saunallisen huoneiston neliöhinta on keskimäärin korkeampi kuin saunattoman. Johtopäätelmät voidaan tehdä myös luottamusvälien avulla; keskusta-asunnoissa nolla ei kuulu luottamusvälille, lähiöasunnoissa kylläkin.

29 29 Esimerkki 12. Tutkitaan lääkkeen vaikutusta suoritukseen. Mitataan koehenkilöiltä suoritus (kvantitatiivisesti) normaalitilanteessa sekä lääkkeen vaikutuksen alaisena. Vaikuttaako lääke suoritukseen? Esimerkissä 12 ei ole kyse riippumattomista otoksista, koska samoilta henkilöilta on mitattu (kvantitatiivista) ominaisuutta ennen - jälkeen tilanteessa. Nyt tutkitaankin sitä, onko suorituksen muutos peräisin (normaali)jakaumasta, jonka odotusarvo on nolla (H 0 ). Tässä käytetään riippuvien otosten (vastinparien) t-testiä, joka saadaan valikosta Analyze Compare Means> Paired-Samples T-test... annetaan kaksi muuttujaa, toisessa arvot ennen toisessa jälkeen. 6.3 Varianssianalyysi Tutkittaessa kvantitatiivisen muuttujan riippuvuutta kvalitatiivisesta muuttujasta, jolla on useampi kuin kaksi luokkaa voidaan käyttää yksisuuntaista varianssianalyysiä populaatioiden keskiarvojen (odotusarvojen) yhtäsuuruuden testaamiseksi. Tämä on siis yleistys edellä esitetylle riippumattomien otoksien t -testille. Nytkin testattavana hypoteesina on H 0 : populaation keskiarvot ovat samoja ( ei riippuvuutta ) H 1 : populaation keskiarvot kaikki eivät yhtä suuria ( on riippuvuutta ) Testin käyttöön liittyy samat oletukset kuin t -testissäkin. On tehty riippumattomat otokset normaalijakaumista, joiden varianssit yhtä suuret mutta tuntemattomat. Jos otoksia on kaksi, voi tehdä joko t -testin tai suorittaa varianssianalyysin. Tässä tilanteessa ne ovat identtiset. Varianssianalyysissä käytetään nk. F -testisuuretta odotusarvojen yhtäsuuruuden testaamiseksi. Varianssianalyysi suoritetaan valikosta

30 30 Analyze Compare Means> One-Way ANOVA... annetaan selitettävä, riippuva (Dependent List) muuttuja sekä selittävä (Factor) muuttuja. Tuloksena saadaan testisuureen lisäksi pyydettäessä (Options...) myös ehdolliset keskiarvot ja varianssit sekä testisuure varianssien yhtäsuuruuden testaamiseksi. F -testisuuretta käytettäessä suurten arvojen joukko muodostaa harvinaisten arvojen joukon. Jos saadaan tulos, että odotusarvot eivät kaikki ole yhtä suuria, voidaan myös tehdä monivertailuja ryhmittäin (PostHoc...). Nimitys yksisuuntainen (varianssianalyysi) tulee siitä, että on yksi selittäjä. Nimitys varianssianalyysi on hieman harhaanjohtava, koska analyysissä ei testata varianssien yhtäsuuruutta (paitsi oletusten tutkimisessa) vaan odotusarvojen yhtäsuuruutta. Esimerkki 13. Halutaan tutkia, vaikuttaako tomaattilajike keskimääräiseen satomäärään. TOMSATO -aineistossa (sivulla on SATO -muuttuja, joka on kvantitatiivinen sekä LAJIKE -muuttuja, joka ilmoittaa käytetyn lajikkeen (kolme lajiketta). Nyt H 0 : sadon odotusarvot ovat samoja kaikilla lajikkeilla ( ei riippuvuutta ) H 1 : sadon odotusarvot kaikki eivät yhtä suuria ( on riippuvuutta ) Saadaan seuraavat tulokset: Descriptives SATO 1,00 2,00 3,00 Total 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 12 11,3333 1,88310, , ,5298 7,90 14, ,2083 2,34887, , ,7007 8,10 15, ,1250 1,73369, , , ,30 21, ,8889 3,62671, , ,1160 7,90 21,00

31 31 Test of Homogeneity of Variances SATO Levene Statistic df1 df2 Sig., ,442 ANOVA SATO Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 327, ,799 40,716, , , , Multiple Comparisons Dependent Variable: SATO Bonferroni (I) LAJIKE 1,00 2,00 3,00 (J) LAJIKE 2,00 3,00 1,00 3,00 1,00 2,00 Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound -,8750,81884,879-2,9403 1,1903-6,7917*,81884,000-8,8570-4,7264 *. The mean difference is significant at the.05 level.,8750,81884,879-1,1903 2,9403-5,9167*,81884,000-7,9820-3,8514 6,7917*,81884,000 4,7264 8,8570 5,9167*,81884,000 3,8514 7,9820 Ensin huomataan, että ehdolliset otoskeskiarvot näyttäisivät poikkeavan toisistaan ainakin verrattaessa lajikkeen 3 keskiarvoja muihin. Kun testataan varianssien yhtäsuuruutta (kolmessa populaatiossa, tarkastellaan satomäärää kolmella lajikkeella), voidaan olettaa niiden olevat yhtä suuret, koska p = Testattaessa odotusarvojen yhtäsuuruutta saadaan F = ja p = 0.000, joten H 0 hylätään ja tehdään johtopäätelmä, että kaikki lajitteet eivät tuota keskimäärin samanlaista satoa. Missä sitten on eroja? Lajikkeittain vertailu (Multiple Comparisons) kertoo, että eroja on lajikkeiden 3 ja 1 (p = 0.000) sekä 3 ja 2 (p = 0.000) välillä mutta ei lajikkeiden 1 ja 2 välillä (p = 0.879).

32 32 Jos halutaan selittää kvantitatiivista muuttuja kahdella kvalitatiivisella samanaikaisesti, kaksisuuntaista varianssianalyysiä saattaa olla käyttökelpoinen. Analyysi saadaan tehtyä valikosta Analyze General Linear Model> Univariate... annetaan selitettävä, riippuva (Dependent Variable) muuttuja sekä selittävät (Fixed Factors) muuttujat Kaksisuuntaisessa varianssianalyysissä voidaan tutkia molempien selittäjien omavaikutusta sekä yhdysvaikutusta. Jokaiseen tehdään omat F -testit. 6.4 Regressioanalyysi Regressioanalyysillä tutkitaan muuttujan y riippuvuutta muuttujajoukosta x 1, x 2,..., x k. Pyritään löytämään malli, joka kertoisi y:n riippuvuuden selittäjistä. Kaikkien muuttujien oletetaan olevan kvantitatiivisia. Tosin joissain tilanteissa selittäjissä voi olla dikotomisia muuttujia, mikä on sitten huomioitava mallin tulkinnassa tietyllä tavalla. Regressioanalyysin yhteydessä ajatellaan selitettävän muuttujan y riippuvuuden muuttujista x 1, x 2,..., x k olevan muotoa Y = β 0 + β 1 x 1 + β 2 x β k x k + ε, missä Y on satunnaismuuttuja (response) selitettävä muuttuja, havaittavissa oleva; x 1, x 2,..., x k ovat selittäviä, ei-satunnaisia, havaittuja, kontrolloitavissa olevia; ε on satunnaismuuttuja, virhetermi (ei havaittavissa oleva, oletetaan jokainen ε i ~ N(0, σ 2 ), i = 1, 2, n, ja ε i :t riippumattomia); β 0, β 1, β 2,..., β k ovat mallin tuntemattomat parametrit, jotka aineiston perusteella ovat estimoitavissa. Jos k = 1, on kyse yhden selittäjän regressiomallista, jos k = 2 kahden selittäjän, jne. Vakiokerroin β 0 voi tarvittaessa puuttua mallista.

33 33 Tavanomainen yhden selittäjän regressioanalyysi tuottaa tulosta lineaarisesti riippuvien muuttujien yhteydessä. Tällöin pisteparveen voidaan sovittaa suora, jonka ympärille pisteiden ajatellaan ryhmittyneen. Tällöin tarkastellaan mallia Y = β 0 + β 1 x + ε, missä β 0 ja β 1 ovat mallin parametrit sekä ε satunnaisvirhe. Tässä yhden selittäjän regressiomallissa ajatellaan siis satunnaismuuttujan Y:n muodostuvan x:n avulla selitettävästä osasta β 0 + β 1 x sekä satunnaisvaihtelusta ε. Mallin estimointi sisältää parametrien β 0 ja β 1 estimoinnin. Tässä siis estimoidaan suora, jonka ajatellaan kuvaavan y:n riippuvuutta x:stä. Estimoitu malli (suora) on yˆ = ˆ β + ˆ β x 1. 0 Yhden selittäjän regressioanalyysissä siis estimoidaan pisteparveen sovitettava suora; suoran vakiokerroin sekä kulmakerroin. Ajatellaan, että y:n arvot määräytyvät keskimäärin x:n arvoista estimoidun suoran yhtälön mukaisesti. Mitä paremmin pisteet ovat keskittyneet suoran ympärille, sitä voimakkaampaa on riippuvuus. Korrelaatiokerroin mittaa tätä lineaarisen riippuvuuden voimakkuutta. Otoksesta laskettua korrelaatiokerrointa käyttäen voidaankin testata, onko populaatiossa kahden muuttujan välinen korrelaatiokerroin nolla. Tällöin H 0 : populaation korrelaatiokerroin on nolla ( ei lineaarista riippuvuutta ) H 1 : populaation korrelaatiokerroin ei ole on nolla ( on lineaarista riippuvuutta ). Tässä käytetään testisuuretta, joka noudattaa Studentin t -jakaumaa nollahypoteesin ollessa tosi. Harvinaiset arvot (kaksisuuntaisessa testissä) muodostuvat itseisarvoltaan suurista arvoista. Kun SPSS:llä lasketaan

34 34 korrelaatiomatriisi (ks. luku 5), niin saadaan samalla tähän t -testisuureeseen liittyvä p -arvo. Esimerkki 14. Esimerkin 8 aineistossa korrelaatiokerroin lapsen syntymäpituuden ja -painon välillä on Kun testataan hypoteesia H 0 : lapsen paino ja pituus eivät riipu lineaarisesti toisistaan, se hylätään, koska p = Lineaarista riippuvuutta siis on ja se voidaan mallittaa suorittamalla regressioanalyysi (ks. esimerkki 15). Regressioanalyysissä estimoinnin lisäksi suoritetaan erilaisia mallin uskottavuuden ja hyvyyden tarkasteluja. Ensimmäisenä on selvitettävä voidaanko estimoitujen parametrien perusteella päätellä, että mallin parametrit ovat nollasta poikkeavia. Testataan yhden selittäjän mallissa aluksi sitä onko x merkittävä selittäjä. Tällöin testattavana hypoteesina on H 0 : β 1 = 0 H 1 : β 1 0, johon saadaan t -testisuure. Jos x on todettu merkittäväksi selittäjäksi, niin halutessa voidaan myös tutkia, onko vakiokertoimen β 0 syytä olla mallissa. Tällöin H 0 : β 0 = 0 H 1 : β 0 0. Tähänkin saadaan t -testisuure. Lisäksi saadaan mallin selityskerroin R 2. Ilmoittamalla 100R 2, voidaan puhua mallin selitysasteesta. Yhden selittäjän regressiomallissa 100R 2 = 100(r xy ) 2 kertoen kuinka monta prosenttia y:n vaihtelusta kyseisellä yhden selittäjän

35 35 mallilla voidaan x:n avulla selittää. R 2 :lla on tämä tulkinta vain silloin, kun mallissa on vakiokerroin. Regressioanalyysin suoritus tapahtuu valikosta Analyze Regression> Linear... annetaan selitettävä, riippuva (Dependent) muuttuja sekä selittävä(t), (riippumattomat, Independent(s)) muuttuja(t), lisävalintana mm. mallinvalintamenetelmä (Method). Esimerkki 15. Tarkastellaan lapsen syntymäpainon riippuvuutta syntymäpituudesta. Käytetään esimerkin 4 aineistoa. Esimerkissä 8 olevasta pisteparvesta nähdään, että pisteparveen voidaan sovittaa suora. Kun suoritetaan regressioanalyysi selittäen PAINO -muuttujaa PITUUS - muuttujalla, saadaan tulokset Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate,720 a,518, ,132 a. Predictors: (Constant), PITUUS Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig ,20 126,711,000 a , a. Predictors: (Constant), PITUUS b. Dependent Variable: PAINO Model 1 (Constant) PITUUS a. Dependent Variable: PAINO Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig , ,297-6,688, ,142 15,381,720 11,257,000

36 36 Merkitään (teknisistä syistä) PAINO = Y ja PITUUS = x. Tarkasteltava regressiomalli on nyt Y = β 0 + β 1 x + ε. Kun malli on estimoitu, saadaan suora ŷ = x. Esimerkiksi 50 cm pitkä lapsi painaa keskimäärin g. Siis lapsen paino lisääntyy keskimäärin g pituuden lisääntyessä 1 cm. Mallissa molemmat kertoimet ovat merkittäviä (t = , p =.000; t = , p =.000). Painoa voidaan siis selittää pituudella esitetyn mallin mukaisesti. Lisäksi saadaan selitysprosentiksi Pituus siis selittää lapsen painon vaihtelusta 51.8 %. Useamman selittäjän malliin liittyvät samalla tavalla yksittäisten kertoimien testaukset t -testien avulla. Tällöin tutkitaan sitä, lisääkö kyseisen selittäjän tuonti malliin, muiden jo siellä ollessa, mallin selitysastetta riittävästi. Tällöin H 0 : β i = 0 H 1 : β i 0. Lisäksi voidaan testata F -testillä kaikkien selittäjien yhteisvaikutusta eli tutkia sitä saadaanko y:n vaihtelua selitettyä siten, että otetaan kaikki tarkasteltavat selittäjät samanaikaisesti malliin mukaan. Tämä regressiokertoimien yhteistestaus (kun vakiokerroin on mallissa mukana) voidaan muotoilla H 0 : β 1 = β 2 =... = β k = 0 H 1 : ainakin jokin β 0 i Mallin valinta ei aina ole kovin helppoa. Pyritään valitsemaan niin monta merkittävää selittäjää, että selitysaste on mahdollisimman hyvä. On kuitenkin pidettävä mielessä se, että mallin on oltava käyttötarkoitukseensa sopiva ja tulkittavissa oleva. Vaikka on olemassa erilaisia automaattisia mallinvalintamenettelyjä, on niitä syytä käyttää hyvin harkiten.

37 37 Esimerkki 16. Tutkitaan, miten tuotteen myyntiin (SALE) vaikuttaa mainontaan (ADVERTISING) ja myyntihenkilöstön palkkoihin (SALESMEN) käytetty rahamäärä, (aineisto Newbold, P., (1995) Statistics for Business and Economics, s. 560 sivulla Kaikkia muuttujia on mitattu tuhansina dollareina. Estimoidaan ensin paras yhden selittäjän regressiomalli ja täydennetään se kahden selittäjän malliksi. Käytetään mallin valinnassa FORWARD -menetelmää. Estimointitulokset ovat Model 1 2 Model Summary Adjusted Std. Error of R R Square R Square the Estimate,905 a,818,800 10,37407,988 b,976,970 4,00315 a. Predictors: (Constant), Salesmen b. Predictors: (Constant), Salesmen, Advertising Model 1 2 Regression Residual Total Regression Residual Total ANOVA c Sum of Squares df Mean Square F Sig. 4848, ,454 45,051,000 a 1076, , , , , ,355,000 b 144, , , a. Predictors: (Constant), Salesmen b. Predictors: (Constant), Salesmen, Advertising c. Dependent Variable: Sale Model 1 2 (Constant) Salesmen (Constant) Salesmen Advertising a. Dependent Variable: Sale Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 65,152 11,738 5,550,000 6,261,933,905 6,712,000 32,277 6,253 5,162,001 4,759,410,688 11,596,000 2,506,329,452 7,626,000

38 38 Paras yhden selittäjän malli on SALE = β 0 + β 1 SALESMEN + ε. Mallin kertoimet ovat merkittäviä (p -arvot ja 0.000) ja selitysprosentti Koetetaan parantaa mallia lisäämällä mukaan toinen selittäjä. Tällöin malli on SALE = β 0 + β 1 SALESMEN + β 2 ADVERTISING + ε. Estimointituloksen perusteella nähdään, että yksittäisten kertoimien testauksen yhteydessä kaikki nollahypoteesit hylätään eli mallin kertoimet ovat merkittäviä (t = 5.162, p = 0.001; t = , p = 0.000; t = 7.626, p = 0.000) ja selitysprosentti Samoin yhteistestauksessa nollahypoteesi hylätään (F = , p = 0.000). Malli on siis kaikin puolin kunnossa ja keskimääräistä myyntiä (merkitään y) voidaan nyt estimoida ŷ = SALESMEN ADVERTISING. Tuotteen myynti on keskimäärin $32.277, vaikka resursseja ei käytettäisikään mainontaan eikä myyntihenkilöstön palkkaamiseen. Jos esimerkiksi mainontakulut ovat $ ja henkilöstökulut $11.000, niin tuotetta myydään keskimäärin $ LOPUKSI Oppaassa tarkasteltiin empiirisen tutkimuksen eri työvaiheita ja toteutusta SPSS -ohjelmalla. Seuraavassa on lyhyesti yhteenveto tutkimuksen työvaiheista. Kun havaintoaineisto on hankittu, muokataan se analysointia varten havaintomatriisimuotoon. Muuttujien mitta-asteikot on syytä selvittää, jotta analyysit tulee oikein valituksi. Havaintomatriisi talletetaan tietokoneelle joko käytettävällä tilastolaskentaohjelmalla tai siten, että analysoinnin apuvälineenä käytettävä tilastollinen ohjelmisto pystyy sen lukemaan. Tietojen taltioinnin oikeellisuus on syytä tarkistaa. Yleiskuvan saamiseksi aineistosta analysointi aloitetaan muuttujien jakaumien muodostamisella sekä tarpeellisten tunnuslukujen laskulla. Käytetään tarpeen mukaan tilanteeseen sopivia graafisia esityksiä. Jakaumien teon yhteydessä voidaan löytää tallennusvirheitä.

39 39 Seuraavaksi on vuorossa varsinainen analysointi. Valitaan kuhunkin tilanteeseen käyttökelpoinen menetelmä ja suoritetaan analyysi ja tulkitaan tulokset. Jokaiseen analysointivaiheeseen kuuluu siis johtopäätelmien teko. Esimerkiksi aineiston kuvailun yhteydessä voidaan kiinnittää huomio jakauman muotoon. Riippuvuustarkastelujen yhteydessä tehdään johtopäätelmiä riippuvuussuhteista perustaen päätelmien teko analysoinnissa saatuihin tuloksiin. Tilastollisen tutkimuksen keskeisen vaiheen muodostaakin näiden tutkimustulosten esittäminen sellaisessa kirjallisessa asussa, että lukija, jolle tutkimustulokset on tarkoitettu, saa sen sisältämän informaation mahdollisimman helposti, havainnollisesti ja yksikäsitteisessä muodossa. Työ on syytä jäsennellä selkeästi alaotsikointia ja kappalejakoa käyttäen. Kuviot ja taulukot laaditaan yleisten sopimusten mukaisesti, ne numeroidaan ja otsikoidaan. Kuvioiden ja taulukoiden on muodostettava sellaisia itsenäisiä kokonaisuuksia, että lukija voi muuhun tekstiin turvautumatta ymmärtää niissä esitetyn asian. (ks. )

Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla. TILTP1 (http://www.uta.fi/~strale/tiltp1.html) SPSS for Windows -ohjelmiston avulla

Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla. TILTP1 (http://www.uta.fi/~strale/tiltp1.html) SPSS for Windows -ohjelmiston avulla Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla TILTP1 (http://www.uta.fi/~strale/tiltp1.html) SPSS for Windows -ohjelmiston avulla Raija Leppälä (raija.leppala@uta.fi) ALUKSI Tämä opas

Lisätiedot

Tampereen yliopiston kirjasto, 2003

Tampereen yliopiston kirjasto, 2003 Tekijä: Leppälä, Raija Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla. Tampere : Tampereen yliopisto, 2001. 39 lehteä. ISBN 951-44-4936-3 Tämä aineisto on julkaistu

Lisätiedot

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla Raija Leppälä Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 55/2017 TAMPERE 2017 TAMPEREEN YLIOPISTO

Lisätiedot

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %? [TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

SPSS-perusteet. Sisältö

SPSS-perusteet. Sisältö SPSS-perusteet Sisältö Ikkunat 3 Päävalikot 5 Valikot 6 Aineiston käsittely 6 Muuttujamuunnokset 7 Aineistojen kuvailu analyysit 8 Havaintomatriisin luominen ja käsittely 10 Muulla sovelluksella tehdyn

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %? [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 5 viikko 42 6.10.2017 klo 10:42:20 Ryhmät: ke 08.30 10.00 LS C6 Paajanen ke 10.15 11.45 LS

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

SPSS ohje. Metropolia Business School/ Pepe Vilpas

SPSS ohje. Metropolia Business School/ Pepe Vilpas 1 SPSS ohje Page 1. Perusteita 2 2. Frekvenssijakaumat 3 3. Muuttujan luokittelu 4 4. Kaaviot 5 5. Tunnusluvut 6 6. Tunnuslukujen vertailu ryhmissä 7 9. Ristiintaulukointi ja Chi-testi 8 10. Hajontakaavio

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 19.3.2019/1 MTTTP1, luento 19.3.2019 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,

Lisätiedot

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3 OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset

Lisätiedot

Perusnäkymä yksisuuntaiseen ANOVAaan

Perusnäkymä yksisuuntaiseen ANOVAaan Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,

Lisätiedot

Harjoittele tulkintoja

Harjoittele tulkintoja Harjoittele tulkintoja Syksy 9: KT (55 op) Kvantitatiivisen aineiston keruu ja analyysi SPSS tulosteiden tulkintaa/til Analyysit perustuvat aineistoon: Haavio-Mannila, Elina & Kontula, Osmo (1993): Suomalainen

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle] Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi. 9.10.2018/1 MTTTP1, luento 9.10.2018 KERTAUSTA TESTAUKSESTA, p-arvo Asetetaan H 0 H 1 Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi. Lasketaan otoksesta testisuureelle arvo. 9.10.2018/2

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2015/1 MTTTP1, luento 6.10.2015 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2

Lisätiedot

2. Aineiston kuvailua

2. Aineiston kuvailua 2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien

Lisätiedot

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

SPSS OPAS. Metropolia Liiketalous

SPSS OPAS. Metropolia Liiketalous 1 Metropolia Liiketalous SPSS OPAS Aihe sivu 1. Ohjelman periaate 2 2. Aineistoikkuna 3 3. Frekvenssit 4 4. Muuttujien arvojen luokittelu 5 5. Tunnusluvut 6 6. Ristiintaulukointi 7 7. Hajontakaavio 8 8.Korrelaatio

Lisätiedot

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N 11.9.2018/1 MTTTP1, luento 11.9.2018 KERTAUSTA Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N Populaation yksikkö tilastoyksikkö, havaintoyksikkö Otos populaation

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) 20.9.2018/1 MTTTP1, luento 20.9.2018 KERTAUSTA JA TÄYDENNYSTÄ Tunnusluvut 1) Sijainnin tunnuslukuja Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) Muita sijainnin tunnuslukuja ala- ja yläkvartiili,

Lisätiedot

RISTIINTAULUKOINTI JA Χ 2 -TESTI

RISTIINTAULUKOINTI JA Χ 2 -TESTI RISTIINTAULUKOINTI JA Χ 2 -TESTI Kvantitatiiviset tutkimusmenetelmät maantieteessä Ti 27.10.2015, To 2.11.2015 Miisa Pietilä & Laura Hokkanen miisa.pietila@oulu.fi laura.hokkanen@outlook.com KURSSIKERRAN

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2 OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2 Luento 2 Kuvailevat tilastolliset menetelmät Käytetyimmät tilastolliset menetelmät käyttäjäkokemuksen

Lisätiedot

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) MTTTP5, luento 7.12.2017 7.12.2017/1 6.1.3 Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) y = lepopulssi x = sukupuoli y = musikaalisuus x = sukupuoli

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

IBM SPSS Statistics 21 (= SPSS 21)

IBM SPSS Statistics 21 (= SPSS 21) Tarja Heikkilä IBM SPSS Statistics 21 (= SPSS 21) SPSS = Statistical Package for Social Sciences Ohjelman käynnistys Aloitusikkuna Päävalikot Työkalut Muuttujat (Variables) Tapaukset (Cases) Tyhjä datataulukko

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla 4 Aineiston kuvaaminen numeerisesti 1 4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla Tarkastellaan lasten syntymäpainon frekvenssijakauman (kuva 1, oikea sarake) muodostamista Excel- ja SPSS-ohjelmalla.

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO 8.9.2016/1 MTTTP1 Tilastotieteen johdantokurssi Luento 8.9.2016 1 JOHDANTO Tilastotiede menetelmätiede, joka käsittelee - tietojen hankinnan suunnittelua otantamenetelmät, koejärjestelyt, kyselylomakkeet

Lisätiedot

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen) 1 MTTTP3 Luento 29.1.2015 Luku 6 Hypoteesien testaus Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? H 0 : µ = µ 0 H 1 : µ < µ 0 Nollahypoteesi Vaihtoehtoinen hypoteesi

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset. Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä. Tilastollinen tietojenkäsittely / SPSS Harjoitus 3 Tällä harjoituskerralla tarkastellaan harjoituksissa 2 tehtyjä SPSS-havaintoaineistoja KUNNAT, kyselya ja kyselyb. Aineistoihin tutustutaan mm. erilaisten

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä. Tilastollinen tietojenkäsittely / SPSS Harjoitus 3 Tällä harjoituskerralla tarkastellaan harjoituksissa 2 tehtyjä SPSS-havaintoaineistoja KUNNAT, kyselya ja kyselyb. Jos epäilet, että aineistosi eivät

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017 11.1.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 11.1.2018 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017 11.1.2018/2

Lisätiedot

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta? 1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta? 2. Tehtävät 2-4 sekä 6 10 liittyvät keväällä 2002 suoritettuun ammattikorkeakoulusta

Lisätiedot

Estimointi. Otantajakauma

Estimointi. Otantajakauma Otantajakauma Otantajakauma kuvaa jonkin parametrin arvojen (esim. keskiarvon) jakauman kaikille tietyn kokoisille otoksille. jotka perusjoukosta voidaan muodostaa Histogrammissa otantajakauman parametrin

Lisätiedot

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää? Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,

Lisätiedot