Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla

Koko: px
Aloita esitys sivulta:

Download "Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla"

Transkriptio

1 Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 64/2018 TAMPERE 2018

2 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 64/2018 SYYSKUU 2018 Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla ISBN (pdf) ISSN-L ISSN

3 Aluksi Tässä oppaassa on R-toteutukset Raija Leppälän oppaan Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla esimerkeistä sekä yleisiä ohjeita ohjelmistoon liittyen. R on ohjelmointikieli ja ohjelmisto tilastolliseen laskentaan ja grafiikan tuottamiseen. R:ää käytetään usein käyttöliittymäohjelmistojen, kuten RGui:n tai RStudion avulla. Kaikki edellä mainitut ohjelmistot ovat avoimen lähdekoodin projekteja ja maksuttomia käyttää (pl. RStudion kaupallinen lisenssi). Siinä missä maksullinen SPSS on ns. point and click -tyyppinen ohjelma, R:ssä käyttäjä ilmaisee aikomuksensa pääasiallisesti tekstikomennoin. R-ohjelmiston edistyneemmät toiminnot vaativat käyttäjältä jonkin verran ohjelmointiosaamista, mutta aiempaa kokemusta ohjelmoinnista tämän oppaan lukijalta ei oleteta. Tässä oppaassa käytetään RStudio-ohjelmistoa, joka on ladattavissa sivustolta Käytetty RStudio-versio on ja R-versio Lukijalta oletetaan perusosaamista tilastotieteestä ja käytettävien menetelmien tuntemista, sillä tämä opas keskittyy toteutukseen R-kielellä. Aluksi tutustutaan yleisemmin R- ympäristöön ja syntaksiin, sen jälkeen aineiston käsittelyyn ja lopuksi analysointimenetelmiin. Opas on kirjoitettu siten, että parhaan hyödyn siitä saa toistamalla esimerkkejä järjestyksessä alusta alkaen. Tampereella 10. syyskuuta 2018 Pasi Väkeväinen 1

4 Sisällysluettelo RStudio ja R-kieli... 3 Muuttuja, sijoitusoperaatio ja tietotyypit... 3 Funktio... 7 Ohjelmakirjastot... 7 Aineiston tuonti... 8 Aineiston ja työtilan tallennus... 9 Aineiston käsittely, jakaumat ja plottaus Muuttujien muunnokset laskutoimituksilla Ehdollistaminen Histogrammi Pylväsdiagrammi Muuttujan luokittelu Ehdolliset frekvenssihistogrammit Ristiintaulukointi Tunnusluvut Ehdolliset tunnusluvut Laatikkojana Pisteparvi ja korrelaatio Analysointimenetelmiä χ 2 -riippumattomuustesti Riippumattomien otosten t-testi Levenen testi Varianssianalyysi Regressioanalyysi Linkkejä

5 RStudio ja R-kieli RStudio-työtila Käynnistettäessä RStudio avautuu oheinen näkymä. Ikkunassa vasemmalla on komentoikkuna (Console). Oikealla ylhäällä ovat ympäristö- ja historiaikkunat. Oikealla alhaalla ovat piirto-, kirjasto- ja apuikkunat. Console Environment History Plots Packages Help Komentoikkuna, komentojen suorittamiseen. Listaus työtilan muuttujista. Listaus aiemmin suoritetuista komennoista. Grafiikkaikkuna; tähän ilmestyvät piirrettävät plotit. Listaus käytettävissä olevista ohjelmakirjastoista. Suorittamalla komennon?funktio, Help-ikkunaan avautuu dokumentaatio kyseisestä funktiosta. Muuttuja, sijoitusoperaatio ja tietotyypit R:ssä tietoa tallennetaan muuttujiin. Ohjelmointiympäristössä muuttuja tarkoittaa nimettyä tietovarastoa, johon tietoa voidaan kirjoittaa ja josta tietoa voidaan hakea. Muuttujassa siis nimen takaa löytyy arvo, joka voi olla esimerkiksi yksittäinen numeerinen arvo, 3

6 merkkijono tai totuusarvo, vektori tai koko havaintomatriisi. Sijoitusoperaatiolla tarkoitetaan arvon kirjoittamista muuttujaan. Muuttujan voi luoda suoraan sijoitusoperaatiolla: > Nimi <- Arvo Komennon alkuun kirjoitetaan muuttujan nimi, joka voi sisältää isoja ja pieniä kirjaimia, numeroita, pisteitä ja alaviivoja. Ensimmäisen merkin on oltava kirjain. Muuttujan nimen jälkeen kirjoitetaan sijoitusoperaattori; <- tai =. Operaattorit ovat toiminnan suhteen identtisiä. Sijoitusoperaattorin jälkeen kirjoitetaan arvo, joka muuttujaan halutaan sijoittaa. Mikäli komento koostuu pelkästä jo olemassa olevan muuttujan nimestä, laskutoimituksesta tai funktiosta ilman sijoitusoperaatiota, R tulostaa arvon. Komento suoritetaan painamalla Enteriä. Tässä oppaassa komennot tunnistaa sinisestä tekstistä. Komennon alussa olevaa merkkiä > ei kirjoiteta itse komentoikkunaan, vaan se on aina valmiina. Yksittäisen numeerisen arvon sijoitus muuttujaan: > x <- 5 > x [1] 5 > # Risuaidalla alkava komento on kommentti, eikä R reagoi siihen. Desimaalit erotetaan pisteellä: > # Kun jo olemassa olevaan muuttujaan sijoitetaan uusi arvo, aiempi arvo katoaa. On siis syytä varoa tärkeiden tietojen päälle tallentamista. > x = 3.14 > x [1] 3.14 Merkkijono: > x <- "äksä" > x [1] "äksä" Totuusarvot ilmaistaan isoin kirjaimin, myös pelkkä alkukirjain riittää: > x <- FALSE > x [1] FALSE > x <- T > x [1] TRUE Vektori, eli järjestetty yksiulotteinen joukko arvoja, voidaan luoda seuraavalla komennolla: > x <- c(1,2,3,4) > x [1]

7 Vektorin voi muodostaa myös scan-funktion avulla. Tällöin arvoja syötetään komentoikkunaan välilyönnillä erotettuna. Arvojen syöttö loppuu, kun Enteriä painetaan kahdesti peräkkäin. > x <- scan() 1: : : 1 10: Read 9 items > x [1] Mikäli muuttuja sisältää useita arvoja (kuten vektori tai matriisi), yksittäistä arvoa kutsutaan alkioksi. Vektorin alkioon päästään käsiksi ilmoittamalla hakasulkeissa indeksi, eli alkion sijainti vektorissa: > x[4] [1] 6 Useampia alkioita voidaan valita ilmoittamalla niiden indeksiarvot vektorina: > x[ c(1,4,2,7) ] [1] Vektorista voidaan valita arvoja myös totuusarvovektorilla, jossa haluttujen arvojen kohdalla on TRUE ja pois jätettävien arvojen kohdalla FALSE: > x[ c(t,f,t,f,t,f,t,f,t) ] [1] Vektoreita voidaan yhdistää matriisiksi cbind- ja rbind-funktioilla. cbind tekee vektoreista sarakkeita ja rbind rivejä. > x1 <- c(3,3,1,2) > x2 <- c(1,8,2,0) > y <- cbind(x1,x2) > y x1 x2 [1,] 3 1 [2,] 3 8 [3,] 1 2 [4,] 2 0 Matriisin voidaan ajatella koostuvan vektoreista: havaintomatriisin jokainen sarakevektori kuvaa tietyn muuttujan havaintoarvoja, ja jokainen rivivektori yhden tilastoyksikön havaintoarvoja eri muuttujista. Matriisi voidaan transponoida t-funktiolla. Transpoosissa sarakkeet on muutettu riveiksi ja rivit sarakkeiksi. > t(y) [,1] [,2] [,3] [,4] x x

8 R:ssä matriisin jokaisen alkion tulee olla samaa tyyppiä (esimerkiksi numeerinen, merkkijono tai totuusarvo). Datakehys muistuttaa pitkälti matriisia, mutta siinä eri sarakkeet voivat sisältää eri tietotyypin alkioita, jokainen sarake kuitenkin vain yhtä tietotyyppiä. Tästä syystä datakehys on paras vaihtoehto havaintomatriisin tallennukseen. Matriisin voi muuttaa datakehykseksi as.data.frame-funktiolla: > y <- as.data.frame(y) > y x1 x Yksittäiseen alkioon pääsee käsiksi ilmoittamalla rivi- ja sarakenumerot hakasulkeissa: > y[2,1] [1] 3 Kokonaisen rivin tai sarakkeen saa jättämällä toisen numeron pois. Seuraava komento kertoo ensimmäisen sarakkeen kahdella ja sijoittaa tuloksen takaisin ensimmäisen sarakkeen paikalle: > y[,1] <- y[,1] * 2 > y x1 x Datakehykseen voidaan lisätä eri tietotyyppiä sisältävä vektori ilman ongelmia: > x3 <- c('a', 'b', 'c', 'd') > y <- cbind(y, x3) > y x1 x2 x a b c d Matriisiksi muunnettaessa kaikki alkiot muuttuvat saman tyyppisiksi; myös numerot käsitellään merkkijonoina: > as.matrix(y) x1 x2 x3 [1,] "6" "1" "a" [2,] "6" "8" "b" [3,] "2" "2" "c" [4,] "4" "0" "d" 6

9 Funktio Funktio on prosessi, joka suorittaa tietyn toiminnon. Usein funktiolle annetaan syötteenä (input) yksi tai useampi parametri, eli tieto, jota funktio käyttää toimintonsa suorittamiseen. R-kielessä parametrit ilmoitetaan sulkeissa pilkulla erotettuna. Usein funktio myös palauttaa (output) jotakin. Esimerkiksi mean-funktiolle annetaan syötteenä joukko lukuja, joista funktio laskee keskiarvon ja antaa sen paluuarvona. Samalla tavalla var-funktio palauttaa varianssin syötteistään. > z <- c(4, 7, 2, 0, 1, 8) > mean(z) [1] > var(z) [1] R:ssä on lukemattomia funktioita, joista osa on heti työtilassa valmiina käytettäväksi, ja osa ladattavissa ohjelmakirjastoissa. Funktioita ovat myös jo edellä käytetyt c, scan, cbind, as.data.frame ja as.matrix. Suorittamalla komennon, jonka alussa on kysymysmerkki ja sen jälkeen funktion nimi, avautuu RStudiossa apuikkunaan dokumentaatio kyseisestä funktiosta. Dokumentaatiosta selviää esimerkiksi funktion käyttötarkoitus, tarvittavat parametrit selityksineen, parametrien oletusarvot sekä esimerkkejä käytöstä. >?mean... ## Default S3 method: mean(x, trim = 0, na.rm = FALSE,...)... Esimerkiksi tässä tapauksessa parametrilla x ei ole oletusarvoa, vaan se on pakko antaa syötteenä. Parametreilla trim ja na.rm on oletusarvot, joita voi muuttaa halutessaan. > mean(trim=0.2, x=z) [1] 3.5 > mean(z, 0.2) [1] 3.5 Funktion parametreja ei ole pakko nimetä, mikäli ne ovat oikeassa järjestyksessä. Ohjelmakirjastot Ohjelmakirjastot ovat R:n servereiltä ladattavia tiedostoja, jotka sisältävät ohjelmistoja ja aineistoja. Kirjaston voi ladata joko komennolla > install.packages("kirjastonnimi") tai tai Tools > Install packages > Kirjaston nimi > Install Packages-ikkuna > Install > Kirjaston nimi > Install 7

10 Kirjasto pysyy tallessa niin kauan kuin ladattu tiedosto säilyy kansiossa, johon se ladattiin, joten kirjasto tarvitsee ladata vain kerran. Pelkkä ohjelmakirjaston lataaminen ei riitä sen sisältöjen saamiseksi käyttöön, vaan kirjasto pitää vielä erikseen ladata R:n työtilaan, joka onnistuu kahdella tavalla: > library(kirjastonnimi) tai Packages-ikkuna > Rastita haluttu kirjasto Kirjastot eivät säily R:n työtilassa yli istuntojen, vaan tarvittavat kirjastot on otettava käyttöön aina uudestaan R:n käynnistämisen jälkeen. Aineiston tuonti R ei ole ideaali ympäristö suuren havaintomatriisin manuaaliseen luomiseen. Suositeltavaa on luoda havaintomatriisi jollain muulla työkalulla, kuten Excelillä tai vastaavalla taulukkolaskentaohjelmalla, ja tuoda se R:n työtilaan. Pienen havaintomatriisin voi luoda esimerkiksi vektoreiden avulla ja yhdistää matriisiksi cbind-, rbind- tai data.frame-funktiolla. Aineiston tuonti työtilaan RStudiossa: Environment > Import Dataset > Valitse lähde/tiedoston tyyppi > Browse > Valitse tiedosto > Import R tuo aineiston muuttujaan, jonka se nimeää oletuksena tiedoston nimen mukaan. Muuttujan nimeä voi muuttaa tiedoston valitsemisen jälkeen Import Options > Name-kentästä. Rasvaprosentti-aineisto voidaan tuoda R-työtilaan seuraavasti: Environment > Import Dataset > From SPSS > Browse > rasvaprosentti.sav > Import Aineisto voidaan kiinnittää työtilaan attach-funktiolla. Tällöin aineiston muuttujiin voidaan viitata suoraan muuttujan nimellä. > attach(rasvaprosentti) Ilman aineiston kiinnittämistä muuttujiin viitataan dollarimerkin avulla: rasvaprosentti$tiheys antaa rasvaprosentti-datakehyksestä tiheys-muuttujan arvot vektorina. Kun aineisto on kiinnitetty, pelkkä tiheys riittää. > mean(tiheys) [1] Varsinkaan suurta aineistoa ei ole mielekästä tulostaa komentoikkunassa kokonaan, vaan usein pieni osa riittää aineiston muodon tarkistamiseen. Aineiston alusta voi tulostaa muutaman rivin head-funktiolla. > head(rasvaprosentti)... 8

11 Aineiston voi tuoda myös ilman RStudion Import Dataset -toimintoa. SPSS-tiedosto voidaan tuoda seuraavilla komennoilla: > library(haven) > data <- read_sav( file.choose() ) Excel-tiedoston tuonti. Aineisto kannattaa muuttaa datakehykseksi as.data.frame-funktiolla. > library(readxl) > data <- read_excel( file.choose() ) > data <- as.data.frame( data ) Txt-tiedoston tuonti: > data <- read.table( file.choose(), header=true, sep="," ) > # header-parametri TRUE, jos havaintomatriisin ylimmällä rivillä on muuttujien nimet, muulloin parametrin voi jättää pois. > # sep-parametrilla määritetään välimerkki, joka erottaa havaintoarvot tiedostossa. Aineiston ja työtilan tallennus R:n työtilasta voi tallentaa aineiston tiedostoksi write.table-funktiolla. Yleisessä muodossa: > write.table(x=muuttujannimi, file="tiedostosijainti") Esimerkiksi rasvaprosentti-aineiston tallentaminen.txt-tiedostoksi K-asemalle onnistuu seuraavasti: > write.table(x=rasvaprosentti, file="k:/data.txt") Oletuksena funktio lisää jokaisen rivin alkuun rivi-indeksin ja erottaa solut välilyönnillä. Näitä asetuksia voidaan muuttaa row.names- ja sep-parametreilla: > write.table(x=rasvaprosentti, file="k:/data.txt", sep=",", row.names=false) Tällä komennolla luodaan K-asemalle.txt-tiedosto, jossa rivi-indeksejä ei ole ja havaintoarvot on erotettu toisistaan pilkulla. Vastaavasti sarakeindeksit tai muuttujien nimet saa pois col.names-parametrin avulla. Työtilan voi tallentaa ympäristöikkunassa olevasta tallennuspainikkeesta. Tällöin taas seuraavan kerran RStudion käynnistyessä voi jatkaa siitä mihin jäi; kaikki muuttujat ovat edelleen käytettävissä. Kirjastot täytyy kuitenkin ottaa käyttöön uudelleen library-komennolla. RStudio kysyy työtilan tallennusta myös suljettaessa, mikäli edellisen tallennuksen jälkeen on tapahtunut muutoksia. Tallennetun työtilan voi avata valitsemalla File > Open file > Valitse tiedosto. 9

12 Aineiston käsittely, jakaumat ja plottaus Muuttujien muunnokset laskutoimituksilla Esimerkki 1 Rasvaprosentti-aineistossa pituus on mitattu tuumina ja paino nauloina. Muutetaan nämä metrijärjestelmään ja lasketaan painoindeksi. Luodaan uudet muuttujat laskutoimituksilla: > Paino_kg < * paino > Pituus_m < * pituus > Painoindeksi <- Paino_kg / (Pituus_m * Pituus_m) Muuttujien luomisen jälkeen on hyvä tarkistaa, että arvot ovat järkeviä, eikä laskutoimituksissa ole sattunut virheitä. Tätä voidaan tarkastella esimerkiksi summary-funktion tulostamien tunnuslukujen avulla: > summary(paino_kg) Min. 1st Qu. Median Mean 3rd Qu. Max > summary(pituus_m) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's > summary(painoindeksi) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's NA tarkoittaa puuttuvaa tietoa. Yhdeltä tilastoyksiköltä puuttuu tieto pituudesta, joten myöskään painoindeksiä ei voida laskea. Muuttujat on nyt luotu, mutta ne ovat vielä omina vektoreinaan. Vektorit voidaan liittää datakehykseen cbind- tai data.frame-funktiolla. > rasvaprosentti <- cbind(rasvaprosentti, Paino_kg, Pituus_m, Painoindeksi) > # Sama lopputulos myös data.frame-funktiolla > # rasvaprosentti <- data.frame(rasvaprosentti, Paino_kg, Pituus_m, Painoindeksi) Uusia muuttujia liitettäessä on tärkeää muistaa lisätä parametreihin myös alkuperäinen aineisto; seuraava komento tallentaisi rasvaprosentti-datakehyksen päälle kolme uutta muuttujaa, ja alkuperäinen aineisto katoaisi. > # rasvaprosentti <- cbind(paino_kg, Pituus_m, Painoindeksi) Ehdollistaminen Datakehyksestä voi valita tietyn joukon havaintoja omaan datakehykseensä. Komento yleisessä muodossa: > uusidatakehys <- vanhadatakehys [ ehto, ] > nuoret <- rasvaprosentti[ikä < 25,] 10

13 Tässä esimerkissä ikä < 25 vertaa ikä-muuttujan havaintoarvoja lukuun 25, ja palauttaa vektorin, jossa on totuusarvo TRUE niiden havaintojen kohdalla, joilla ikä-muuttujan arvo on alle 25, ja FALSE niiden kohdalla, joilla ikä on 25 tai suurempi. Koska pilkun jälkeen ei ole sarakeindeksejä, tulee uuteen datakehykseen TRUE-rivit kokonaisuudessaan. Jos siis haluttaisiin valita uuteen datakehykseen vain tietyt sarakkeet, tulisi hakasulkeissa ilmoittaa pilkun jälkeen sarakenumerot halutuilta sarakkeilta vektorina. > nuoret <- rasvaprosentti[ ikä < 25, c(1, 2, 4, 8) ] > head(nuoret) tiheys rasvapro paino vyötärö Loogiset operaattorit: Operaattori Kuvaus < pienempi kuin <= pienempi tai yhtäsuuri kuin > suurempi kuin >= suurempi tai yhtäsuuri kuin == yhtäsuuri kuin!= erisuuri kuin!x ei x x y x tai y x & y x ja y Histogrammi Histogrammin piirtäminen hist-funktiolla yleisessä muodossa: > hist( Muuttuja ) Esimerkki 2 Painoindeksin frekvenssihistogrammin piirtäminen koko rasvaprosentti-aineistosta: > hist(painoindeksi) 11

14 Pylväiden lukumäärää voidaan säätää breaks-parametrilla. Otsikoita ja akseleiden selitteitä voi muokata main-, xlab- ja ylab-parametreillä. Täyttöväriä voi vaihtaa col-parametrin avulla (komento colors() tulostaa komentoikkunaan R:n tuntemat värien nimet). > hist(painoindeksi, breaks=20, main="painoindeksin frekvenssihistogrammi", xlab="painoindeksi", ylab="frekvenssi", col="beige") Siirrettäessä tai tallennettaessa grafiikoita RStudiosta on suositeltavaa käyttää Exporttoimintoa Plots-ikkunan yläreunassa. Aukeavasta ikkunasta voi muuttaa kuvasuhdetta ja tarkkuutta. 12

15 Pylväsdiagrammi Pylväsdiagrammin piirtäminen yleisessä muodossa: > barplot( table ( Muuttuja ) ) Barplot-funktiolle ei siis anneta syötteenä havaintovektoria, vaan taulukko, jossa on muuttujan arvot ja niitä vastaavat frekvenssit. Tämä taulukko saadaan table-funktiolla. Esimerkki 3 Pylväsdiagrammi huoneiden lukumäärästä Asunnot_2006-aineistossa. Asuntodatan tuonti onnistuu samalla tavalla kuin Rasvaprosentti-aineiston. Environment > Import Dataset > From SPSS > Browse > Asunnot_2006.sav > Import Kiinnitetään myös tämä aineisto työtilaan: > attach(asunnot_2006) Huonelukumäärän frekvenssit table-funktiolla: > table(huoneita) HUONEITA Tämän jälkeen pylväsdiagrammi saadaan barplot-funktiolla. Selitteitä ja väriä voi muuttaa samoilla parametreilla kuin histogrammissa. > barplot(table(huoneita), main="huoneiden lukumäärä", xlab="huoneita", ylab="lkm", col="midnightblue") 13

16 Muuttujan luokittelu 1. Kopioi luokiteltavan muuttujan arvot uuteen muuttujaan: > uusimuuttuja <- datakehys$luokiteltavamuuttuja 2. Muuta uuden muuttujan arvoja: > uusimuuttuja[ ehto1 ] <- uusiarvo1 > uusimuuttuja[ ehto2 ] <- uusiarvo (Tarvittaaessa) Muunna kategoriseksi muuttujaksi ja lisää uusille arvoille selitteet factor-funktiolla: > uusimuuttuja <- factor( uusimuuttuja, levels = c(uusiarvo1, uusiarvo2,...), labels = c("selite1", "Selite2",...) ) 4. Tarkista, että muunnokset onnistuivat halutulla tavalla. Esimerkiksi table-funktio soveltuu tähän. > table( uusimuuttuja ) 5. Liitä uusi muuttuja datakehykseen: > datakehys <- cbind( datakehys, uusimuuttuja ) Samaa kaavaa voidaan käyttää sekä numeerisen muuttujan luokitteluun, että kategorisen uudelleen luokittelemiseen. Esimerkki 4 Huonelukumäärän luokittelu huoneistotyyppeihin. Kopioidaan ensin HUONEITA-muuttujan arvot uuteen Huoneisto-muuttujaan: > Huoneisto <- HUONEITA Muutetaan kaksiota suurempien asuntojen arvoksi 3: > Huoneisto[ Huoneisto >= 3 ] <- 3 Muutetaan kategoriseksi muuttujaksi ja lisätään selitteet: > Huoneisto <- factor(huoneisto, levels=c(1,2,3), labels=c("yksiö", "Kaksio", "Kaksiota suurempi")) Tarkistetaan, että muuttujan arvot ovat järkeviä: > table(huoneisto) Huoneisto Yksiö Kaksio Kaksiota suurempi Liitetään uusi muuttuja aineistoon: > Asunnot_2006 <- cbind(asunnot_2006, Huoneisto) Funktio prop.table muuttaa taulukon frekvenssit osuuksiksi: 14

17 > prop.table( table ( Huoneisto ) ) Huoneisto Yksiö Kaksio Kaksiota suurempi Prosenttiosuudet voidaan muuttaa kumulatiivisiksi cumsum-funktiolla: > cumsum( prop.table ( table ( Huoneisto ) ) ) Yksiö Kaksio Kaksiota suurempi Esimerkki 5 Luokittelu painoindeksin mukaan. Kopioidaan Painoindeksin arvot uuteen muuttujaan ja luokitellaan arvoiksi 1 4: > Lihavuus <- Painoindeksi > Lihavuus[Painoindeksi < 25] <- 1 > Lihavuus[Painoindeksi >= 25 & Painoindeksi < 30] <- 2 > Lihavuus[Painoindeksi >= 30 & Painoindeksi < 35] <- 3 > Lihavuus[Painoindeksi >= 35] <- 4 Muutetaan kategoriseksi ja lisätään selitteet: > Lihavuus <- factor(lihavuus, levels=c(1,2,3,4), labels=c("normaalipainoinen","lievä ylipaino","merkittävä ylipaino","sairaalloinen ylipaino")) Taulukointi table-funktiolla: > table(lihavuus) Lihavuus Normaalipainoinen Lievä ylipaino Merkittävä ylipaino Sairaalloinen ylipaino Liitetään uusi muuttuja aineistoon: > rasvaprosentti <- cbind(rasvaprosentti, Lihavuus) Prosentuaaliset ja kumulatiiviset osuudet: > prop.table(table(lihavuus)) Lihavuus Normaalipainoinen Lievä ylipaino Merkittävä ylipaino Sairaalloinen ylipaino > cumsum(prop.table(table(lihavuus))) Normaalipainoinen Lievä ylipaino Merkittävä ylipaino Sairaalloinen ylipaino

18 Esimerkki 6 Kaksioiden neliöhintojen tutkiminen. Neliöhinta-muuttujan luominen vektorilaskutoimituksella: > Neliöhinta <- HINTA / NELIOT Tunnuslukuja ja aineistoon liittäminen: > summary(neliöhinta) Min. 1st Qu. Median Mean 3rd Qu. Max > Asunnot_2006 <- cbind(asunnot_2006, Neliöhinta) Muodostetaan kaksioista oma datakehys aiemmin mainitulla ehdollistamiskaavalla: > kaksiot <- Asunnot_2006[Huoneisto == "Kaksio",] > head(kaksiot) LKV VUOSI HUONEITA SAUNA NELIOT HINTA POSTI KAUPUNKI Alue Huoneisto Neliöhinta Kaksio Kaksio Kaksio Kaksio Kaksio Kaksio Ehdolliset frekvenssihistogrammit Samaan kuvaan saadaan piirrettyä useampi frekvenssihistogrammi ggplot2-kirjastosta löytyvällä qplot-funktiolla. > install.packages("ggplot2") > library(ggplot2) Yleisessä muodossa: > qplot(data=aineisto, Numeerinen muuttuja, facets=kategorinen muuttuja~., bins=pylväiden lkm) Luokitteleva muuttuja valitaan facets-parametrilla (muuttuja~. piirtää histogrammit päällekkäin,.~muuttuja vierekkäin ja muuttuja~muuttuja kahden kategorisen muuttujan mukaan ehdollistettuna taulukkona). Pylväiden lukumäärää voi säätää bins-parametrilla, joka vastaa aiemmin kätetyn hist-funktion breaks-parametriä. Kaksioiden neliöhinta eri alueilla: > qplot(data=kaksiot, Neliöhinta, facets=alue~., bins=20) 16

19 Histogrammien yhteyteen saadaan selitteet pelkkien aluenumeroiden sijaan esimerkiksi lisäämällä Alue-muuttujalle selitteet: > kaksiot$alue <- factor(kaksiot$alue, levels=c(1,2,3), labels=c("keskusta","länsi","itä")) > qplot(data=kaksiot, Neliöhinta, facets=alue~., bins=20, main="neliöhinnan frekvenssihistogrammit alueittain", ylab="frekvenssi") 17

20 Ristiintaulukointi Kirjastosta gmodels löytyy funktio CrossTable, joka muodostaa ristiintaulukon. > install.packages("gmodels") > library(gmodels) Yleisessä muodossa: > CrossTable( Kategorinen muuttuja 1, Kategorinen muuttuja 2) Funktio laskee oletusarvoisesti useita eri prosenttiosuuksia (ks.?crosstable), mutta niitä voi karsia parametreilla. Pelkät frekvenssit voi ristiintaulukoida myös table-funktiolla, kun antaa syötteenä kaksi kategorista muuttujaa. Esimerkki 7 Alue- ja Huoneisto-muuttujien ristiintaulukointi. Lisätään ensin Alue-muuttujalle selitteet: > Alue <- factor(alue, levels=c(1,2,3), labels=c("keskusta","länsi","itä")) > CrossTable(Alue, Huoneisto, prop.c=false, prop.t=false, prop.chisq=false) Cell Contents N N / Row Total Total Observations in Table: 229 Huoneisto Alue Yksiö Kaksio Kaksiota suurempi Row Total Keskusta Länsi Itä Column Total Esimerkki 8 Pylväsdiagrammi prosenttiosuuksista. Frekvenssien taulukointi table-funktiolla: > lkm <- table(alue, Huoneisto) > lkm Huoneisto Alue Yksiö Kaksio Kaksiota suurempi Keskusta Länsi Itä

21 Muutetaan frekvenssit prosenttiosuuksiksi. Funktio rowsums laskee matriisin rivikohtaiset summat ja palauttaa ne vektorina. > rowsums(lkm) Keskusta Länsi Itä > lkm[1,] <- lkm[1,] / rowsums(lkm)[1] * 100 > lkm[2,] <- lkm[2,] / rowsums(lkm)[2] * 100 > lkm[3,] <- lkm[3,] / rowsums(lkm)[3] * 100 Saadaan samat prosentuaaliset osuudet kuin edellisen esimerkin ristiintaulukoinnissa: > lkm Huoneisto Alue Yksiö Kaksio Kaksiota suurempi Keskusta Länsi Itä Jos barplot-funktiolle antaa syötteenä taulukon, se pinoaa sarakkeiden arvot yhdeksi pylvääksi. Koska lkm-taulukosta halutaan pinota rivit, se täytyy transponoida t-funktiolla. Pylväsdiagrammin saa vaakatasoon horiz-parametrin avulla. Selitelaatikko lisätään legend-funktiolla. Laatikon sijainnin voi määrittää x-parametrilla. > barplot(t(lkm), col=c("dodgerblue3","palegreen3","wheat"), horiz=true) > legend(c("yksiö","kaksio","kaksiota suurempi"), x="topright", fill=c("dodgerblue3","palegreen3","wheat")) Tällä kertaa selitelaatikko on kuitenkin diagrammin päällä. Muutetaan plottausasaetuksia par-funktiolla. Parametrilla mar asetetaan piirtoalueen marginaalit ja parametrilla xpd mahdollistetaan piirtäminen myös piirtoalueen ulkopuolelle (marginaaleihin). Näin saadaan selitelaatikko mukaan kuvaan siten, ettei se ole diagrammin päällä. > par(mar = c(5,4,4,15), xpd=true) 19

22 Marginaalit annetaan muodossa (alareuna, vasen reuna, yläreuna, oikea reuna). Oletuksena marginaalit ovat (5,4,4,2), joten edellinen komento kasvattaa oikean reunan marginaalia. Selitelaatikon sijainnin voi asettaa myös x- ja y-koordinaateilla. > barplot(t(lkm), col=c("dodgerblue3","palegreen3","wheat"), horiz=true) > legend(c("yksiö","kaksio","kaksiota suurempi"), x=105, y=3.5, fill=c("dodgerblue3","palegreen3","wheat")) Plottausasetukset saa palautettua oletusarvoihin seuraavalla komennolla: > dev.off() Tunnusluvut Funktio summary tulostaa syötteenä saamastaan havaintovektorista tunnuslukuja. > summary( Muuttuja ) Yksittäisten tunnuslukujen laskemiseen on funktiot: Funktio max mean median min sd var Kuvaus suurin arvo keskiarvo mediaani pienin arvo keskihajonta varianssi 20

23 Esimerkki 9 Painoindeksin tunnuslukuja: > summary(painoindeksi) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's Summary-funktio poistaa puuttuvat arvot (NA) laskuista oletuksena. Yksittäistä tunnuslukua laskettaessa funktioon on lisättävä na.rm-parametri, mikäli muuttuja sisältää puuttuvia arvoja. Keskihajonta sd-funktiolla: > sd(painoindeksi, na.rm=true) [1] > summary(huoneita) Min. 1st Qu. Median Mean 3rd Qu. Max > sd(huoneita) [1] Ehdolliset tunnusluvut Ehdolliset tunnusluvut aggregate-funktiolla, yleisessä muodossa: > aggregate(numeerinen muuttuja, list(kategorinen muuttuja 1, Kategorinen muuttuja 2,...), funktio) Aggregate-funktiolle on annettava syötteenä funktio, joka laskee halutun tunnusluvun. Luokittelevat muuttujat annetaan listana. Funktio palauttaa datakehyksen, jonka ensimmäisessä sarakkeessa (Group.1) on kategorisen muuttujan arvot ja viimeisessä sarakkeessa (x) numeerisen muuttujan haluttu tunnusluku. Mikäli käytetään useampaa kategorista muuttujaa, on tulostematriisissa useita Group-sarakkeita ja tunnusluku jokaiselle kombinaatiolle kategorisista muuttujista. Esimerkki 10 Ryhmäkeskiarvot: > aggregate(neliöhinta, list(alue), mean) Group.1 x 1 Keskusta Länsi Itä Keskihajonnat: > aggregate(neliöhinta, list(alue), sd) Group.1 x 1 Keskusta Länsi Itä

24 Laatikkojana Laatikkojanakuvio muodostetaan boxplot-funktiolla. Yleisessä muodossa: > boxplot(numeerinen muuttuja ~ Kategorinen muuttuja) Neliöhinnan ja Alueen laatikkojanakuvio: > boxplot(neliöhinta~alue, col="beige", main="laatikkojana", ylab="neliöhinta", xlab="alue") Pisteparvi ja korrelaatio Plot- ja qplot-funktiot piirtävät oletuksena pisteparven, kun syötteessä on kaksi muuttujaa. > plot( Muuttuja 1, Muuttuja 2 ) > # qplot löytyy ggplot2-kirjastosta > library(ggplot2) > qplot( Muuttuja 1, Muuttuja 2 ) 22

25 Esimerkki 11 Vyötärönympäryksen ja rasvaprosentin pisteparvi. Lisäämällä plot-funktioon pch- ja col-parametrit, voidaan muuttaa symbolia ja väriä. > plot(vyötärö, rasvapro, xlab="vyötärön ympärys", ylab="rasvaprosentti", pch=20, col="darkred") pch-parametrin arvot ja niitä vastaavat symbolit qplot-funktion col-parametrilla voidaan kuvata myös muuttujaa. Kategorista muuttujaa kuvattaessa saadaan eri värisiä pisteitä ja numeerista muuttujaa kuvattaessa käytetään liukuväriä. > qplot(vyötärö, rasvapro, xlab="vyötärön ympärys", ylab="rasvaprosentti", col=lihavuus) 23

26 Koska pituuden ja painoindeksin tiedot puuttuivat yhdeltä tilastoyksiköltä, myös Lihavuus-muuttujassa on yksi puuttuva arvo. Tämä näkyy pistekartalla harmaana pisteenä. Kahden muuttujan välinen korrelaatiokerroin voidaan laskea cor-funktiolla. Yleisessä muodossa: > cor( Muuttuja 1, Muuttuja 2 ) Vyötärön ja rasvaprosentin välinen korrelaatiokerroin: > cor(vyötärö, rasvapro) [1] Korrelaatiomatriisin voi laskea samalla funktiolla, kun syötteenä antaa koko havaintomatriisin. Kategorisille muuttujille ei voida laskea korrelaatiokertoimia, joten rasvaprosentti-aineiston tapauksessa Lihavuus-muuttuja täytyy jättää pois. Samalla tavalla kuin datakehyksestä tai matriisista voi valita sarakkeita (tai rivejä) ilmoittamalla indeksit hakasulkeissa, sarakkeita voi pudottaa pois antamalla sarakenumeron negatiivisena. Myös puuttuvat arvot aiheuttavat ongelmia, ellei funktiolle anneta use-parametrilla ohjetta niihin suhtautumisesta. Parametrin arvolla use="complete.obs" käytetään vain aineiston täydellistä osaa, eli kaikki puuttuvia arvoja sisältävät rivit jätetään kokonaan pois korrelaatiomatriisin laskuista. Muita vaihtoehtoja löytyy?cor-komennolla avautuvasta dokumentaatiosta. > cor(rasvaprosentti[,-19], use="complete.obs")... 24

27 Analysointimenetelmiä χ 2 -riippumattomuustesti χ 2 -riippumattomuustesti chisq.test -funktiolla yleisessä muodossa: > chisq.test( Kategorinen muuttuja 1, Kategorinen muuttuja 2 ) Funktio tulostaa testisuureen, vapausasteet ja p-arvon sekä mahdollisia varoituksia. Esimerkki 12 Huoneiston ja Alueen välisen riippuvuuden testaus Asunnot_2006 -aineistossa. H0: Huoneiston tyypin ja alueen välillä ei ole riippuvuutta H1: Huoneiston tyypin ja alueen välillä on riippuvuutta > chisq.test(huoneisto, Alue) Pearson's Chi-squared test data: Huoneisto and Alue X-squared = , df = 4, p-value = Warning message: In chisq.test(huoneisto, Alue) : Chi-squared approximation may be incorrect Tulosteen varoitus johtuu siitä, että (ainakin) yksi teoreettinen frekvenssi on alle 5. Testisuureen arvoksi saadaan 4,6742, vapausasteita 4 ja p-arvo 0,3224. H0 hyväksytään. Esimerkki 13 Opintojakson työläyden ja opiskelijan opintosuunnan välisen riippuvuuden testaus. Arvio-aineiston tuonti ja χ 2 -testi samalla tavalla kuin aiemmin: Environment > Import Dataset > From SPSS > Browse > arvio.sav > Import > attach(arvio) H0: Opintojakson työläyden ja opiskelijan opintosuunnan välillä ei ole riippuvuutta H1: Opintojakson työläyden ja opiskelijan opintosuunnan välillä on riippuvuutta > chisq.test(tyolays, OPSUUNTA) Pearson's Chi-squared test data: TYOLAYS and OPSUUNTA X-squared = 7.668, df = 2, p-value = Warning message: In chisq.test(tyolays, OPSUUNTA) : Chi-squared approximation may be incorrect 25

28 Saadaan testisuureen arvo 7,668, vapausasteita 2 ja p-arvo 0, H0 hylätään 5 % riskitasolla, mutta 2 % tai pienemmällä riskitasolla H0 voidaan hyväksyä. Riippumattomien otosten t-testi T-testi yleisessä muodossa R:llä: > t.test(numeerinen muuttuja ~ Kategorinen muuttuja) Funktio tulostaa testisuureen, vapausasteet, p-arvon, vaihtoehtoisen hypoteesin, 95 % luottamusvälin odotusarvojen erotukselle ja ryhmäkeskiarvot. Funktio ei oleta variansseja yhtäsuuriksi, ellei lisätä parametria var.equal=true. Esimerkki 14 Neliöhinnan odotusarvon yhtäsuuruus keskustassa ja keskustan ulkopuolella H0: Neliöhinnan odotusarvot yhtäsuuria keskustassa ja keskustan ulkopuolella H1: Neliöhinnan odotusarvot eivät yhtäsuuria > t.test(neliöhinta~kaupunki, var.equal=true) Two Sample t-test data: Neliöhinta by KAUPUNKI t = , df = 227, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group Ei ole mean in group On Testisuureen arvoksi saadaan 18,455, vapausasteita 227 ja p-arvo alle 2, H0 hylätään. Vastaava testi ilman oletusta varianssien yhtäsuuruudesta: > t.test(neliöhinta~kaupunki)... Levenen testi Varianssien yhtäsuuruutta voidaan testata levenetest-funktiolla, joka löytyy car-kirjastosta. > install.packages("car") > library(car) Levenen testi yleisessä muodossa: > levenetest( Numeerinen muuttuja, Kategorinen muuttuja, center=mean ) Funktio tulostaa vapausasteet, testisuureen ja p-arvon. 26

29 Neliöhinnan varianssin yhtäsuuruus keskustan ja ei-keskustan asunnoissa. H0: Neliöhinnan varianssit yhtäsuuria populaatioissa H1: Neliöhinnan varianssit eivät yhtäsuuria > levenetest(neliöhinta, KAUPUNKI, center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group Warning message: In levenetest.default(neliöhinta, KAUPUNKI, center = mean) : KAUPUNKI coerced to factor. Tulosteen varoitus johtuu siitä, että KAUPUNKI-muuttuja on aineistossa numeerisena. Varoitus poistuisi, jos ennen testiä muuttuja muutettaisiin kategoriseksi factor-funktiolla. Testisuureen arvoksi saadaan 1,2352, vapausasteet 1 ja 227, p-arvo 0,2676. H0 hyväksytään ja varianssit voidaan olettaa yhtäsuuriksi. Esimerkki 15 Neliömäärien odotusarvojen yhtäsuuruuden testaus keskustan ulkopuolisissa ja keskustan kaksioissa. Kaksiot otettiin aiemmin omaan datakehykseensä > head(kaksiot) LKV VUOSI HUONEITA SAUNA NELIOT HINTA POSTI KAUPUNKI Alue Huoneisto Neliöhinta Länsi Kaksio Länsi Kaksio Länsi Kaksio Länsi Kaksio Länsi Kaksio Länsi Kaksio Levenen testi. Muutetaan KAUPUNKI-muuttuja kategoriseksi factor-funktiolla. H0: Kaksioiden neliömäärien varianssit yhtäsuuria populaatioissa H1: Kaksioiden neliömäärien varianssit eivät yhtäsuuria > levenetest(kaksiot$neliot, factor(kaksiot$kaupunki), center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group H0 hyväksytään p-arvolla 0,8731. Varianssit voidaan siis olettaa yhtäsuuriksi t-testissä: H0: Neliömäärien odotusarvot yhtäsuuria keskustassa ja keskustan ulkopuolella H1: Neliömäärien odotusarvot eivät yhtäsuuria > t.test(kaksiot$neliot~kaksiot$kaupunki, var.equal=true) Two Sample t-test data: kaksiot$neliot by kaksiot$kaupunki t = , df = 112, p-value =

30 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group 0 mean in group H0 hyväksytään p-arvolla 0,156. Varianssianalyysi Varianssianalyysi yleisessä muodossa aov-funktiolla: > va <- aov( Numeerinen muuttuja ~ Kategorinen muuttuja ) > summary(va) > TukeyHSD(va) Funktio luo aov-tyyppisen muuttujan, joka nimetään halutulla tavalla. Tästä muuttujasta saadaan vapausasteet, testisuure ja p-arvo summary-funktiolla sekä ryhmien väliset vertailut TukeyHSD-funktiolla. Esimerkki 16 Neliöhinnan ja Alueen välisen riippuvuuden testaus varianssianalyysillä: H0: Neliöhinnan odotusarvot samoja kaikilla alueilla H1: Neliöhinnan odotusarvot eivät samoja kaikilla alueilla > va <- aov(neliöhinta~alue) > summary(va) Df Sum Sq Mean Sq F value Pr(>F) Alue <2e-16 *** Residuals Signif. codes: 0 *** ** 0.01 * Testisuureen arvo 173 ja p-arvo alle H0 hylätään. Ryhmien väliset vertailut TukeyHSD-funktiolla: > TukeyHSD(va) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Neliöhinta ~ Alue) $`Alue` diff lwr upr p adj Länsi-Keskusta Itä-Keskusta Itä-Länsi Ryhmien välisistä p-arvoista voidaan päätellä, että keskustan odotusarvot poikkeavat sekä idän että lännen odotusarvoista, mutta idän ja lännen välillä ei voida päätellä olevan eroa. 28

31 Levenen testi: H0: Neliöhinnan varianssit yhtäsuuria kaikilla alueilla H1: Neliöhinnan variansseissa eroa alueiden välillä > levenetest(neliöhinta, factor(asunnot_2006$alue), center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group H0 hyväksytään p-arvolla 0,1477. Esimerkki 17 Huoneistotyypin vaikutus keskimääräiseen neliöhintaan erikseen keskustan ulkopuolisissa ja keskustan asunnoissa. Alueelliset datakehykset saadaan aiemmin käytetyn kaavan mukaan > # uusidatakehys <- vanhadatakehys [ ehto, ] > Keskusta <- Asunnot_2006[KAUPUNKI == 1,] > ItäLänsi <- Asunnot_2006[KAUPUNKI == 0,] Varianssianalyysi keskustan asunnoilla: H0: Huoneistotyypillä ei vaikutusta neliöhinnan odotusarvoon keskustan asunnoissa H1: Huoneistotyyppi vaikuttaa neliöhinnan odotusarvoon keskustan asunnoissa > va1 <- aov(keskusta$neliöhinta ~ Keskusta$Huoneisto) > summary(va1) Df Sum Sq Mean Sq F value Pr(>F) Keskusta$Huoneisto ** Residuals Signif. codes: 0 *** ** 0.01 * > TukeyHSD(va1) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Keskusta$Neliöhinta ~ Keskusta$Huoneisto) $`Keskusta$Huoneisto` diff lwr upr p adj Kaksio-Yksiö Kaksiota suurempi-yksiö Kaksiota suurempi-kaksio Testisuureen arvo 6,871 ja p-arvo 0,0016. H0 voidaan hylätä 1 % riskitasolla. Kaksioiden ja kaksioita suurempien asuntojen neliöhintojen välillä ei näytä olevan eroa, mutta yksiöiden neliöhinnan odotusarvo poikkeaa molemmista. 29

32 > levenetest(keskusta$neliöhinta, Keskusta$Huoneisto, center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group Varianssit voidaan olettaa yhtäsuuriksi. Vastaavat testit keskustan ulkopuolisille asunnoille: > va2 <- aov(itälänsi$neliöhinta ~ ItäLänsi$Huoneisto) > summary(va2) > TukeyHSD(va2) > levenetest(itälänsi$neliöhinta, ItäLänsi$Huoneisto, center=mean) Esimerkki 18 Kaksisuuntainen varianssianalyysi huoneistotyypin ja sijainnin yhdysvaikutuksesta keskimääräiseen neliöhintaan. Tarkastellaan ensin ryhmäkeskiarvoja graafisesti. Ryhmäkeskiarvot saadaan aggregate-funktiolla. Tällä kertaa kategorisina muuttujina sekä KAUPUNKI että Huoneisto. KAUPUNKI-muuttuja täytyy muuttaa kategoriseksi muuttujaksi factor-funktiolla, sillä aggregate-funktio ei osaa käsitellä labelled double -tyypin muuttujia. > KAUPUNKI <- factor(kaupunki, levels=c(0,1), labels=c("ei ole","on")) > keskiarvot <- aggregate(neliöhinta, list(kaupunki, Huoneisto), mean) > keskiarvot Group.1 Group.2 x 1 Ei ole Yksiö On Yksiö Ei ole Kaksio On Kaksio Ei ole Kaksiota suurempi On Kaksiota suurempi Keskiarvotaulukon sarakkeiden nimet voidaan vaihtaa kuvaavampiin: > names(keskiarvot) <- c("keskustassa","huoneisto","neliöhintakeskiarvo") Ehdollisten keskiarvojen graafinen tarkastelu voidaan tehdä esimerkiksi qplot-funktion avulla. > qplot(data=keskiarvot, Huoneisto, Neliöhintakeskiarvo, col=keskustassa) 30

33 Varianssianalyysissä yhdysvaikutuksia voidaan tutkia lisäämällä luokittelevien muuttujien väliin *-merkki. Tällöin saadaan mukaan kaikki omavaikutukset ja interaktiot. Jos halutaan vain tietty interaktio, käytetään kaksoispistettä. H0: Yhdysvaikutusta ei ole H1: Yhdysvaikutusta on > va <- aov(neliöhinta~huoneisto*kaupunki) > summary(va, intercept=true) Df Sum Sq Mean Sq F value Pr(>F) (Intercept) < 2e-16 *** Huoneisto e-09 *** KAUPUNKI < 2e-16 *** Huoneisto:KAUPUNKI Residuals Signif. codes: 0 *** ** 0.01 * Yhdysvaikutukselle saadaan testisuureen arvo 0,005 ja p-arvo 0,995. Hyväksytään H0. Varianssianalyysi ilman Huoneisto- ja KAUPUNKI-muuttujien omavaikutuksia saadaan komennolla > va <- aov(neliöhinta~huoneisto:kaupunki)... Esimerkki 19 Rakennusajankohdan ja keskustasijainnin yhdysvaikutus neliöhintaan. Muuttujan luokittelu. Aloitetaan kopioimalla uuteen muuttujaan vanhan muuttujan arvot: > Rakennusajankohta <- VUOSI 31

34 Luokitellaan rakennusvuodet: > Rakennusajankohta[VUOSI < 1964] <- 1 > Rakennusajankohta[VUOSI >= 1964 & VUOSI <= 1971] <- 2 > Rakennusajankohta[VUOSI >= 1972 & VUOSI <= 1976] <- 3 > Rakennusajankohta[VUOSI > 1976] <- 4 Muutetaan uusi muuttuja kategoriseksi ja lisätään selitteet: > Rakennusajankohta <- factor(rakennusajankohta, levels=c(1,2,3,4), labels=c("ennen 1964"," "," ","jälkeen 1976")) Taulukoidaan table-funktiolla: > table(rakennusajankohta) Rakennusajankohta ennen jälkeen Liitetään uusi muuttuja datakehykseen: > Asunnot_2006 <- cbind(asunnot_2006, Rakennusajankohta) Ehdolliset keskiarvot: > keskiarvot <- aggregate(neliöhinta, list(kaupunki, Rakennusajankohta), mean) > keskiarvot Group.1 Group.2 x 1 Ei ole ennen On ennen Ei ole On Ei ole On Ei ole jälkeen On jälkeen > names(keskiarvot) <- c("keskustassa","rakennusajankohta","neliöhintakeskiarvo") Graafinen tarkastelu pistekartan avulla: > qplot(data=keskiarvot, Rakennusajankohta, Neliöhintakeskiarvo, col=keskustassa) 32

35 Tutkitaan yhdysvaikutusta kaksisuuntaisella varianssianalyysillä: H0: Yhdysvaikutusta ei ole H1: Yhdysvaikutusta on > va <- aov(neliöhinta~kaupunki*rakennusajankohta) > summary(va, intercept=true) Df Sum Sq Mean Sq F value Pr(>F) (Intercept) < 2e-16 *** KAUPUNKI < 2e-16 *** Rakennusajankohta e-07 *** KAUPUNKI:Rakennusajankohta *** Residuals Signif. codes: 0 *** ** 0.01 * Yhdysvaikutuksen testisuure 7,035 ja p-arvo 0, H0 hylätään. Esimerkki 20 Kahden muuttujan välisen korrelaation testaaminen cor.test-funktiolla, yleisessä muodossa: > cor.test( Muuttuja 1, Muuttuja 2 ) Rasvaprosentin ja vyötärönympäryksen välisen korrelaation testaus: H0: Populaatiossa muuttujien välinen korrelaatiokerroin on nolla H1: Populaatiossa muuttujien välinen korrelaatiokerroin ei ole nolla. > cor.test(rasvapro, vyötärö) Pearson's product-moment correlation 33

36 data: rasvapro and vyötärö t = , df = 250, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor H0 hylätään, p-arvo on pienempi kuin 2, Regressioanalyysi Lineaarinen regressiomalli voidaan muodostaa lm-funktiolla (linear model). Yleisessä muodossa: > fit <- lm(selitettävä muuttuja ~ Selittäjä 1 + Selittäjä ) > summary(fit) Kuten varianssianalyysissä, myös regressioanalyysissä funktion paluuarvo sijoitetaan muuttujaan ja tutkitaan summary-funktion avulla. Esimerkki 21 Rasvaprosentin selittäminen vyötärön ympärysmitan avulla. Testataan hypoteeseja: H0: β i = 0 H1: β i 0 > fit <- lm(rasvapro ~ vyötärö) > summary(fit) Call: lm(formula = rasvapro ~ vyötärö) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** vyötärö <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 250 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 250 DF, p-value: < 2.2e-16 Vakiotermin testisuureeksi saadaan 14,77 ja p-arvo alle Nollahypoteesi hylätään. Vastaavasti vyötärönympäryksen testisuure on 22,11 ja p-arvo alle Myös tämä nollahypoteesi hylätään. 34

37 Rasvaprosenttia voidaan estimoida: Rasvaprosentti Selitysprosentiksi saadaan 66,17. Esimerkki 22 = 39, ,63130 Vyötärön ympärys (cm) Rasvaprosentti kahdella selittävällä muuttujalla. Testataan hypoteeseja: H0: β i = 0 H1: β i 0 > fit <- lm(rasvapro ~ vyötärö + Paino_kg) > summary(fit) Call: lm(formula = rasvapro ~ vyötärö + Paino_kg) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** vyötärö < 2e-16 *** Paino_kg e-11 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 249 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 249 DF, p-value: < 2.2e-16 Vakiotermin testisuureen arvoksi saadaan 17,640 ja p-arvo alle Nollahypoteesi hylätään. Vyötärönympäryksen testisuure on 17,447 ja p-arvo alle Myös tämä nollahypoteesi hylätään. Painon testisuure on 7,112 ja p-arvo 1, Tämäkin nollahypoteesi voidaan hylätä. Rasvaprosenttia voidaan siis estimoida: Rasvaprosentti = 45, ,98950 Vyötärön ympärys (cm) 0,32600 Paino (kg) Selitysprosentti on 71,88. Yhteistestauksessa hypoteesille H0: β 1 = β 2 = 0 H1: ainakin jokin β i 0 saadaan F-testisuure 318,2 ja p-arvo alle 2, Nollahypoteesi hylätään. 35

38 Linkkejä Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla, Raija Leppälä, RStudion lataus Rasvaprosentti-aineisto Asunnot_2006-aineisto ARVIO-aineisto 36

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla

Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 63/2018 TAMPERE 2018 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN

Lisätiedot

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla Raija Leppälä Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 55/2017 TAMPERE 2017 TAMPEREEN YLIOPISTO

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

SPSS-perusteet. Sisältö

SPSS-perusteet. Sisältö SPSS-perusteet Sisältö Ikkunat 3 Päävalikot 5 Valikot 6 Aineiston käsittely 6 Muuttujamuunnokset 7 Aineistojen kuvailu analyysit 8 Havaintomatriisin luominen ja käsittely 10 Muulla sovelluksella tehdyn

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

ATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1

ATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 ATH-koulutus: R ja survey-kirjasto THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelman kuvaaminen R:llä ja survey-kirjastolla Perustunnusluvut Regressioanalyysit 16. 2. 2011

Lisätiedot

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %? [TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat TAMPEREEN YLIOPISTO Tilastollisen mallintamisen harjoitustyö Teemu Kivioja ja Mika Helminen Epätasapainoisen koeasetelman analyysi Worksheet 5 Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

Perusnäkymä yksisuuntaiseen ANOVAaan

Perusnäkymä yksisuuntaiseen ANOVAaan Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 19.3.2019/1 MTTTP1, luento 19.3.2019 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

1. Tietokoneharjoitukset

1. Tietokoneharjoitukset 1. Tietokoneharjoitukset Aluksi Tällä kurssilla käytetään R-ohjelmistoa, jonka käyttämisestä lienee muutama sana paikallaan. R-ohjelmisto on laajasti käytetty vapaassa levityksessä oleva ammattimaiseen

Lisätiedot

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset 12.05.2009 Tehtävä 1 (a) x

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,

Lisätiedot

Muuttujien määrittely

Muuttujien määrittely Tarja Heikkilä Muuttujien määrittely Määrittele muuttujat SPSS-ohjelmaan lomakkeen kysymyksistä. Harjoitusta varten lomakkeeseen on muokattu kysymyksiä kahdesta opiskelijoiden tekemästä Joupiskan rinneravintolaa

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli MS-C2128 Ennustaminen ja aikasarja-analyysi 1. harjoitukset / Tehtävät Kotitehtävät: 2 Aiheet: Aluksi Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli Tällä kurssilla käytetään

Lisätiedot

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %? [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 5 viikko 42 6.10.2017 klo 10:42:20 Ryhmät: ke 08.30 10.00 LS C6 Paajanen ke 10.15 11.45 LS

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi. 9.10.2018/1 MTTTP1, luento 9.10.2018 KERTAUSTA TESTAUKSESTA, p-arvo Asetetaan H 0 H 1 Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi. Lasketaan otoksesta testisuureelle arvo. 9.10.2018/2

Lisätiedot

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3 OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2015/1 MTTTP1, luento 6.10.2015 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9. Python linkit: Python tutoriaali: http://docs.python.org/2/tutorial/ Numpy&Scipy ohjeet: http://docs.scipy.org/doc/ Matlabin alkeet (Pääasiassa Deni Seitzin tekstiä) Matriisit ovat matlabin perustietotyyppejä.

Lisätiedot

StatCrunch -laskentasovellus

StatCrunch -laskentasovellus StatCrunch -laskentasovellus Yleistä sovelluksesta StatCrunch on Integrated Analytics LLC:n valmistama sovellus tilastotieteellisten analyysien tuottamista varten. Se on verkon yli käytettävä analyysisovellus,

Lisätiedot

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset. Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,

Lisätiedot

Valitse ruudun yläosassa oleva painike Download Scilab.

Valitse ruudun yläosassa oleva painike Download Scilab. Luku 1 Ohjeita ohjelmiston Scilab käyttöön 1.1 Ohjelmiston lataaminen Ohjeet ohjelmiston lataamiseen Windows-koneelle. Mene verkko-osoitteeseen www.scilab.org. Valitse ruudun yläosassa oleva painike Download

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla

Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla 1 Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla Raija Leppälä Opetusmoniste B 53 3. uudistettu painos Matematiikan, tilastotieteen ja filosofian laitos Toukokuu

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45. Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 8.8% 8.9%.%.% 9.7%.7% Etelä Länsi Itä Oulu Lappi Ahvenanmaa Länsi Etelä Itä Oulu Lappi Ahvenanmaa Läänien

Lisätiedot

5 Osa 5: Ohjelmointikielen perusteita

5 Osa 5: Ohjelmointikielen perusteita 5 Osa 5: Ohjelmointikielen perusteita 5.1 Omat funktiot R on lausekekieli: Kaikki komennot kuten funktiokutsut ja sijoitusoperaatiot ovat lausekkeita. Lausekkeet palauttavat jonkin arvon. Lausekkeita voidaan

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017 11.1.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 11.1.2018 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017 11.1.2018/2

Lisätiedot

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä 806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2011 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Eräässä suuressa yrityksessä

Lisätiedot

Harjoitus 1: Matlab. Harjoitus 1: Matlab. Mat Sovelletun matematiikan tietokonetyöt 1. Syksy 2006

Harjoitus 1: Matlab. Harjoitus 1: Matlab. Mat Sovelletun matematiikan tietokonetyöt 1. Syksy 2006 Harjoitus 1: Matlab Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen Matlab-ohjelmistoon Laskutoimitusten

Lisätiedot

I. Ristiintaulukointi Excelillä / Microsoft Office 2010

I. Ristiintaulukointi Excelillä / Microsoft Office 2010 Savonia-ammattikorkeakoulu Liiketalous Kuopio Tutkimusmenetelmät Likitalo & Mäkelä I. Ristiintaulukointi Excelillä / Microsoft Office 2010 Tässä ohjeessa on mainittu ensi Excelin valinnan/komennon englanninkielinen

Lisätiedot

Katsaus R :ään, tilastolliseen ohjelmointiympäristöön

Katsaus R :ään, tilastolliseen ohjelmointiympäristöön Katsaus R :ään, tilastolliseen ohjelmointiympäristöön 1 Johdanto Halusin tehdä harjoitustyöni kertomalla vaihtoehtoisesta tilastollisesta ohjelmasta, sillä käytän paljon Linux-ympäristöä, jolle kurssilla

Lisätiedot

Opiskelija viipymisaika pistemäärä

Opiskelija viipymisaika pistemäärä 806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2012 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Jatkoa harjoituksen 5 tehtävään

Lisätiedot

Ohjelmoinnin perusteet Y Python

Ohjelmoinnin perusteet Y Python Ohjelmoinnin perusteet Y Python T-106.1208 16.2.2010 T-106.1208 Ohjelmoinnin perusteet Y 16.2.2010 1 / 41 Kännykkäpalautetteen antajia kaivataan edelleen! Ilmoittaudu mukaan lähettämällä ilmainen tekstiviesti

Lisätiedot

ITKP102 Ohjelmointi 1 (6 op)

ITKP102 Ohjelmointi 1 (6 op) ITKP102 Ohjelmointi 1 (6 op) Tentaattori: Antti-Jussi Lakanen 7. huhtikuuta 2017 Vastaa kaikkiin tehtäviin. Tee jokainen tehtävä erilliselle konseptiarkille. Kirjoittamasi luokat, funktiot ja aliohjelmat

Lisätiedot

Moottorin kierrosnopeus Tämän harjoituksen jälkeen:

Moottorin kierrosnopeus Tämän harjoituksen jälkeen: Moottorin kierrosnopeus Tämän harjoituksen jälkeen: osaat määrittää moottorin kierrosnopeuden pulssianturin ja Counter-sisääntulon avulla, osaat siirtää manuaalisesti mittaustiedoston LabVIEW:sta MATLABiin,

Lisätiedot

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat: Yleistä Tilastoapu on Excelin sisällä toimiva apuohjelma, jonka avulla voit analysoida tilastoaineistoja. Tilastoapu toimii Excelin Windows-versioissa Excel 2007, Excel 2010 ja Excel 2013. Kun avaat Tilastoavun,

Lisätiedot

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0 SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0 = monipuolinen ohjelma, jolla voi tilastollisesti analysoida tieteellistä aineistoa ja se tuottaa myös graafisia tulosteita. SPSS:n oma avustus (help) SPSS:ssä

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

OKLV120 Demo 7. Marika Peltonen

OKLV120 Demo 7. Marika Peltonen OKLV120 Demo 7 Marika Peltonen 0504432380 marika.p.peltonen@jyu.fi Tekstin sanat allekkain Kirjoita teksti Wordiin tai kopioi teksti, laitetaan teksti joka sana eri riville Valitse Muokkaa > Etsi ja korvaa

Lisätiedot

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 Sisällysluettelo ALKUSANAT 4 ALKUSANAT E-KIRJA VERSIOON 5 SISÄLLYSLUETTELO 6 1 PERUSASIOITA JA AINEISTON SYÖTTÖ 8 11 PERUSNÄKYMÄ 8 12 AINEISTON SYÖTTÖ VERSIOSSA 9 8 Muuttujan määrittely versiossa 9 11

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

Määrällisen aineiston esittämistapoja. Aki Taanila

Määrällisen aineiston esittämistapoja. Aki Taanila Määrällisen aineiston esittämistapoja Aki Taanila 24.4.2017 1 Kategoriset muuttujat Lukumääriä Prosentteja (muista n-arvot) Pylväitä 2 Yhteenvetotaulukko (frekvenssitaulukko) TAULUKKO 1. Asunnon tyyppi

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5

Lisätiedot

Luento 5. Timo Savola. 28. huhtikuuta 2006

Luento 5. Timo Savola. 28. huhtikuuta 2006 UNIX-käyttöjärjestelmä Luento 5 Timo Savola 28. huhtikuuta 2006 Osa I Shell-ohjelmointi Ehtolause Lausekkeet suoritetaan jos ehtolausekkeen paluuarvo on 0 if ehtolauseke then lauseke

Lisätiedot

2. Aineiston kuvailua

2. Aineiston kuvailua 2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien

Lisätiedot

Esimerkki 1: auringonkukan kasvun kuvailu

Esimerkki 1: auringonkukan kasvun kuvailu GeoGebran LASKENTATAULUKKO Esimerkki 1: auringonkukan kasvun kuvailu Auringonkukka (Helianthus annuus) on yksivuotinen kasvi, jonka varren pituus voi aurinkoisina kesinä hyvissä kasvuolosuhteissa Suomessakin

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

CLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä

CLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä CLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä Anssi Yli-Jyrä Syksy 2012 2. opetuskerta, 14.9.2012, luento ja harjoitukset Tämän opetuskerran ja siihen liittyvien harjoitusten jälkeen:

Lisätiedot

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen! 8069 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2013 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOLLA 9! Ilmoittaudu Weboodissa 4.3.2013 klo

Lisätiedot

Ohjelmoinnin perusteet Y Python

Ohjelmoinnin perusteet Y Python Ohjelmoinnin perusteet Y Python T-106.1208 2.3.2009 T-106.1208 Ohjelmoinnin perusteet Y 2.3.2009 1 / 28 Puhelinluettelo, koodi def lue_puhelinnumerot(): print "Anna lisattavat nimet ja numerot." print

Lisätiedot

Tilastolliset toiminnot

Tilastolliset toiminnot -59- Tilastolliset toiminnot 6.1 Aineiston esittäminen graafisesti Tilastollisen aineiston tallentamisvälineiksi TI-84 Plus tarjoaa erityiset listamuuttujat L1,, L6, jotka löytyvät 2nd -toimintoina vastaavilta

Lisätiedot

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,

Lisätiedot

Laskuharjoitus 9, tehtävä 6

Laskuharjoitus 9, tehtävä 6 Aalto-yliopiston perustieteiden korkeakoulu Jouni Pousi Systeemianalyysin laboratorio Mat-2.4129 Systeemien identifiointi Laskuharjoitus 9, tehtävä 6 Tämä ohje sisältää vaihtoehtoisen tavan laskuharjoituksen

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus

Lisätiedot

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala Kaavakokoelma, testinvalintakaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1 a) Konepajan on hyväksyttävä alihankkijalta saatu tavaraerä, mikäli viallisten komponenttien

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 V ls. Uusintamahdollisuus on rästitentissä.. ke 6 PR sali. Siihen tulee ilmoittautua WebOodissa 9. 8.. välisenä aikana. Soveltuvan

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) 20.9.2018/1 MTTTP1, luento 20.9.2018 KERTAUSTA JA TÄYDENNYSTÄ Tunnusluvut 1) Sijainnin tunnuslukuja Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) Muita sijainnin tunnuslukuja ala- ja yläkvartiili,

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

Näillä sivuilla Tilastomatematiikan esimerkit, joissa käsitellään tietokoneen käyttöä tilastollissa operaatioissa, on tehty Excel-2007 -versiolla.

Näillä sivuilla Tilastomatematiikan esimerkit, joissa käsitellään tietokoneen käyttöä tilastollissa operaatioissa, on tehty Excel-2007 -versiolla. Näillä sivuilla Tilastomatematiikan esimerkit, joissa käsitellään tietokoneen käyttöä tilastollissa operaatioissa, on tehty Excel-2007 -versiolla. Nämä ohjeet, samoin kuin Tilastomatematiikan kirjakaan,

Lisätiedot

TAULUKON TEKEMINEN. Sisällysluettelo

TAULUKON TEKEMINEN. Sisällysluettelo Excel 2013 Taulukon tekeminen Sisällysluettelo TAULUKON TEKEMINEN TAULUKON TEKEMINEN... 1 Tietotyypit... 1 Tiedon syöttäminen taulukkoon... 1 Kirjoitusvirheiden korjaaminen... 2 Alueen sisällön tyhjentäminen...

Lisätiedot

Ohjelmoinnin peruskurssi Y1

Ohjelmoinnin peruskurssi Y1 Ohjelmoinnin peruskurssi Y1 CSE-A1111 30.9.2015 CSE-A1111 Ohjelmoinnin peruskurssi Y1 30.9.2015 1 / 27 Mahdollisuus antaa luentopalautetta Goblinissa vasemmassa reunassa olevassa valikossa on valinta Luentopalaute.

Lisätiedot

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa: Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,

Lisätiedot

IBM SPSS Statistics 21 (= SPSS 21)

IBM SPSS Statistics 21 (= SPSS 21) Tarja Heikkilä IBM SPSS Statistics 21 (= SPSS 21) SPSS = Statistical Package for Social Sciences Ohjelman käynnistys Aloitusikkuna Päävalikot Työkalut Muuttujat (Variables) Tapaukset (Cases) Tyhjä datataulukko

Lisätiedot

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää? Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Ohjelmoinnin perusteet Y Python

Ohjelmoinnin perusteet Y Python Ohjelmoinnin perusteet Y Python T-106.1208 25.2.2009 T-106.1208 Ohjelmoinnin perusteet Y 25.2.2009 1 / 34 Syötteessä useita lukuja samalla rivillä Seuraavassa esimerkissä käyttäjä antaa useita lukuja samalla

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot