Pasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla
|
|
- Matilda Kivelä
- 5 vuotta sitten
- Katselukertoja:
Transkriptio
1 Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 64/2018 TAMPERE 2018
2 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 64/2018 SYYSKUU 2018 Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi R-ohjelmiston avulla ISBN (pdf) ISSN-L ISSN
3 Aluksi Tässä oppaassa on R-toteutukset Raija Leppälän oppaan Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla esimerkeistä sekä yleisiä ohjeita ohjelmistoon liittyen. R on ohjelmointikieli ja ohjelmisto tilastolliseen laskentaan ja grafiikan tuottamiseen. R:ää käytetään usein käyttöliittymäohjelmistojen, kuten RGui:n tai RStudion avulla. Kaikki edellä mainitut ohjelmistot ovat avoimen lähdekoodin projekteja ja maksuttomia käyttää (pl. RStudion kaupallinen lisenssi). Siinä missä maksullinen SPSS on ns. point and click -tyyppinen ohjelma, R:ssä käyttäjä ilmaisee aikomuksensa pääasiallisesti tekstikomennoin. R-ohjelmiston edistyneemmät toiminnot vaativat käyttäjältä jonkin verran ohjelmointiosaamista, mutta aiempaa kokemusta ohjelmoinnista tämän oppaan lukijalta ei oleteta. Tässä oppaassa käytetään RStudio-ohjelmistoa, joka on ladattavissa sivustolta Käytetty RStudio-versio on ja R-versio Lukijalta oletetaan perusosaamista tilastotieteestä ja käytettävien menetelmien tuntemista, sillä tämä opas keskittyy toteutukseen R-kielellä. Aluksi tutustutaan yleisemmin R- ympäristöön ja syntaksiin, sen jälkeen aineiston käsittelyyn ja lopuksi analysointimenetelmiin. Opas on kirjoitettu siten, että parhaan hyödyn siitä saa toistamalla esimerkkejä järjestyksessä alusta alkaen. Tampereella 10. syyskuuta 2018 Pasi Väkeväinen 1
4 Sisällysluettelo RStudio ja R-kieli... 3 Muuttuja, sijoitusoperaatio ja tietotyypit... 3 Funktio... 7 Ohjelmakirjastot... 7 Aineiston tuonti... 8 Aineiston ja työtilan tallennus... 9 Aineiston käsittely, jakaumat ja plottaus Muuttujien muunnokset laskutoimituksilla Ehdollistaminen Histogrammi Pylväsdiagrammi Muuttujan luokittelu Ehdolliset frekvenssihistogrammit Ristiintaulukointi Tunnusluvut Ehdolliset tunnusluvut Laatikkojana Pisteparvi ja korrelaatio Analysointimenetelmiä χ 2 -riippumattomuustesti Riippumattomien otosten t-testi Levenen testi Varianssianalyysi Regressioanalyysi Linkkejä
5 RStudio ja R-kieli RStudio-työtila Käynnistettäessä RStudio avautuu oheinen näkymä. Ikkunassa vasemmalla on komentoikkuna (Console). Oikealla ylhäällä ovat ympäristö- ja historiaikkunat. Oikealla alhaalla ovat piirto-, kirjasto- ja apuikkunat. Console Environment History Plots Packages Help Komentoikkuna, komentojen suorittamiseen. Listaus työtilan muuttujista. Listaus aiemmin suoritetuista komennoista. Grafiikkaikkuna; tähän ilmestyvät piirrettävät plotit. Listaus käytettävissä olevista ohjelmakirjastoista. Suorittamalla komennon?funktio, Help-ikkunaan avautuu dokumentaatio kyseisestä funktiosta. Muuttuja, sijoitusoperaatio ja tietotyypit R:ssä tietoa tallennetaan muuttujiin. Ohjelmointiympäristössä muuttuja tarkoittaa nimettyä tietovarastoa, johon tietoa voidaan kirjoittaa ja josta tietoa voidaan hakea. Muuttujassa siis nimen takaa löytyy arvo, joka voi olla esimerkiksi yksittäinen numeerinen arvo, 3
6 merkkijono tai totuusarvo, vektori tai koko havaintomatriisi. Sijoitusoperaatiolla tarkoitetaan arvon kirjoittamista muuttujaan. Muuttujan voi luoda suoraan sijoitusoperaatiolla: > Nimi <- Arvo Komennon alkuun kirjoitetaan muuttujan nimi, joka voi sisältää isoja ja pieniä kirjaimia, numeroita, pisteitä ja alaviivoja. Ensimmäisen merkin on oltava kirjain. Muuttujan nimen jälkeen kirjoitetaan sijoitusoperaattori; <- tai =. Operaattorit ovat toiminnan suhteen identtisiä. Sijoitusoperaattorin jälkeen kirjoitetaan arvo, joka muuttujaan halutaan sijoittaa. Mikäli komento koostuu pelkästä jo olemassa olevan muuttujan nimestä, laskutoimituksesta tai funktiosta ilman sijoitusoperaatiota, R tulostaa arvon. Komento suoritetaan painamalla Enteriä. Tässä oppaassa komennot tunnistaa sinisestä tekstistä. Komennon alussa olevaa merkkiä > ei kirjoiteta itse komentoikkunaan, vaan se on aina valmiina. Yksittäisen numeerisen arvon sijoitus muuttujaan: > x <- 5 > x [1] 5 > # Risuaidalla alkava komento on kommentti, eikä R reagoi siihen. Desimaalit erotetaan pisteellä: > # Kun jo olemassa olevaan muuttujaan sijoitetaan uusi arvo, aiempi arvo katoaa. On siis syytä varoa tärkeiden tietojen päälle tallentamista. > x = 3.14 > x [1] 3.14 Merkkijono: > x <- "äksä" > x [1] "äksä" Totuusarvot ilmaistaan isoin kirjaimin, myös pelkkä alkukirjain riittää: > x <- FALSE > x [1] FALSE > x <- T > x [1] TRUE Vektori, eli järjestetty yksiulotteinen joukko arvoja, voidaan luoda seuraavalla komennolla: > x <- c(1,2,3,4) > x [1]
7 Vektorin voi muodostaa myös scan-funktion avulla. Tällöin arvoja syötetään komentoikkunaan välilyönnillä erotettuna. Arvojen syöttö loppuu, kun Enteriä painetaan kahdesti peräkkäin. > x <- scan() 1: : : 1 10: Read 9 items > x [1] Mikäli muuttuja sisältää useita arvoja (kuten vektori tai matriisi), yksittäistä arvoa kutsutaan alkioksi. Vektorin alkioon päästään käsiksi ilmoittamalla hakasulkeissa indeksi, eli alkion sijainti vektorissa: > x[4] [1] 6 Useampia alkioita voidaan valita ilmoittamalla niiden indeksiarvot vektorina: > x[ c(1,4,2,7) ] [1] Vektorista voidaan valita arvoja myös totuusarvovektorilla, jossa haluttujen arvojen kohdalla on TRUE ja pois jätettävien arvojen kohdalla FALSE: > x[ c(t,f,t,f,t,f,t,f,t) ] [1] Vektoreita voidaan yhdistää matriisiksi cbind- ja rbind-funktioilla. cbind tekee vektoreista sarakkeita ja rbind rivejä. > x1 <- c(3,3,1,2) > x2 <- c(1,8,2,0) > y <- cbind(x1,x2) > y x1 x2 [1,] 3 1 [2,] 3 8 [3,] 1 2 [4,] 2 0 Matriisin voidaan ajatella koostuvan vektoreista: havaintomatriisin jokainen sarakevektori kuvaa tietyn muuttujan havaintoarvoja, ja jokainen rivivektori yhden tilastoyksikön havaintoarvoja eri muuttujista. Matriisi voidaan transponoida t-funktiolla. Transpoosissa sarakkeet on muutettu riveiksi ja rivit sarakkeiksi. > t(y) [,1] [,2] [,3] [,4] x x
8 R:ssä matriisin jokaisen alkion tulee olla samaa tyyppiä (esimerkiksi numeerinen, merkkijono tai totuusarvo). Datakehys muistuttaa pitkälti matriisia, mutta siinä eri sarakkeet voivat sisältää eri tietotyypin alkioita, jokainen sarake kuitenkin vain yhtä tietotyyppiä. Tästä syystä datakehys on paras vaihtoehto havaintomatriisin tallennukseen. Matriisin voi muuttaa datakehykseksi as.data.frame-funktiolla: > y <- as.data.frame(y) > y x1 x Yksittäiseen alkioon pääsee käsiksi ilmoittamalla rivi- ja sarakenumerot hakasulkeissa: > y[2,1] [1] 3 Kokonaisen rivin tai sarakkeen saa jättämällä toisen numeron pois. Seuraava komento kertoo ensimmäisen sarakkeen kahdella ja sijoittaa tuloksen takaisin ensimmäisen sarakkeen paikalle: > y[,1] <- y[,1] * 2 > y x1 x Datakehykseen voidaan lisätä eri tietotyyppiä sisältävä vektori ilman ongelmia: > x3 <- c('a', 'b', 'c', 'd') > y <- cbind(y, x3) > y x1 x2 x a b c d Matriisiksi muunnettaessa kaikki alkiot muuttuvat saman tyyppisiksi; myös numerot käsitellään merkkijonoina: > as.matrix(y) x1 x2 x3 [1,] "6" "1" "a" [2,] "6" "8" "b" [3,] "2" "2" "c" [4,] "4" "0" "d" 6
9 Funktio Funktio on prosessi, joka suorittaa tietyn toiminnon. Usein funktiolle annetaan syötteenä (input) yksi tai useampi parametri, eli tieto, jota funktio käyttää toimintonsa suorittamiseen. R-kielessä parametrit ilmoitetaan sulkeissa pilkulla erotettuna. Usein funktio myös palauttaa (output) jotakin. Esimerkiksi mean-funktiolle annetaan syötteenä joukko lukuja, joista funktio laskee keskiarvon ja antaa sen paluuarvona. Samalla tavalla var-funktio palauttaa varianssin syötteistään. > z <- c(4, 7, 2, 0, 1, 8) > mean(z) [1] > var(z) [1] R:ssä on lukemattomia funktioita, joista osa on heti työtilassa valmiina käytettäväksi, ja osa ladattavissa ohjelmakirjastoissa. Funktioita ovat myös jo edellä käytetyt c, scan, cbind, as.data.frame ja as.matrix. Suorittamalla komennon, jonka alussa on kysymysmerkki ja sen jälkeen funktion nimi, avautuu RStudiossa apuikkunaan dokumentaatio kyseisestä funktiosta. Dokumentaatiosta selviää esimerkiksi funktion käyttötarkoitus, tarvittavat parametrit selityksineen, parametrien oletusarvot sekä esimerkkejä käytöstä. >?mean... ## Default S3 method: mean(x, trim = 0, na.rm = FALSE,...)... Esimerkiksi tässä tapauksessa parametrilla x ei ole oletusarvoa, vaan se on pakko antaa syötteenä. Parametreilla trim ja na.rm on oletusarvot, joita voi muuttaa halutessaan. > mean(trim=0.2, x=z) [1] 3.5 > mean(z, 0.2) [1] 3.5 Funktion parametreja ei ole pakko nimetä, mikäli ne ovat oikeassa järjestyksessä. Ohjelmakirjastot Ohjelmakirjastot ovat R:n servereiltä ladattavia tiedostoja, jotka sisältävät ohjelmistoja ja aineistoja. Kirjaston voi ladata joko komennolla > install.packages("kirjastonnimi") tai tai Tools > Install packages > Kirjaston nimi > Install Packages-ikkuna > Install > Kirjaston nimi > Install 7
10 Kirjasto pysyy tallessa niin kauan kuin ladattu tiedosto säilyy kansiossa, johon se ladattiin, joten kirjasto tarvitsee ladata vain kerran. Pelkkä ohjelmakirjaston lataaminen ei riitä sen sisältöjen saamiseksi käyttöön, vaan kirjasto pitää vielä erikseen ladata R:n työtilaan, joka onnistuu kahdella tavalla: > library(kirjastonnimi) tai Packages-ikkuna > Rastita haluttu kirjasto Kirjastot eivät säily R:n työtilassa yli istuntojen, vaan tarvittavat kirjastot on otettava käyttöön aina uudestaan R:n käynnistämisen jälkeen. Aineiston tuonti R ei ole ideaali ympäristö suuren havaintomatriisin manuaaliseen luomiseen. Suositeltavaa on luoda havaintomatriisi jollain muulla työkalulla, kuten Excelillä tai vastaavalla taulukkolaskentaohjelmalla, ja tuoda se R:n työtilaan. Pienen havaintomatriisin voi luoda esimerkiksi vektoreiden avulla ja yhdistää matriisiksi cbind-, rbind- tai data.frame-funktiolla. Aineiston tuonti työtilaan RStudiossa: Environment > Import Dataset > Valitse lähde/tiedoston tyyppi > Browse > Valitse tiedosto > Import R tuo aineiston muuttujaan, jonka se nimeää oletuksena tiedoston nimen mukaan. Muuttujan nimeä voi muuttaa tiedoston valitsemisen jälkeen Import Options > Name-kentästä. Rasvaprosentti-aineisto voidaan tuoda R-työtilaan seuraavasti: Environment > Import Dataset > From SPSS > Browse > rasvaprosentti.sav > Import Aineisto voidaan kiinnittää työtilaan attach-funktiolla. Tällöin aineiston muuttujiin voidaan viitata suoraan muuttujan nimellä. > attach(rasvaprosentti) Ilman aineiston kiinnittämistä muuttujiin viitataan dollarimerkin avulla: rasvaprosentti$tiheys antaa rasvaprosentti-datakehyksestä tiheys-muuttujan arvot vektorina. Kun aineisto on kiinnitetty, pelkkä tiheys riittää. > mean(tiheys) [1] Varsinkaan suurta aineistoa ei ole mielekästä tulostaa komentoikkunassa kokonaan, vaan usein pieni osa riittää aineiston muodon tarkistamiseen. Aineiston alusta voi tulostaa muutaman rivin head-funktiolla. > head(rasvaprosentti)... 8
11 Aineiston voi tuoda myös ilman RStudion Import Dataset -toimintoa. SPSS-tiedosto voidaan tuoda seuraavilla komennoilla: > library(haven) > data <- read_sav( file.choose() ) Excel-tiedoston tuonti. Aineisto kannattaa muuttaa datakehykseksi as.data.frame-funktiolla. > library(readxl) > data <- read_excel( file.choose() ) > data <- as.data.frame( data ) Txt-tiedoston tuonti: > data <- read.table( file.choose(), header=true, sep="," ) > # header-parametri TRUE, jos havaintomatriisin ylimmällä rivillä on muuttujien nimet, muulloin parametrin voi jättää pois. > # sep-parametrilla määritetään välimerkki, joka erottaa havaintoarvot tiedostossa. Aineiston ja työtilan tallennus R:n työtilasta voi tallentaa aineiston tiedostoksi write.table-funktiolla. Yleisessä muodossa: > write.table(x=muuttujannimi, file="tiedostosijainti") Esimerkiksi rasvaprosentti-aineiston tallentaminen.txt-tiedostoksi K-asemalle onnistuu seuraavasti: > write.table(x=rasvaprosentti, file="k:/data.txt") Oletuksena funktio lisää jokaisen rivin alkuun rivi-indeksin ja erottaa solut välilyönnillä. Näitä asetuksia voidaan muuttaa row.names- ja sep-parametreilla: > write.table(x=rasvaprosentti, file="k:/data.txt", sep=",", row.names=false) Tällä komennolla luodaan K-asemalle.txt-tiedosto, jossa rivi-indeksejä ei ole ja havaintoarvot on erotettu toisistaan pilkulla. Vastaavasti sarakeindeksit tai muuttujien nimet saa pois col.names-parametrin avulla. Työtilan voi tallentaa ympäristöikkunassa olevasta tallennuspainikkeesta. Tällöin taas seuraavan kerran RStudion käynnistyessä voi jatkaa siitä mihin jäi; kaikki muuttujat ovat edelleen käytettävissä. Kirjastot täytyy kuitenkin ottaa käyttöön uudelleen library-komennolla. RStudio kysyy työtilan tallennusta myös suljettaessa, mikäli edellisen tallennuksen jälkeen on tapahtunut muutoksia. Tallennetun työtilan voi avata valitsemalla File > Open file > Valitse tiedosto. 9
12 Aineiston käsittely, jakaumat ja plottaus Muuttujien muunnokset laskutoimituksilla Esimerkki 1 Rasvaprosentti-aineistossa pituus on mitattu tuumina ja paino nauloina. Muutetaan nämä metrijärjestelmään ja lasketaan painoindeksi. Luodaan uudet muuttujat laskutoimituksilla: > Paino_kg < * paino > Pituus_m < * pituus > Painoindeksi <- Paino_kg / (Pituus_m * Pituus_m) Muuttujien luomisen jälkeen on hyvä tarkistaa, että arvot ovat järkeviä, eikä laskutoimituksissa ole sattunut virheitä. Tätä voidaan tarkastella esimerkiksi summary-funktion tulostamien tunnuslukujen avulla: > summary(paino_kg) Min. 1st Qu. Median Mean 3rd Qu. Max > summary(pituus_m) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's > summary(painoindeksi) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's NA tarkoittaa puuttuvaa tietoa. Yhdeltä tilastoyksiköltä puuttuu tieto pituudesta, joten myöskään painoindeksiä ei voida laskea. Muuttujat on nyt luotu, mutta ne ovat vielä omina vektoreinaan. Vektorit voidaan liittää datakehykseen cbind- tai data.frame-funktiolla. > rasvaprosentti <- cbind(rasvaprosentti, Paino_kg, Pituus_m, Painoindeksi) > # Sama lopputulos myös data.frame-funktiolla > # rasvaprosentti <- data.frame(rasvaprosentti, Paino_kg, Pituus_m, Painoindeksi) Uusia muuttujia liitettäessä on tärkeää muistaa lisätä parametreihin myös alkuperäinen aineisto; seuraava komento tallentaisi rasvaprosentti-datakehyksen päälle kolme uutta muuttujaa, ja alkuperäinen aineisto katoaisi. > # rasvaprosentti <- cbind(paino_kg, Pituus_m, Painoindeksi) Ehdollistaminen Datakehyksestä voi valita tietyn joukon havaintoja omaan datakehykseensä. Komento yleisessä muodossa: > uusidatakehys <- vanhadatakehys [ ehto, ] > nuoret <- rasvaprosentti[ikä < 25,] 10
13 Tässä esimerkissä ikä < 25 vertaa ikä-muuttujan havaintoarvoja lukuun 25, ja palauttaa vektorin, jossa on totuusarvo TRUE niiden havaintojen kohdalla, joilla ikä-muuttujan arvo on alle 25, ja FALSE niiden kohdalla, joilla ikä on 25 tai suurempi. Koska pilkun jälkeen ei ole sarakeindeksejä, tulee uuteen datakehykseen TRUE-rivit kokonaisuudessaan. Jos siis haluttaisiin valita uuteen datakehykseen vain tietyt sarakkeet, tulisi hakasulkeissa ilmoittaa pilkun jälkeen sarakenumerot halutuilta sarakkeilta vektorina. > nuoret <- rasvaprosentti[ ikä < 25, c(1, 2, 4, 8) ] > head(nuoret) tiheys rasvapro paino vyötärö Loogiset operaattorit: Operaattori Kuvaus < pienempi kuin <= pienempi tai yhtäsuuri kuin > suurempi kuin >= suurempi tai yhtäsuuri kuin == yhtäsuuri kuin!= erisuuri kuin!x ei x x y x tai y x & y x ja y Histogrammi Histogrammin piirtäminen hist-funktiolla yleisessä muodossa: > hist( Muuttuja ) Esimerkki 2 Painoindeksin frekvenssihistogrammin piirtäminen koko rasvaprosentti-aineistosta: > hist(painoindeksi) 11
14 Pylväiden lukumäärää voidaan säätää breaks-parametrilla. Otsikoita ja akseleiden selitteitä voi muokata main-, xlab- ja ylab-parametreillä. Täyttöväriä voi vaihtaa col-parametrin avulla (komento colors() tulostaa komentoikkunaan R:n tuntemat värien nimet). > hist(painoindeksi, breaks=20, main="painoindeksin frekvenssihistogrammi", xlab="painoindeksi", ylab="frekvenssi", col="beige") Siirrettäessä tai tallennettaessa grafiikoita RStudiosta on suositeltavaa käyttää Exporttoimintoa Plots-ikkunan yläreunassa. Aukeavasta ikkunasta voi muuttaa kuvasuhdetta ja tarkkuutta. 12
15 Pylväsdiagrammi Pylväsdiagrammin piirtäminen yleisessä muodossa: > barplot( table ( Muuttuja ) ) Barplot-funktiolle ei siis anneta syötteenä havaintovektoria, vaan taulukko, jossa on muuttujan arvot ja niitä vastaavat frekvenssit. Tämä taulukko saadaan table-funktiolla. Esimerkki 3 Pylväsdiagrammi huoneiden lukumäärästä Asunnot_2006-aineistossa. Asuntodatan tuonti onnistuu samalla tavalla kuin Rasvaprosentti-aineiston. Environment > Import Dataset > From SPSS > Browse > Asunnot_2006.sav > Import Kiinnitetään myös tämä aineisto työtilaan: > attach(asunnot_2006) Huonelukumäärän frekvenssit table-funktiolla: > table(huoneita) HUONEITA Tämän jälkeen pylväsdiagrammi saadaan barplot-funktiolla. Selitteitä ja väriä voi muuttaa samoilla parametreilla kuin histogrammissa. > barplot(table(huoneita), main="huoneiden lukumäärä", xlab="huoneita", ylab="lkm", col="midnightblue") 13
16 Muuttujan luokittelu 1. Kopioi luokiteltavan muuttujan arvot uuteen muuttujaan: > uusimuuttuja <- datakehys$luokiteltavamuuttuja 2. Muuta uuden muuttujan arvoja: > uusimuuttuja[ ehto1 ] <- uusiarvo1 > uusimuuttuja[ ehto2 ] <- uusiarvo (Tarvittaaessa) Muunna kategoriseksi muuttujaksi ja lisää uusille arvoille selitteet factor-funktiolla: > uusimuuttuja <- factor( uusimuuttuja, levels = c(uusiarvo1, uusiarvo2,...), labels = c("selite1", "Selite2",...) ) 4. Tarkista, että muunnokset onnistuivat halutulla tavalla. Esimerkiksi table-funktio soveltuu tähän. > table( uusimuuttuja ) 5. Liitä uusi muuttuja datakehykseen: > datakehys <- cbind( datakehys, uusimuuttuja ) Samaa kaavaa voidaan käyttää sekä numeerisen muuttujan luokitteluun, että kategorisen uudelleen luokittelemiseen. Esimerkki 4 Huonelukumäärän luokittelu huoneistotyyppeihin. Kopioidaan ensin HUONEITA-muuttujan arvot uuteen Huoneisto-muuttujaan: > Huoneisto <- HUONEITA Muutetaan kaksiota suurempien asuntojen arvoksi 3: > Huoneisto[ Huoneisto >= 3 ] <- 3 Muutetaan kategoriseksi muuttujaksi ja lisätään selitteet: > Huoneisto <- factor(huoneisto, levels=c(1,2,3), labels=c("yksiö", "Kaksio", "Kaksiota suurempi")) Tarkistetaan, että muuttujan arvot ovat järkeviä: > table(huoneisto) Huoneisto Yksiö Kaksio Kaksiota suurempi Liitetään uusi muuttuja aineistoon: > Asunnot_2006 <- cbind(asunnot_2006, Huoneisto) Funktio prop.table muuttaa taulukon frekvenssit osuuksiksi: 14
17 > prop.table( table ( Huoneisto ) ) Huoneisto Yksiö Kaksio Kaksiota suurempi Prosenttiosuudet voidaan muuttaa kumulatiivisiksi cumsum-funktiolla: > cumsum( prop.table ( table ( Huoneisto ) ) ) Yksiö Kaksio Kaksiota suurempi Esimerkki 5 Luokittelu painoindeksin mukaan. Kopioidaan Painoindeksin arvot uuteen muuttujaan ja luokitellaan arvoiksi 1 4: > Lihavuus <- Painoindeksi > Lihavuus[Painoindeksi < 25] <- 1 > Lihavuus[Painoindeksi >= 25 & Painoindeksi < 30] <- 2 > Lihavuus[Painoindeksi >= 30 & Painoindeksi < 35] <- 3 > Lihavuus[Painoindeksi >= 35] <- 4 Muutetaan kategoriseksi ja lisätään selitteet: > Lihavuus <- factor(lihavuus, levels=c(1,2,3,4), labels=c("normaalipainoinen","lievä ylipaino","merkittävä ylipaino","sairaalloinen ylipaino")) Taulukointi table-funktiolla: > table(lihavuus) Lihavuus Normaalipainoinen Lievä ylipaino Merkittävä ylipaino Sairaalloinen ylipaino Liitetään uusi muuttuja aineistoon: > rasvaprosentti <- cbind(rasvaprosentti, Lihavuus) Prosentuaaliset ja kumulatiiviset osuudet: > prop.table(table(lihavuus)) Lihavuus Normaalipainoinen Lievä ylipaino Merkittävä ylipaino Sairaalloinen ylipaino > cumsum(prop.table(table(lihavuus))) Normaalipainoinen Lievä ylipaino Merkittävä ylipaino Sairaalloinen ylipaino
18 Esimerkki 6 Kaksioiden neliöhintojen tutkiminen. Neliöhinta-muuttujan luominen vektorilaskutoimituksella: > Neliöhinta <- HINTA / NELIOT Tunnuslukuja ja aineistoon liittäminen: > summary(neliöhinta) Min. 1st Qu. Median Mean 3rd Qu. Max > Asunnot_2006 <- cbind(asunnot_2006, Neliöhinta) Muodostetaan kaksioista oma datakehys aiemmin mainitulla ehdollistamiskaavalla: > kaksiot <- Asunnot_2006[Huoneisto == "Kaksio",] > head(kaksiot) LKV VUOSI HUONEITA SAUNA NELIOT HINTA POSTI KAUPUNKI Alue Huoneisto Neliöhinta Kaksio Kaksio Kaksio Kaksio Kaksio Kaksio Ehdolliset frekvenssihistogrammit Samaan kuvaan saadaan piirrettyä useampi frekvenssihistogrammi ggplot2-kirjastosta löytyvällä qplot-funktiolla. > install.packages("ggplot2") > library(ggplot2) Yleisessä muodossa: > qplot(data=aineisto, Numeerinen muuttuja, facets=kategorinen muuttuja~., bins=pylväiden lkm) Luokitteleva muuttuja valitaan facets-parametrilla (muuttuja~. piirtää histogrammit päällekkäin,.~muuttuja vierekkäin ja muuttuja~muuttuja kahden kategorisen muuttujan mukaan ehdollistettuna taulukkona). Pylväiden lukumäärää voi säätää bins-parametrilla, joka vastaa aiemmin kätetyn hist-funktion breaks-parametriä. Kaksioiden neliöhinta eri alueilla: > qplot(data=kaksiot, Neliöhinta, facets=alue~., bins=20) 16
19 Histogrammien yhteyteen saadaan selitteet pelkkien aluenumeroiden sijaan esimerkiksi lisäämällä Alue-muuttujalle selitteet: > kaksiot$alue <- factor(kaksiot$alue, levels=c(1,2,3), labels=c("keskusta","länsi","itä")) > qplot(data=kaksiot, Neliöhinta, facets=alue~., bins=20, main="neliöhinnan frekvenssihistogrammit alueittain", ylab="frekvenssi") 17
20 Ristiintaulukointi Kirjastosta gmodels löytyy funktio CrossTable, joka muodostaa ristiintaulukon. > install.packages("gmodels") > library(gmodels) Yleisessä muodossa: > CrossTable( Kategorinen muuttuja 1, Kategorinen muuttuja 2) Funktio laskee oletusarvoisesti useita eri prosenttiosuuksia (ks.?crosstable), mutta niitä voi karsia parametreilla. Pelkät frekvenssit voi ristiintaulukoida myös table-funktiolla, kun antaa syötteenä kaksi kategorista muuttujaa. Esimerkki 7 Alue- ja Huoneisto-muuttujien ristiintaulukointi. Lisätään ensin Alue-muuttujalle selitteet: > Alue <- factor(alue, levels=c(1,2,3), labels=c("keskusta","länsi","itä")) > CrossTable(Alue, Huoneisto, prop.c=false, prop.t=false, prop.chisq=false) Cell Contents N N / Row Total Total Observations in Table: 229 Huoneisto Alue Yksiö Kaksio Kaksiota suurempi Row Total Keskusta Länsi Itä Column Total Esimerkki 8 Pylväsdiagrammi prosenttiosuuksista. Frekvenssien taulukointi table-funktiolla: > lkm <- table(alue, Huoneisto) > lkm Huoneisto Alue Yksiö Kaksio Kaksiota suurempi Keskusta Länsi Itä
21 Muutetaan frekvenssit prosenttiosuuksiksi. Funktio rowsums laskee matriisin rivikohtaiset summat ja palauttaa ne vektorina. > rowsums(lkm) Keskusta Länsi Itä > lkm[1,] <- lkm[1,] / rowsums(lkm)[1] * 100 > lkm[2,] <- lkm[2,] / rowsums(lkm)[2] * 100 > lkm[3,] <- lkm[3,] / rowsums(lkm)[3] * 100 Saadaan samat prosentuaaliset osuudet kuin edellisen esimerkin ristiintaulukoinnissa: > lkm Huoneisto Alue Yksiö Kaksio Kaksiota suurempi Keskusta Länsi Itä Jos barplot-funktiolle antaa syötteenä taulukon, se pinoaa sarakkeiden arvot yhdeksi pylvääksi. Koska lkm-taulukosta halutaan pinota rivit, se täytyy transponoida t-funktiolla. Pylväsdiagrammin saa vaakatasoon horiz-parametrin avulla. Selitelaatikko lisätään legend-funktiolla. Laatikon sijainnin voi määrittää x-parametrilla. > barplot(t(lkm), col=c("dodgerblue3","palegreen3","wheat"), horiz=true) > legend(c("yksiö","kaksio","kaksiota suurempi"), x="topright", fill=c("dodgerblue3","palegreen3","wheat")) Tällä kertaa selitelaatikko on kuitenkin diagrammin päällä. Muutetaan plottausasaetuksia par-funktiolla. Parametrilla mar asetetaan piirtoalueen marginaalit ja parametrilla xpd mahdollistetaan piirtäminen myös piirtoalueen ulkopuolelle (marginaaleihin). Näin saadaan selitelaatikko mukaan kuvaan siten, ettei se ole diagrammin päällä. > par(mar = c(5,4,4,15), xpd=true) 19
22 Marginaalit annetaan muodossa (alareuna, vasen reuna, yläreuna, oikea reuna). Oletuksena marginaalit ovat (5,4,4,2), joten edellinen komento kasvattaa oikean reunan marginaalia. Selitelaatikon sijainnin voi asettaa myös x- ja y-koordinaateilla. > barplot(t(lkm), col=c("dodgerblue3","palegreen3","wheat"), horiz=true) > legend(c("yksiö","kaksio","kaksiota suurempi"), x=105, y=3.5, fill=c("dodgerblue3","palegreen3","wheat")) Plottausasetukset saa palautettua oletusarvoihin seuraavalla komennolla: > dev.off() Tunnusluvut Funktio summary tulostaa syötteenä saamastaan havaintovektorista tunnuslukuja. > summary( Muuttuja ) Yksittäisten tunnuslukujen laskemiseen on funktiot: Funktio max mean median min sd var Kuvaus suurin arvo keskiarvo mediaani pienin arvo keskihajonta varianssi 20
23 Esimerkki 9 Painoindeksin tunnuslukuja: > summary(painoindeksi) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's Summary-funktio poistaa puuttuvat arvot (NA) laskuista oletuksena. Yksittäistä tunnuslukua laskettaessa funktioon on lisättävä na.rm-parametri, mikäli muuttuja sisältää puuttuvia arvoja. Keskihajonta sd-funktiolla: > sd(painoindeksi, na.rm=true) [1] > summary(huoneita) Min. 1st Qu. Median Mean 3rd Qu. Max > sd(huoneita) [1] Ehdolliset tunnusluvut Ehdolliset tunnusluvut aggregate-funktiolla, yleisessä muodossa: > aggregate(numeerinen muuttuja, list(kategorinen muuttuja 1, Kategorinen muuttuja 2,...), funktio) Aggregate-funktiolle on annettava syötteenä funktio, joka laskee halutun tunnusluvun. Luokittelevat muuttujat annetaan listana. Funktio palauttaa datakehyksen, jonka ensimmäisessä sarakkeessa (Group.1) on kategorisen muuttujan arvot ja viimeisessä sarakkeessa (x) numeerisen muuttujan haluttu tunnusluku. Mikäli käytetään useampaa kategorista muuttujaa, on tulostematriisissa useita Group-sarakkeita ja tunnusluku jokaiselle kombinaatiolle kategorisista muuttujista. Esimerkki 10 Ryhmäkeskiarvot: > aggregate(neliöhinta, list(alue), mean) Group.1 x 1 Keskusta Länsi Itä Keskihajonnat: > aggregate(neliöhinta, list(alue), sd) Group.1 x 1 Keskusta Länsi Itä
24 Laatikkojana Laatikkojanakuvio muodostetaan boxplot-funktiolla. Yleisessä muodossa: > boxplot(numeerinen muuttuja ~ Kategorinen muuttuja) Neliöhinnan ja Alueen laatikkojanakuvio: > boxplot(neliöhinta~alue, col="beige", main="laatikkojana", ylab="neliöhinta", xlab="alue") Pisteparvi ja korrelaatio Plot- ja qplot-funktiot piirtävät oletuksena pisteparven, kun syötteessä on kaksi muuttujaa. > plot( Muuttuja 1, Muuttuja 2 ) > # qplot löytyy ggplot2-kirjastosta > library(ggplot2) > qplot( Muuttuja 1, Muuttuja 2 ) 22
25 Esimerkki 11 Vyötärönympäryksen ja rasvaprosentin pisteparvi. Lisäämällä plot-funktioon pch- ja col-parametrit, voidaan muuttaa symbolia ja väriä. > plot(vyötärö, rasvapro, xlab="vyötärön ympärys", ylab="rasvaprosentti", pch=20, col="darkred") pch-parametrin arvot ja niitä vastaavat symbolit qplot-funktion col-parametrilla voidaan kuvata myös muuttujaa. Kategorista muuttujaa kuvattaessa saadaan eri värisiä pisteitä ja numeerista muuttujaa kuvattaessa käytetään liukuväriä. > qplot(vyötärö, rasvapro, xlab="vyötärön ympärys", ylab="rasvaprosentti", col=lihavuus) 23
26 Koska pituuden ja painoindeksin tiedot puuttuivat yhdeltä tilastoyksiköltä, myös Lihavuus-muuttujassa on yksi puuttuva arvo. Tämä näkyy pistekartalla harmaana pisteenä. Kahden muuttujan välinen korrelaatiokerroin voidaan laskea cor-funktiolla. Yleisessä muodossa: > cor( Muuttuja 1, Muuttuja 2 ) Vyötärön ja rasvaprosentin välinen korrelaatiokerroin: > cor(vyötärö, rasvapro) [1] Korrelaatiomatriisin voi laskea samalla funktiolla, kun syötteenä antaa koko havaintomatriisin. Kategorisille muuttujille ei voida laskea korrelaatiokertoimia, joten rasvaprosentti-aineiston tapauksessa Lihavuus-muuttuja täytyy jättää pois. Samalla tavalla kuin datakehyksestä tai matriisista voi valita sarakkeita (tai rivejä) ilmoittamalla indeksit hakasulkeissa, sarakkeita voi pudottaa pois antamalla sarakenumeron negatiivisena. Myös puuttuvat arvot aiheuttavat ongelmia, ellei funktiolle anneta use-parametrilla ohjetta niihin suhtautumisesta. Parametrin arvolla use="complete.obs" käytetään vain aineiston täydellistä osaa, eli kaikki puuttuvia arvoja sisältävät rivit jätetään kokonaan pois korrelaatiomatriisin laskuista. Muita vaihtoehtoja löytyy?cor-komennolla avautuvasta dokumentaatiosta. > cor(rasvaprosentti[,-19], use="complete.obs")... 24
27 Analysointimenetelmiä χ 2 -riippumattomuustesti χ 2 -riippumattomuustesti chisq.test -funktiolla yleisessä muodossa: > chisq.test( Kategorinen muuttuja 1, Kategorinen muuttuja 2 ) Funktio tulostaa testisuureen, vapausasteet ja p-arvon sekä mahdollisia varoituksia. Esimerkki 12 Huoneiston ja Alueen välisen riippuvuuden testaus Asunnot_2006 -aineistossa. H0: Huoneiston tyypin ja alueen välillä ei ole riippuvuutta H1: Huoneiston tyypin ja alueen välillä on riippuvuutta > chisq.test(huoneisto, Alue) Pearson's Chi-squared test data: Huoneisto and Alue X-squared = , df = 4, p-value = Warning message: In chisq.test(huoneisto, Alue) : Chi-squared approximation may be incorrect Tulosteen varoitus johtuu siitä, että (ainakin) yksi teoreettinen frekvenssi on alle 5. Testisuureen arvoksi saadaan 4,6742, vapausasteita 4 ja p-arvo 0,3224. H0 hyväksytään. Esimerkki 13 Opintojakson työläyden ja opiskelijan opintosuunnan välisen riippuvuuden testaus. Arvio-aineiston tuonti ja χ 2 -testi samalla tavalla kuin aiemmin: Environment > Import Dataset > From SPSS > Browse > arvio.sav > Import > attach(arvio) H0: Opintojakson työläyden ja opiskelijan opintosuunnan välillä ei ole riippuvuutta H1: Opintojakson työläyden ja opiskelijan opintosuunnan välillä on riippuvuutta > chisq.test(tyolays, OPSUUNTA) Pearson's Chi-squared test data: TYOLAYS and OPSUUNTA X-squared = 7.668, df = 2, p-value = Warning message: In chisq.test(tyolays, OPSUUNTA) : Chi-squared approximation may be incorrect 25
28 Saadaan testisuureen arvo 7,668, vapausasteita 2 ja p-arvo 0, H0 hylätään 5 % riskitasolla, mutta 2 % tai pienemmällä riskitasolla H0 voidaan hyväksyä. Riippumattomien otosten t-testi T-testi yleisessä muodossa R:llä: > t.test(numeerinen muuttuja ~ Kategorinen muuttuja) Funktio tulostaa testisuureen, vapausasteet, p-arvon, vaihtoehtoisen hypoteesin, 95 % luottamusvälin odotusarvojen erotukselle ja ryhmäkeskiarvot. Funktio ei oleta variansseja yhtäsuuriksi, ellei lisätä parametria var.equal=true. Esimerkki 14 Neliöhinnan odotusarvon yhtäsuuruus keskustassa ja keskustan ulkopuolella H0: Neliöhinnan odotusarvot yhtäsuuria keskustassa ja keskustan ulkopuolella H1: Neliöhinnan odotusarvot eivät yhtäsuuria > t.test(neliöhinta~kaupunki, var.equal=true) Two Sample t-test data: Neliöhinta by KAUPUNKI t = , df = 227, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group Ei ole mean in group On Testisuureen arvoksi saadaan 18,455, vapausasteita 227 ja p-arvo alle 2, H0 hylätään. Vastaava testi ilman oletusta varianssien yhtäsuuruudesta: > t.test(neliöhinta~kaupunki)... Levenen testi Varianssien yhtäsuuruutta voidaan testata levenetest-funktiolla, joka löytyy car-kirjastosta. > install.packages("car") > library(car) Levenen testi yleisessä muodossa: > levenetest( Numeerinen muuttuja, Kategorinen muuttuja, center=mean ) Funktio tulostaa vapausasteet, testisuureen ja p-arvon. 26
29 Neliöhinnan varianssin yhtäsuuruus keskustan ja ei-keskustan asunnoissa. H0: Neliöhinnan varianssit yhtäsuuria populaatioissa H1: Neliöhinnan varianssit eivät yhtäsuuria > levenetest(neliöhinta, KAUPUNKI, center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group Warning message: In levenetest.default(neliöhinta, KAUPUNKI, center = mean) : KAUPUNKI coerced to factor. Tulosteen varoitus johtuu siitä, että KAUPUNKI-muuttuja on aineistossa numeerisena. Varoitus poistuisi, jos ennen testiä muuttuja muutettaisiin kategoriseksi factor-funktiolla. Testisuureen arvoksi saadaan 1,2352, vapausasteet 1 ja 227, p-arvo 0,2676. H0 hyväksytään ja varianssit voidaan olettaa yhtäsuuriksi. Esimerkki 15 Neliömäärien odotusarvojen yhtäsuuruuden testaus keskustan ulkopuolisissa ja keskustan kaksioissa. Kaksiot otettiin aiemmin omaan datakehykseensä > head(kaksiot) LKV VUOSI HUONEITA SAUNA NELIOT HINTA POSTI KAUPUNKI Alue Huoneisto Neliöhinta Länsi Kaksio Länsi Kaksio Länsi Kaksio Länsi Kaksio Länsi Kaksio Länsi Kaksio Levenen testi. Muutetaan KAUPUNKI-muuttuja kategoriseksi factor-funktiolla. H0: Kaksioiden neliömäärien varianssit yhtäsuuria populaatioissa H1: Kaksioiden neliömäärien varianssit eivät yhtäsuuria > levenetest(kaksiot$neliot, factor(kaksiot$kaupunki), center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group H0 hyväksytään p-arvolla 0,8731. Varianssit voidaan siis olettaa yhtäsuuriksi t-testissä: H0: Neliömäärien odotusarvot yhtäsuuria keskustassa ja keskustan ulkopuolella H1: Neliömäärien odotusarvot eivät yhtäsuuria > t.test(kaksiot$neliot~kaksiot$kaupunki, var.equal=true) Two Sample t-test data: kaksiot$neliot by kaksiot$kaupunki t = , df = 112, p-value =
30 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group 0 mean in group H0 hyväksytään p-arvolla 0,156. Varianssianalyysi Varianssianalyysi yleisessä muodossa aov-funktiolla: > va <- aov( Numeerinen muuttuja ~ Kategorinen muuttuja ) > summary(va) > TukeyHSD(va) Funktio luo aov-tyyppisen muuttujan, joka nimetään halutulla tavalla. Tästä muuttujasta saadaan vapausasteet, testisuure ja p-arvo summary-funktiolla sekä ryhmien väliset vertailut TukeyHSD-funktiolla. Esimerkki 16 Neliöhinnan ja Alueen välisen riippuvuuden testaus varianssianalyysillä: H0: Neliöhinnan odotusarvot samoja kaikilla alueilla H1: Neliöhinnan odotusarvot eivät samoja kaikilla alueilla > va <- aov(neliöhinta~alue) > summary(va) Df Sum Sq Mean Sq F value Pr(>F) Alue <2e-16 *** Residuals Signif. codes: 0 *** ** 0.01 * Testisuureen arvo 173 ja p-arvo alle H0 hylätään. Ryhmien väliset vertailut TukeyHSD-funktiolla: > TukeyHSD(va) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Neliöhinta ~ Alue) $`Alue` diff lwr upr p adj Länsi-Keskusta Itä-Keskusta Itä-Länsi Ryhmien välisistä p-arvoista voidaan päätellä, että keskustan odotusarvot poikkeavat sekä idän että lännen odotusarvoista, mutta idän ja lännen välillä ei voida päätellä olevan eroa. 28
31 Levenen testi: H0: Neliöhinnan varianssit yhtäsuuria kaikilla alueilla H1: Neliöhinnan variansseissa eroa alueiden välillä > levenetest(neliöhinta, factor(asunnot_2006$alue), center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group H0 hyväksytään p-arvolla 0,1477. Esimerkki 17 Huoneistotyypin vaikutus keskimääräiseen neliöhintaan erikseen keskustan ulkopuolisissa ja keskustan asunnoissa. Alueelliset datakehykset saadaan aiemmin käytetyn kaavan mukaan > # uusidatakehys <- vanhadatakehys [ ehto, ] > Keskusta <- Asunnot_2006[KAUPUNKI == 1,] > ItäLänsi <- Asunnot_2006[KAUPUNKI == 0,] Varianssianalyysi keskustan asunnoilla: H0: Huoneistotyypillä ei vaikutusta neliöhinnan odotusarvoon keskustan asunnoissa H1: Huoneistotyyppi vaikuttaa neliöhinnan odotusarvoon keskustan asunnoissa > va1 <- aov(keskusta$neliöhinta ~ Keskusta$Huoneisto) > summary(va1) Df Sum Sq Mean Sq F value Pr(>F) Keskusta$Huoneisto ** Residuals Signif. codes: 0 *** ** 0.01 * > TukeyHSD(va1) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Keskusta$Neliöhinta ~ Keskusta$Huoneisto) $`Keskusta$Huoneisto` diff lwr upr p adj Kaksio-Yksiö Kaksiota suurempi-yksiö Kaksiota suurempi-kaksio Testisuureen arvo 6,871 ja p-arvo 0,0016. H0 voidaan hylätä 1 % riskitasolla. Kaksioiden ja kaksioita suurempien asuntojen neliöhintojen välillä ei näytä olevan eroa, mutta yksiöiden neliöhinnan odotusarvo poikkeaa molemmista. 29
32 > levenetest(keskusta$neliöhinta, Keskusta$Huoneisto, center=mean) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group Varianssit voidaan olettaa yhtäsuuriksi. Vastaavat testit keskustan ulkopuolisille asunnoille: > va2 <- aov(itälänsi$neliöhinta ~ ItäLänsi$Huoneisto) > summary(va2) > TukeyHSD(va2) > levenetest(itälänsi$neliöhinta, ItäLänsi$Huoneisto, center=mean) Esimerkki 18 Kaksisuuntainen varianssianalyysi huoneistotyypin ja sijainnin yhdysvaikutuksesta keskimääräiseen neliöhintaan. Tarkastellaan ensin ryhmäkeskiarvoja graafisesti. Ryhmäkeskiarvot saadaan aggregate-funktiolla. Tällä kertaa kategorisina muuttujina sekä KAUPUNKI että Huoneisto. KAUPUNKI-muuttuja täytyy muuttaa kategoriseksi muuttujaksi factor-funktiolla, sillä aggregate-funktio ei osaa käsitellä labelled double -tyypin muuttujia. > KAUPUNKI <- factor(kaupunki, levels=c(0,1), labels=c("ei ole","on")) > keskiarvot <- aggregate(neliöhinta, list(kaupunki, Huoneisto), mean) > keskiarvot Group.1 Group.2 x 1 Ei ole Yksiö On Yksiö Ei ole Kaksio On Kaksio Ei ole Kaksiota suurempi On Kaksiota suurempi Keskiarvotaulukon sarakkeiden nimet voidaan vaihtaa kuvaavampiin: > names(keskiarvot) <- c("keskustassa","huoneisto","neliöhintakeskiarvo") Ehdollisten keskiarvojen graafinen tarkastelu voidaan tehdä esimerkiksi qplot-funktion avulla. > qplot(data=keskiarvot, Huoneisto, Neliöhintakeskiarvo, col=keskustassa) 30
33 Varianssianalyysissä yhdysvaikutuksia voidaan tutkia lisäämällä luokittelevien muuttujien väliin *-merkki. Tällöin saadaan mukaan kaikki omavaikutukset ja interaktiot. Jos halutaan vain tietty interaktio, käytetään kaksoispistettä. H0: Yhdysvaikutusta ei ole H1: Yhdysvaikutusta on > va <- aov(neliöhinta~huoneisto*kaupunki) > summary(va, intercept=true) Df Sum Sq Mean Sq F value Pr(>F) (Intercept) < 2e-16 *** Huoneisto e-09 *** KAUPUNKI < 2e-16 *** Huoneisto:KAUPUNKI Residuals Signif. codes: 0 *** ** 0.01 * Yhdysvaikutukselle saadaan testisuureen arvo 0,005 ja p-arvo 0,995. Hyväksytään H0. Varianssianalyysi ilman Huoneisto- ja KAUPUNKI-muuttujien omavaikutuksia saadaan komennolla > va <- aov(neliöhinta~huoneisto:kaupunki)... Esimerkki 19 Rakennusajankohdan ja keskustasijainnin yhdysvaikutus neliöhintaan. Muuttujan luokittelu. Aloitetaan kopioimalla uuteen muuttujaan vanhan muuttujan arvot: > Rakennusajankohta <- VUOSI 31
34 Luokitellaan rakennusvuodet: > Rakennusajankohta[VUOSI < 1964] <- 1 > Rakennusajankohta[VUOSI >= 1964 & VUOSI <= 1971] <- 2 > Rakennusajankohta[VUOSI >= 1972 & VUOSI <= 1976] <- 3 > Rakennusajankohta[VUOSI > 1976] <- 4 Muutetaan uusi muuttuja kategoriseksi ja lisätään selitteet: > Rakennusajankohta <- factor(rakennusajankohta, levels=c(1,2,3,4), labels=c("ennen 1964"," "," ","jälkeen 1976")) Taulukoidaan table-funktiolla: > table(rakennusajankohta) Rakennusajankohta ennen jälkeen Liitetään uusi muuttuja datakehykseen: > Asunnot_2006 <- cbind(asunnot_2006, Rakennusajankohta) Ehdolliset keskiarvot: > keskiarvot <- aggregate(neliöhinta, list(kaupunki, Rakennusajankohta), mean) > keskiarvot Group.1 Group.2 x 1 Ei ole ennen On ennen Ei ole On Ei ole On Ei ole jälkeen On jälkeen > names(keskiarvot) <- c("keskustassa","rakennusajankohta","neliöhintakeskiarvo") Graafinen tarkastelu pistekartan avulla: > qplot(data=keskiarvot, Rakennusajankohta, Neliöhintakeskiarvo, col=keskustassa) 32
35 Tutkitaan yhdysvaikutusta kaksisuuntaisella varianssianalyysillä: H0: Yhdysvaikutusta ei ole H1: Yhdysvaikutusta on > va <- aov(neliöhinta~kaupunki*rakennusajankohta) > summary(va, intercept=true) Df Sum Sq Mean Sq F value Pr(>F) (Intercept) < 2e-16 *** KAUPUNKI < 2e-16 *** Rakennusajankohta e-07 *** KAUPUNKI:Rakennusajankohta *** Residuals Signif. codes: 0 *** ** 0.01 * Yhdysvaikutuksen testisuure 7,035 ja p-arvo 0, H0 hylätään. Esimerkki 20 Kahden muuttujan välisen korrelaation testaaminen cor.test-funktiolla, yleisessä muodossa: > cor.test( Muuttuja 1, Muuttuja 2 ) Rasvaprosentin ja vyötärönympäryksen välisen korrelaation testaus: H0: Populaatiossa muuttujien välinen korrelaatiokerroin on nolla H1: Populaatiossa muuttujien välinen korrelaatiokerroin ei ole nolla. > cor.test(rasvapro, vyötärö) Pearson's product-moment correlation 33
36 data: rasvapro and vyötärö t = , df = 250, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor H0 hylätään, p-arvo on pienempi kuin 2, Regressioanalyysi Lineaarinen regressiomalli voidaan muodostaa lm-funktiolla (linear model). Yleisessä muodossa: > fit <- lm(selitettävä muuttuja ~ Selittäjä 1 + Selittäjä ) > summary(fit) Kuten varianssianalyysissä, myös regressioanalyysissä funktion paluuarvo sijoitetaan muuttujaan ja tutkitaan summary-funktion avulla. Esimerkki 21 Rasvaprosentin selittäminen vyötärön ympärysmitan avulla. Testataan hypoteeseja: H0: β i = 0 H1: β i 0 > fit <- lm(rasvapro ~ vyötärö) > summary(fit) Call: lm(formula = rasvapro ~ vyötärö) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** vyötärö <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 250 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 250 DF, p-value: < 2.2e-16 Vakiotermin testisuureeksi saadaan 14,77 ja p-arvo alle Nollahypoteesi hylätään. Vastaavasti vyötärönympäryksen testisuure on 22,11 ja p-arvo alle Myös tämä nollahypoteesi hylätään. 34
37 Rasvaprosenttia voidaan estimoida: Rasvaprosentti Selitysprosentiksi saadaan 66,17. Esimerkki 22 = 39, ,63130 Vyötärön ympärys (cm) Rasvaprosentti kahdella selittävällä muuttujalla. Testataan hypoteeseja: H0: β i = 0 H1: β i 0 > fit <- lm(rasvapro ~ vyötärö + Paino_kg) > summary(fit) Call: lm(formula = rasvapro ~ vyötärö + Paino_kg) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** vyötärö < 2e-16 *** Paino_kg e-11 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 249 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 249 DF, p-value: < 2.2e-16 Vakiotermin testisuureen arvoksi saadaan 17,640 ja p-arvo alle Nollahypoteesi hylätään. Vyötärönympäryksen testisuure on 17,447 ja p-arvo alle Myös tämä nollahypoteesi hylätään. Painon testisuure on 7,112 ja p-arvo 1, Tämäkin nollahypoteesi voidaan hylätä. Rasvaprosenttia voidaan siis estimoida: Rasvaprosentti = 45, ,98950 Vyötärön ympärys (cm) 0,32600 Paino (kg) Selitysprosentti on 71,88. Yhteistestauksessa hypoteesille H0: β 1 = β 2 = 0 H1: ainakin jokin β i 0 saadaan F-testisuure 318,2 ja p-arvo alle 2, Nollahypoteesi hylätään. 35
38 Linkkejä Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla, Raija Leppälä, RStudion lataus Rasvaprosentti-aineisto Asunnot_2006-aineisto ARVIO-aineisto 36
Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
LisätiedotPasi Väkeväinen. Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla
Pasi Väkeväinen Ohjeita tilastollisen tutkimuksen toteuttamiseksi MATLAB-ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 63/2018 TAMPERE 2018 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN
LisätiedotRaija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla
Raija Leppälä Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 55/2017 TAMPERE 2017 TAMPEREEN YLIOPISTO
LisätiedotTUTKIMUSOPAS. SPSS-opas
TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien
LisätiedotSPSS-perusteet. Sisältö
SPSS-perusteet Sisältö Ikkunat 3 Päävalikot 5 Valikot 6 Aineiston käsittely 6 Muuttujamuunnokset 7 Aineistojen kuvailu analyysit 8 Havaintomatriisin luominen ja käsittely 10 Muulla sovelluksella tehdyn
LisätiedotMTTTP1, luento KERTAUSTA
26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
Lisätiedot(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.
2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja
LisätiedotLisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?
MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
LisätiedotKandidaatintutkielman aineistonhankinta ja analyysi
Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi
LisätiedotATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1
ATH-koulutus: R ja survey-kirjasto THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelman kuvaaminen R:llä ja survey-kirjastolla Perustunnusluvut Regressioanalyysit 16. 2. 2011
Lisätiedotvoidaan hylätä, pienempi vai suurempi kuin 1 %?
[TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine
LisätiedotMTTTP1, luento KERTAUSTA
25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen
Lisätiedot[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen
LisätiedotTilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien
LisätiedotResiduaalit. Residuaalit. UK Ger Fra US Austria. Maat
TAMPEREEN YLIOPISTO Tilastollisen mallintamisen harjoitustyö Teemu Kivioja ja Mika Helminen Epätasapainoisen koeasetelman analyysi Worksheet 5 Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede
LisätiedotEsim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501
Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662
LisätiedotPerusnäkymä yksisuuntaiseen ANOVAaan
Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja
LisätiedotMTTTP1, luento KERTAUSTA
19.3.2019/1 MTTTP1, luento 19.3.2019 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen
LisätiedotFoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Lisätiedot1. Tietokoneharjoitukset
1. Tietokoneharjoitukset Aluksi Tällä kurssilla käytetään R-ohjelmistoa, jonka käyttämisestä lienee muutama sana paikallaan. R-ohjelmisto on laajasti käytetty vapaassa levityksessä oleva ammattimaiseen
LisätiedotTehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset
JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset 12.05.2009 Tehtävä 1 (a) x
LisätiedotMTTTP5, luento Luottamusväli, määritelmä
23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A
Lisätiedot1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,
LisätiedotMuuttujien määrittely
Tarja Heikkilä Muuttujien määrittely Määrittele muuttujat SPSS-ohjelmaan lomakkeen kysymyksistä. Harjoitusta varten lomakkeeseen on muokattu kysymyksiä kahdesta opiskelijoiden tekemästä Joupiskan rinneravintolaa
Lisätiedot54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
LisätiedotYleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli
MS-C2128 Ennustaminen ja aikasarja-analyysi 1. harjoitukset / Tehtävät Kotitehtävät: 2 Aiheet: Aluksi Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli Tällä kurssilla käytetään
Lisätiedotvoidaan hylätä, pienempi vai suurempi kuin 1 %?
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 5 viikko 42 6.10.2017 klo 10:42:20 Ryhmät: ke 08.30 10.00 LS C6 Paajanen ke 10.15 11.45 LS
LisätiedotSisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4
Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9
Lisätiedot2. Tietokoneharjoitukset
2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta
LisätiedotValitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.
9.10.2018/1 MTTTP1, luento 9.10.2018 KERTAUSTA TESTAUKSESTA, p-arvo Asetetaan H 0 H 1 Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi. Lasketaan otoksesta testisuureelle arvo. 9.10.2018/2
LisätiedotOHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3
OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset
Lisätiedotpisteet Frekvenssi frekvenssi Yhteensä
806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-
LisätiedotTilastolliset ohjelmistot 805340A. Pinja Pikkuhookana
Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen
Lisätiedot1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
LisätiedotLuottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.
6.10.2015/1 MTTTP1, luento 6.10.2015 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla
LisätiedotLuottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.
5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,
LisätiedotTilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +
LisätiedotMatriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.
Python linkit: Python tutoriaali: http://docs.python.org/2/tutorial/ Numpy&Scipy ohjeet: http://docs.scipy.org/doc/ Matlabin alkeet (Pääasiassa Deni Seitzin tekstiä) Matriisit ovat matlabin perustietotyyppejä.
LisätiedotStatCrunch -laskentasovellus
StatCrunch -laskentasovellus Yleistä sovelluksesta StatCrunch on Integrated Analytics LLC:n valmistama sovellus tilastotieteellisten analyysien tuottamista varten. Se on verkon yli käytettävä analyysisovellus,
LisätiedotTavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.
Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,
LisätiedotValitse ruudun yläosassa oleva painike Download Scilab.
Luku 1 Ohjeita ohjelmiston Scilab käyttöön 1.1 Ohjelmiston lataaminen Ohjeet ohjelmiston lataamiseen Windows-koneelle. Mene verkko-osoitteeseen www.scilab.org. Valitse ruudun yläosassa oleva painike Download
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =
LisätiedotSisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13
Lisätiedot1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
LisätiedotLuottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.
6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla
LisätiedotOhjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla
1 Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla Raija Leppälä Opetusmoniste B 53 3. uudistettu painos Matematiikan, tilastotieteen ja filosofian laitos Toukokuu
LisätiedotJohdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1
Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n
LisätiedotJos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan
17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten
LisätiedotKURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!
VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun
LisätiedotPylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.
Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 8.8% 8.9%.%.% 9.7%.7% Etelä Länsi Itä Oulu Lappi Ahvenanmaa Länsi Etelä Itä Oulu Lappi Ahvenanmaa Läänien
Lisätiedot5 Osa 5: Ohjelmointikielen perusteita
5 Osa 5: Ohjelmointikielen perusteita 5.1 Omat funktiot R on lausekekieli: Kaikki komennot kuten funktiokutsut ja sijoitusoperaatiot ovat lausekkeita. Lausekkeet palauttavat jonkin arvon. Lausekkeita voidaan
Lisätiedothttps://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
11.1.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 11.1.2018 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017 11.1.2018/2
LisätiedotSuhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä
806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2011 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Eräässä suuressa yrityksessä
LisätiedotHarjoitus 1: Matlab. Harjoitus 1: Matlab. Mat Sovelletun matematiikan tietokonetyöt 1. Syksy 2006
Harjoitus 1: Matlab Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen Matlab-ohjelmistoon Laskutoimitusten
LisätiedotI. Ristiintaulukointi Excelillä / Microsoft Office 2010
Savonia-ammattikorkeakoulu Liiketalous Kuopio Tutkimusmenetelmät Likitalo & Mäkelä I. Ristiintaulukointi Excelillä / Microsoft Office 2010 Tässä ohjeessa on mainittu ensi Excelin valinnan/komennon englanninkielinen
LisätiedotKatsaus R :ään, tilastolliseen ohjelmointiympäristöön
Katsaus R :ään, tilastolliseen ohjelmointiympäristöön 1 Johdanto Halusin tehdä harjoitustyöni kertomalla vaihtoehtoisesta tilastollisesta ohjelmasta, sillä käytän paljon Linux-ympäristöä, jolle kurssilla
LisätiedotOpiskelija viipymisaika pistemäärä
806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2012 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Jatkoa harjoituksen 5 tehtävään
LisätiedotOhjelmoinnin perusteet Y Python
Ohjelmoinnin perusteet Y Python T-106.1208 16.2.2010 T-106.1208 Ohjelmoinnin perusteet Y 16.2.2010 1 / 41 Kännykkäpalautetteen antajia kaivataan edelleen! Ilmoittaudu mukaan lähettämällä ilmainen tekstiviesti
LisätiedotITKP102 Ohjelmointi 1 (6 op)
ITKP102 Ohjelmointi 1 (6 op) Tentaattori: Antti-Jussi Lakanen 7. huhtikuuta 2017 Vastaa kaikkiin tehtäviin. Tee jokainen tehtävä erilliselle konseptiarkille. Kirjoittamasi luokat, funktiot ja aliohjelmat
LisätiedotMoottorin kierrosnopeus Tämän harjoituksen jälkeen:
Moottorin kierrosnopeus Tämän harjoituksen jälkeen: osaat määrittää moottorin kierrosnopeuden pulssianturin ja Counter-sisääntulon avulla, osaat siirtää manuaalisesti mittaustiedoston LabVIEW:sta MATLABiin,
LisätiedotTarkista vielä ennen analysoinnin aloittamista seuraavat seikat:
Yleistä Tilastoapu on Excelin sisällä toimiva apuohjelma, jonka avulla voit analysoida tilastoaineistoja. Tilastoapu toimii Excelin Windows-versioissa Excel 2007, Excel 2010 ja Excel 2013. Kun avaat Tilastoavun,
LisätiedotSPSS* - tilastoanalyyttinen ohjelma, vrs 9.0
SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0 = monipuolinen ohjelma, jolla voi tilastollisesti analysoida tieteellistä aineistoa ja se tuottaa myös graafisia tulosteita. SPSS:n oma avustus (help) SPSS:ssä
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotOKLV120 Demo 7. Marika Peltonen
OKLV120 Demo 7 Marika Peltonen 0504432380 marika.p.peltonen@jyu.fi Tekstin sanat allekkain Kirjoita teksti Wordiin tai kopioi teksti, laitetaan teksti joka sana eri riville Valitse Muokkaa > Etsi ja korvaa
LisätiedotALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6
Sisällysluettelo ALKUSANAT 4 ALKUSANAT E-KIRJA VERSIOON 5 SISÄLLYSLUETTELO 6 1 PERUSASIOITA JA AINEISTON SYÖTTÖ 8 11 PERUSNÄKYMÄ 8 12 AINEISTON SYÖTTÖ VERSIOSSA 9 8 Muuttujan määrittely versiossa 9 11
LisätiedotVARIANSSIANALYYSI ANALYSIS OF VARIANCE
VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.
LisätiedotMäärällisen aineiston esittämistapoja. Aki Taanila
Määrällisen aineiston esittämistapoja Aki Taanila 24.4.2017 1 Kategoriset muuttujat Lukumääriä Prosentteja (muista n-arvot) Pylväitä 2 Yhteenvetotaulukko (frekvenssitaulukko) TAULUKKO 1. Asunnon tyyppi
LisätiedotKaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1
Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu
LisätiedotEsim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4
18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5
LisätiedotLuento 5. Timo Savola. 28. huhtikuuta 2006
UNIX-käyttöjärjestelmä Luento 5 Timo Savola 28. huhtikuuta 2006 Osa I Shell-ohjelmointi Ehtolause Lausekkeet suoritetaan jos ehtolausekkeen paluuarvo on 0 if ehtolauseke then lauseke
Lisätiedot2. Aineiston kuvailua
2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien
LisätiedotEsimerkki 1: auringonkukan kasvun kuvailu
GeoGebran LASKENTATAULUKKO Esimerkki 1: auringonkukan kasvun kuvailu Auringonkukka (Helianthus annuus) on yksivuotinen kasvi, jonka varren pituus voi aurinkoisina kesinä hyvissä kasvuolosuhteissa Suomessakin
Lisätiedotxi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =
1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista
LisätiedotCLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä
CLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä Anssi Yli-Jyrä Syksy 2012 2. opetuskerta, 14.9.2012, luento ja harjoitukset Tämän opetuskerran ja siihen liittyvien harjoitusten jälkeen:
LisätiedotIlmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!
8069 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2013 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOLLA 9! Ilmoittaudu Weboodissa 4.3.2013 klo
LisätiedotOhjelmoinnin perusteet Y Python
Ohjelmoinnin perusteet Y Python T-106.1208 2.3.2009 T-106.1208 Ohjelmoinnin perusteet Y 2.3.2009 1 / 28 Puhelinluettelo, koodi def lue_puhelinnumerot(): print "Anna lisattavat nimet ja numerot." print
LisätiedotTilastolliset toiminnot
-59- Tilastolliset toiminnot 6.1 Aineiston esittäminen graafisesti Tilastollisen aineiston tallentamisvälineiksi TI-84 Plus tarjoaa erityiset listamuuttujat L1,, L6, jotka löytyvät 2nd -toimintoina vastaavilta
LisätiedotTilastollisten menetelmien perusteet II TILTP3 Luentorunko
Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,
LisätiedotLaskuharjoitus 9, tehtävä 6
Aalto-yliopiston perustieteiden korkeakoulu Jouni Pousi Systeemianalyysin laboratorio Mat-2.4129 Systeemien identifiointi Laskuharjoitus 9, tehtävä 6 Tämä ohje sisältää vaihtoehtoisen tavan laskuharjoituksen
LisätiedotKaksisuuntainen varianssianalyysi. Heliövaara 1
Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän
LisätiedotOngelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?
Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus
LisätiedotA130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala
Kaavakokoelma, testinvalintakaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1 a) Konepajan on hyväksyttävä alihankkijalta saatu tavaraerä, mikäli viallisten komponenttien
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
LisätiedotKvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 V ls. Uusintamahdollisuus on rästitentissä.. ke 6 PR sali. Siihen tulee ilmoittautua WebOodissa 9. 8.. välisenä aikana. Soveltuvan
LisätiedotTilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin
Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta
LisätiedotMTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)
20.9.2018/1 MTTTP1, luento 20.9.2018 KERTAUSTA JA TÄYDENNYSTÄ Tunnusluvut 1) Sijainnin tunnuslukuja Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) Muita sijainnin tunnuslukuja ala- ja yläkvartiili,
LisätiedotTUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi
LisätiedotNäillä sivuilla Tilastomatematiikan esimerkit, joissa käsitellään tietokoneen käyttöä tilastollissa operaatioissa, on tehty Excel-2007 -versiolla.
Näillä sivuilla Tilastomatematiikan esimerkit, joissa käsitellään tietokoneen käyttöä tilastollissa operaatioissa, on tehty Excel-2007 -versiolla. Nämä ohjeet, samoin kuin Tilastomatematiikan kirjakaan,
LisätiedotTAULUKON TEKEMINEN. Sisällysluettelo
Excel 2013 Taulukon tekeminen Sisällysluettelo TAULUKON TEKEMINEN TAULUKON TEKEMINEN... 1 Tietotyypit... 1 Tiedon syöttäminen taulukkoon... 1 Kirjoitusvirheiden korjaaminen... 2 Alueen sisällön tyhjentäminen...
LisätiedotOhjelmoinnin peruskurssi Y1
Ohjelmoinnin peruskurssi Y1 CSE-A1111 30.9.2015 CSE-A1111 Ohjelmoinnin peruskurssi Y1 30.9.2015 1 / 27 Mahdollisuus antaa luentopalautetta Goblinissa vasemmassa reunassa olevassa valikossa on valinta Luentopalaute.
LisätiedotKaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:
Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,
LisätiedotIBM SPSS Statistics 21 (= SPSS 21)
Tarja Heikkilä IBM SPSS Statistics 21 (= SPSS 21) SPSS = Statistical Package for Social Sciences Ohjelman käynnistys Aloitusikkuna Päävalikot Työkalut Muuttujat (Variables) Tapaukset (Cases) Tyhjä datataulukko
Lisätiedot3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?
Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotOhjelmoinnin perusteet Y Python
Ohjelmoinnin perusteet Y Python T-106.1208 25.2.2009 T-106.1208 Ohjelmoinnin perusteet Y 25.2.2009 1 / 34 Syötteessä useita lukuja samalla rivillä Seuraavassa esimerkissä käyttäjä antaa useita lukuja samalla
LisätiedotVALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170
VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain
Lisätiedot