R-kurssi Jarno Tuimala

Koko: px
Aloita esitys sivulta:

Download "R-kurssi. 14.4.2010 Jarno Tuimala"

Transkriptio

1 R-kurssi Jarno Tuimala

2 Osallistujat 1. Pirjo Wacklin 2. Ilja Ritamo 3. Noora Alakulppi 4. Tiina Leppänen 5. Eeva Nyberg-Oksanen 6. Ville Parviainen 7. Tanja Kaartinen 8. Milla Mikkola 9. Teemu Laakso 10. Eeva-Lotta Arola 11. Virpi Kiuru 12. Marjatta Kiminkinen 13. Elina Pusa 14. Juha Eronen

3 Ohjelma Asennus, aputoiminnot, datan lukeminen R-ohjelmistoon Lounas Osa-aineiston poimiminen, aineiston kuvaileminen (keskiarvo, keskihajonta, ym.) Kahvi Grafiikka (hajontakuvio, histogrammi, pylväskaavio, ym.) ja tilastollinen testaus (t-testi, Khiin neliötesti, tms.) Kertaus ja opintopiirin aiheiden suunnitelu

4 R:n asentaminen

5

6

7 R:n rakenne Kaksi osaa Ydin (base) Tämä pitää asentaa ensin Laajennuspaketit (contrib) Nämä laajentavat toiminnallisuutta Neljä paikkaa: CRAN (R:n kotisivuilla) Bioconductor (www.bioconductor.org) OmegaHat (www.omegahat.org) R-Forge (www.-r-forger.org)

8 Asennus Lataa asennusohjelma CRAN:sta, esimerkiksi: ows/base/r win32.exe. Asennukseen ei tarvitse järjestelmän valvojan tunnuksia, jos asennusvaiheessa poistaa ruksin kohdasta Save Version Number to Registry.

9

10 Miten löytää sopiva paketti?

11 Pakettien asentaminen 1. 2.

12 Pakettien käyttäminen Paketin tarjoaminen työkalujen käyttöön ei riitä paketin asentaminen, vaan paketti on ladattava muistiin ennen jokaista käyttökertaa.

13 Apua I/II Hakutoiminnot R-projektin etusivu SuNET:in CRAN

14 Apua II/III

15 Apua III/III

16 Harjoitus 1 Asenna kurssikäyttöön tarkoitettu R käyttämällesi koneelle Luo työpöydälle kansio kurssidata, ja hae sinne tiedostot rairuoho.txt nopat.txt Tiedostot löydät (Internet-selaimella) osoitteesta:

17 Peruskäyttö Aineiston valmistelu ja lukeminen Aineiston manipulointi

18 Aineiston valmistelu Excelissä I/II Yksi otsikkorivi, ei ääkkösiä Havainnot riveillä Muuttujat sarakkeissa

19 Aineiston valmistelu Excelissä I/II

20 Aineiston lukeminen R:ään I/II jarno <read.table("jarno.txt", header=true, na.strings="na", Riippuu koneesta sep="\t", dec=".", strip.white=true)

21 Aineiston lukeminen R:ään II/II Suositeltava aloitustapa aina! jarno <- read.table("jarno.txt", header=true, sep="\t")

22 Harjoitus 2 Lue kurssidata-kansiosta kumpikin aineisto R:ään. Tallenna tiedoston rairuoho.txt aineisto R:ssä nimellä rairuoho, ja tiedoston nopat.txt aineisto nimellä nopat.

23 Komentojen rakenne I/II read.table( "jarno.txt", header=true, sep="\t" ) Komento + sulut + argumentit Mitä tehdään mille tai miten tehdään

24 Komentojen rakenne II/II read.table(file="jarno.txt", header=true, sep="\t") read.table("jarno.txt", TRUE, "\t")

25 Objektiin tallentaminen Aineisto on R:ssä aina tallennettu jonkin nimiseen objektiin. Uusi objekti luodaan esimerkiksi komennolla: jarno<-read.table(file="jarno.txt", header=true, sep="\t") kun luetaan tiedostosta Jo olemassa oleva objekti voidaan kopioida toiselle nimelle: jarno2<-jarno Aina sama kolmen osan rakenne: nimi <- tallennettava tieto

26 Osa-aineiston poimiminen I/ Aineisto objektissa students:

27 Osa-aineiston poimiminen II/ Aineisto objektissa students Halutaan poimia yksi kokonainen sarake Käytetään objektin nimen perässä merkintää $, jota seuraa sarakkeen nimi Opiskelijoiden pituudet saadaan siis erilleen merkinnällä: students$height

28 Osa-aineiston poimiminen III/ Aineisto objektissa students Sarake voidaan erottaa myös käyttämällä alaindeksiä, jota merkitään objektin nimen perässä olevilla hakasuluilla Alaindeksiä käyttäen sama sarake (ensimmäinen vasemmalta) poimittaisiin: students[,1]

29 Osa-aineiston poimiminen IV/ Aineisto objektissa students Rivien poimiminen onnistuu vain alaindeksiä käyttäen Poimitaan ensimmäinen rivi: students[1,]

30 Osa-aineiston poimiminen V/ Aineisto objektissa students Poimitaan ensimmäisen sarakkeen ensimmäinen havainto: students[1,1] rivit sarakkeet

31 Osa-aineiston poimiminen VI/ Aineisto objektissa students:

32 Osa-aineiston poimiminen VII/ Poimitaan kaikki naiset (sarakkeen gender perusteella siis) Testataan onko havainto naisesta käyttäen vertailuoperaattoria == (kaksi yhtäsuuruusmerkkiä) students$gender=="female" Talletetaan tieto objektiin f: f<-students$gender=="female" Poimitaan alaindeksiä ja objektia f käyttäen oikeat rivit: female<-students[f,]

33 Osa-aineiston poimiminen VIII/ female<-students[f,] Objektin voi tulostaa ruudulle! female height shoesize gender population female tampere female tampere female tampere female tampere female tampere

34 Taulukon nimet ja koko Taulukon koko: dim() dim(students) Sarakkeiden nimet: colnames() colnames(students) Rivien nimet: rownames() rownames(students)

35 Harjoitus 3 Tarkastele rairuohoaineistoa: Selvitä aineiston rivien ja sarakkeiden määrä Mitkä ovat sarakkeiden nimet? Tee rairuohoaineistosta kaksi pienempää aineistoa, yksi vesikäsitellyille ja toinen ravinnekäsitellyille viljelmille Käsittelytieto löytyy sarakkeesta treatment, jossa arvo water=vesikäsittely ja nutrient=ravinnekäsittely Tallenna nämä aineistot objekteihin water ja nutrient

36 Aineiston lajittelu I/IV Kokonaisen taulukon lajittelu tapahtuu komennolla order(), joka yhdistetään alaindeksiin. Aineisto objektissa students:

37 Aineiston lajittelu II/IV Lajitellaan pituuden perusteella. Luodaan ensin objekti ind, joka kertoo mihin järjestykseen taulukon havainnot pitää laittaa: ind<-order(students$height)

38 Aineiston lajittelu III/IV ind

39 Aineiston lajittelu IV/IV students[ind,] height shoesize gender population female tampere female tampere female tampere female tampere female tampere male tampere male tampere male tampere male tampere male tampere

40 Aineiston lajittelu, yhteenveto 1. Lajittelujärjestyksen selvittäminen ind<-order(students$height) 2. Lajittelu (=aineiston poiminta) students[ind,]

41 Muuttujien uudelleen koodaaminen Muuttuja voidaan koodata uudelleen mm. komennolla ifelse(). Tämä on usein näppärää esimerkiksi, kun halutaan esittää kuvioissa eri ryhmiin kuuluvat havainnot eri väreillä. Koodataan sukupuoli eri väreillä (mies=sininen, nainen=punainen) cols<-ifelse(students$gender=="male", "blue", "red")

42 Muuttujien uudelleen koodaaminen cols<-ifelse(students$gender=="male", "blue", "red") "Jos sukupuoli on mies, palautetaan blue, muutoin palautetaan red."

43 Harjoitus 4 Lajittele rairuohoaineisto viljelyalustan (bed) mukaiseen järjestyksen. Koodaa käsittely (treatment) värikoodein siten, että vesikäsittelyä vastaa sininen väri, ja ravinnekäsittelyä punainen väri.

44 Grafiikka ja aineiston kuvailu

45 Aineiston kuvailu I/ > summary(students) height shoesize Min. :158.0 Min. : st Qu.: st Qu.:38.00 Median :170.0 Median :40.00 Mean :170.3 Mean : rd Qu.: rd Qu.:42.75 Max. :181.0 Max. :44.00 > mean(students$height) [1] > sd(students$height) [1] gender female:5 male :5 population tampere:10

46 Aineiston kuvailu II/ > min(students$height) [1] 158 > max(students$height) [1] 181 > range(students$height) [1] > median(students$height) [1] 170

47 Ryhmäkohtaiset arvot > aggregate(students$height, list(students$gender), mean) Group.1 x 1 female male > aggregate(students$height, list(students$gender), sd) Group.1 x 1 female male aggregate(students$height, list(students$gender), mean) mille ryhmät suure

48 Hajontakuvio I/ > plot(x=students$height, y=students$shoesize)

49 Hajontakuvio II/ > plot(x=students$height, y=students$shoesize, xlab="pituus", ylab="kengännumero", main="opiskelijat")

50 Hajontakuvio III/ > cols<-ifelse(students$gender=="male", "blue", "red") > plot(x=students$height, y=students$shoesize, xlab="pituus", ylab="kengännumero", main="opiskelijat", col=cols)

51 Hajontakuvio IV/ > cols<-ifelse(students$gender=="male", "blue", "red") > plot(x=students$height, y=students$shoesize, xlab="pituus", ylab="kengännumero", main="opiskelijat", col=cols, las=1, pch=19)

52 Viivakuvio I > plot(x=students$height, y=students$shoesize, xlab="pituus", ylab="kengännumero", main="opiskelijat", las=1, type="l")

53 Viivakuvio II > plot(x=students$height, y=students$shoesize, xlab="pituus", ylab="kengännumero", main="opiskelijat", las=1, type="l", lwd=3)

54 Viivakuvio III > plot(x=students$height, y=students$shoesize, xlab="pituus", ylab="kengännumero", main="opiskelijat", las=1, type="l", lwd=3, lty=2, col="red")

55 Histogrammi hist(students$height)

56 Laatikkokuvio I > boxplot(students$height)

57 Laatikkokuvio II/ > boxplot(students$height~students$gender)

58 Pylväskaavio I/ > barplot(table(students$shoesize))

59 Pylväskaavio II/ > barplot((students$shoesize), col=cols)

60 Pylväskaavio III/ > barplot((students$shoesize), col=cols, las=1, main="naisten ja miesten kengänkoko")

61 Pylväskaavio IV/ > barplot(sort(students$shoesize), col=cols, las=1, main="naisten ja miesten kengänkoko", names.arg=sort(students$shoesize))

62 Harjoitus 5 Miten rairuohon 3. päivän (muuttuja day3) ja 7. päivän (muuttuja day7) pituudet suhtautuvat toisiinsa? Käytä hajontakuviota. Onko 7. päivän mittausten jakauma yksihuippuinen ja symmetrinen eli jojkseenkin normaalinen? Käytä histogrammia ja laatikkokuviota. Kuvaa mustan nopan arvojen jakaumaa pylväskaaviolla (noppa-aineiston muuttuja black).

63 Tilastolliset testit

64 Taulukointi komento table() Yhdestä muuttujasta: > table(students$gender) #lkm female male 5 5 > prop.table(table(students$gender)) #% female male

65 Taulukointi - kaksi muuttujaa > table(students$gender, students$shoesize) female male

66 Khiin neliötesti I/ Tarvitaan taulukko, joko tiedostosta luettu tai komennolla table() muodostettu Käytetään tässä yhden nopan taulukoituja tuloksia: > noppa V

67 Khiin neliötesti II/ Yhteensopivuustesti (noudattaako muuttuja oletettua jakaumaa vai ei) Nopan tapauksessa kaikkien tapausten oletetaan olevan yhtä yleisiä (tasajakauma) Seuraavan sivun esimerkki

68 Khiin neliötesti III/ > chisq.test(noppa) Chi-squared test for given probabilities data: noppa X-squared = 11.8, df = 5, p-value =

69 Khiin neliötesti IV/ Jos testataan yhteensopivuutta johonkin muuhun kuin tasajakaumaan, esimerkki genotyyppifrekvenssejä, pitää eri luokkien todennäköisyys määritellä Genotyypit: AA, AT ja TT Alleelifrekvenssit: A=0,9, T=0.1 Aineisto: 750 AA, 50 AT ja 200 TT

70 Khiin neliötesti V/ Aineisto (objektissa geno): Testi: chisq.test(x=geno$havaittu, p=gene$tn) Tulos: X-squared = , df = 2, p-value < 2.2e-16

71 Khiin neliötesti VI/ Riippumattomuustesti (Onko muuttujien jakaumien välillä eroa) Luodaan aineisto (objektiin F): F <- matrix(c(33,14,8,18,31,25,14,12), 4,2) Tai luetaan se Excelistä:

72 Khiin neliötesti VII/ > chisq.test(f) Pearson's Chi-squared test data: F X-squared = , df = 3, pvalue =

73 Fisherin testi > fisher.test(f) Fisher's Exact Test for Count Data data: F p-value = alternative hypothesis: two.sided

74 F-testi I/ F-testi vertaa kahden otoksen variansseja. Esimerkiksi students-aineistossa voidaan verrata miesten ja naisten pituuksien variansseja Tehdään ensin aineistot: males<-students[students$gender=="male",] females<-students[students$gender=="female",] Ja sitten testi (seuraavalla sivulla)

75 F-testi II/ > var.test(males$height, females$height) F test to compare two variances data: males$height and females$height F = 0.875, num df = 4, denom df = 4, p-value = alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: sample estimates: ratio of variances 0.875

76 T-testi I/ T-testi vertaa kahden otoksen keskiarvoja Testistä on useita variaatioita, tässä kahden riippumattoman populaation testi Ennen testin tekemistä on syytä testata, ovatko otosten varianssi yhtä suuret (ks. F-testi) Students-aineistossa eri sukupuolten pituuksien varianssi oli yhtä suurta Itse testiesimerkki seuraavalla sivulla

77 T-testi II/ > t.test(males$height, females$height, var.equal=true) Two Sample t-test data: males$height and females$height t = , df = 8, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

78 Harjoitus 6 Testaa Khiin neliötestillä noppa-aineiston nopat, ja päättele, ovatko ne harhattomia (kaikkia lukuja saadaan suunnilleen yhtä paljon) Testaa onko vesi- ja ravinnekäsittelyissä eroa (muuttuja treatment), kun vasteena on viljelmän seitsemäntenä päivänä mitattu pituus (muuttuja day7).

79 Kertaus

80 Mikä jäi epäselväksi?

81 Opintopiirin suunnittelu

82 Opintopiiri Kuusi kertaa: Ajankohta: klo Paikka: Netti

83 Aiheita Oman aineiston lukeminen (jokainen tuo omaa aineistoa, jos sitä on)»puuttuvat arvot»toistettavat toimenpiteet (uusien komentojen luominen) Regressiot»Muunnokset (box-cox ym.)»lineaarinen regressio 5.5. Hierarkkinen data (Bioconductor?) Tiedonlouhinta ja visualisointi Menetelmien / laitteiden validointi Laadunvalvontatilastot (vakioraportit)

84 Opintopiiri Automatisointi Oman datan lukeminen Puuttuvat arvot

85

86

87

88 Automatisointi 1. Tee tekstitiedosto, jossa tarvittavat komennot ovat, ja aja se komennolla source(). 2. Tee komennoista funktio. hello<-function(x) { print("hello World!") } 1. Tee laajennuspaketti

89 Oman datan lukeminen Jos et tiedä, missä muodossa aineistosi on, tarkastele sitä ensin Notepad:ssä ja Excelissä. Onko aineisto taulukossa? Onko joka rivillä yhtä monta havaintoa? Onko sarakkeilla otsikot? Mikä erottaa sarakkeita? Mikä on desimaalierotin?

90 Oman datan lukeminen read.table() Taulukkoaineistolle read.fwf() read.spss() SPSS-datalle, paketissa foreign scan() readlines() Lukee rivin kerrallaan

91 Puuttuvat arvot na.omit() mean(1:10, na.rm=true) mean(na.omit(1:10)) impute() library(e1071) impute(1:10)

92 Opintopiiri Muuttujien muunnokset Regressio

93 Lineaarinen regressio Yleinen lineaarinen malli lineaarinen regressio varianssianalyysi kovarianssianalyysi Työvaiheet Mallien sovitus Mallin valinta Oletusten tarkistus Validointi

94 Mallien sovitus dat<-read.table("rairuoho.txt", header=t, sep="\t") fit0<-lm(day7~1, data=dat) fit1<-lm(day7~bed*treatment, data=dat) fit1<-lm(day7~bed+treatment+ bed:treatment, data=dat) fit2<-lm(day7~bed, data=dat) fit3<-lm(day7~treatment, data=dat)

95 Tulosten tarkastelu I summary(fit1) Call: lm(formula = day7 ~ bed + treatment + bed:treatment, data = dat) Residuals: Min 1Q Median Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** bedmould bedpaper *** bedpaper treatmentwater bedmould2:treatmentwater bedpaper4:treatmentwater bedpaper8:treatmentwater Signif. codes: 0 *** ** 0.01 * Residual standard error: on 40 degrees of freedom Multiple R-squared: 0.532, Adjusted R-squared: F-statistic: on 7 and 40 DF, p-value: 3.862e-05

96 Tulosten tarkastelu II anova(fit1) Analysis of Variance Table Response: day7 Df Sum Sq Mean Sq F value Pr(>F) bed e-05 *** treatment ** bed:treatment Residuals Signif. codes: 0 *** ** 0.01 *

97 Mallin valinta > AIC(fit0, fit1, fit2, fit3) df AIC fit fit fit fit

98 Oletusten tarkistus I par(mfrow=c(2,2)) plot(fit1)

99 Oletusten tarkistus II boxplot(resid(fit1)~ dat$bed) boxplot(resid(fit1)~ dat$treatment) boxplot(resid(fit1)~ dat$bed*dat$treatment)

100 Muunnokset I Simuloidaan data: d<-rexp(1000, 10) Jakauma: hist(d)

101 Muunnokset II d2<-log(d) hist(d2) HUOM! jos taul.: log(taul$d2)

102 Muunnokset III Logaritmi - log() Oikealle vinojen jakaumien tapauksessa Neliöjuuri - sqrt() Lukumäärät Eksponentti exp() tai ^ Logaritmin käänteisfunktio

103 Muunnokset IV boxcox(fit1) Jos l<>0: day7b<(day7^1.4-1)/1.4 Jos l==0 day7b<log(day7)

104 Opintopiiri "Hierarkkisen" datan analysointi

105 (G)(N)LME Generalized (non)linear mixed effect models (GNLME) Aineistossa fixed ja random muuttujia tai aineisto hierarkkista fixed: asetettu tiettyihin arvoihin koetta suoritettaessa random: edustavat mahdollisia muuttujan arvoja, mutteivät sisällä kaikkia mahdollisia arvoja Maa/kunta/koulu/luokka/oppilas toistomittauksia samoista henkilöistä (parittaisen ttestin laajennus)

106 Sekamallit R:ssä Balansoitu eksperimentti: aov() Ei-balansoitu eksperimentti: nlme lme() lme4 lmer() Bioinformatiikka: limma lmfit() ebayes()

107 Yleisiä piirteitä Hankalia käyttää Syntaksi on hankalaa ja vaihtelee paketista toiseen Eivät aina konvergoidu Kaikkia oletuksia ei voi testata Vaarallisia käyttää Sama malli voidaan usein sovittaa usealla eri tavalla Vaativat asian melko syvällistä ymmärtämistä, jotta analyysi menee oikein

108

109

110

111 # Reading data dat<-read.table("http://koti.mbnet.fi/tuimala/ oppaat/r/data/rairuoho_long.txt", header=t, sep="\t") # General linear model fit<-lm(pituus~kasittely, data=dat2) summary(fit) #kasittelywater *** # Mixed model fit4<-lme(pituus~kasittely, random=~1 viljelma, data=dat2) summary(fit4) #kasittelywater e-04

112 # Reading data dat<-read.table("http://koti.mbnet.fi/tuimala/ oppaat/r/data/rairuoho_long.txt", header=t, sep="\t") # Loads the library library(nlme) # NULL model fit0<-lme(pituus~1, random=~1 viljelma, data=dat) # Model time (random intercept model) fit1<-lme(pituus~paiva, random=~1 viljelma, data=dat2) # Model time (random intercept and slope model) fit2<-lme(pituus~poly(paiva, 3), random=~paiva viljelma, data=dat) # Modeling error structures fit3<-lme(pituus~poly(paiva, 3)+kasittely, random=~paiva viljelma, data=dat, weights=varexp()) # Model selection AIC(fit1, fit2, fit3) # Assumptions plot(fit3, pch=19, cex=1.5) # Result summary(fit3)

113 Linear mixed-effects model fit by REML Data: dat2 AIC BIC loglik Random effects: Formula: ~paiva viljelma Structure: General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) (Intr) paiva Residual Variance function: Structure: Exponential of variance covariate Formula: ~fitted(.) Parameter estimates: expon Fixed effects: pituus ~ poly(paiva, 3) + kasittely Value Std.Error DF t-value p-value (Intercept) poly(paiva, 3) poly(paiva, 3) poly(paiva, 3) kasittelywater Correlation: (Intr) p(,3)1 p(,3)2 p(,3)3 poly(paiva, 3) poly(paiva, 3) poly(paiva, 3) kasittelywater Standardized Within-Group Residuals: Min Q1 Med Q Number of Observations: 288 Number of Groups: 48 Max

114

115

116

117 Opintopiiri Tiedon louhinta

118 Koodia # Luetaan aineisto dat<-read.table("http://koti.mbnet.fi/tuimala/oppaat/r/data/index2010_data.txt", header=t, sep="\t", quote="", strip.white=t, row.names=1) # Hierarkkinen ryhmittelyanalyysi heatmap(na.omit(as.matrix(dat)), mar=c(12,5), scale="none") heatmap(t(na.omit(as.matrix(dat))), mar=c(10,0), scale="none", cexcol=0.4) # Rinnakkaiskoordinaattikuvio matplot(t(dat), type="l", col=1, lwd=2, lty=1) matplot(t(dat), type="l", col="# ", lwd=2, lty=1) # K-means ryhmittelyanalyysi km<-kmeans(na.omit(dat), centers=9, nstart=100) par(mfrow=c(3,3)) for(i in 1:9) { d<-dat[km$cluster==i,] matplot(t(d), type="l", col=1, lwd=2, lty=1, main=paste("ryhmä ", i, sep="")) } # Yksi lm-malli kullekin riville sovitettuna # Ei toimi, tässä vain ajatuksellisena esimerkkinä fit1<-lm(t(dat2)~groups)

119 Tiedonlouhinta Joukko menetelmiä joilla pyritään löytämään oleellinen suurista tietomassoista Vrt. EDA Menettelytapa, jossa aineistoa selotaan uusien hypoteesien muodostamiseksi tai testattvaksi soveltuvien hypoteesien löytämiseksi

120 Tiedonlouhinnan menetelmät Ryhmittelyanalyysi Erotteluanalyysi Regressio Assosiaatiosäännöt

121 Hierarkkinen ryhmittelyanalyysi

122 Rinnakkaiskoordinaatit

123 Rinnakkaiskoordinaatit

124 K-means

125 Tag cloud

126 Tag cloud

127 Opintopiiri Menetelmien vertailu

128 Mitä määrittää? Lineaarisuus Lineaarinen regressio ja kuvat Tarkkuus MethComp-paketti

129 fit1<-lm(a~c, data=dat) summary(fit) Call: lm(formula = A ~ C, data = dat) Residuals: Min 1Q Median Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) C e-15 *** --Signif. codes: 0 *** ** 0.01 * Residual standard error: on 18 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 18 DF, p-value: 1.360e-15

130 Perustiedot Selitysaste Multiple R-squared: Korrelaatiokerroin sqrt(0.9732) = Leikkauspiste Estimate Std. Error t value Pr(> t ) (Intercept) Kulmakerroin t ) Estimate Std. Error t value Pr(>

131 Jäännöskaavio

132 Käyrä? fit2<-lm(a~poly(c, 2), data=dat) fit3<-lm(a~poly(c, 3), data=dat) AIC(fit1, fit2, fit3) df AIC fit fit fit

133 Neliösummat anova(fit1) Analysis of Variance Table Response: A Df Sum Sq Mean Sq F value Pr(>F) C e15 *** Residuals sum(resid(fit1)^2)

134 MethComp-paketti p/

135 library(methcomp) dat<-read.table("hb.txt", header=t) dat2<-data.frame(y=c(dat$a,dat$c), meth=c(rep("a", 20), rep("c", 20)), item=rep(1:20, 2), repl=rep(1, 40)) summary(meth(dat2)) plot(meth(dat2)) par(mar=c(4,4,1,4)); BA.plot(Meth(dat2), reg.line=false) par(mar=c(4,4,1,4)); BA.plot(Meth(dat2), reg.line=true)

136 #Replicates Method 1 #Items #Obs: 40 Values: min med max A C

137

138

139 plot(dat$a, dat$c) bothlines(dat$a, dat$c) f<-ggplot(dat, aes(a, C)) f + stat_smooth(method = "lm") + geom_point() f<-ggplot(dat, aes((a+c)/2, C/A)) f + stat_smooth(method = "lm") + geom_point() f<-ggplot(dat, aes(a, C)) f + stat_smooth() + geom_point()

140

141

142

143

144 dat<-read.table("rairuoho.txt", header=t, sep="\t") fit<-lm(day7~day3, data=dat) plot(x=dat$day3, y=dat$day7, pch=19, cex=1.5, xlab="day 3", ylab="day 7", las=1) abline(fit, lwd=2, col="red") fit<-lm(day7~bed+treatment, data=dat) par(mfrow=c(2,2)) termplot(fit, rug=t, se=t) termplot(fit, rug=t, se=t, partial.resid=t) library(arm) par(mar=c(5,10,5,5)) coefplot(fit, intercept=t) library(effects) ae<-alleffects(fit) plot(ae, 'bed') n < set.seed(17) age <- rnorm(n, 50, 10) blood.pressure <- rnorm(n, 120, 15) cholesterol <- rnorm(n, 200, 25) sex <- factor(sample(c('female','male'), n,true)) label(age) <- 'Age' label(cholesterol) <- 'Total Cholesterol' label(blood.pressure) <- 'Systolic Blood Pressure' label(sex) <- 'Sex' units(cholesterol) <- 'mg/dl' units(blood.pressure) <- 'mmhg' L <-.4*(sex=='male') +.045*(age-50) + (log(cholesterol - 10)-5.2)*(-2*(sex=='female') + 2*(sex=='male')) y <- ifelse(runif(n) < plogis(l), 1, 0) ddist <- datadist(age, blood.pressure, cholesterol, sex) options(datadist='ddist') fit <- lrm(y ~ blood.pressure + sex * (age + rcs(cholesterol,4))) s <- summary(fit, age=c(50,60,70)) plot(s, log=true, at=c(.1,.5,1,1.5,2,4,8)) options(datadist=null) f <- lrm(y ~ lsp(age,50)+sex*rcs(cholesterol,4)+blood.pressure) nom <- nomogram(f, fun=function(x)1/(1+exp(-x)), # or fun=plogis fun.at=c(.001,.01,.05,seq(.1,.9,by=.1),.95,.99,.999), funlabel="risk of Death", xfrac=.45) print(nom) plot(fit, age=seq(20,80,length=100), sex=na, conf.int=false)

145

146

147

148

149

150

151

152

153

154

155

156

157 Hoitojaksojen lukumäärä ja verivalmisteiden käyttö hoitojaksoa kohden Map of the Market 0 Verenkiertoelinten sairaudet Muut kasvaimet 0 7 Tuki- ja liikuntaelinten sairaudet Veren pahanlaatuiset kasvaimet 14 7 Tartunta- ja loistauteja Muualla luokittelemattomat oireet Synn. epämuodostumat 14 Hermoston sairaudet Mielenterveyden häiriöt Ihon ja Umpierit.- ravitsemus alaiskudokja aineenvaihdunta sen sairaudet Eräät perinataaliaikana alk. tilat Tekijöitä, jotka vaik. terveyteen Virtsa- ja sukupuolielinten sairaudet Hengityselinten sairaudet Veren sairaudet Raskaus, synnytys, lapsivuoteus Vammat, myrkytykset ja ulk. syyt Korvan ja kartiolis. sairaudet Silmän ja apuelinten sairaudet Ruuansulatuselinten sairaudet

158

R-KIELEN PERUSTEET JARNO TUIMALA Helsinki 2010

R-KIELEN PERUSTEET JARNO TUIMALA Helsinki 2010 R-KIELEN PERUSTEET R-KIELEN PERUSTEET JARNO TUIMALA Helsinki 2010 2010 Jarno Tuimala ISBN 978-952-92-7020-0 (nid.) ISBN 978-952-92-7021-7 (PDF) Books on Demand GmbH Norderstedt, Saksa 2010 1. painos Sisällysluettelo

Lisätiedot

R-ohjelmointi. Kurssimoniste, Syksy 2009. Mari Myllymäki. 2. syyskuuta 2009

R-ohjelmointi. Kurssimoniste, Syksy 2009. Mari Myllymäki. 2. syyskuuta 2009 R-ohjelmointi Kurssimoniste, Syksy 2009 Mari Myllymäki 2. syyskuuta 2009 R:n kotisivu: www.r-project.org Kirjallisuutta W.N. Venables, D.M. Smith and the R Development Core Team (2004). An Introduction

Lisätiedot

R-KIELEN PERUSTEET Jarno Tuimala Helsinki 2010

R-KIELEN PERUSTEET Jarno Tuimala Helsinki 2010 R-KIELEN PERUSTEET R-KIELEN PERUSTEET Jarno Tuimala Helsinki 2010 Jarno Tuimala 1. painos R KIELEN PERUSTEET Lukijalle Tavoitteet Tämä kirja esittelee R-kielen perusteet ja muutamia ohjelmointiin liittyviä

Lisätiedot

Katsaus R :ään, tilastolliseen ohjelmointiympäristöön

Katsaus R :ään, tilastolliseen ohjelmointiympäristöön Katsaus R :ään, tilastolliseen ohjelmointiympäristöön 1 Johdanto Halusin tehdä harjoitustyöni kertomalla vaihtoehtoisesta tilastollisesta ohjelmasta, sillä käytän paljon Linux-ympäristöä, jolle kurssilla

Lisätiedot

Tuomas A. Rajala. Versio: 9. syyskuuta 2011. Tämän dokumentin tarkoitus on toimia lyhyenä interaktiivisena esittelynä R-ympäristön

Tuomas A. Rajala. Versio: 9. syyskuuta 2011. Tämän dokumentin tarkoitus on toimia lyhyenä interaktiivisena esittelynä R-ympäristön Pikakurssi R-ympäristön käyttöön Tuomas A. Rajala Versio: 9. syyskuuta 2011 Tämän dokumentin tarkoitus on toimia lyhyenä interaktiivisena esittelynä R-ympäristön käyttöön. Se on suunniteltu rungoksi Jyväskylän

Lisätiedot

R: Opas ekologeille. Jari Oksanen. Biologian laitos Oulun yliopisto. c J. Oksanen, 2000 2003

R: Opas ekologeille. Jari Oksanen. Biologian laitos Oulun yliopisto. c J. Oksanen, 2000 2003 R: Opas ekologeille Jari Oksanen Biologian laitos Oulun yliopisto c J. Oksanen, 2000 2003 Versio 1.0 21. tammikuuta 2003 Saatteeksi Tämä opas johdattaa lukijan toivottavasti lempeästi R-ohjelmaan. Opas

Lisätiedot

Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 20 for Windows Osa 2

Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 20 for Windows Osa 2 Christina Gustafsson Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 20 for Windows Osa 2 Kevät 2013 SISÄLLYSLUETTELO 5. YKSIULOTTEISET JAKAUMAT... 2 5.1. Frequencies-proseduuri... 2 5.2.

Lisätiedot

http://www.uwasa.fi/laskentatoimi/henkilokunta/laitinenerkkik/

http://www.uwasa.fi/laskentatoimi/henkilokunta/laitinenerkkik/ Erkki K. Laitinen, professori Laskentatoimen ja rahoituksen yksikkö Luento löytyy netistä: http://www.uwasa.fi/laskentatoimi/henkilokunta/laitinenerkkik/ Luennon aiheet: 1. Faktorianalyysi 2. Logistinen

Lisätiedot

Professional Statistics Pikaopas

Professional Statistics Pikaopas 2013-11-29 Webropol Oy Professional Statistics Pikaopas SISÄLTÖ 1. Miten pääset alkuun... 2 1.1. Systeemivaatimukset... 2 1.2. Professional Statistics avaaminen... 2 2. Perustoiminnot... 4 3. Mitä pitäisi

Lisätiedot

Aki Taanila AINEISTON ESITTÄMINEN JA KUVAILU

Aki Taanila AINEISTON ESITTÄMINEN JA KUVAILU Aki Taanila AINEISTON ESITTÄMINEN JA KUVAILU 25.11.2014 SISÄLLYS 0 JOHDANTO... 1 1 ORIENTAATIO... 2 1.1 Kriittinen ajattelu... 3 2 AINEISTON TALLENTAMINEN... 4 3 AINEISTON KÄSITTELY... 6 3.1 Taulukko,

Lisätiedot

Aki Taanila. IBM SPSS Statistics 21

Aki Taanila. IBM SPSS Statistics 21 Aki Taanila IBM SPSS Statistics 21 23.1.2013 SISÄLLYS 0 JOHDANTO... 1 1 AINEISTO... 3 1.1 Excel- tai teksti-muotoisen aineiston avaaminen... 3 1.2 Muuttujien määrittelyt... 3 1.3 Aineiston syöttäminen...

Lisätiedot

Aki Taanila SPSS OPAS

Aki Taanila SPSS OPAS Aki Taanila SPSS OPAS 2.10.2009 SISÄLLYS 0 JOHDANTO... 1 1 AINEISTON TALLENTAMINEN... 2 1.1 Muuttujien määrittely... 2 1.2 Aineiston syöttäminen... 5 1.3 Aineiston tallentaminen ja avaaminen... 6 1.4 Aineistojen

Lisätiedot

Marko Laine. SAS peruskurssi. versio 1.2

Marko Laine. SAS peruskurssi. versio 1.2 Marko Laine SAS peruskurssi versio 1.2 Copyright c Marko Laine ja Helsingin yliopiston atk-osasto. Oppaan luvaton kopiominen ja jakelu paperilla tai elektronisesti kielletty. Sisältö 1 Johdanto 1 1.1 Käytetyt

Lisätiedot

Aki Taanila LINEAARISET REGRESSIOMALLIT

Aki Taanila LINEAARISET REGRESSIOMALLIT Aki Taanila LINEAARISET REGRESSIOMALLIT 17.6.2010 SISÄLLYSLUETTELO 0 Johdanto... 1 1 Keskiarvo ennustemallina... 2 2 Yhden selittävän muuttujan malli... 3 3 Useamman selittävän muuttujan malli... 6 4 Excel

Lisätiedot

OHJEITA LASKUJEN LASKEMISEEN JA KUVIEN PIIRTÄMISEEN MICROSOFT EXCEL 2007:LLÄ

OHJEITA LASKUJEN LASKEMISEEN JA KUVIEN PIIRTÄMISEEN MICROSOFT EXCEL 2007:LLÄ OHJEITA LASKUJEN LASKEMISEEN JA KUVIEN PIIRTÄMISEEN MICROSOFT EXCEL 2007:LLÄ Sini-Jatta Suonio - 2010 Esipuhe Tämän ohjeen tarkoitus on opastaa yksinkertaisesti tekemään fysiikan oppilaslaboratorion selostustöissä

Lisätiedot

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset. Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,

Lisätiedot

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Kiusatekijä on taustatekijä, joka voi vaikuttaa

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Kiusatekijä on taustatekijä, joka voi vaikuttaa 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat 4.1 Satunnaistettu lohkokoe (Randomized Block Design) Kiusatekijä (nuisance factor): Kiusatekijä on taustatekijä, joka voi vaikuttaa

Lisätiedot

PASW Statistics 18 tuoteperhe

PASW Statistics 18 tuoteperhe PASW Statistics 18 tuoteperhe Sisältö Peruspaketti: 3 PASW Statistics Programmability 4 Lisämodulit: PASW Tables 5 PASW Regression 6 PASW Advanced Statistics 7 PASW Forecasting 8 PASW Exact Tests 9 PASW

Lisätiedot

11.8.2000 Excel 97 harjoituksia 1

11.8.2000 Excel 97 harjoituksia 1 11.8.2000 Excel 97 harjoituksia 1 1. SUHTEELLINEN VIITTAUS Avaa tiedosto Tunti1.xls hakemistosta Verkkoympäristö\Atkope\Excel. Lisää taulukkoon sarakkeeseen F ja riville 11 yhteensä-otsikon summakaavat.

Lisätiedot

Aalto-yliopiston teknillinen korkeakoulu. Tuntimittausdatan käyttö sähkökuorman ennustamisessa

Aalto-yliopiston teknillinen korkeakoulu. Tuntimittausdatan käyttö sähkökuorman ennustamisessa Aalto-yliopiston teknillinen korkeakoulu Sähkötekniikan laitos Elektroniikan, tietoliikenteen ja automaation tiedekunta Matti Koivisto Tuntimittausdatan käyttö sähkökuorman ennustamisessa Diplomityö, joka

Lisätiedot

SciPy OPAS. Matti Pastell. matti.pastell@helsinki.fi Maataloustieteiden laitos, Helsingin yliopisto. 12. tammikuuta 2010.

SciPy OPAS. Matti Pastell. matti.pastell@helsinki.fi Maataloustieteiden laitos, Helsingin yliopisto. 12. tammikuuta 2010. SCIENTIFIC PYTHONIN ALKEET ELI: SciPy OPAS Matti Pastell matti.pastell@helsinki.fi Maataloustieteiden laitos, Helsingin yliopisto 12. tammikuuta 2010 0.20 Impulse response 0.15 0.10 0.05 Amplitude 0.00

Lisätiedot

1.1 Tilastomenetelmät luotettavan tutkimuksen perustana 1 1.1.1 Otos vs. näyte 1 1.1.2 Tilastollinen päättely ja tieteellisyyden kriteerit 2

1.1 Tilastomenetelmät luotettavan tutkimuksen perustana 1 1.1.1 Otos vs. näyte 1 1.1.2 Tilastollinen päättely ja tieteellisyyden kriteerit 2 Sisältö 1 JOHDANTO 1 1.1 Tilastomenetelmät luotettavan tutkimuksen perustana 1 1.1.1 Otos vs. näyte 1 1.1. Tilastollinen päättely ja tieteellisyyden kriteerit TEOREETTINEN JAKAUMA 3.1 Satunnaismuuttuja

Lisätiedot

T106.1208 Ohjelmoinnin perusteet Y (Python) Opetusmoniste kevät 2010

T106.1208 Ohjelmoinnin perusteet Y (Python) Opetusmoniste kevät 2010 T106.1208 Ohjelmoinnin perusteet Y (Python) Opetusmoniste kevät 2010 Kerttu Pollari-Malmi c Kerttu Pollari-Malmi Sisältö 1 Tietokoneista ja ohjelmista 1 1.1 Lyhyesti tietokoneen rakenteesta....................

Lisätiedot

Taulukoita ja kaavioita MS Excelillä Keijo Salakari 7. maaliskuuta 2006

Taulukoita ja kaavioita MS Excelillä Keijo Salakari 7. maaliskuuta 2006 Taulukoita ja kaavioita MS Excelillä Keijo Salakari 7. maaliskuuta 2006 Plasmatelevision hintoja 3 000,00 2 900,00 2 800,00 2 700,00 2 600,00 2 500,00 2 400,00 2 300,00 32" 37" 42" 2 (33) Microsoft Excel

Lisätiedot

WORD- ja EXCEL-opas Office 2010

WORD- ja EXCEL-opas Office 2010 Aalto Yliopiston Teknillinen Korkeakoulu Kemian ja materiaalitieteiden tiedekunta Kemian laitos Fysikaalisen kemian ja sähkökemian tutkimusryhmä WORD- ja EXCEL-opas Office 2010 Annukka Aarnio asantasa@cc.hut.fi

Lisätiedot

T 106.1208 Ohjelmoinnin perusteet Y (Python)

T 106.1208 Ohjelmoinnin perusteet Y (Python) T 106.1208 Ohjelmoinnin perusteet Y (Python) Opetusmoniste kevät 2011 Kerttu Pollari-Malmi Kerttu Pollari-Malmi Sisältö 1 Tietokoneista ja ohjelmista 1 1.1 Lyhyesti tietokoneen rakenteesta....................

Lisätiedot

OMAISHOIDON TUEN MITTARIN LAADINTA JA LUOKITUSRAJOJEN MÄÄRITTÄMINEN KOEAINEISTON POHJALTA

OMAISHOIDON TUEN MITTARIN LAADINTA JA LUOKITUSRAJOJEN MÄÄRITTÄMINEN KOEAINEISTON POHJALTA 1 OMAISHOIDON TUEN MITTARIN LAADINTA JA LUOKITUSRAJOJEN MÄÄRITTÄMINEN KOEAINEISTON POHJALTA 26.3.29 Erkki Mäkinen 1.YHTEENVETO Mittarin rakentaminen tapahtui useissa vaiheissa syksystä 23 alkaen. Ensimmäisessä

Lisätiedot

Ohjelmoinnin perusteet...6 Muuttuja...6 Taulukkoalkio...6 Ohjelmamoduulit...6 Lyhyt kassaohjelma...7 X=X+1...7 PHP-ohjelmointi...8 Asetuslause...

Ohjelmoinnin perusteet...6 Muuttuja...6 Taulukkoalkio...6 Ohjelmamoduulit...6 Lyhyt kassaohjelma...7 X=X+1...7 PHP-ohjelmointi...8 Asetuslause... Ohjelmoinnin perusteet...6 Muuttuja...6 Taulukkoalkio...6 Ohjelmamoduulit...6 Lyhyt kassaohjelma...7 X=X+1...7 PHP-ohjelmointi...8 Asetuslause...9 Tehtävä (PHP/1)...10 If then else-rakenne...12 Tehtävä:...12

Lisätiedot

MATLAB-ohjelmointi. COMSOL Oy Lauttasaarentie 52 00200 Helsinki Puh. 09-2510 400, Fax 09-2510 4010 info@comsol.fi www.comsol.fi

MATLAB-ohjelmointi. COMSOL Oy Lauttasaarentie 52 00200 Helsinki Puh. 09-2510 400, Fax 09-2510 4010 info@comsol.fi www.comsol.fi MATLAB-ohjelmointi COMSOL Oy Lauttasaarentie 52 00200 Helsinki Puh. 09-2510 400, Fax 09-2510 4010 info@comsol.fi www.comsol.fi MATLAB-Ohjelmointi Sivu 2 Sivu 3 SISÄLLYSLUETTELO 1 JOHDANTO... 5 1.1 MIKÄ

Lisätiedot

1. OPINTOJAKSON TAVOITTEET, SISÄLTÖ JA ESITIEDOT... 4 2. MATERIAALIT JA OHJELMISTOT... 5

1. OPINTOJAKSON TAVOITTEET, SISÄLTÖ JA ESITIEDOT... 4 2. MATERIAALIT JA OHJELMISTOT... 5 1. OPINTOJAKSON TAVOITTEET, SISÄLTÖ JA ESITIEDOT... 4 2. MATERIAALIT JA OHJELMISTOT... 5 3. SUORITUSTAVAT... 5 3.1 Tentistä... 5 3.2 Tietokonetyöstä... 6 4. OPISKELUN ETENEMINEN... 6 VIIKKO 4... 8 Luokka

Lisätiedot