MS-C2128 Ennustaminen ja aikasarja-analyysi 3. harjoitukset / Tehtävät Kotitehtävä: 7
|
|
- Ari-Pekka Sipilä
- 7 vuotta sitten
- Katselukertoja:
Transkriptio
1 MS-C2128 Ennustaminen ja aikasarja-analyysi 3. harjoitukset / Tehtävät Kotitehtävä: 7 Esimerkkiaineisto ALKOKULU Käytämme kurssin aikana useissa harjoituksissa eräänä esimerkkiaineistona seuraavaa aineistoa, joka koskee alkoholin yksityisiä kulutusmenoja Suomessa. Tavoitteena on rakentaa alkoholin kulutusmenoille regressiomalli, jossa alkoholin kulutusmenoja per capita kiinteisiin, vuoden 1975 hintoihin (Q1CPC) selitetään alkoholin reaalihintaindeksillä (R1C) ja kokonaiskulutusmenoilla per capita kiinteisiin, vuoden 1975 hintoihin (QTOTALPC). Aineisto koostuu vuosiaikasarjoista vuosilta Talousteorian mukaisena perusmallina on log-lineaarinen regressiomalli (M1) log(q1cpc) = log(r1c) + 2 log(qtotalpc) + jonka regressiokertoimilla on tulkinta joustoina (logaritmisina derivaattoina): Jos alkoholin reaalihinta R1C (kokonaiskulutusmenot QTOTALPC) kasvaa 1 %, niin alkoholin kulutusmenot Q1CPC muuttuvat 1 % ( 2 %). Perusmalli (M1) osoittautuu kuitenkin varsin huonoksi. Näemme myöhemmin, miten johdonmukainen regressiomallien rakennustekniikka johtaa perusmallia (M1) selvästi parempaan malliin. Tämä parempi malli on stokastiseksi differenssiyhtälöksi kutsuttu dynaaminen regressiomalli. Esimerkin perusaikasarjat löytyvät tiedostosta ALKOKULUP1.txt. Tiedoston ALKOKULUP1 muuttujat: VUOSI = Vuosi; VAKILUKU C1C Q1C CTOTAL QTOTAL = Väkiluku Suomessa vuosina (tuhansina) = Alkoholin kulutusmenot käypiin hintoihin (milj. mk) = Alkoholin kulutusmenot kiinteisiin vuoden 1975 hintoihin (milj. mk) = Kokonaiskulutusmenot käypiin hintoihin (milj. mk) = Kokonaiskulutusmenot kiinteisiin vuoden 1975 hintoihin (milj. mk) Kulutusmenoilla käypiin hintoihin tarkoitetaan todellisia kulutusmenoja, kun taas kulutusmenoilla kiinteisiin hintoihin tarkoitetaan kulutusmenoja ilman hinnanmuutosten vaikutusta.
2 Tehtävä 3.1. Tutustu esimerkkiaineistoon ALKOKULUP1. Piirrä aikasarjojen kuvaajat ja määrää aikasarjoja kuvaavat perustunnusluvut. Tehtävä 3.1. Ratkaisu: Aikasarja voidaan määrittää esim. data framesta komennolla ts(). Aloitusvuodeksi asetaan 1950, ja koska kyseessä on vuosiaikasarja, taajudeksi 1. kp1=read.table("alkokulup1.txt",header=t) aikas=ts(kp1,frequency=1,start=1950) aikas sisältää nyt monta aikasarjaa. summary(aikas) VUOSI VAKILUKU C1C Q1C CTOTAL QTOTAL Min. :1950 Min. :4009 Min. : Min. : Min. : 3634 Min. : st Qu.:1958 1st Qu.:4351 1st Qu.: st Qu.: st Qu.: st Qu.:25242 Median :1966 Median :4572 Median : Median : Median : Median :36263 Mean :1966 Mean :4500 Mean : Mean : Mean : Mean : rd Qu.:1973 3rd Qu.:4672 3rd Qu.: rd Qu.: rd Qu.: rd Qu.:52744 Max. :1981 Max. :4800 Max. : Max. : Max. : Max. :61843 plot(aikas) R päättää automaattisesti milloin käytetään datasta 4e+04 esitystä (ks. CTOTAL). Näiden käytöstä määrää parametri scipen (SCIence PENalty). Jos halutaan näistä eroon, niin asetetaan scipen tarpeeksi suureksi. Tämä tapahtuu kirjoittamalla esim.
3 options(scipen=1000) Yksittäisten aikasarjojen plottaus sujuu seuraavasti: ts.plot(aikas[,"vakiluku"],xlab="vuosi",ylab="tuhatta henkilöä",main="väkiluku Suomessa '50-'81") grid() Suomen väkiluku on kasvanut tarkasteluajanjaksona lukuun ottamatta vuosia 1969 ja 1970, jolloin väkiluvussa tapahtui pieni lasku. Tämä lasku johtui ns. suuresta maastamuutosta, joka kohdistui Ruotsiin. Väkiluvun kasvuvauhti näyttää myös hidastuneen lähes koko tarkasteluajanjaksona. ts.plot(aikas[,"q1c"],aikas[,"c1c"],lty=c(1:2), xlab="vuosi",ylab="miljoonaa markkaa",main="alkoholin kulutusmenot C1C(katkoviiva) sekä Q1C(kiinteä)") grid() lisämääre lty (Line TYpe) määrittelee plotattujen käyrien tyyliä, saat lisätietoja komennolla help(par).
4 Käypähintaisessa aikasarjassa C1C on monotonisesti kasvava trendi. Kiinteähintainen aikasarja Q1C näyttää alkoholin kulutusmenojen volyymissa tapahtuneet muutokset: Alkoholin kulutusmenojen volyymi on kasvanut tarkasteluajanjaksona Alkoholin kulutusmenojen volyymissa tapahtui laskua (syynä yleislakon 1956 jälkeinen lama) Alkoholin kulutusmenojen volyymissa tapahtui vuonna 1969 selvä hyppy ylöspäin (syynä alkoholilain muutos vuoden 1969 alussa) Alkoholin kulutusmenojen volyymin kasvu taittui vuonna 1975 (syynä 1970-luvun alun öljykriisien jälkeinen lama) ts.plot(aikas[,"qtotal"],aikas[,"ctotal"],lty=c(1:2), xlab="vuosi",ylab="miljoonaa markkaa",main="alkoholin kokonaiskulutusmenot CTOTAL(katkoviiva) sekä QTOTAL(kiinteä)") grid()
5 Käypähintaisessa aikasarjassa CTOTAL on monotonisesti kasvava trendi. Kiinteähintainen aikasarja QTOTAL näyttää kokonaiskulutusmenojen volyymissa tapahtuneet muutokset: Kokonaiskulutusmenojen volyymi on kasvanut tarkasteluajanjaksona Kokonaiskulutusmenojen volyymissa tapahtui laskua (syynä yleislakon 1956 jälkeinen lama) Kokonaiskulutusmenojen volyymin kasvu hidastui 1968 (syynä taantuma ennen vuoden 1968 devalvaatiota) Kokonaiskulutusmenojen volyymin kasvu hidastui 1976 ja jopa laski 1977 (syynä öljykriisin jälkeinen lama)
6 Tehtävä 3.2. Talleta tiedoston ALKOKULUP1 (ks. harjoitustehtävää 3.1.) aikasarjat uuteen tiedostoon ALKOKULUP2 ja tee siinä seuraavat muunnokset: C1CPC Q1CPC CTOTALPC QTOTALPC P1C PTOTAL R1C LQ1CPC LR1C LQTOTALPC = 1000 C1C/VAKILUKU = Alkoholin kulutusmenot per capita käypiin hintoihin (mk) = 1000 Q1C/VAKILUKU = Alkoholin kulutusmenot per capita kiinteisiin vuoden 1975 hintoihin (mk) = 1000 CTOTAL/VAKILUKU = Kokonaiskulutusmenot per capita käypiin hintoihin (mk) = 1000 QTOTAL/VAKILUKU = Kokonaiskulutusmenot per capita kiinteisiin vuoden 1975 hintoihin (mk) = 100 C1C/Q1C = Alkoholin (implisiittinen) hintaindeksi = 100 CTOTAL/QTOTAL = Kulutusmenojen (implisiittinen) hintaindeksi Elinkustannusindeksi = 100 P1C/PTOTAL = Alkoholin reaalihintaindeksi = LN(Q1CPC) = Muuttujan Q1CPC luonnollinen logaritmi = LN(R1C) = Muuttujan R1C luonnollinen logaritmi = LN(QTOTALPC) = Muuttujan QTOTALPC luonnollinen logaritmi Muuttujat LQ1CPC, LR1C, LQTOTALPC ovat taloustieteen perusmallissa (M1) käytettävät muuttujat. Tutki muuttujia LQ1CPC, LR1C, LQTOTALPC graafisesti sekä määrää niistä perustunnusluvut. Tehtävä 3.2. Ratkaisu: Selkeyden vuoksi lasketaan vain uudet muuttujat. attach(kpl) C1CPC=1000*(C1C/VAKILUKU) Q1CPC=1000*(Q1C/VAKILUKU) CTOTALPC=1000*(CTOTAL/VAKILUKU) QTOTALPC=1000*(QTOTAL/VAKILUKU) P1C=100*(C1C/Q1C)
7 PTOTAL=100*(CTOTAL/QTOTAL) R1C=100*(P1C/PTOTAL) LQ1CPC=log(Q1CPC) LR1C=log(R1C) LQTOTALPC=log(QTOTALPC) Jos nämä halutaan tallettaa tiedostoon, niin on kätevintä sijoittaa ne data frameen kp1, ja kirjoittaa se haluttuun tiedostoon. Tämä voitaisiin tietysti tehdä myös suoraan ilman yllä olevaa välivaihetta. kp1$c1cpc=c1cpc kp1$q1cpc=q1cpc kp1$ctotalpc=ctotalpc kp1$qtotalpc=qtotalpc kp1$p1c=p1c kp1$ptotal=ptotal kp1$r1c=r1c kp1$lq1cpc=lq1cpc kp1$lr1c=lr1c kp1$lqtotalpc=lqtotalpc write.table(kp1,"alkokulup2.txt") aikas=ts(kp1,freq=1,start=1950) ts.plot(aikas[,"q1cpc"],aikas[,"c1cpc"],lty=c(1:2), xlab="vuosi",ylab="markkaa",main="alkoholin kulutusmenot per capita C1CPC(katkoviiva) sekä Q1CPC(kiinteä)") grid()
8 Kuvion tulkinta: kuten tehtävässä 3.1. ts.plot(aikas[,"qtotalpc"],aikas[,"ctotalpc"],lty=c(1:2), xlab="vuosi",ylab="markkaa",main="alkoholin kokonaiskulutusmenot per capita CTOTALPC(katkoviiva) sekä QTOTALPC(kiinteä)") grid() Kuvion tulkinta: kuten tehtävässä 3.1. ts.plot(aikas[,"ptotal"],aikas[,"p1c"],lty=c(1:2), xlab="vuosi",ylab="hintaindeksi, 1975=100",main="Alkoholin ja kokonaiskulutusmenojen implisiittiset hintaindeksit P1C(katkoviiva) ja PTOTAL(kiinteä)") grid()
9 Alkoholin implisiittinen hintaindeksi on seurannut melko tarkkaan kokonaiskulutusmenojen implisiittistä hintaindeksiä. Tämä on ollut seurausta alkoholipolitiikasta: alkoholin hintaa on pyritty nostamaan niin, että hinta seuraa elinkustannusten yleistä tasoa. ts.plot(aikas[,"r1c"], xlab="vuosi",ylab="hintaindeksi, 1975=100",main="Alkoholin reaalihintaindeksi") grid() Alkoholin reaalihintaa on pysynyt lähes vakiona; ks. edellisen kuvan selitystä. Kuitenkin 1970-luvun puolessa välissä alkoholi oli alennusmyynnissä. Tämä johtui siitä, että tulopoliittisissa kokonaisratkaisuissa sovittiin, että alkoholin hintaa ei saa nostaa. Alla on vielä kuvattuna perusmallissa (M1) käytettävät muuttujat.
10 Lisäksi voidaan tarkastella perustunnusluvut: > summary(lr1c) Min. 1st Qu. Median Mean 3rd Qu. Max > summary(lq1cpc) Min. 1st Qu. Median Mean 3rd Qu. Max > summary(lqtotalpc) Min. 1st Qu. Median Mean 3rd Qu. Max
11 Esimerkkiaineisto ALKOKULU Luodaan tehtäviä uusi tiedosto ALKOKULUP4, jonne sijoitetaan muuttujat LQ1CPC, LR1C ja LQTOTALPC sekä myös muuttuja Q1CPC tiedostosta ALKOKULUP2. Tarkastelemme tehtävissä seuraavia kysymyksiä mallille (M1): (M1) log(q1cpc) = log(r1c) + 2 log(qtotalpc) + (i) (ii) Miten alkoholin kulutusmenoja ennustetaan mallilla (M1) ja ovatko ennusteet hyviä? Onko malli (M1) hyvä siinä mielessä, että se kuvaa alkoholin kulutusmenojen vaihtelua hyvin koko estimointiperiodilla? (iii) Pätevätkö yleisen lineaarisen mallin jäännöstermiä koskevat standardioletukset mallissa (M1)? Yleisen lineaarisen mallin jäännöstermiä t koskevat standardioletukset: Homoskedastuusoletus: 2 Var( ), 1,2,, Korreloimattomuusoletus: Normaalisuusoletus: Estimoidaan malli (M1) havainnoista t t n Cor( s, t) 0, s t 2 t : N(0, ), t 1,2,, n log(q1c) = log(r1c) + 2 log(qtotal) + Joudumme kysymyksiä (i)-(iii) tarkastellessamme toteamaan, että malli (M1) ei ole hyvä. Esimerkiksi mallin jäännöstermiä koskevia oletuksia testattaessa joudutaan melkein kaikki standardioletukset ja residuaalien normaalisuusoletus hylkäämään. Mitä on oikea johtopäätös tästä? Malli (M1) ei ole riittävä kuvamaan alkoholin kulutusmenojen vaihtelua. Näemme kurssin aikana, miten johdonmukainen regressiomallien rakennustekniikka johtaa perusmallia (M1) selvästi parempaan malliin. Tämä parempi malli on tyypiltään ns. dynaaminen regressiomalli. kp2=data.frame(lq1cpc,lr1c,lqtotalpc,q1cpc) write.table(kp2,"alkokulup4.txt") X=LQTOTALPC[-28:-32] #poistetaan havainnot 1977 eteenpäin Y=LR1C[-28:-32] Z=LQ1CPC[-28:-32] malli=lm(z~x+y)
12 summary(malli) Call: lm(formula = Z ~ X + Y) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) X <2e-16 *** Y * --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 24 degrees of freedom Multiple R-squared: 0.951, Adjusted R-squared: F-statistic: on 2 and 24 DF, p-value: < 2.2e-16 Yllä olevan tulostuksen mukaan havainnoista estimoitu regressioyhtälö on LR1C LQTOTALPC Ennusteet havainnoille saadaan komennolla predict(). Ennusteen laatimisessa täytyy olla tarkkana data-tyyppien yhteensopivuudesta. ennuste=predict(malli,data.frame(y=lr1c,x=lqtotalpc)) *LR1C *LQTOTALPC Talletetaan ennusteet muuttujaksi PREDM1 ja verrataan ennustetta PREDM1 estimoidun mallin (M1) sovitteeseen malli$fit: Havainnoille ennuste PREDM1 yhtyy estimoidun mallin (M1) sovitteeseen, kun taas havainnoille ennuste PREDM1 on aito ennuste. kp2$predm1=ennuste malli$fit Palautetaan vielä ennuste alkuperäiseen skaalaan transformaatiolla EPREDM1 = EXP(PREDM1) kp2$epredm1=exp(ennuste) write.table(kp2,"alkokulup4.txt") Tehtävä 3.3. Vertaa saatuja ennusteita muuttujalle Q1CPC muuttujan Q1CPC havaittuihin arvoihin piirtämällä havaitut arvot ja ennusteet samaan kuvioon. Kuinka suuri on ennustevirhe vuonna 1981? Tehtävä 3.3. Mitä opimme? Tehtävässä tarkastellaan regressiomallin selitettävän muuttujan arvojen ennustamista estimoidun regressiomallin avulla. Tehtävä 3.3. Ratkaisu: Mallia (M1) koskevat estimointitulokset on esitetty edellä. Piirretään estimoidun mallin selitettävän muuttujan arvot ja ennusteet (sovitteet) piirretään samaan kuvioon:
13 ts.plot(ts(q1cpc,start=1950),ts(kp2$epredm1,start=1950),lty=c( 1,2)) grid() Ylhäällä siis kiinteä viiva on oikea arvo, ja katkoviiva on ennuste/sovite. Ennustevirhe: Koska kp1$vuosi[32]=1981, niin ennustevirhe vuodelle 1981 on eli Q1CPC[32]-kp2$EPREDM1[32], = mk Ennustevirhe alkoholin kokonaiskulutusmenoissa vuoden 1975 hintoihin saadaan kertomalla väkiluvulla: 4,800,000 ( 65.80) = 315,840,000 mk Siten malli ei ennusta kovinkaan hyvin tulevaisuuteen.
14 Tehtävä 3.4. Piirrä Cookin etäisyydet mallista (M1) aikasarjana. Mitä havaitset? Tehtävä 3.4. Mitä opimme? Tehtävässä tarkastellaan poikkeavien havaintojen etsimistä Cookin etäisyyksien avulla. Tehtävä 3.4. Ratkaisu: Mallia (M1) koskevat estimointitulokset on esitetty edellä. DIST=cooks.distance(malli) DTS=ts(DIST, frequency=1, start=1950) plot(dts) grid() Välittömästi alkoholilain muutoksen jälkeisten vuosien Cookin etäisyydet ovat selvästi edeltävien ja seuraavien vuosien Cookin etäisyyksia suurempia. Tämä viittaa siihen, että ko. vuosina havaintojen ja mallin yhteensopivuus ei ole hyvää. Sama on nähtävissä myös tarkasteluajanjakson alussa vuosina
15 Tehtävä 3.5. Tee normaalisuustestejä mallin (M1) residuaaleille. Tehtävä 3.5. Ratkaisu: Mallia (M1) koskevat estimointitulokset on esitetty edellä. Piirretään ensin residuaalien histodiagrammi. hist(malli$res) qqnorm(malli$res) grid()
16 Kuvaajien perusteella residuaalit eivät noudata normaalijakaumaa kovin hyvin. Seuraavaksi normaalisuustestejä, joista osaa ei ole käsitelty luennolla. Kiinnostuneet voivat etsiä tietoa verkosta tai katsoa kurssin Tilastollisen Analyysin Perusteet ja Todennäköisyyslaskennan ja Tilastotieteen Peruskurssin luentokalvoja. Huomaa, että normaalisuustesteissä nollahypoteesina on oletus normaalisuudesta. Tehdään Shapiron-Wilkin testi: shapiro.test(malli$res) Shapiro-Wilk normality test data: malli$res W = , p-value = Tehdään vielä Kolmogorov-Smirnov testi: mean.res <- mean(malli$res) sd.res <- sd(malli$res) ks.test(malli$res,"pnorm",mean.res,sd.res)
17 One-sample Kolmogorov-Smirnov test data: malli$res D = , p-value = Alternative hypothesis: two-sided Eli K-S testin perusteella nollahypoteesia normaalisuudesta ei hylätä. Huomioi, että otoskoon ollessa pieni, niin nollahypoteesin hylkäämisen todennäköisyys on pieni K-S testissä, vaikka aineisto ei olisi likimainkaan nollahypoteesin mukaisesta jakaumasta. Sen sijaan Wilkin ja Shapiron testi näyttää yllä olevan tulostuksen mukaan johtavan normaalisuusoletuksen hylkäämiseen 5 %:n merkitsevyystasolla. Grafiikka kuitenkin osoittaa selvästi, että residuaalit eivät ole normaalijakautuineita. Emme voi tehdä oletusta residuaalien normaalisuudesta.
18 Tehtävä 3.6. Tee homoskedastisuustesti mallin (M1) residuaaleille. Tehtävä 3.6. Ratkaisu: Testataan homoskedastisuutta apuregressiolla: 2 e 0 1ˆ, 1,2,, t yt t t n Totesimme tehtävässä 3.5, että jäännökset (residuaalit) eivät ole normaalijakautuneita. Voimme kuitenkin suorittaa jakauma-vapaan permutaatiotestin. Käytetään viime viikon harjoituksissa luotua permtest-funktiota (koodi löytyy ATK-harjoitus 2 välilehden alta). set.seed(456) apur = lm(malli$res^2~malli$fit) R2.original <- summary(apur)$r.squared #permtest(d,y,k) #D = selittävät muuttujat, y=selitettävät muuttujat, #k=iteraatioiden lkm. k < A <- permtest(malli$fit,(malli$res)^2,k) p.value <- 1- sum(a < R2.original)/k #p.value=0.01 Totesimme tehtävässä 3.5, että jäännökset (residuaalit) eivät ole normaalijakautuneita. Voimme kuitenkin suorittaa jakauma-vapaan permutaatiotestin. Käytetään viime viikon harjoituksissa luotua permtest-funktiota (koodi löytyy ATK-harjoitus 2 välilehden alta). Saamme p-arvon Permutaatiotestin perusteella nollahypoteesi jäännöstermin homoskedastisuudesta hylätään 5% merkitsevyystasolla.
19 Tehtävä 3.7. Tehtävänä on tutkia alla kuvattua aineistoa regressioanalyysilla. Tiedostoon T38.txt on tallennettu kolme mallin rakentamisessa käytettävää aikasarjaa: CONS INC = kokonaiskulutus (consumption) (mrd mk) = tulot (income) (mrd mk) INFLAT = inflaatiovauhti (inflation) (%) Aikasarjat ¼-vuosiaikasarjoja, ja ne alkavat vuoden 1953 ensimmäisestä kvartaalista. Aikasarjat CONS ja INC kuvaavat kokonaiskulutuksen ja tulojen reaalista arvoa miljardeina markkoina eräässä kuvitteellisessa maassa. Aikasarja INFLAT kuvaa inflaatiovauhtia. Tehtävänä on pyrkiä estimoimaan ns. kulutusfunktio, jossa aikasarjaa CONS selitetään aikasarjoilla INC ja INFLAT. Aikasarjat on generoitu simuloimalla, mutta niiden stokastiset ominaisuudet jäljittelevät todellisia aikasarjoja. Aikasarjojen kytkeytyminen toisiinsa on taloustieteen mukaista. Aikasarjoihin on tuotettu myös öljykriisiä jäljitteleviä häiriö. Miksi aineisto on simuloitu? Useimmissa todellisissa aikasarjoissa on piirteitä, jotka peittävät opetettavan asian (tässä lopullisena tavoitteena on esitellä dynaamisen regressiomallin rakentamisstrategiaa) opetettavan asian kannalta epäolennaisten ongelmien alle. Simuloiduissa aineistoissa saadaan opetettava asia tulemaan esille mahdollisimman puhtaana. Palautusohje Tällä kierroksella on palautustehtävä ensimmäistä kertaa hieman isompi yhtenäinen projekti. Tehtävien tarkastamisen nopeuttamiseksi: Ohje: Kuvaajien tallentaminen: Manuaalisesti RStudion käyttöliittymästä, ruudusta plot -> export Komennolla: o png("tiedostonimi.png") o plot(plotattava muuttuja) o lisämääreet( esim. grid() tai abline()) o dev.off() Ylläoleva koodi tallentaa kuvaajan plotin työhakemistoon tiedostoon tiedostonimi.png. (1) Piirrä aikasarjojen kuvaajat. Tarkastele kuvaajien perusteella aikasarjojen kuten trendiä sekä sen muutoksia, vaihtelua trendin ympärillä ja mahdollisia poikkeavia havaintoja. (2) Tutki aikasarjojen normaalisuutta. (3) Tutki aikasarjojen välisiä riippuvuuksia pistediagrammien (scatter plot) avulla. (4) Tutki aikasarjojen välisiä riippuvuuksia laskemalla aikasarjojen väliset korrelaatiot. Vertaa korrelaatioita kohdan (3) pistediagrammeihin. Vastaavatko tulokset toisiaan?
20 (5) Estimoi tavanomainen lineaarinen malli (M1) CONSt = INCt + 2 INFLATt + t PNS-menetelmällä ja tallenna sekä residuaalit (muuttujaksi RES1) että sovitteet (muuttujaksi FIT1) perustamaasi tiedostoon. (6) Tulkitse saadut regressiokertoimet. (7) Piirrä estimoidun mallin residuaalit aikaa vastaan. (8) Tutki residuaalien normaalisuutta. (9) Testaa mallin jäännöstermin homoskedastisuutta. (10) Tarkastele estimoituja regressiokertoimia, niiden hajontoja ja merkitsevyyttä. (11) Mikä on mallin (M1) selitysaste? (12) Ovatko kaikki selittäjät tilastollisesti merkitseviä? (13) Onko malli kokonaisuudessaan merkitsevä? (14) Tutki onko aineistossa poikkeavia havaintoja piirtämällä Cookin etäisyydet aikaa vastaan. Pystytkö paikantamaan öljykriisin kuvion perusteella? (15) Mitkä standardioletukset ovat voimassa edellisten kohtien perusteella? Tee vielä seuraavat operaatiot: (16) Laske estimoidun mallin M1 residuaalien (muuttuja RES1) aritmeettinen keskiarvo. (17) Muodosta muuttuja RES1 FIT1 ja laske sen aritmeettinen keskiarvo. Saat sekä kohdassa (16) että kohdassa (17) tulokseksi erittäin lähellä nollaa olevan luvun (varsinkin tietokoneen laskutarkkuus huomioiden). Onko tämä sattumaa? (18) Laske Cor(CONS, FIT1) 2 Vertaa tulosta estimoidun mallin selitysasteeseen R 2. Mitä havaitset? Miksi?
Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja
MS-C2128 Ennustaminen ja aikasarja-analyysi 6. harjoitukset / Tehtävät Kotitehtävä: 4 Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja
Lisätiedot2. Tietokoneharjoitukset
2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta
LisätiedotTässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
LisätiedotYleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli
MS-C2128 Ennustaminen ja aikasarja-analyysi 1. harjoitukset / Tehtävät Kotitehtävät: 2 Aiheet: Aluksi Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli Tällä kurssilla käytetään
Lisätiedot1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,
LisätiedotMS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4
MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen
LisätiedotIlmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!
8069 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2013 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOLLA 9! Ilmoittaudu Weboodissa 4.3.2013 klo
Lisätiedot1. Tietokoneharjoitukset
1. Tietokoneharjoitukset Aluksi Tällä kurssilla käytetään R-ohjelmistoa, jonka käyttämisestä lienee muutama sana paikallaan. R-ohjelmisto on laajasti käytetty vapaassa levityksessä oleva ammattimaiseen
LisätiedotSuhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä
806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2011 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Eräässä suuressa yrityksessä
LisätiedotRegressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
LisätiedotOpiskelija viipymisaika pistemäärä
806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2012 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Jatkoa harjoituksen 5 tehtävään
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotTiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä
MS-C2128 Ennustaminen ja aikasarja-analyysi 4. harjoitukset / Tehtävät Kotitehtävät: 3, 5 Aihe: ARMA-mallit Tehtävä 4.1. Tutustu seuraaviin aikasarjoihin: Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan
Lisätiedot(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.
2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja
LisätiedotHarjoitus 9: Excel - Tilastollinen analyysi
Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin
LisätiedotErikoistyö: Alkoholin kulutusmenojen ennustaminen
Erikoistyö: Alkoholin kulutusmenojen ennustaminen Tekijä: Mikko Nordlund 49857B mikko.nordlund@hut.fi Ohjaaja: Ilkka Mellin Jätetty: 11.12.2003 Sisällysluettelo 1. JOHDANTO... 3 2. MALLIEN TUTKIMINEN...
Lisätiedot4. Tietokoneharjoitukset
4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume
Lisätiedot1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
Lisätiedot4. Tietokoneharjoitukset
4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume
LisätiedotJohdatus regressioanalyysiin. Heliövaara 1
Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään
LisätiedotViikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus
MS-C2128 Ennustaminen ja aikasarja-analyysi 5. harjoitukset / Tehtävät Kotitehtävät: 2 Aihe: ARMA-mallit Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tehtävä 5.1. Tarkastellaan
LisätiedotAalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,
Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten
LisätiedotResiduaalit. Residuaalit. UK Ger Fra US Austria. Maat
TAMPEREEN YLIOPISTO Tilastollisen mallintamisen harjoitustyö Teemu Kivioja ja Mika Helminen Epätasapainoisen koeasetelman analyysi Worksheet 5 Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Lisätiedot1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi
Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,
LisätiedotTA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET
TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen
LisätiedotATH-koulutus: R ja survey-kirjasto THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1
ATH-koulutus: R ja survey-kirjasto THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelman kuvaaminen R:llä ja survey-kirjastolla Perustunnusluvut Regressioanalyysit 16. 2. 2011
Lisätiedot1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,
Lisätiedot805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)
805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen
Lisätiedot1. Tutkitaan tavallista kahden selittäjän regressiomallia
TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa
LisätiedotTilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen
LisätiedotSisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13
LisätiedotSisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4
Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9
Lisätiedot3. Tietokoneharjoitukset
3. Tietokoneharjoitukset Aikasarjan logaritmointi Aikasarjoja analysoidaan usein logaritmisessa muodossa. Asialooginen perustelu logaritmoinnille: Muuttujan arvojen suhteelliset muutokset ovat usein tärkeämpiä
Lisätiedotxi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =
1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista
LisätiedotYhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n
LisätiedotJohdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen
LisätiedotRegressiodiagnostiikka ja regressiomallin valinta
Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015
LisätiedotTilastollisen analyysin perusteet Luento 7: Lineaarinen regressio
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5
MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai
LisätiedotLoad
Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotSEM1, työpaja 2 (12.10.2011)
SEM1, työpaja 2 (12.10.2011) Rakenneyhtälömallitus Mplus-ohjelmalla POLKUMALLIT Tarvittavat tiedostot voit ladata osoitteesta: http://users.utu.fi/eerlaa/mplus Esimerkki: Planned behavior Ajzen, I. (1985):
LisätiedotTilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä
Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme
LisätiedotHarjoitukset 4 : Paneelidata (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 4 : Paneelidata (Palautus 7.3.2017) Tämän harjoituskerran tarkoitus on perehtyä
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotRegressiodiagnostiikka ja regressiomallin valinta
Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy
Lisätiedot805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)
805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016) Tavoitteet (teoria): Hahmottaa aikasarjan klassiset komponentit ideaalisessa tilanteessa. Ymmärtää viivekuvauksen vaikutus trendiin. ARCH-prosessin
LisätiedotFoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön
LisätiedotDynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
LisätiedotMS-C2{04 Tilastollisen analyysin perusteet
MS-C2{04 Tilastollisen analyysin perusteet Tentti 7.4.20 4A/irtanen Kirjoita selvästi jokaiseen koepaperiin alla mainitussa järjestyksessä: OHlprrn (i) (ii) MS-C204 TAP 7.4.204 opiskelijanumero + kirjain
LisätiedotTilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien
LisätiedotIlkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1
Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen
LisätiedotTilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit
Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli
LisätiedotTehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset
JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset 12.05.2009 Tehtävä 1 (a) x
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Lisätiedot[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen
LisätiedotHAVAITUT JA ODOTETUT FREKVENSSIT
HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies
LisätiedotYleistetyistä lineaarisista malleista
Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai
LisätiedotMat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen
LisätiedotTilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio
Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotHarjoitus 7 : Aikasarja-analyysi (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitus 7 : Aikasarja-analyysi (Palautus 28.3.2017) Tämän harjoituskerran tarkoitus on perehtyä
Lisätiedot1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT
imat-2.104 Tilastollisen analyysin perusteet / Tehtävät Aiheet: Avainsanat: Ysisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Koonaisesiarvo,
Lisätiedotχ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut
Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,
LisätiedotMS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä
MS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä Tehtävä 4.1. Ncss-ohjelmiston avulla on generoitu AR(1)-, AR(2)-, MA(1)- ja MA(2)-malleja vastaavia aikasarjoja erilaisilla parametrien arvoilla.
LisätiedotLisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?
MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo
Lisätiedot54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
LisätiedotJohdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Regressiomallin valinta TKK (c) Ilkka Mellin (2004) 1 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotMatriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.
Python linkit: Python tutoriaali: http://docs.python.org/2/tutorial/ Numpy&Scipy ohjeet: http://docs.scipy.org/doc/ Matlabin alkeet (Pääasiassa Deni Seitzin tekstiä) Matriisit ovat matlabin perustietotyyppejä.
LisätiedotNuoruusiän vaikutus aikuisen painoindeksiin Data-analyysin perusmenetelmät Harjoitustyö. Lassi Miinalainen
Nuoruusiän vaikutus aikuisen painoindeksiin Data-analyysin perusmenetelmät Harjoitustyö Lassi Miinalainen lassimii@paju.oulu. 23.1.2012 Sisältö 1 Aineisto 2 1.1 Muuttujat...............................
LisätiedotR: mikä, miksi ja miten?
R: mikä, miksi ja miten? Ilmari Ahonen Matematiikan ja tilastotieteen laitos, Turun yliopisto SSL R-Webinaari 2015 Vähän minusta Valmistuin maisteriksi Turun yliopistossa 2012 Teen neljättä vuotta väitöskirjaa
LisätiedotVARIANSSIANALYYSI ANALYSIS OF VARIANCE
VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
Lisätiedotb1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta.
806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 9.3.2012 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta
LisätiedotTestit järjestysasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten
LisätiedotTilastollisen analyysin perusteet Luento 2: Tilastolliset testit
Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja
LisätiedotVastepintamenetelmä. Kuusinen/Heliövaara 1
Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,
LisätiedotTavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.
Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,
LisätiedotTilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen
Tilastollisen analyysin perusteet Luento 5: Sisältö Tilastotieteessä tehdään usein oletuksia havaintojen jakaumasta. Useat tilastolliset menetelmät toimivat tehottomasti tai jopa virheellisesti, jos jakaumaoletukset
LisätiedotMatematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot
Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot Sievin lukio Tehtävien ratkaisut tulee olla esim. Libre officen -writer ohjelmalla tehtyjä. Liitä vastauksiisi kuvia GeoGebrasta ja esim. TI-nSpire
Lisätiedot6. Tietokoneharjoitukset
6. Tietokoneharjoitukset 6.1 Tiedostossa Const.txt on eräällä Yhdysvaltalaisella asuinalueella aloitettujen rakennusurakoiden määrä kuukausittain, aikavälillä 1966-1974. Urakoiden määrä on skaalattu asuinalueen
Lisätiedot11. laskuharjoituskierros, vko 15, ratkaisut
11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa
Lisätiedotproc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;
Title "Exercises 6"; Data ex61; input A B C D E y @@; Label A = "Furnance Temperature" B = "Heating Time" C = "Transfer Time" D = "Hold Down Time" E = "Quench of Oil Temperature" y = "Free Height of Leaf
LisätiedotEpävarmuuden hallinta bootstrap-menetelmillä
1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn
LisätiedotKvantitatiiviset tutkimusmenetelmät maantieteessä
Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi
LisätiedotHarjoitukset 3 : Monimuuttujaregressio 2 (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus 7.2.2017) Tämän harjoituskerran tehtävät
Lisätiedot