1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Koko: px
Aloita esitys sivulta:

Download "1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO"

Transkriptio

1 Mat Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus, Homoskedastisuuden testaaminen, Homoskedastisuus, Jäännöstermi, Jäännösvarianssi, Leverage, Lineaarinen regressiomalli, Merkitsevyystaso, Muunnokset, p- arvo, Pienimmän neliösumman menetelmä, Poikkeavat havainnot, Poistoresiduaali, Regressiodiagnostiikka, Residuaali, Residuaalidiagrammi, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Standardoitu poistoresiduaali, Standardoitu residuaali, Systemaattinen osa, Sovite, Vipuluku 1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Päämääränä on estimoida regressiomalli, jossa vehnän satoa selitetään käytetyn lannoiteaineen määrän avulla. STATISTIX-tiedostoon SATO on talletettu seuraavat muuttujat: (a) (b) (c) LANNOITE = Lannoiteaineen määrä / pinta-alayksikkö SATO = Sato / pinta-alayksikkö Tutustu aineistoon piirtämällä pistediagrammi (LANNOITE, SATO) Onko lineaarinen regressiomalli sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?. Estimoi PNS-menetelmällä yhden selittäjän regressiomalli (1) SATO = β 0 + β 1 LANNOITE + ε Tarkastele mallin (1) sopivuutta aineistoon piirtämällä residuaalidiagrammi (SOVITE, RESIDUAALI) Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä? Lisää tiedostoon SATO muuttujan LANNOITE neliö muuttujaksi LANSQR. Estimoi PNS-menetelmällä kahden selittäjän regressiomalli (2) SATO = β 0 + β 1 LANNOITE + β 2 LANSQR + ε Onko muuttuja LANSQR tarpeellinen mallissa? Vertaa mallin (2) selitysastetta mallin (1) selitysasteeseen. Tarkastele mallin (2) sopivuutta aineistoon piirtämällä residuaalidiagrammi (SOVITE, RESIDUAALI) Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä? TKK/SAL Ilkka Mellin (2005) 1/37

2 RATKAISU: (a) AINEISTOON TUTUSTUMINEN: PISTEDIAGRAMMI (SELITTÄJÄ, SELITETTÄVÄ) Piirretään pistediagrammi (LANNOITE, SATO) Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = LANNOITE Y Axis Variables = SATO 33 Scatter Plot of SATO vs LANNOITE 28 SATO LANNOITE Sadon ja lannoiteaineen määrän riippuvuus ei näytä lineaariselta: Aluksi lannoiteaineen määrän lisääminen kasvattaa satoa, mutta tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa. TKK/SAL Ilkka Mellin (2005) 2/37

3 (b) YHDEN SELITTÄJÄN LINEAARISEN REGRESSIOMALLIN FORMULOINTI JA ESTIMOINTI Mallin estimointi Olkoon mallina (1) SATO = β 0 + β 1 LANNOITE + ε Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT LANNOITE R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 33 MISSING CASES 0 Malli selittää selitettävän muuttujan SATO vaihtelusta 41 %. Muuttuja LANNOITE on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen. Sen mukaan lannoiteaineen määrän lisääminen aina kasvattaa satoa. Tämä on kuitenkin ristiriidassa sen kanssa, että (a)-kohdan pistediagrammista nähtiin, että lannoiteaineen määrän lisääminen kasvattaa satoa vain aluksi ja tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa. TKK/SAL Ilkka Mellin (2005) 3/37

4 Residuaalidiagrammi (SOVITE, RESIDUAALI) Regressiomallien tuloksia analysoitaessa on aina syytä piirtää residuaalidiagrammi (SOVITE, RESIDUAALI) Diagrammi näyttää miten hyvin malli kuvaa selitettävän muuttujan käyttäytymistä. Kuvio saattaa paljastaa mallin rakenneosan virheellisen muotoilun, residuaalien heteroskedastisuuden ja poikkeavat havainnot. Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 2.0 Regression Residual Plot 1.2 Standardized Residuals Fitted values Residuaalit eivät muodosta hyvän mallin vaakasuoraa ja tasaleveätä pisteiden vyötä. Residuaalikuvio kertoo samaa kuin (a)-kohdan pistediagrammi: Tavanomainen yhden selittäjän lineaarinen regressiomalli ei kuvaa hyvin muuttujan SATO riippuvuutta muuttujasta LANNOITE. Johtopäätös: Mallin (1) rakenneosa on virheellistä muotoa. TKK/SAL Ilkka Mellin (2005) 4/37

5 (c) MODIFIOIDUN REGRESSIOMALLIN FORMUOLINTI JA ESTIMOINTI Lisäselittäjän konstruointi Kohtien (a) ja (b) tulosten perusteella mallin (1) rakenneosaa päätetään korjata lisäämällä malliin (1) selittäjäksi lannoiteaineen määrän neliö. Tällöin saadaan malli, jonka rakenneosa on muotoa f(x) = β 0 + β 1 x + β 2 x 2 Funktion f kuvaaja on paraabeli. On odotettavissa, että kerroin β 2 on negatiivinen. Tällöin paraabeli aukeaa alaspäin ja sillä on yksikäsitteinen globaali maksimi, mikä sopii yhteen kohdan (a) pistediagrammista saatavien tietojen kanssa. Huomaa, että syntyvä malli on regressiokertoimiensa β 0, β 1, β 2 suhteen lineaarinen malli, jonka (aitoina) selittäjinä ovat x ja x 2. Koska malli on lineaarinen, sen parametrit voidaan estimoida tavanomaisilla lineaarisen mallin estimointimenetelmillä. Lisätään lannoiteaineen määrän neliö muuttujaksi LANSQR tiedostoon SATO: Data > Transformations Transformation Expression LANSQR = LANNOITE * LANNOITE TKK/SAL Ilkka Mellin (2005) 5/37

6 Mallin estimointi Olkoon mallina (2) SATO = β 0 + β 1 LANNOITE + β 2 LANSQR + ε Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE, LANSQR STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT LANNOITE LANSQR R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 33 MISSING CASES 0 Mallin (2) selitysaste on kasvanut 87 %:iin. Sekä LANNOITE että LANSQR ovat selittäjinä tilastollisesti merkitseviä. Muuttujan LANSQR regressiokerroin on negatiivinen, mikä merkitsee sitä, että mallin rakenneosa on muuttujan LANNOITE funktiona alaspäin aukeava paraabeli, mikä vastaa graafisen tarkastelun ja yhden selittäjän mallista saatua kuvaa muuttujien SATO ja LANNOITE riippuvuuden luonteesta. TKK/SAL Ilkka Mellin (2005) 6/37

7 Residuaalidiagrammi (Sovite, Residuaali) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 3 Regression Residual Plot 2 Standardized Residuals Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole enää selviä puutteita. Sen sijaan residuaalidiagrammi viittaa jäännöstermin heteroskedastisuuteen. Homoskedastisuusoletuksen testaaminen jätetään lukijalle; ota mallia tehtävästä 4. TKK/SAL Ilkka Mellin (2005) 7/37

8 2. POIKKEAVAT HAVAINNOT 7. harjoitusten tehtävässä 5 testattiin ostovoimapariteetti-hypoteesin voimassaoloa aineistossa, johon oli kerätty tiedot valuuttojen keskimääräisistä vuosimuutoksista vaihtokursseissa USA:n dollariin nähden ja keskimääräisten vuotuisten inflaatio-vauhtien erotuksista USA:han nähden 44 maasta. Tiedot on talletettu STATISTIX-tiedostoon PPP. Ostovoimapariteetti-hypoteesin testaus tapahtuu estimoimalla regressiomalli jossa (1) CEXCR75 = β 0 + β 1 CINFR75 + ε CEXCR75 = Keskimääräinen vuosimuutos vaihtokurssissa USA:n dollariin nähden vuosina CINFR75 = Keskimääräisten vuotuisten inflaatiovauhtien erotus USA:han nähden vuosina ja testaamalla tilastollisia hypoteeseja H 00 : β 0 = 0 H 01 : β 1 = 1 Residuaaleja kuvaavien diagrammien perusteella aineistossa on poikkeuksellinen havainto: IRAN Tarkastellaan nyt poikkeavan havainnon tunnistamista erityisesti tähän tarkoitukseen konstruoitujen tunnuslukujen avulla. Aineisto on annettu STATISTIX-tiedostossa PPP. (a) (b) (c) Estimoi malli (1) PNS-menetelmällä ja talleta tiedostoon seuraavat muuttujat: LEVERAGE = Vipuluku (leverage) STANDARDIZED RESIDUAL DIST P (DIST) OUT P (OUT) = Standardoitu eli studentisoitu residuaali = Cooken etäisyys = Cooken etäisyyttä vastaava p-arvo = Standardoitu poistoresiduaali = Poistoresiduaalia vastaava p-arvo Tunnista poikkeavat havainnot kohdassa (a) määrättyjen tunnuslukujen avulla. Käytä tällöin apuna myös sopivia graafisia esityksiä. Tulkitse todennäköisyydet P (DIST) ja P (OUT). Estimoi malli uudelleen ilman poikkeavia havaintoja ja tutki miten havaintojen poistaminen vaikuttaa regressiokertoimien estimaatteihin ja selitysasteeseen. TKK/SAL Ilkka Mellin (2005) 8/37

9 RATKAISU: (a) MALLIN ESTIMOINTI Piirretään pistediagrammi (CINFR75, CEXCR75) Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = CINFR75 Y Axis Variables = CEXCR75 60 Scatter Plot of CEXCR75 vs CINFR75 40 CEXCR CINFR75 Muuttujien CEXCR75 ja CINFR75 riippuvuus näyttää lineaariselta, mutta havaintojen joukossa näyttää olevan (ainakin) yksi poikkeava (nuolella kuviossa merkitty) havainto: IRAN TKK/SAL Ilkka Mellin (2005) 9/37

10 Mallin estimointi Olkoon mallina (1) CEXCR75 = β 0 + β 1 CINFR75 + ε Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP, , 11:36:49 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT CINFR R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 44 MISSING CASES 0 Malli selittää selitettävän muuttujan CEXCR75 vaihtelusta 97 %. Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa. Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5. TKK/SAL Ilkka Mellin (2005) 10/37

11 Pistediagrammi ja regressiosuora luottamusvöineen Piirretään pistediagrammi (SELITTÄJÄ, SELITETTÄVÄ), estimoitu PNS-suora sekä luottamusvyöt ennusteille. Linear Regression Coefficient Table Results > Plots > Simple Regression Plot 60 Simple Regression Plot 40 CEXCR CINFR75 CEXCR75 = -9.28E * CINFR75 95% conf and pred intervals Poikkeava havainto IRAN asettuu selvästi luottamusvöiden ulkopuolelle. TKK/SAL Ilkka Mellin (2005) 11/37

12 Residuaalidiagrammi (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 5 Regression Residual Plot 3 Standardized Residuals Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole puutteita. Sen sijaan poikkeava havainto IRAN erottuu selvästi. TKK/SAL Ilkka Mellin (2005) 12/37

13 Poikkeavien havaintojen tunnistamiseen tarkoitetut tunnusluvut Talletetaan tiedostoon PPP poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaiset arvot. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Levarage = LEV Standardized Residual = STDRES Distance = DIST P (Distance) = PDIST Outlier = OUT P (Outlier) = POUT (b) POIKKEAVIEN HAVAINTOJEN TUNNISTAMINEN Tulostetaan havainnot muuttujista LEV, OUT, POUT, DIST, PDIST. STATISTIX FOR WINDOWS PPP CASE LEV OUT POUT DIST PDIST Edellä piirrettyjen kuvioiden perusteella havainto 21 (IRAN) on poikkeava. Vipuluku (levarage) ei kuitenkaan ole havainnon 21 kohdalla poikkeavan suuri. Sen sijaan poistoresiduaali OUT ja sitä vastaava p-arvo POUT sekä Cooken etäisyys DIST ja sitä vastaava ns. pseudotodennäköisyys PDIST indikoivat selvästi, että havainto on poikkeava. Ks. lisätietoja STATISTIX-ohjelman Helpistä. Jos poikkeavien havaintojen tunnistamiseen käytetään poistoresiduaaleja OUT ja Cooken etäisyyksiä DIST, aineistossa ei ole muita poikkeavia havaintoja kuin IRAN. TKK/SAL Ilkka Mellin (2005) 13/37

14 Esitetään Cooken etäisyydet vielä graafisesti havaintojen numeroinnin määräämässä järjestyksessä. Statistics > Summary Statistics > Scatter Plot X Axis Variables = COUNTRY Y Axis Variables = DIST 0.30 Scatter Plot of DIST vs COUNTRY DIST COUNTRY Poikkeavaa havaintoa IRAN vastaava Cooken etäisyys erottuu selvästi. TKK/SAL Ilkka Mellin (2005) 14/37

15 (c) MALLIN ESTIMOINTI ILMAN POIKKEAVAA HAVAINTOA Olkoon mallina (1) CEXCR75 = β 0 + β 1 CINFR75 + ε Poistetaan ensin havainto 21: Data > Omit/Select/Restore Cases Omit/Select/Restore Expression Omit Case = 21 Estimoidaan malli. Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT CINFR R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 43 MISSING CASES 0 Havainnon IRAN poistaminen mallista, on nostanut selitysasteen arvosta 97.2 % arvoon 98.8 %. Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa. Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5. TKK/SAL Ilkka Mellin (2005) 15/37

16 Tarkasteltaessa poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaisia arvoja havaitaan, että havainto 23 on Cooken etäisyyden DIST mukaan ja havainnot 11 ja 12 ovat taas poistoresiduaalien OUT mukaan epäilyttäviä (tarkista tämä). Kun malli estimoidaan uudelleen ilman poikkeavia havaintoja, saattaa ilmaantua uusia poikkeavia havaintoja. Vaikutusvaltaiset poikkeavat havainnot estävät usein lievemmin poikkeavien havaintojen poikkeuksellisuuden näkymästä. TKK/SAL Ilkka Mellin (2005) 16/37

17 3. MUUTTUJATRANSFORMAATIOT JA MALLIN LINEARISOINTI Vaikka selitettävän muuttujan y riippuvuus selittävästä muuttujasta x olisi luonteeltaan epälineaarinen, sopivasti muunnettujen muuttujien välille saattaa olla mahdollista muodostaa hyvin toimiva lineaarinen malli. Toisin sanoen on mahdollista löytää funktiot f ja g siten, että (1) f(y j ) = β 0 + β 1 g(x j ) + ε j, j = 1, 2,, n STATISTIX-tiedostoon TRANS on talletettu muuttujat X, Y2, Y4PLUS, Y5. Muuttujat Y1, Y2, Y3 ovat selitettäviä muuttujia ja muuttuja X on kaikille yhteinen selittäjä. Kaikki muuttujat ovat keinotekoisia ja tehtävänä on selvittää, mitä transformaatiota on mitäkin selitettävää muuttujaa Y = Y2 / Y4PLUS / Y5 generoitaessa käytetty. Ehdokkaat ovat seuraavat: (i) f ( y) = y g( x) = log( x) (ii) f ( y) = y g( x) = x (iii) f ( y) = y g( x) = 1/ x Tee jokaiselle selitettävän muuttujan Y = Y2 / Y4PLUS / Y5 ja selittäjän X parille seuraavat operaatiot: (a) (b) Piirrä pistediagrammi (X, Y). Estimoi lineaarinen malli (2) Y = β 0 + β 1 X + ε ja piirrä residuaalikuvio (SOVITE, RESIDUAALI). (c) Valitse kohdissa (a) ja (b) piirrettyjen kuvioiden perusteella sopivat muunnokset f ja g, jotka linearisovat mallin. (d) (e) (f) Tee muunnokset ja piirrä pistediagrammi (g(x), f(y)). Estimoi malli (1) ja piirrä residuaalikuvio (SOVITE, RESIDUAALI). Päättele kohtien (d) ja (e) kuvioiden perusteella, että olet valinnut oikein. TKK/SAL Ilkka Mellin (2005) 17/37

18 RATKAISU: (a) PISTEDIAGRAMMIT Piirretään pistediagrammit (X, Y) jossa Y = Y2 / Y4PLUS / Y5. Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = X Y Axis Variables = Y2 / Y4PLUS / Y5 Pistediagrammi (X, Y2): 15 Scatter Plot of Y2 vs X 11 Y X TKK/SAL Ilkka Mellin (2005) 18/37

19 Pistediagrammi (X, Y4PLUS): 12 Scatter Plot of Y4PLUS vs X 10 Y4PLUS X Pistediagrammi (X, Y5): Scatter Plot of Y5 vs X Y X TKK/SAL Ilkka Mellin (2005) 19/37

20 Kaikissa kolmessa diagrammissa muuttujan Y = Y2 / Y4PLUS / Y5 ja X riippuvuus näyttää epälineaariselta. Koska vaihtoehdot muuttujan X muunnoksille on annettu, on helppo päätellä, että muuttuja Y2 liittyy muunnokseen (iii). Sen sijaan muuttujiin Y4PLUS ja Y5 liittyvien muunnosten tunnistaminen ei ole yhtä helppoa. Koska kuitenkin muuttujan Y4PLUS kuviossa pisteparven olkapää on pyöreämpi, voidaan tehdä arvaus, että muuttuja Y4PLUS liittyy muunnokseen (i) ja muuttuja Y5 liittyy muunnokseen (ii). (b) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN Mallien estimointi Olkoon mallina (1) Y = β 0 + β 1 X + ε jossa Y = Y2 / Y4PLUS / Y5. Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = X Residuaalidiagrammit (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammit (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values TKK/SAL Ilkka Mellin (2005) 20/37

21 Otteet estimointituloksista Malli: Y2 = β 0 + β 1 X + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT X R-SQUARED Regression Residual Plot Standardized Residuals Fitted values Mallin selitysaste on 41 %. Muuttuja X on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu. TKK/SAL Ilkka Mellin (2005) 21/37

22 Malli: Y4PLUS = β 0 + β 1 X + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT X R-SQUARED Regression Residual Plot 2 Standardized Residuals Fitted values Mallin selitysaste on 69 %. Muuttuja X on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu. TKK/SAL Ilkka Mellin (2005) 22/37

23 Malli: Y5 = β 0 + β 1 X + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT X R-SQUARED Regression Residual Plot 1.8 Standardized Residuals Fitted values Mallin selitysaste on 71 %. Muuttuja X on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu. TKK/SAL Ilkka Mellin (2005) 23/37

24 (c) MUUNNOSTEN IDENTIFIOINTI Kohtien (a) ja (b) tulosten perusteella teemme seuraavat identifioinnit: Y2: f ( y) = y g( x) = 1/ x Y 4PLUS: f ( y) = y g( x) = log( x) Y5: f ( y) = y g( x) = x (d) MUUNNOKSET JA PISTEDIAGRAMMIT Muunnokset Lisätään muuttujat XINV: gx ( ) = 1/ x XLOG : gx ( ) = log( x) XSQRT : gx ( ) = x tiedostoon TRANS. Data > Transformations Transformation Expression XINV = 1 / X Data > Transformations Transformation Expression XLOG = Ln(X) Data > Transformations Transformation Expression XSQRT = Sqrt( X) TKK/SAL Ilkka Mellin (2005) 24/37

25 Pistediagrammit Piirretään pistediagrammit (X, Y) jossa X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5. Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = XINV / XLOG / XSQRT Y Axis Variables = Y2 / Y4PLUS / Y5 Display Regression Line Pistediagrammi (XINV, Y2): 15 Scatter Plot of Y2 vs XINV 11 Y XINV TKK/SAL Ilkka Mellin (2005) 25/37

26 Pistediagrammi (XLOG, Y4PLUS): 12 Scatter Plot of Y4PLUS vs XLOG 10 Y4PLUS XLOG Pistediagrammi (XSQRT, Y5): 14 Scatter Plot of Y5 vs XSQRT 11 Y XSQRT Kaikkien yo. pistediagrammeissa muuttujien X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5 riippuvuus näyttää lineaariselta. TKK/SAL Ilkka Mellin (2005) 26/37

27 Tarkastellaan vielä muuttujapareja (XLOG, Y5) ja (XSQRT, Y4PLUS). Pistediagrammi (XLOG, Y5): 14 Scatter Plot of Y5 vs XLOG 11 Y XLOG Pistediagrammi (XLOG, Y5) 12 Scatter Plot of Y4PLUS vs XSQRT 10 Y4PLUS XSQRT TKK/SAL Ilkka Mellin (2005) 27/37

28 Nämä pistediagrammit osoittavat, että Y 4PLUS: f ( y) = y g( x) = log( x) Y5: f ( y) = y g( x) = x ovat oikeat valinnat. Tämä perustuu seuraaviin huomioihin: (i) Pistediagrammissa (XLOG, Y5) pistepilvi käyristyy regressiosuoran alapuolelle. Siten muunnos gx ( ) = xei linearisoi muuttujan X ja Y4PLUS välistä riippuvuutta. (ii) Pistediagrammissa (XSQRT, Y4PLUS) pistepilvi käyristyy regressiosuoran yläpuolelle. Siten muunnos gx ( ) = log( x) ei linearisoi muuttujan X ja Y5 välistä riippuvuutta. (e) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN MUUNNETUISTA MUUTTUJISTA Mallien estimointi Olkoon mallina (1) Y = β 0 + β 1 X + ε jossa Y = Y2 / Y4PLUS / Y5 ja X = XINV / XLOG / XSQRT Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = XINV / XLOG / XSQRT Residuaalidiagrammit (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammit (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values TKK/SAL Ilkka Mellin (2005) 28/37

29 Otteet estimointituloksista Malli: Y2 = β 0 + β 1 XINV + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT XINV R-SQUARED Regression Residual Plot 1.8 Standardized Residuals Fitted values Mallin selitysaste on 82 %. Muuttuja XINV on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu. TKK/SAL Ilkka Mellin (2005) 29/37

30 Malli: Y4PLUS = β 0 + β 1 XLOG + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT XLOG R-SQUARED Regression Residual Plot 1.8 Standardized Residuals Fitted values Mallin selitysaste on 84 %. Muuttuja XLOG on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu. TKK/SAL Ilkka Mellin (2005) 30/37

31 Malli: Y5 = β 0 + β 1 XSQRT + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT XSQRT R-SQUARED Regression Residual Plot 1.8 Standardized Residuals Fitted values Mallin selitysaste on 75 %. Muuttuja XSQRT on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu. TKK/SAL Ilkka Mellin (2005) 31/37

32 (f) JOHTOPÄÄTÖKSET Kohdan (e) perusteella näyttää siltä, että seuraavat muunnokset ovat oikeita: Y2: f ( y) = y g( x) = 1/ x Y 4PLUS: f ( y) = y g( x) = log( x) Y5: f ( y) = y g( x) = x Nämä ovat todellakin ne muunnokset, joita on käytetty havaintojen generoinnissa: Y2: y = 5+ 2 x+ ε Y 4 PLUS: y = 6 + 2log( x) + ε Y5: y = 6+ 2 x + ε Muuttujat x ja ε generoitiin seuraavasti: x Uniform(0,10) ε N(0,1) TKK/SAL Ilkka Mellin (2005) 32/37

33 4. HOMOSKEDASTISUUDEN TESTAAMINEN STATISTIX-tiedostoon CITYDATA on talletettu seuraavat muuttujat: HSEVAL = Omakotitalojen hintojen keskiarvo SIZEHSE = Talojen mediaanikoko TAXRATE = Kiinteistöverosuhde TOTEXP = Kunnallispalveluihin käytetty rahamäärä COMPER = Vuokratalojen osuus Aineisto koostuu 90 USA:n kuntaa koskevista tiedoista. (a) Estimoi lineaarinen regressiomalli HSEVAL = β 0 + β 1 SIZEHSE + β 2 TAXRATE + β 3 TOTEXP + β 4 COMPER + ε Ovatko kaikki selittäjät tilastollisesti merkitseviä? Tuntuvatko regressiokertoimien estimaattien merkit järkeviltä? (b) Piirrä residuaalikuvio (SOVITE, RESIDUAALI). Ovatko residuaalit homo- vai heteroskedastisia? (c) Tee homoskedastisuustesti, joka perustuu apuregressioon 2 ej = α + α yj + δ j 0 1ˆ Jos R 2 on tästä apuregressiosta määrätty selitysaste, niin 2 nr χ 2 (1) homoskedastisuusoletuksen pätiessä. Ovatko residuaalit homo- vai heteroskedastisia? TKK/SAL Ilkka Mellin (2005) 33/37

34 RATKAISU: (a) MALLIN ESTIMOINTI Olkoon mallina (1) HSEVAL = β 0 + β 1 SIZEHSE + β 2 TAXRATE + β 3 TOTEXP + β 4 COMPER + ε Statistics > Linear Models > Linear Regression Dependent Variable = HSEVAL Independent Variables = SIZEHSE, TAXRATE, TOTEXP, COMPER STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF HSEVAL PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF CONSTANT SIZEHSE TAXRATE TOTEXP 1.423E E COMPER R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 90 MISSING CASES 0 Mallin selitysaste on 55 %. Kaikki selittäjät ovat tilastollisesti merkitseviä ja merkeiltään järkeviä (pohdi tätä). TKK/SAL Ilkka Mellin (2005) 34/37

35 (b) RESIDUAALIDIAGRAMMI (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 4 Regression Residual Plot Standardized Residuals Fitted values Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu, mutta jäännöstermit saattavat olla heteroskedastisia, koska residuaalien vyö levenee oikealle. (c) HOMOGEENISUUDEN TESTAAMINEN Tässä käytettävä homogeenisuustesti perustuu apuregressioon 2 e 0 1ˆ, 1,2,, j = α + α yj + δ j j = n Jos R 2 on tästä apuregressiosta määrätty selitysaste, niin 2 nr χ 2 (1) homoskedastisuusoletuksen pätiessä. TKK/SAL Ilkka Mellin (2005) 35/37

36 Sovitteiden ja residuaalien tallettaminen Talletetaan sovitteet ja residuaalit tiedostoon CITYDATA. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Lisätään residuaalien neliöt muuttujaksi RESSQR tiedostoon CITYDATA. Data > Transformations Transformation Expression RESSQR = RES * RES Apuregression estimointi Olkoon mallina (2) RESSQR = β 0 + β 1 FIT + ε Statistics > Linear Models > Linear Regression Dependent Variable = RESSQR Independent Variables = FIT STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF RESSQR PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT FIT R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 90 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 36/37

37 Homogeenisuustesti Olkoon nollahypoteesina 2 H 0 :Var( ε ) σ, 1,2,, j = j = # n Nollahypoteesin H 0 pätiessä 2 nr χ 2 (1) jossa R 2 on em. apuregression selitysaste. Nyt nr 2 = = Testisuureen arvoa vastaava p-arvo saadaan seuraavalla STATISTIX-operaatiolla: Statistics > Probability Functions Chi-square (x, df) X = DF = 1 Koska testisuuteen arvoa vastaava p-arvo = , voidaan nollahypoteesi mallin (1) jäännöstermin homoskedastisuudesta hylätä merkitsevyystasolla 0.05, mutta ei merkitsevyystasolla Johtopäätös: Mallin (1) jäännöstermi on jonkin verran heteroskedastinen. TKK/SAL Ilkka Mellin (2005) 37/37

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Mat Tilastollisen analyysin perusteet

Mat Tilastollisen analyysin perusteet / Mat-2.21 04 Tilastollisen analyysin perusteet Tentti 24.5.2013/Virtanen Kirjoita selvasti jokaiseen koepaperiin alia mainitussa jarjestyksessa: Mat-2.2104 Tap 24.5.2013 opiskelijanumero kirjain TEKSTATEN

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Lisätiedot

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiomallin valinta TKK (c) Ilkka Mellin (2004) 1 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien

Lisätiedot

A B DIFFERENCE

A B DIFFERENCE I Mat-2.21 04 Tilastollisen analyysin perusteet Tentti 10.5.2013Nirtanen Ki~oita selvasti jokaiseen koepaperiin alia mainitussa ja~estyksessa: 0HJEITA Mat-2.2104 Tap 10.5.2013 opiskelijanumero ki~ain TEKSTATEN

Lisätiedot

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 1 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Menestyminen valintakokeissa ja todennäköisyyslaskussa 21.5.21 Menestyminen valintakokeissa ja todennäköisyyslaskussa Esa Pursiheimo 45761L 1 JOHDANTO...2 2 LÄHTÖTIEDOT JA OTOS...3 3 PÄÄSYKOETULOKSIEN YHTEISJAKAUMA...4 4 REGRESSIOANALYYSI...9 4.1 MALLI JA

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiomallin valinta TKK (c) Ilkka Mellin (2007) 1 Regressiomallin valinta >> Regressiomallin valinta: Johdanto Mallinvalintatestit

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiodiagnostiikka TKK (c) Ilkka Mellin (2007) 1 Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten

Lisätiedot

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ...

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset. Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT imat-2.104 Tilastollisen analyysin perusteet / Tehtävät Aiheet: Avainsanat: Ysisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Koonaisesiarvo,

Lisätiedot

A250A0050 Ekonometrian perusteet Tentti

A250A0050 Ekonometrian perusteet Tentti A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin

Lisätiedot

1. PARAMETRIEN ESTIMOINTI

1. PARAMETRIEN ESTIMOINTI Mat-.04 Tlastollse aalyys perusteet Mat-.04 Tlastollse aalyys perusteet / Ratkasut Aheet: Avasaat: Yhde selttäjä leaare regressomall Estmaatt, Estmaattor, Estmot, Jääöselösumma, Jääösterm, Jääösvarass,

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2005) 1 Johdatus regressioanalyysiin Regressioanalyysin lähtökohdat ja tavoitteet Deterministiset mallit ja regressioanalyysi

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle] Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa: Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,

Lisätiedot

MS-C2{04 Tilastollisen analyysin perusteet

MS-C2{04 Tilastollisen analyysin perusteet MS-C2{04 Tilastollisen analyysin perusteet Tentti 7.4.20 4A/irtanen Kirjoita selvästi jokaiseen koepaperiin alla mainitussa järjestyksessä: OHlprrn (i) (ii) MS-C204 TAP 7.4.204 opiskelijanumero + kirjain

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Frequencies. Frequency Table

Frequencies. Frequency Table GET FILE='C:\Documents and Settings\haukkala\My Documents\kvanti\kvanti_harjo'+ '_label.sav'. DATASET NAME DataSet WINDOW=FRONT. FREQUENCIES VARIABLES=koulv paino /ORDER= ANALYSIS. Frequencies [DataSet]

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.4 Tilastollise aalyysi perusteet, kevät 7 9. lueto: Regressiomalli validoiti Kai Virtae Regressiomalli validoiista Estimoitu hieo regressiomalli: Kuvaako malli tutkittavaa ilmiötä oikei? Kuika hyvi

Lisätiedot

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalyysi Bonferronin menetelmä, F-testi, Jäännösneliösumma, Kaksisuuntainen varianssianalyysi Kokonaiskeskiarvo,

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Yleinen lineaarinen malli

Yleinen lineaarinen malli MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: 1 Määritelmä ja standardioletukset 2

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet

Lisätiedot

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1 Vastepintamenetelmä Vilkkumaa / Kuusinen 1 Motivointi Varianssianalyysissa tutkitaan tekijöiden vaikutusta vasteeseen siten, että tekijöiden tasot on ennalta valittu. - Esim. tutkitaan kemiallisen prosessin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Harjoitukset 4 : Paneelidata (Palautus )

Harjoitukset 4 : Paneelidata (Palautus ) 31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 4 : Paneelidata (Palautus 7.3.2017) Tämän harjoituskerran tarkoitus on perehtyä

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016) Tavoitteet (teoria): Hahmottaa aikasarjan klassiset komponentit ideaalisessa tilanteessa. Ymmärtää viivekuvauksen vaikutus trendiin. ARCH-prosessin

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I Lumipallo regressioanalyysista jokainen kirjoittaa lapulle yhden lauseen regressioanalyysista ja antaa sen seuraavalle Logistinen regressioanalyysi Y250. Kvantitatiiviset menetelmät (6 op) Hanna Wass tutkijatohtori

Lisätiedot

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli: 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. Son height (cm) 21 2 19 18 17 16 15 15

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Partiotoiminnan laatuun vaikuttavat tekijät vuosiselostedatan perusteella Uudenmaan Partiopiirissä

Partiotoiminnan laatuun vaikuttavat tekijät vuosiselostedatan perusteella Uudenmaan Partiopiirissä Mat-2.4108 Sovelletun matematiikan erikoistyöt 15. toukokuuta 2009 Partiotoiminnan laatuun vaikuttavat tekijät vuosiselostedatan perusteella Uudenmaan Partiopiirissä Teknillinen korkeakoulu Teknillisen

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus

Lisätiedot

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen! 8069 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2013 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOLLA 9! Ilmoittaudu Weboodissa 4.3.2013 klo

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Mat-2.104 Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Mat-2.104 Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat: Mat-.04 Tilastollise aalyysi perusteet / Ratkaisut Aiheet: Avaisaat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahde riippumattoma otokse t-testit, Nollahypoteesi, p-arvo, Päätössäätö, Testi,

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot