1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA
|
|
- Anni Kivelä
- 7 vuotta sitten
- Katselukertoja:
Transkriptio
1 Mat Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi, Jäännösvarianssin estimointi, Regressiokertoimen t- arvo, Kokonaisneliösumma, Lineaarinen regressiomalli, Mallineliösumma, Merkitsevyystaso, p-arvo, Pienimmän neliösumman menetelmä, Regressiokerroin, Regressio-kertoimen hajonta, Regressiokertoimen luottamusväli, Regressiokertoimen t-arvo, Regressiokertoimen estimointi, Residuaali, Satunnainen osa, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Sovite, Suoran kulmakerroin, Testi regressiokertoimelle, Testi selitysasteelle, Vakioselittäjä, Varianssianalyysihajotelma, Yhden selittäjän lineaarinen regressiomalli 1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA STATISTIX-tiedostossa TUPAKKA on annettu seuraavat tiedot 11 maasta: KULUTUS = Savukkeiden kulutus per capita 1930 SAIRAST = Keuhkosyöpätapausten lukumäärä per henkilöä 1950 Aineistoa on käsitelty 5. luentoviikon harjoitustehtävässä 2. (a) (b) (c) (d) (e) (d) Formuloi yhden selittäjän lineaarinen regressiomalli, jossa muuttujaa SAIRAST selitetään muuttujalla KULUTUS ja jossa on mukana vakio. Esitä tulkinnat mallin regressiokertoimille. Estimoi mallin regressiokertoimet PNS-menetelmällä ja esitä tulkinnat estimoiduille regressiokertoimille. Määrää kertoimien hajonnat sekä muodosta regressiosuoran kulmakertoimelle 95 %:n luottamusväli. Määrää estimoidun mallin selityaste. Onko regressiosuoran kulmakerroin tilastollisesti merkitsevä? Käytä testissä 1 %:n merkitsevyystasoa. Testaa nollahypoteesia, jonka mukaan muuttujan KULUTUS regressiokerroin on nolla estimoidun mallin selitysasteeseen perustuvalla F-testillä 1 %:n merkitsevyystasoa käyttäen. Ota saamastasi testisuureen arvosta neliöjuuri ja vertaa sitä kohdassa (e) käyttämäsi testisuureen arvoon. Onko tulos sattuma? TKK/SAL Ilkka Mellin (2005) 1/28
2 RATKAISU: (a) MALLIN FORMULOINTI Formuloidaan yhden selittäjän lineaarinen regressiomalli: Mallissa ja yi = β0 + β1 xi + εi, i = 1,2,, n y t = SAIRAST = Selitettävä muuttuja x t = KULUTUS = Selittävä muuttuja ε t = Jäännöstermi β 0 = Regressiokerroin, vakio β 1 = Selittävän muuttujan KULUTUS regressiokerroin Regressiokertoimien tulkinta: β 0 : Jos maassa ei ole poltettu tupakkaa (KULUTUS = 0) vuonna 1930, kerroin β 0 kertoo keuhkosyöpään sairastuneiden lukumäärän per henkilöä vuonna β 1 : Jos maassa A on vuonna 1930 poltettu 1 savuke enemmän per capita kuin maassa B, niin kerroin β 1 kertoo kuinka monta keuhkosyöpätapausta per henkilöä enemmän tai vähemmän maassa A on tavattu maahan B verrattuna vuonna TKK/SAL Ilkka Mellin (2005) 2/28
3 (b) REGRESSIOKERTOIMIEN ESTIMOINTI Käytämme kertoimien estimointiin pienimmän neliösumman menetelmää. Selitettävä muuttuja (Dependent Variable) = SAIRAST Selittävä muuttuja eli selittäjä (Independent Variable) = KULUTUS Statistics > Linear Models > Linear Regression Dependent Variable = SAIRAST Independent Variables = KULUTUS STATISTIX FOR WINDOWS TUPAKKA UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SAIRAST PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT KULUTUS R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 11 MISSING CASES 0 Regressiokertoimet COEFFICIENT CONSTANT b 0 = Jos maassa ei ole poltettu tupakkaa (KULUTUS = 0) vuonna 1930, keuhkosyöpään sairastuneiden lukumäärä on ollut n. 66 per henkilöä vuonna COEFFICIENT KULUTUS b 1 = Jos maassa A on poltettu 1 savuke enemmän per capita kuin maassa B vuonna 1930, vuonna 1950 maassa A on tavattu n keuhkosyöpätapausta per henkilöä enemmän kuin maassa B. TKK/SAL Ilkka Mellin (2005) 3/28
4 (c) Kertoimien hajonnat ja luottamusvälit Kertoimien hajonnat STD ERROR CONSTANT ˆD( b 0) = KULUTUS ˆD( b 1) = Luottamusväli Määrätään ensin 95 %:n luottamusväliin liittyvät luottamuskertoimet. Statistics > Probability Functions Function =T Inverse (p, df) P = DF = 9 Results T Inverse(0.975, 9) = 2.26 Regressiosuoran kulmakertoimen β 1 95 %:n luottamusväli: b ± t ˆD( b) = ± = ± α /2 1 eli n. ( 0.07, 0.39) Huomaa, että luottamusväli on huomattavan leveä, koska havaintoja oli vain 11. (d) Estimoidun mallin selitysaste Selitysaste R-SQUARED R 2 = Estimoitu malli on selittänyt n. 55 % selitettävän muuttujan SAIRAST arvojen vaihtelusta. TKK/SAL Ilkka Mellin (2005) 4/28
5 (e) Kulmakertoimen tilastollinen merkitsevyys t-testi Nollahypoteesi: H 01 : β 1 = 0 t-testisuureen arvo STUDENT S T: t b Vastaava p-arvo P: = = = D( ˆ b1 ) p = Koska p < 0.01, nollahypoteesi H 01 voidaan hylätä 1 %:n merkitsevyystasolla. Johtopäätös: Suurempi tupakanpolton määrä lisää tilastollisesti merkitsevästi keuhkosyöpätapausten suhteellista lukumäärää. (f) Mallin tilastollinen merkitsevyys F-testi Nollahypoteesi: H 01 : β 1 = 0 F-testisuureen arvo F: Vastaava p-arvo P: 2 R F = ( n 2) = R p = Koska p < 0.01, nollahypoteesi H 01 voidaan hylätä 1 %:n merkitsevyystasolla. Selvästi F = t 1 Yhden selittäjän regressiomallissa tavanomainen t-testi ja tässä käsitelty F-testi nollahypoteesille H 01 ovat ekvivalentteja. TKK/SAL Ilkka Mellin (2005) 5/28
6 2. REGRESSIOANALYYSIN TULOSTEN GRAAFINEN ANALYYSI Jatkoa tehtävälle 1. (a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. (b) Määrää estimoidusta mallista sovitteet yˆi ja residuaalit ei STATISTIX-ohjelman regressioanalyysiohjelmalla ja tallettamalla ne tiedostoon TUPAKKA muuttujiksi FIT (= sovite) ja RES (= residuaali). (c) (d) RATKAISU: (a) Piirrä pistediagrammit (SAIRAST, FIT) ja (FIT, RES). Tutki USA:n sijaintia kuviossa. Onko USA poikkeava havainto? PISTEDIAGRAMMI JA REGRESSIOSUORA Piirretään selitettävän muuttujan SAIRAST arvot selittäjän KULUTUS arvoja vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = KULUTUS Y Axis Variables = SAIRAST Display Regession Line 490 Scatter Plot of SAIRAST vs KULUTUS 400 SAIRAST USA KULUTUS TKK/SAL Ilkka Mellin (2005) 6/28
7 (b) SOVITTEET JA RESIDUAALIT Talletetaan sovitteet yˆi (Fitted Value) ja residuaalit ei (Residual). Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES STATISTIX FOR WINDOWS TUPAKKA CASE MAA KULUTUS SAIRAST FIT RES 1 Islanti Norja Ruotsi Kanada Tanska Itavalta USA Hollanti Sveitsi Suomi GB (c) Pistediagrammit (Selitettävä, Sovite) ja (Sovite, Residuaali) Pistediagrammi (Selitettävä, Sovite) Piirretään sovitteet y selitettävän muuttujan SAIRAST arvoja vastaan. ˆi Statistics > Summary Statistics > Scatter Plot X Axis Variables = SAIRAST Y Axis Variables = FIT TKK/SAL Ilkka Mellin (2005) 7/28
8 Scatter Plot of FIT vs SAIRAST USA 260 FIT SAIRAST Diagrammi kuvaa mallin hyvyyttä: Malli on sitä parempi, mitä lähempänä pisteet ( y, yˆ ), i = 1, 2,, n ovat suoraa viivaa. Myös poikkeavat havainnot erottuvat usein selvästi. Huomaa, että pisteistä ( y, ˆ i yi), i = 1, 2,, n määrätty Pearsonin tulomomenttikorrelaatiokertoimen neliö on sama kuin selitysaste: Tarkista tämä! [ ] 2 2 Cor( yy, ˆ) = R i i Pistediagrammi (Sovite, Residuaali) Piirretään residuaalit e i sovitteita yˆi vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = FIT Y Axis Variables = RES TKK/SAL Ilkka Mellin (2005) 8/28
9 Scatter Plot of RES vs FIT RES 0-60 USA FIT Diagrammi kuvaa mallin hyvyyttä: Malli on sitä parempi, mitä lähempänä pisteet ( yˆ, e), i = 1, 2,, n ovat suoraa e = 0. Myös poikkeavat havainnot erottuvat usein selvästi. i i (d) Poikkeavat havainnot Kaikissa kohtien (a)-(c) diagrammeissa USA erottuu aika selvästi poikkeavana havaintona. 3. ENNUSTAMINEN YHDEN SELITTÄJÄN LINEAARISELLA REGRESSIOMALLILLA Jatkoa tehtävälle 1. (a) (b) (c) Määrää ennusteet ja luottamusvälit muuttujan SAIRAST arvolle, kun muuttuja KULUTUS saa arvot 600 ja Vertaa luottamusvälien pituuksia. Määrää ennusteet ja muuttujan SAIRAST odotettavissa olevalle arvolle, kun muuttuja KULUTUS saa arvot 600 ja Vertaa luottamusvälien pituuksia toisiinsa ja kohdan (a)-luottamusväleihin. Piirrä estimoidun regressioanalyysin tuloksien pohjalta luottamusvyöt muuttujan SAIRAST arvoille ja odotettavissa oleville arvoille. TKK/SAL Ilkka Mellin (2005) 9/28
10 RATKAISU: (a)&(b) Ennusteet selitettävän muuttujan arvoille ja odotettavissa oleville arvoille Ennuste 1 Ennustetaan keuhkosyöpätapausten lukumäärä ja odotettavissa oleva lukumäärä per henkilöä vuonna 1950 maassa, jossa tupakan kulutus on ollut 600 savuketta per capita vuonna Linear Regression Coefficient Table Results > Prediction Specification Method = Values Method Independent Variables = KULUTUS Predictor Values = 600 STATISTIX FOR WINDOWS TUPAKKA PREDICTED/FITTED VALUES OF SAIRAST LOWER PREDICTED BOUND LOWER FITTED BOUND PREDICTED VALUE FITTED VALUE UPPER PREDICTED BOUND UPPER FITTED BOUND SE (PREDICTED VALUE) SE (FITTED VALUE) UNUSUALNESS (LEVERAGE) PERCENT COVERAGE 95.0 CORRESPONDING T 2.26 PREDICTOR VALUES: KULUTUS = Ennuste selitettävän muuttujan SAIRAST arvolle PREDICTED VALUE ( yx= ˆ " 600) = Luottamusväli selitettävän muuttujan SAIRAST arvolle luottamustasolla 0.95 LOWER PREDICTED BOUND = UPPER PREDICTED BOUND = SE (PREDICTED VALUE) = (4.4396, ) = ± = ± TKK/SAL Ilkka Mellin (2005) 10/28
11 Ennuste selitettävän muuttujan SAIRAST odotettavissa olevalle arvolle FITTED VALUE ( yx= ˆ " 600) = Luottamusväli selitettävän muuttujan SAIRAST odotettavissa olevalle arvolle luottamustasolla 0.95 LOWER FITTED BOUND = UPPER FITTED BOUND = SE (FITTED VALUE) = (145.83, ) = ± = ± Luottamusväli selitettävän muuttujan SAIRAST arvolle on leveämpi kuin selitettävän muuttujan odotettavissa olevalle arvolle. Ennuste 2 Ennustetaan keuhkosyöpätapausten lukumäärä ja odotettavissa oleva lukumäärä per henkilöä vuonna 1950 maassa, jossa tupakan kulutus on ollut 1400 savuketta per capita vuonna Linear Regression Coefficient Table Results > Prediction Specification Method = Values Method Independent Variables = KULUTUS Predictor Values = 1400 STATISTIX FOR WINDOWS TUPAKKA PREDICTED/FITTED VALUES OF SAIRAST LOWER PREDICTED BOUND LOWER FITTED BOUND PREDICTED VALUE FITTED VALUE UPPER PREDICTED BOUND UPPER FITTED BOUND SE (PREDICTED VALUE) SE (FITTED VALUE) UNUSUALNESS (LEVERAGE) PERCENT COVERAGE 95.0 CORRESPONDING T 2.26 PREDICTOR VALUES: KULUTUS = TKK/SAL Ilkka Mellin (2005) 11/28
12 Ennuste selitettävän muuttujan SAIRAST arvolle PREDICTED VALUE ( yx= ˆ " 1400) = Luottamusväli selitettävän muuttujan SAIRAST arvolle luottamustasolla 0.95 LOWER PREDICTED BOUND = UPPER PREDICTED BOUND = SE (PREDICTED VALUE) = ± = ± = (151.97, ) Luottamusväli selitettävän muuttujan SAIRAST arvolle on leveämpi kuin selitettävän muuttujan odotettavissa olevalle arvolle. Lisäksi luottamusväli selitettävän muuttuja SAIRAST arvolle on pisteessä 1400 leveämpi kuin pisteessä 600, koska piste 1400 on kauempana selittäjän KULUTUS havaittujen arvojen aritmeettisesta keskiarvosta kuin piste 600. (c) Luottamusvyöt Piirretään selitettävän muuttujan SAIRAST arvot selittäjän KULUTUS arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot TKK/SAL Ilkka Mellin (2005) 12/28
13 Simple Regression Plot SAIRAST KULUTUS SAIRAST = * KULUTUS 95% conf and pred intervals Luottamusvöistä leveämpi on selitettävän muuttujan SAIRAST arvon luottamusvyö ja kapeampi on selitettävän muuttujan SAIRAST odotettavissa olevan arvon luottamusvyö. 4. POIKKEAVIEN HAVAINTOJEN VAIKUTUS Jatkoa tehtäville 1 ja 3. Tehtävän 5.2. ratkaisussa esitettiin syitä, miksi USA voidaan sulkea analysoitavan aineiston ulkopuolelle. (a) (b) (c) Estimoi regressiomallin parametrit uudelleen jättämällä USA pois. Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora sekä luottamusvyöt muuttujan SAIRAST arvoille ja odotettavissa oleville arvoille. Vertaa tuloksia tehtävissä 1 ja 3 saamiisi tuloksiin. Mitä on tapahtunut estimoidulle kulmakertoimelle, estimoidun mallin selitysasteelle ja ennusteiden luottamusvöille? TKK/SAL Ilkka Mellin (2005) 13/28
14 RATKAISU: (a) Parametrien estimointi Suljetaan USA estimoinnista pois. Data > Omit / Select / Restore Cases Omit / Select / Restore Expression Omit Case = 7 Estimoidaan mallin parametrit. Statistics > Linear Models > Linear Regression Dependent Variable = SAIRAST Independent Variables = KULUTUS STATISTIX FOR WINDOWS TUPAKKA UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SAIRAST PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT KULUTUS R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 10 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 14/28
15 (b) Luottamusvyöt Piirretään selitettävän muuttujan SAIRAST arvot selittäjän KULUTUS arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot 470 Simple Regression Plot SAIRAST KULUTUS SAIRAST = * KULUTUS 95% conf and pred intervals (c) Poikkeavan havainnon vaikutus USA Regressiosuoran kulmakerroin Estimoidun mallin selitysaste Mukana Poistettu Havainnon USA poistaminen on kasvattanut estimoidun regressiosuoran kulmakerrointa ja selitysastetta. USA kääntää mukana ollessaan estimoitua regressiosuoraa puoleensa ja pois muiden havaintojen muodostamasta lineaarisesta trendistä. Luottamusvyöt ovat ilman USA:ta selvästi kapeampia. TKK/SAL Ilkka Mellin (2005) 15/28
16 Johtopäätös: Malli todistaa tupakanpolton ja keuhkosyövän riippuvuudesta voimakkaammin, jos USA ei ole mukana estimoinnissa. 5. HYPOTEESIEN TESTAUS JA POIKKEAVIEN HAVAINTOJEN VAIKUTUS Ostovoimapariteetti-periaatteen mukaan muutokset kahden maan valuuttojen vaihtokurssissa tasapainottavat ennen pitkää maiden inflaatiovauhtien erot niin, että tehokkaassa kansainvälisessä taloudessa vaihtokurssit antavat kummallekin valuutalle omassa taloudessaan saman ostovoiman. Haluamme testata empiirisesti oletusta ostovoimapariteetti-periatteesta. Periaatetta voidaan testata estimoimalla eri maiden valuuttojen vaihtokurssien muutoksia ja inflaatiovauhtien erotuksia koskevista tiedoista regressioyhtälö jossa CEXCR = β 0 + β 1 CINFR + ε CEXCR = Keskimääräinen vuosimuutos vaihtokurssissa CINFR = Keskimääräisten vuotuisten inflaatiovauhtien erotus Ostovoimapariteetti-periaate vastaa tilastollisia hypoteeseja: H 00 : β 0 = 0 H 01 : β 1 = 1 STATISTIX-tiedostossa PPP on annettu seuraavat tiedot 44 maasta: CEXCR = Keskimääräinen vaihtokurssin vuosimuutos USA:n dollariin nähden CINFR = Keskimääräinen inflaatiovauhdin erotus USA:han verrattuna Tiedot on annettu kahdelta ajanjaksolta: (a) (b) (c) (d) (e) : CEXCR75, CINFR : CEXCR85, CINFR85 Estimoi regressiomallin parametrit ajanjakson tiedoista. Testaa ym. hypoteeseja. Analysoi estimoituloksia graafisesti piirtämällä seuraavat kuviot: Selitettävä vastaan selittäjä plus regressiosuora luottamusväleineen Sovite vastaan selitettävä Residuaali vastaan sovite Rankit Plot residuaaleista Identifioi ulkopuolinen havainto. Toista kohdat (a)-(c) ilman kohdassa (d) identifioitua ulkopuolista havaintoa ja vertaa tuloksia. TKK/SAL Ilkka Mellin (2005) 16/28
17 (f) Toista kohdat (a)-(b) ilman kohdassa (d) identifioitua ulkopuolista havaintoa ajanjakson tiedoista. Testitulosten mukaan ostovoimapariteetti-periaate pätee pitkällä aikavälillä, mutta ei lyhyellä! Tämä on myös talousteorian mukainen tulos. RATKAISU: (a) Mallin estimointi ajanjakson tiedoista Selitettävä muuttuja (Dependent Variable) = CEXCR75 Selittävä muuttuja eli selittäjä (Independent Variable) = CINFR75 Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT CINFR R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 44 MISSING CASES 0 (b) Hypoteesien testaus Olkoon nollahypoteesina H 00 : β 0 = 0 Koska kertoimen β 0 (= CONSTANT) t-testisuureen arvoa 0.02 vastaava p-arvo on , voidaan nollahypoteesi H 00 jättää voimaan. Olkoon nollahypoteesina H 01 : β 1 = 1 TKK/SAL Ilkka Mellin (2005) 17/28
18 Testisuureen arvo on t b β = = = D( ˆ b1 ) Koska t-testisuureen arvoa vastaava p-arvo on , voidaan nollahypoteesi H 01 jättää voimaan. Johtopäätös: Aineisto on sopusoinnussa ostovoimapariteetti-periaatteen kanssa. (c) Regressiografiikkaa Pistediagrammi (Selittäjä, Selitettävä) Piirretään selitettävän muuttujan CEXCR75 arvot selittäjän CINFR75 arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot 60 Simple Regression Plot 40 CEXCR CINFR75 CEXCR75 = -9.28E * CINFR75 95% conf and pred intervals TKK/SAL Ilkka Mellin (2005) 18/28
19 Pistediagrammi (Selitettävä, Sovite) Talletetaan sovitteet y ˆi ja residuaalit ei. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Piirretään sovitteet y ˆi selitettävän muuttujan arvoja yi vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = CEXCR75 Y Axis Variables = FIT 70 Scatter Plot of FIT vs CEXCR75 50 FIT CEXCR75 TKK/SAL Ilkka Mellin (2005) 19/28
20 Pistediagrammi (Sovite, Residuaali) Piirretään residuaalit e i sovitteita yˆi vastaan. Linear Regression Coefficient Table Results > Plots Std Resids by Fitted Values 5 Regression Residual Plot Standardized Residuals Fitted values TKK/SAL Ilkka Mellin (2005) 20/28
21 Rankit plot -kuvio Linear Regression Coefficient Table Results > Plots Wilk-Shapiro/Rankit Plot 3 Wilk-Shapiro / Rankit Plot Standardized Residuals Rankits Approximate Wilk-Shapiro cases Wilkin ja Shapiron testisuureen arvo on %:n merkitsevyystasoa vastaava kriittinen arvo on 0.944, joten nollahypoteesi normaalisuudesta joudutaan hylkäämään. (d) Poikkeavan havainnon identifiointi Nuolella yo. kuvioihin merkitty poikkeava havainto on havainto numero 21: Iran. TKK/SAL Ilkka Mellin (2005) 21/28
22 (e) Poikkeavan havainnon vaikutus Suljetaan IRAN estimoinnista pois. Data > Omit / Select / Restore Cases Omit / Select / Restore Expression Omit Case = 21 Estimoidaan mallin parametrit. Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT CINFR R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 43 MISSING CASES 0 Hypoteesien testaus Olkoon nollahypoteesina H 00 : β 0 = 0 Koska kertoimen β 0 (= CONSTANT) t-testisuureen arvoa 0.78 vastaava p-arvo on , voidaan nollahypoteesi H 00 jättää voimaan. TKK/SAL Ilkka Mellin (2005) 22/28
23 Olkoon nollahypoteesina H 01 : β 1 = 1 Testisuureen arvo on t b β = = = D( ˆ b1 ) Koska t-testisuureen arvoa 1.19 vastaava p-arvo on , voidaan nollahypoteesi H 01 jättää voimaan. Johtopäätös: Aineisto on sopusoinnussa ostovoimapariteetti-periaatteen kanssa. Pistediagrammi (Selittäjä, Selitettävä) Piirretään selitettävän muuttujan CEXCR75 arvot selittäjän CINFR75 arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot 60 Simple Regression Plot 40 CEXCR CINFR75 CEXCR75 = * CINFR75 95% conf and pred intervals TKK/SAL Ilkka Mellin (2005) 23/28
24 Pistediagrammi (Selitettävä, Sovite) Talletetaan sovitteet y ˆi ja residuaalit ei. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Piirretään sovitteet y ˆi selitettävän muuttujan arvoja yi vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = CEXCR75 Y Axis Variables = FIT 70 Scatter Plot of FIT vs CEXCR75 50 FIT CEXCR75 TKK/SAL Ilkka Mellin (2005) 24/28
25 Pistediagrammi (Sovite, Residuaali) Piirretään residuaalit e i sovitteita yˆi vastaan. Linear Regression Coefficient Table Results > Plots Std Resids by Fitted Values 2.7 Regression Residual Plot 1.8 Standardized Residuals Fitted values TKK/SAL Ilkka Mellin (2005) 25/28
26 Rankit plot -kuvio Linear Regression Coefficient Table Results > Plots Wilk-Shapiro/Rankit Plot 2.8 Wilk-Shapiro / Rankit Plot Standardized Residuals Rankits Approximate Wilk-Shapiro cases Wilkin ja Shapiron testisuureen arvo on %:n merkitsevyystasoa vastaava kriittinen arvo on 0.943, joten nollahypoteesi normaalisuudesta joudutaan hylkäämään, mutta ei niin voimakkaasti kuin silloin, kun Iran oli estimoitaessa mukana. Kun saatuja estimointituloksia ja tuloksia havainnollistavia diagrammeja verrataan niihin tuloksiin ja diagrammeihin, jotka on saatu, kun Iran on ollut estimoinnissa mukana, nähdään kuinka poikkeava havainto vaikuttaa selvästi estimointituloksiin ja digarammeihin. Iranin poikkeuksellisuus havaintona johtunee siitä, että ko. vuosina Iranissa tapahtui suuria mullistuksia: Shaahin kukistuminen ja fundamentalistisen hallituksen nousu valtaan. TKK/SAL Ilkka Mellin (2005) 26/28
27 (f) Mallin estimointi ajanjakson tiedoista Selitettävä muuttuja (Dependent Variable) = CEXCR85 Selittävä muuttuja eli selittäjä (Independent Variable) = CINFR85 Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR85 Independent Variables = CINFR85 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR85 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT CINFR R-SQUARED RESID. MEAN SQUARE (MSE) ADJUSTED R-SQUARED STANDARD DEVIATION SOURCE DF SS MS F P REGRESSION RESIDUAL TOTAL CASES INCLUDED 43 MISSING CASES 0 Hypoteesien testaus Olkoon nollahypoteesina H 00 : β 0 = 0 Koska kertoimen β 0 (= CONSTANT) t-testisuureen arvoa 5.24 vastaava p-arvo on neljällä desimaalilla , voidaan nollahypoteesi H 00 hylätä. Olkoon nollahypoteesina H 01 : β 1 = 1 Testisuureen arvo on t b β = = = D( ˆ b1 ) Koska t-testisuureen arvoa 3.12 vastaava p-arvo on , voidaan nollahypoteesi H 01 hylätä. Johtopäätös: Aineisto ei ole sopusoinnussa ostovoimapariteetti-periaatteen kanssa. TKK/SAL Ilkka Mellin (2005) 27/28
28 (f)-kohdassa saatu tulos ei liene ristiriidassa kohdassa (c) saatujen testitulosten kanssa, koska ostovoimapariteetin pitäisikin tulla esille vasta pitkällä aikavälillä. TKK/SAL Ilkka Mellin (2005) 28/28
1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,
Lisätiedot1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,
LisätiedotMat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset
Lisätiedot1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,
Lisätiedot2. Tietokoneharjoitukset
2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta
LisätiedotJohdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteesee Yhde selittää lieaarie regressiomalli TKK (c) Ilkka Melli (2005) Yhde selittää lieaarie regressiomalli Yhde selittää lieaarie regressiomalli a sitä koskevat oletukset Yhde selittää
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään
LisätiedotMS-C2{04 Tilastollisen analyysin perusteet
MS-C2{04 Tilastollisen analyysin perusteet Tentti 7.4.20 4A/irtanen Kirjoita selvästi jokaiseen koepaperiin alla mainitussa järjestyksessä: OHlprrn (i) (ii) MS-C204 TAP 7.4.204 opiskelijanumero + kirjain
Lisätiedot1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi
Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,
LisätiedotRegressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
Lisätiedotxi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =
1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotHarjoitus 9: Excel - Tilastollinen analyysi
Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin
Lisätiedot[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen
LisätiedotJohdatus regressioanalyysiin. Heliövaara 1
Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen
LisätiedotYleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli
MS-C2128 Ennustaminen ja aikasarja-analyysi 1. harjoitukset / Tehtävät Kotitehtävät: 2 Aiheet: Aluksi Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli Tällä kurssilla käytetään
LisätiedotMat-2.104 Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:
Mat-.04 Tilastollise aalyysi perusteet / Ratkaisut Aiheet: Avaisaat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahde riippumattoma otokse t-testit, Nollahypoteesi, p-arvo, Päätössäätö, Testi,
LisätiedotUSEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI
TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen
LisätiedotMS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4
MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen
LisätiedotTavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.
Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,
LisätiedotTilastollisen analyysin perusteet Luento 7: Lineaarinen regressio
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla
LisätiedotFrequencies. Frequency Table
GET FILE='C:\Documents and Settings\haukkala\My Documents\kvanti\kvanti_harjo'+ '_label.sav'. DATASET NAME DataSet WINDOW=FRONT. FREQUENCIES VARIABLES=koulv paino /ORDER= ANALYSIS. Frequencies [DataSet]
LisätiedotMat Tilastollisen analyysin perusteet
/ Mat-2.21 04 Tilastollisen analyysin perusteet Tentti 24.5.2013/Virtanen Kirjoita selvasti jokaiseen koepaperiin alia mainitussa jarjestyksessa: Mat-2.2104 Tap 24.5.2013 opiskelijanumero kirjain TEKSTATEN
LisätiedotMenestyminen valintakokeissa ja todennäköisyyslaskussa
21.5.21 Menestyminen valintakokeissa ja todennäköisyyslaskussa Esa Pursiheimo 45761L 1 JOHDANTO...2 2 LÄHTÖTIEDOT JA OTOS...3 3 PÄÄSYKOETULOKSIEN YHTEISJAKAUMA...4 4 REGRESSIOANALYYSI...9 4.1 MALLI JA
Lisätiedot54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
LisätiedotIlkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen
LisätiedotSELVITTÄJÄN KOMPETENSSISTA
OTM, KTM, Mikko Hakola, Vaasan yliopisto, Laskentatoimen ja rahoituksen laitos Helsinki 20.11.200, Helsingin kauppakorkeakoulu Projekti: Yrityksen maksukyky ja strateginen johtaminen SELVITTÄJÄN KOMPETENSSISTA
LisätiedotData-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]
Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen
LisätiedotEsim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501
Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662
Lisätiedot2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:
2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. Son height (cm) 21 2 19 18 17 16 15 15
LisätiedotOngelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?
Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus
LisätiedotTilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien
Lisätiedot1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalyysi Bonferronin menetelmä, F-testi, Jäännösneliösumma, Kaksisuuntainen varianssianalyysi Kokonaiskeskiarvo,
Lisätiedot(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.
2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja
LisätiedotToimittaja 1 2 3 Erä 1 2 3 4 1 2 3 4 1 2 3 4 1 2 2 1 1 0 1 0 2 2 1 3 1 3 0 4 2 4 0 3 4 0 1 2 0 4 1 0 3 2 2 2 0 2 2 1
Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Hierarkkiset koeasetelmat -faktorikokeet Vastepintamenetelmä Aritmeettinen keskiarvo, Estimaatti, Estimaattori, -testi, aktorikokeet,
LisätiedotOhjeita kvantitatiiviseen tutkimukseen
1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2
LisätiedotA B DIFFERENCE
I Mat-2.21 04 Tilastollisen analyysin perusteet Tentti 10.5.2013Nirtanen Ki~oita selvasti jokaiseen koepaperiin alia mainitussa ja~estyksessa: 0HJEITA Mat-2.2104 Tap 10.5.2013 opiskelijanumero ki~ain TEKSTATEN
LisätiedotMat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,
Lisätiedot1. PARAMETRIEN ESTIMOINTI
Mat-.04 Tlastollse aalyys perusteet Mat-.04 Tlastollse aalyys perusteet / Ratkasut Aheet: Avasaat: Yhde selttäjä leaare regressomall Estmaatt, Estmaattor, Estmot, Jääöselösumma, Jääösterm, Jääösvarass,
LisätiedotYhden selittäjän lineaarinen regressiomalli
Ilkka Melli Tilastolliset meetelmät Osa 4: Lieaarie regressioaalyysi Yhde selittäjä lieaarie regressiomalli TKK (c) Ilkka Melli (007) Yhde selittäjä lieaarie regressiomalli >> Yhde selittäjä lieaarie regressiomalli
LisätiedotTestit järjestysasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten
Lisätiedot3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i
3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i
LisätiedotTilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio
Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n
Lisätiedot1. Tutkitaan tavallista kahden selittäjän regressiomallia
TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa
LisätiedotAalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,
Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten
LisätiedotTilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit
Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli
LisätiedotIlkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1
Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli
LisätiedotLumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I
Lumipallo regressioanalyysista jokainen kirjoittaa lapulle yhden lauseen regressioanalyysista ja antaa sen seuraavalle Logistinen regressioanalyysi Y250. Kvantitatiiviset menetelmät (6 op) Hanna Wass tutkijatohtori
LisätiedotMTTTP5, luento Luottamusväli, määritelmä
23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A
Lisätiedot031021P Tilastomatematiikka (5 op) kertausta 2. vk:een
031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11
LisätiedotKaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:
Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,
LisätiedotKorrelaatiokertoinen määrittely 165
kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita
Lisätiedot1. Tietokoneharjoitukset
1. Tietokoneharjoitukset Aluksi Tällä kurssilla käytetään R-ohjelmistoa, jonka käyttämisestä lienee muutama sana paikallaan. R-ohjelmisto on laajasti käytetty vapaassa levityksessä oleva ammattimaiseen
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.
LisätiedotJohdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotTilastollisten menetelmien perusteet II TILTP3 Luentorunko
Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,
LisätiedotKvantitatiiviset tutkimusmenetelmät maantieteessä
Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi
LisätiedotTässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
LisätiedotTA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET
TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen
Lisätiedot1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT
imat-2.104 Tilastollisen analyysin perusteet / Tehtävät Aiheet: Avainsanat: Ysisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Koonaisesiarvo,
LisätiedotMediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.
Mat-2.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit järjestysasteikollisille muuttujille Testit laatueroasteikollisille muuttujille Hypoteesi, Mannin ja Whitneyn testi (Wilcoxonin
LisätiedotSPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö
SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin
LisätiedotA250A0050 Ekonometrian perusteet Tentti
A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin
LisätiedotSPSS-perusteet. Sisältö
SPSS-perusteet Sisältö Ikkunat 3 Päävalikot 5 Valikot 6 Aineiston käsittely 6 Muuttujamuunnokset 7 Aineistojen kuvailu analyysit 8 Havaintomatriisin luominen ja käsittely 10 Muulla sovelluksella tehdyn
LisätiedotLisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?
MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
LisätiedotOdotusarvoparien vertailu. Vilkkumaa / Kuusinen 1
Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että
LisätiedotYhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n
LisätiedotYksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi
LisätiedotTilastollisen analyysin perusteet Luento 2: Tilastolliset testit
Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja
LisätiedotVastepintamenetelmä. Kuusinen/Heliövaara 1
Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,
LisätiedotSAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009
SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää
LisätiedotVARIANSSIANALYYSI ANALYSIS OF VARIANCE
VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.
Lisätiedot2 k -faktorikokeet. Vilkkumaa / Kuusinen 1
2 k -faktorikokeet Vilkkumaa / Kuusinen 1 Motivointi 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta
LisätiedotYksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan
Lisätiedotvoidaan hylätä, pienempi vai suurempi kuin 1 %?
[TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine
LisätiedotSisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...
Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ...
LisätiedotAki Taanila YHDEN SELITTÄJÄN REGRESSIO
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...
Lisätiedotproc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;
Title "Exercises 6"; Data ex61; input A B C D E y @@; Label A = "Furnance Temperature" B = "Heating Time" C = "Transfer Time" D = "Hold Down Time" E = "Quench of Oil Temperature" y = "Free Height of Leaf
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5
MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotSPSS ohje. Metropolia Business School/ Pepe Vilpas
1 SPSS ohje Page 1. Perusteita 2 2. Frekvenssijakaumat 3 3. Muuttujan luokittelu 4 4. Kaaviot 5 5. Tunnusluvut 6 6. Tunnuslukujen vertailu ryhmissä 7 9. Ristiintaulukointi ja Chi-testi 8 10. Hajontakaavio
Lisätiedot7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)
7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät
LisätiedotHarjoitukset 4 : Paneelidata (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 4 : Paneelidata (Palautus 7.3.2017) Tämän harjoituskerran tarkoitus on perehtyä
LisätiedotTestit laatueroasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotPerusnäkymä yksisuuntaiseen ANOVAaan
Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja
LisätiedotHarjoittele tulkintoja
Harjoittele tulkintoja Syksy 9: KT (55 op) Kvantitatiivisen aineiston keruu ja analyysi SPSS tulosteiden tulkintaa/til Analyysit perustuvat aineistoon: Haavio-Mannila, Elina & Kontula, Osmo (1993): Suomalainen
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai
Lisätiedot