MS-C2{04 Tilastollisen analyysin perusteet



Samankaltaiset tiedostot
Mat Tilastollisen analyysin perusteet

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

A B DIFFERENCE

analyysin perusteet Mat Ti lastol I isen Tentti /Mellin

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO


Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Perusnäkymä yksisuuntaiseen ANOVAaan

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

voidaan hylätä, pienempi vai suurempi kuin 1 %?

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

A250A0050 Ekonometrian perusteet Tentti

Mat Tilastollisen analyysin perusteet, kevät 2007

Menestyminen valintakokeissa ja todennäköisyyslaskussa

SELVITTÄJÄN KOMPETENSSISTA

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Testejä suhdeasteikollisille muuttujille

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Toimittaja Erä

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

MTTTP5, luento Luottamusväli, määritelmä

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Frequencies. Frequency Table

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

2. Tietokoneharjoitukset

Sovellettu todennäköisyyslaskenta B

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Väliestimointi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

SPSS-perusteet. Sisältö

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Testit järjestysasteikollisille muuttujille

TKMS7a-f/LRS20a-f/MAS2/KVS2/TMS82a-f/JOM/TJM/YRM Monimuuttujamenetelmien soveltaminen taloustieteissä. Tentti

Kvantitatiiviset tutkimusmenetelmät maantieteessä

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Teema 9: Tilastollinen merkitsevyystestaus

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Opiskelija viipymisaika pistemäärä

Partiotoiminnan laatuun vaikuttavat tekijät vuosiselostedatan perusteella Uudenmaan Partiopiirissä

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Altistusaika 1 kk 2 kk 3 kk

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Otoskoon arviointi. Tero Vahlberg

1. Tietokoneharjoitukset

Supplementary Table S1. Material list (a) Parameters Sal to Str

Mat Tilastollisen analyysin perusteet, kevät 2007

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

1. PARAMETRIEN ESTIMOINTI

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Harjoitus 6 -- Ratkaisut

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Transkriptio:

MS-C2{04 Tilastollisen analyysin perusteet Tentti 7.4.20 4A/irtanen Kirjoita selvästi jokaiseen koepaperiin alla mainitussa järjestyksessä: OHlprrn (i) (ii) MS-C204 TAP 7.4.204 opiskelijanumero + kirjain TEKSTATEN sukunimi ja kaikki etunimet koulutusohjelma/tutkinto-ohjelma/kandidåattiohjelma ja vuosikurssl mahdolliset entiset nimet ja koulutusoh.jelmat Tehtäviä on 5 kpl. Yhden tehtävistli saa korvata kevään 203 harjoitustyöllä. Korvattava tehtävä on ilmaistava vastauspaperissa selvästi kokonaislukuna, (iii) Vastaa lyhyesti ja ytimekkäästi, mutta esitä niin paljon perusteluita, että vastauksestasi saa selville mitä ja mikri otet tehnyt.. 20 ranskan opetiajaa osallistui neljiin viikon kurssille, jonka tavoitteena oli puhetaidon paranlaminen. opettajien puhetaito mitattiin ennen kurssiaja kurssin jälkeen kokeella, jossa maksimipistemii?iränä oli 36 pistefiä. 'lulokset (koepisteet) kokeista ennen jajälkeen kurssin on anneuu alla (korkeampi pistemäärä osoittaa parempaa puhetaitoa), CA JE 2 3 4 5 5.0 72 3 t4 l5 l6!'7 B 9 2Q ENNEN JAIKEEN 32 34 3 3 29 32 0 5 30 33 33 35 2.2 24 25 28 32 29?-a 24 30 34?-a 24?_4 25 :ll 30 30 33.5.9 32 34 23 26 )a,q (iv) Tentissä saa käyttää laskintaja Lainisen tai Mcllinin kaava-ja taulukkokokoelmna. Haasteenasi on testata I 7o:n merkitsevyystasoa käyttäen nollahypoteesia H6, jonka mukaan opettajien puhetaito ei ole (keskimåiiirin) parantunu! kurssin aikana, kun vaihtoehtoisena hypoteesina on, että puhetaito on parantunut. Alla on annettu yllä esitettyyn ongebnaan liittyen kaksi Statistix-ohjelman tulostusta. /0 2/0

Tulostus l.l: TWO_SfuT4PI..}I? TES']'S FOR.]ALKEtrN VS ENNIN VARlABI,E MEAN JAI,KEEN 28. OO ENNEN 25.800 DIT'FERENCE 2 " 3OOO SAMPLE SIZE 2Q 20 NUIL ItYPOTtlESIS: DIFFERENCE = 0 AI,TIRNA?IVE HYP: DIF!'ERENCE <> 0 5.483.276 6. 3046..4097 ASSUMPTION,L DE P 95+ CI FOR D]EE'ERENCE EQUAI VAR]ANCES L.24 38 0"2236 UNEQUAL VARTANCES ".24 3.2 A.223't TES'IS!'OR EQUAI.ITY OF VAR]ANCES CÄSES INC],UDED 4O Tulostus.2: r, NUM DII * {, 4 6 3 0, 6. 0 6 3 0 ) (-.4658,6.06s8) DIN DT I) i.35 9 9 0.25'7'l MISSING CASES O PA]RED T TESt FOR JAIKEEN _ ENNEN NU].L HYPOTHESIS: DIFFERENCE = 0 ALTERNAIIVE HYPi DIEFERENCE <> O MEAN 2.3OOO STD ERROR 0.4236 IO 95å Cr.433 UP 95I CI 3.'T86'7 T 5.43 Dr' 9 P 0.0000 CASES INCLUDED 20 MISSING CASES O 2. Kokeessa verrattiin kolmean automerkin A, B ja C bensiinin kulutusta. Koejärjestely oli seuraava: 20 koeajajaajaetliin satunnaisesti kolmeen ryhmään siten, että ajajista 7 sai ajettavakseen merkin A auton, ajajisla 7 sai ajettavakseen merkin B auton ja ajajista 6 sai ajettavakseen merkin C auton. Kaikilla autoilla ajettiin sama matka pyrkien kättämeiiin samaa nopeutta ja autojen bensiinin kulutukset (maili/gallona) rekisteröitiin. Tulokset kokeesta on annettu alla. ABC 22.2 24.6 22.7 L9.9 23. 2t.9 20.3 22 23.2 27.4 23.5 24. 2.2 23.6 22.7 ) 2) )a t 24.3 23.5 M Koetulosten perusteella haluttiin selvittää onko automerkillä vaikutuste bensiinin kulutukseen. Statistix-tulostlrkset tehdyist-åi tilastollisista analyyseista on annettu alla. Huomautur: Painovirhepaholainen ha.lusi estäii vastaåmisenja korvasi osan tulostuksen 2, luvuista kysymysmerkeillä. Paholainen ei kuitenkaån tiennyt, että osaat miiäätä puuttuvat luvut. Puutluvät luv ]t oval ryhmien vcilisld vaihtehn kuvaava neliösumma, osa vapdus ast eista, k4 skineliöt (MS) seka. F-testisuursen alvo. 'fulostuksessa I. I on sovellettu /'testiä (iosta on esitetty kaksi versiota) ja F-testiä. Esittele testit: Kerro mitä on testattu ja mitkä olivat testien tulokset. Tulostuksessa i,2 on sovellettu,-testiä. Esittele testi: Keno mitä on testattu ja mikå oli testin tulos. Vain toinen tulostuksissa. ja.2 sovelletuista ttesteistä sopii tehlävän tilantoeseen. Kumpi? Perustele valintasi. 3/0 4lt0

Tulostus 2.: ONE-WAY AOV FOR: A B C SOURCE DT' BETWEEN WITIiIN TOTAL SS all)aa aaraaaa 2.800 '.?222?? 33, 29s BARTLETTIS TEST OTI CH]_SQ DF P EOUÄI VÄRIANCES O.i 2 0.9464 COCHRAN I S Q LARGES'I' VAR / SMAL],EST VAR 0.3853.3 9l 0_ 0002 COMPONENT OF VAR]ANCE FOR BETWEEN GROUPS L.5252 EFEECT]VE CELL SJZE 6. VARIABI,F, SAMPItr GROUP MEAN SIZE STD DIIV A 20.900 0.96 B 23.2A0 0.9092" c 22.900 6 0.839 TOrAr?_2,.305 2A 0.8464 CASES INC],UDED 20 MISSING CASES Tulostus 2.2 BONITERRONI CO!]PARISON OF MEANS VARIABLE IIOMOGENEOUS MBAN GRO(JPS B 23.20A r c 22.90A r A 2C.900." r?hera ARE 2 GROUPS IN WHCH THE MEANS ARE NOT SIGN]FICANT],Y DlFFEREN?!'ROM ONE ANOTHER. CRITICAL T VALUE 2.655 REJECTION ],EVEL O.O5O STANDARD ERRORS AND CRI'I']CAL VA],UES OF DlT"T'ERENCES VARY BETIiEEN COMPARTSONS BECAUSE OF UNEQUAL SÄMPLE SIZES" Mitä tilastollista menetelmää on kä)tetty? Kuvaa käytetyn monet lmän tavoitteita lyhyesti. Mikä on menetelrnällä testattu nollahypoteesi? Mikä on vaihtoehtoinen hypoteesi? Mikii on tulostuksessa 2. mainitun Bartlettin testin rooli menetelmän soveltamisessa. (d) (e) Tee johtopäätökset tulostuksesta 2.. (0 Teejohtopäätöksettulostuksesta2.2. Laske tulostuksen 2. puuttuvat luvut, 3, Tutkirnuksessa haluttiin verala viiden erilaisen lamoiteaineseoksen vaikurus viiden maissilajin satoon. Kokeessajokaista lannoiteaine-maissilajike yhdistelmåiä (25 kpl) kokeiltiin 6:lla peltoalalla. Koetulosten perusteella haluttiin selvilläii millaisia vaikutuksia lannoiteaineseokselia_ja lajikkeella on maissin satoon. Statislix-tulostus tehdystä tilastollisesta anallysista on annettu alla. Huomautus: Painovirhepaholainen halusi estää vastaamisenja kolvasi osan tulostuksen 3. luvuista kysymysmerkeillä. Paholainen ei kuitenkaan tienny't, että osaat määrätä puuttuvat luvut. Puuttuvat luvut oyal.id(innösneliösumilta, (MS) ja I'-teslr.raur eiden arvoi st a. Tulostus 3.: ANAI,YSIS OF VARIANCE I'ABLE FOR SATO osa vapausasteista, keskineliöistci SOURCE] DI' SS MS I' P LANNOITE (A)?? 8A.66.r??2.)?? LAJTKE (B) 2? 3003. 4 7??22??? A*B?'? 227.200 3.8250 RESIDUAL 25 22-r.!2 '??2???? TOTAL t49 5087.33 0 " 0000 0.0000 a.63'7 4 5/l 0 6lt0

4. (e) Mitä tilastollista menetelmää on kä)'tetty? Kuvaa käytetyn menetelmain tavoirteita lyhyesti. Mitkä ovat menetelmä[ä testatut nollahypoteesit? Laske tulostuksen 3. puuttuvat lulut. Tee johtopäätökset tulostuksesta 3.. Kulutusmenojen tutkimuksessa yksityiset kuluiusmenot jaetaan useaan eri osaan, ioista yksi on kulutusmenot alkoholiin. Talousteorian mukaan alkoholin kulutus riippuu alkoholin hinnasta ja kokonaiskulutusmenoista. Alla on estimointitulokset regressiomallista jossa LQC, = 4 + Ål,Rlct+ {.LQTOTAL,+4 I-QC = Alkoholin kokonaiskulutusmenot LRlC = Alkoholin reaalihintaindeksi (kiinteisiin hintoihin) LQTOTAL : Kokonaiskulutusmenor (kiinteisiin hintoihin) Havaintoina oli Suomea koskevat tiedot vuosilta 950-98 (32 vuoltå). Huomautusl Painovirhepaholainen halusi estää vastaamisenja korvasi osan tulostul<sen 4. i uvuista kysymysmerkei llä. Paholainen ei kuitenkaan tiennf, että osaat määrätä puuttuvat luvut. Puuttuvat luvut oval jdtinnösneliösuwma, kaikkien neliösummien tupttusdsteet ja keskinellrrl (MS), selitysaste sekti.f'-testisuureen arvo, Tulostus 4.'l: UNWEIGHTED PREDICTOR VARIABIE CONSl'ANT i,r,c ],QTOTAI R.SQUARED 22???? RESlD. MEAN SQIIARE (MSE) ().O].]6 STANDARD DEVIATlON 0 - t 05ri3 SOURCE (d) (e) (0 LEASf SQUARES LINEAR REGRESSION OF LOC COEFE]CIENT STD ERROR STUD NT'S T P -2.4 490 -.07549 DT' 2,48 02 0.3999 0.0s395 REGRBSSION?? 9.25T3?2????? RESIDUAL???22?2?2?2????? TOTAL?? 9.5"47" CAs!]S ]NCIUDED 32 MISS]NG CASES () Mitä tilastollista menotelmää on kä)tetty? Kuvaa käytetyn menetelmåin lavoiletta lyhyesti. Laske tulostuksen 4. puutluvat luvul. Mitä johtopiiätöksiä voit tehdä tulostuksen F{estisrä?. Mitä johtopäätöksiä voit tehdä tulostuksen /-lesteistä? Tulkitse hintamuuttujan LRlC ja LQTOTAL regressiokerroimel. Onko multikollineaa.risuus ollut eslimoinnissa ongelma'i VIF -, 9 4.2453-2."/4 0.003. 25.'t 0.0000. I 0.0000 5- Tehtävässä 5 tutkitaän tehtävässä 4 estimoidun mallin residuaaleja, Huomaa, eltä tehtävä 5 voidaan ratkaista, vaikka ei olisi ratkaissut tehtävää 4. 'fehtävät: Tulostus 5. I esittää tehtävässä 4 estimoidun regressiomallin residuaalien rankit plot -kuviota. Siihen liitt).vä Wilkin ia Shapiron testisuureen arvoa vastaåvap-aruo on 0.043. Ken'o miä on testattu ja mitäjohtopäätöksiä testin tuloksesta voi tehdä. Tulostus 5.2 osittd.?i tehtävässä 4 estimoidun regressiomallin residuaaleista mäiirättyä Durbinin ja Watsonin lesrisuureen arvoa. Kerlo rnitä on testattuja mitäjohtopäätöksiä testin tuloksesta voi tehdä. 7t0 8/ 0

G o E o P o -0.03 (o) Tulostus 5.3 esiftää tehtävässä 4 estimoidun regressiomallin residuaaleille estimoitua apuregressiola il =au+arg,+6, jossa er : tehtäviin 4 estimoidun regressiomallin residuaali!, : tehtävin 4 estimoidtm regressiomailin sovite Apuregression selitysasteesta R2 voi<laan laskea f -teslisuue 2 = nr2 jossa z on apuregression havaintojen lukumäärä. Nollahypoteesin (keno mikä on nol lahypoteesina) pätiessä x' * x'0) Tee testi ja keno mitä tällöin testataan ja mitäjohtopiiätöksiä testin tuloksosra voidaan tehdä. Vintki: p(x2() > 32*0.2064):0.A. (d) Mitä sanoisit tehtävän 4 regtessiomallin hy,ryydestä tämän rehtävän kohdissa, ja saatujen tulosten perusteella? Tulostus 5.: Wilk-Shapiro / Rankit Plot of RESI Tulostus 5.2: DURBIN.IiATSON TEST FÖR AUTOCORREI,ATTON DURBIN_WATSON STATISTIC O.?367 P_VALUES, USING DURBIN_WATSON'S BETA APPROXI}4ATION: P (POSI',l'IVE CORR) = 0.0000, p (NEGATTVE CORR) =.0000 EXPEC'IT{D VALUE OF Dui{tsIN*WAT'SON STATISTIC 2,I043 EXACT VARANCE OE' DURB]N-WATSON STAI'ISTIC 0,J.539 CASES INCIUDEI] 32 Tulctus 5.3: MISS]NG CASES O UNWEIGHTED T,,BAST SQUARES l,tnear REGRESS]ON OF RESlSQRD PREDTCfOR VARIABLES COEFF STD ERROR STUDENT' T P CONSTANT 0.05842 A.A't34 3.37 0.002 Frrl -0.006?9 a.aa243-2.'79 0.0090 R_SQUARED 4,2454 RESID. MEAN SOUARE (MSE) 5.4608_05 ADJUSTED R_SQUARED A.'799 STANI]ÄRD DEVIATION (]. O0739 SOURCE DE SS MS E P REGRESSION I 4.2608-04 4.Z6QE-04 7.80 0.0090 RESTDUAT 30 0.0054 5.460E-05 rotal 3 0.00205 CASES INC].UDED 32 MISS]NG CAST]S O -0.0 i),,) -o.7-0 Rankits Approxlmst Wlk- haplro 0.9460 9n0 0/0