Lineaaristen mallien sovellukset -harjoitustyö

Koko: px
Aloita esitys sivulta:

Download "Lineaaristen mallien sovellukset -harjoitustyö"

Transkriptio

1 Lineaaristen mallien sovellukset -harjoitustyö Juha-Pekka Perttola 8. tammikuuta 2006

2 Sisältö 1 Johdanto Perustiedot käytetystä aineistosta Harjoitustyön tavoite Taustateoria 5 3 Hajontakuvamatriisit Hajontakuvamatriisi koko aineistosta Osittaiset hajontakuvamatriisit ilman poikkeavia havaintoja Linearisoivat muunnokset 13 5 Korrelaatiomatriisi 17 6 Mallinvalinta Mallinvalintakriteerit Tulkinnallisten mallien tarkastelu Valittu malli Valitun mallin tarkastelu Mallin harhattomuus Jäännösvaihtelun homoskedastisuus Mallivirheiden normaalisuus Multikollineaarisuus Vaikutusvaltaiset ja poikkeavat havainnot Studentoidut residuaalit ja hat-matriisin lävistäjäalkiot Cookin mitta Mahalanobis-etäisyydet Osoitinmuuttujat 37 9 Mallin tulkinta 38

3 Kuvat 1 Hajontakuvamatriisi, koko aineisto Hajontakuvamatriisi, muuttujat Suicide rate (S), Marriage rate (MA) ja Divorce rate (D) - Nevada poistettu Hajontakuvamatriisi, muuttujat Suicide rate (S) ja Number of inmates of correctional institutes (PR) - Kalifornia poistettu Hajontakuvamatriisi, logaritmoidut muuttujat LBL ja LSP Box-Cox -muunnos muuttujasta SP Box-Cox -muunnos muuttujasta BL Hajontakuvamatriisi, valittu malli Ennustetut arvot vastaan studentoidut residuaalit Lowess tasoitus, ennustetut arvot vastaan studentoidut residuaalit Lowess tasoitus, muuttujan LBL arvot vastaan studentoidut residuaalit Lowess tasoitus, muuttujan LSP arvot vastaan studentoidut residuaalit Lowess tasoitus, muuttujan PRI arvot vastaan studentoidut residuaalit Lowess tasoitus, muuttujan D arvot vastaan studentoidut residuaalit Todennäköisyyspaperikuva residuaaleista Havaintojen järjestysnumerot vastaan studentoidut residuaalit Havaintojen järjestysnumerot vastaan hat-matriisin lävistäjäalkiot Hat-matriisin lävistäjäalkiot vastaan studentoidut residuaalit Havaintojen järjestysnumerot vastaan Cookin etäisyydet Mahalanobis-etäisyydet

4 4 1 Johdanto 1.1 Perustiedot käytetystä aineistosta Tässä harjoitustyössä käytetty aineisto on tiedostonimeltään HT8. Aineistossa on 50 havaintoriviä eli yksi jokaisesta USA:n osavaltiosta. Muuttujien nimet ja nimien selitykset ovat seuraavat: PA ='Abbreviation of the state name' POP='Total population (1000's)' UR ='Per mil of population living in urban areas' MV ='Per mil who moved between 1965 and 1970' BL ='# blacks (1000's)' SP ='# Spanish speaking (1000's)' AI ='# Native Americans (1000's)' IN ='# inmates of institutions (correctional, mental etc.) (1000's)' PR ='# inmates of correctional institutes 1970 (100's)' MH ='Homes and schools for mentally handicapped (100's)' B ='Births per 1000' HT ='Death rate from heart disease per 100,000 residents' S ='Suicide rate, 1978, per 10,000' DI ='Death rate from diabetes, 1978, per 100,000' MA ='Marriage rate, per 10,000' D ='Divorce rate, per 10,000' DR ='Physicians per 100,000' DN ='Dentists per 100,000' HS ='Per mil high school grads' CR ='Crime rate per 100,000 population' M ='Murder rate per 100,000 population' PRI='Prison rate (Federal and State) per 100,000 residents' RP ='% voting for Republican candidate in presidential election' VT ='% voting for presidential candidate among voting age population' PH ='Telephones per 100 (1979)' INC='Per capita income expressed in 1972 dollars' PL ='Per mil of population below poverty level'; 1.2 Harjoitustyön tavoite Tämän harjoitustyön päämääränä on rakentaa lineaarinen malli valitulle selitettävälle muuttujalle Suicide rate (S, itsemurhien lukumäärä) käyttämällä muita aineiston numeerisia muuttujia selittävinä muuttujina.

5 5 Mallin määrittelyn jälkeen tutkitaan jäännösvaihteluun perustuen, täyttyvätkö lineaarisiin malleihin liittyvät oletukset. Tämän lisäksi tarkastellaan havaintojen vaikutusvaltaisuutta. 2 Taustateoria Aluksi todettakoon, että tämän harjoitustyön tekijällä ei ole riittävää tietoa itsemurhiin johtavia syitä kuvaavista (sosiaali-)psykologisista teorioista. Alla on listattu aineiston muuttujista ne, joilla uskoakseni voi olla vaikutusta itsemurhariskiin. UR : Per mil of population living in urban areas MV : Per mil who moved between 1965 and 1970 BL : Number of blacks (1000s) SP : Number of Spanish speaking (1000s) AI : Number of Native Americans (1000s) IN : Number of inmates of institutions (correctional, mental etc.) (1000s) PR : Number of inmates of correctional institutes 1970 (100s) MH : Homes and schools for mentally handicapped (100s) B : Births per 1000 MA : Marriage rate, per 10,000 D : Divorce rate, per 10,000 DR : Physicians per 100,000 HS : Per mil high school grads CR : Crime rate per 100,000 population PRI: Prison rate (Federal and State) per 100,000 residents RP : % voting for Republican candidate in presidential election VT : % voting for presidential candidate among voting age population PH : Telephones per 100 (1979) INC : Per capita income expressed in 1972 dollars PL :Per mil of population below poverty level Monien näistä muuttujista voidaan katsoa kuvaavan yleistä hyvinvointia (esim. DR) tai mahdollista syrjäytymisen astetta (VT, PH jne.). Muuttujien BL ja SP olen katsonut kuvaavan kulttuurisia vaikutteita ja sitä kautta elämänasenteita. Aineistoon olisi luultavimmin sisällytetty myös muunlaisia muuttujia mikäli valinta ja kerääminen olisi suoritettu nimenomaan itsemurhien tutkimista

6 6 varten. Harjoitustyön selitettävä muuttuja on ymmärrettävistä syistä kuitenkin valittu jälkikäteen. 3 Hajontakuvamatriisit 3.1 Hajontakuvamatriisi koko aineistosta Kuvassa 1 on piirretty kaikki aineiston numeeriset muuttujat vastakkain hajontakuvamatriisiin. Jokaisella sivulla ensimmäiseksi on sijoitettu selitettävä muuttuja Suicide rate (S), jotta sen riippuvuutta selittävistä muuttujista olisi mahdollista tarkastella. Kuvat on tuotettu Michael Friendlyn ohjelmoimalla scatmat -makrolla (saatavilla osoitteesta seuraavasti: SAS_OHJELMA_ALKAA filename kuvatied "&outpath\draftmd1.eps"; %scatmat(data=resunit, var=s POP UR MV BL); filename kuvatied "&outpath\draftmd2.eps"; %scatmat(data=resunit, var=s SP AI IN PR MH B HT ); filename kuvatied "&outpath\draftmd3.eps"; %scatmat(data=resunit, var=s RP DI MA D DR DN HS); filename kuvatied "&outpath\draftmd4.eps"; %scatmat(data=resunit, var=s CR M PRI VT PH INC PL); % SAS_OHJELMA_LOPPUU ; Hajontakuvamatriisissa lävistäjäalkioiden alakulmissa on kyseisen muuttujan minimi- ja yläkulmissa maksimiarvo.

7 7 Kuva 1: Hajontakuvamatriisi, koko aineisto.

8 8

9 9

10 10

11 Osittaiset hajontakuvamatriisit ilman poikkeavia havaintoja Kuva 2: Hajontakuvamatriisi, muuttujat Suicide rate (S), Marriage rate (MA) ja Divorce rate (D) - Nevada poistettu. Joidenkin muuttujien osalta on kuvasta 1 selvästi nähtävissä, että poikkeavat havainnot tekevät mahdottomaksi tarkastella riippuvuuden muotoa. Kuvaan 2 on piirretty muuttujat Suicide rate (S), Marriage rate (MA) ja Divorce rate (D) hajontakuvamatriisiin ilman osavaltion Nevada havaintoja, jotka poikkeavat selvästi muista osavaltioista. Riippuvuudet näyttävät lineaarisilta Nevadan poistamisen jälkeen.

12 12 Kuva 3: Hajontakuvamatriisi, muuttujat Suicide rate (S) ja Number of inmates of correctional institutes (PR) - Kalifornia poistettu. Kuvassa 3 on vastaavasti tarkasteltu muuttujaa Number of inmates of correctional institutes (PR) Kalifornian osavaltion poistamisen jälkeen.

13 13 4 Linearisoivat muunnokset Hajontakuvamatriisien perusteella joitakin muuttujia on syytä muuntaa riippuvuuden linearisoimiseksi. Muunnostarvetta on mietitty ainoastaan niiden muuttujien osalta, jotka lueteltiin kappaleessa 2. Seuraavassa on logaritmoitu muuttujat Number of blacks (BL) ja Number of Spanish speaking (SP). Uudet muuttujat on muodostettu SAS-ohjelmalla seuraavasti: SAS_OHJELMA_ALKAA DATA lresunit; SET resunit; LBL=LOG(BL); LSP=LOG(SP); LABEL LBL ='Log of number of blacks' LSP ='Log of number of Spanish speaking'; ID+1; DROP BL SP; RUN; % SAS_OHJELMA_LOPPUU ; Muodostetut muuttujat on nimetty Log of number of blacks (LBL) ja Log of number of Spanish speaking (LSP). Kuvassa 4 nämä muuttujat on piirretty selitettävän muuttujan S kanssa hajontakuvamatriisiin.

14 14 Kuva 4: Hajontakuvamatriisi, logaritmoidut muuttujat LBL ja LSP. Näyttää siltä, että näiden muuttujien osalta logaritmointi linearisoi riippuvuuden. Asian varmistamiseksi on tarkasteltu Box-Cox -muunnoksen antamia tuloksia. SAS_OHJELMA_ALKAA ods output boxcox=b details=d; ods exclude boxcox; proc transreg details data=resunit; model boxcox(sp / lambda=-0.4 to 0.2 by 0.01) = 5709!+identity(S); output out=trans; run; filename kuvatied "&outpath\boxcoxsp.eps"; %plotbxcx(ll=1,rmse=0,rsq=0); % SAS_OHJELMA_LOPPUU ;

15 15 Plotbxcx-makro, jolla kuvat 5 ja 6 on piirretty, on saatavissa SAS Instituten sivuilta osoitteesta: Kuvissa 5 ja 6 on X-akselilla muunnosparametrin λ arvot ja Y-akselilla loglikelihood arvot. Kuvien pystysuorat viivat osoittavat 95 %:n luottamusvälin λ:n arvolle. Kuva 5: Box-Cox -muunnos muuttujasta SP.

16 16 Taulukko 1: Parametrin λ tulkittavissa olevat arvot [2] λ Muunnos y 2 y y log(y) y y y 2 Taulukosta 1 nähdään λ-parametrin arvot, jotka ovat helposti tulkittavissa. Lähin tulkittavissa oleva muunnosarvo parametrille λ SP on nolla, joka vastaa muuttujan SP logaritmointia. Arvo nolla sisältyy myös λ SP :n 95 %:n luottamusväliin. Muuttujasta SP käytetään jatkossa logaritmoitua muotoa LSP. Kuva 6: Box-Cox -muunnos muuttujasta BL.

17 17 Lähin tulkinnallinen muunnosarvo parametrille λ BL on nolla joka vastaa muuttujan BL logaritmointia. Arvo nolla sijaitsee λ BL :n 95 %:n luottamusvälin ulkopuolella, mutta muunnos on oikeansuuntainen ja auttaa linearisoimaan muuttujan riippuvuutta suhteessa selitettävään muuttujaan S. Muuttujasta BL käytetään jatkossa logaritmoitua muotoa LBL. Muita muuttujia käytetään jatkossa ilman muunnosta. 5 Korrelaatiomatriisi Seuraavaksi lasketaan korrelaatiomatriisi aineiston kaikista numeerisista muuttujista. SAS_OHJELMA_ALKAA PROC CORR DATA=lresunit OUTP=pcorr NOPRINT; VAR S POP UR MV LBL LSP AI IN PR MH B HT DI MA D DR DN HS CR M PRI RP VT PH INC PL; RUN; % SAS_OHJELMA_LOPPUU ; Ohjelma tallentaa matriisin datatiedostoksi pcorr joka tulostetaan. SAS_OHJELMA_ALKAA PROC PRINT DATA=pcorr NOOBS ROUND WIDTH=MINIMUM; VAR S POP UR MV LBL LSP AI IN PR MH B HT DI MA D DR DN HS CR M PRI RP VT PH INC PL; RUN; % SAS_OHJELMA_LOPPUU ; Tulostettu matriisi on luettavissa seuraavalla sivulla. Selitettävä muuttuja Suicide rate (S) sijaitsee toisessa sarakkeessa vasemmalta lukien.

18 Korrelaatiomatriisi S POP UR MV LBL LSP AI IN PR MH B HT DI MA D DR DN HS CR M PRI RP VT PH INC PL

19 19 Taulukko 2: Itseisarvoltaan suurimmat korrelaatiokertoimet. Suicide rate, 1978, _NAME_ per 10,000 D MV MA CR HT Taulukosta 2 nähdään, että itseisarvoltaan suurimmat korrelaatiokertoimet selitettävällä muuttujalla S on seuraavien selittävien muuttujien kanssa: Divorce rate (D) 0.75, Per mil who moved between 1965 and 1970 (MV) 0.65, Marriage rate (MA) 0.58, Crime rate per population (CR) 0.49 ja Death rate from heart disease per residents (HT) Mallinvalinta Jatkossa käsiteltyjen regressiokertoimien t-testien nolla- ja vastahypoteesit ovat seuraavat: H 0 : β i = 0 (1) H 1 : β i 0 Mikäli nollahypoteesi parametrille β i jää valitulla merkitsevyystasolla (yleensä 0.05) voimaan, voidaan regressiokerrointa vastaava selittäjä poistaa mallista.

20 Mallinvalintakriteerit Tutkitaan mahdollisia malleja kahden mallinvalintakriteerin, Mallowsin C:n (C p ) ja Bayeslaisen informaatiokriteerin (BIC) avulla. Näitä kahta kriteeriä on käytetty sillä perusteella, että ne johtavat vähäparametrisempiin malleihin kuin esimerkiksi Akaiken informaatiokriteeri (AIC). Seuraavissa tulosteissa on listattu kummankin valitun kriteerin suhteen kolmekymmentä parasta mallia. Number ID in Model C(p) Variables in Model UR LBL PR D CR UR LBL LSP D CR LBL PR D CR PRI LBL LSP B D PRI UR LBL D CR UR LBL AI D CR LBL IN PR D CR LBL PR D CR UR LBL IN PR D CR UR LBL LSP PR D CR LBL LSP PR B D PRI UR LBL PR D CR VT UR LBL LSP MA D CR LBL PR D DR PRI UR LBL LSP D CR VT UR LBL PR D CR PRI UR LBL LSP D CR PRI UR LBL PR MH D CR LBL PR D CR VT LBL PR B D CR PRI LBL LSP PR MH B D PRI UR LBL LSP AI D CR LBL LSP IN PR B D PRI UR LBL PR MA D CR LBL LSP D PRI UR LBL AI PR D CR UR LBL PR D CR PL LBL IN PR D CR PRI LBL LSP PR D PRI UR LBL PR D CR INC

21 21 Number ID in Model BIC Variables in Model UR LBL PR D CR UR LBL D CR UR LBL LSP D CR LBL PR D CR PRI LBL PR D CR LBL D CR LBL LSP B D PRI LBL LSP D PRI UR LBL AI D CR LBL IN PR D CR LBL PR D DR PRI LBL D CR PRI LBL PR D CR VT LBL AI D CR LBL D CR VT LBL LSP PR D PRI LBL PR D CR PL LBL PR MH D CR LBL LSP D DR PRI LBL D CR PL UR LBL IN D CR LBL PR D CR INC UR LBL D CR VT UR LBL IN PR D CR UR D HS CR UR LBL LSP PR D CR LBL PR D PRI LBL LSP PR B D PRI UR LBL PR D CR VT UR LBL LSP MA D CR Kriteerien perusteella vaikuttaa siltä, että on mahdollista rakentaa tulkinnallinen malli, jossa on neljä selittävää muuttujaa. Tämän dokumentoinnin ulkopuolella on tarkasteltu myös muita malleja, mutta näiden tarkastelujen perusteella on jatkossa keskitytty parhaisiin neljän selittävän muuttujan malleihin. 6.2 Tulkinnallisten mallien tarkastelu Tutkitaan tarkemmin seuraavia malleja: S = UR LBL D CR S = LBL PR D CR S = LBL LSP D PRI

22 22 SAS_OHJELMA_ALKAA ods select Reg.MODEL1.Fit.S.ParameterEstimates; PROC REG DATA=lresunit; MODEL S = UR LBL D CR; RUN; QUIT; % SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept <.0001 UR Per mil of population living in urban areas LBL Log of number of blacks D Divorce rate, per 10, <.0001 CR Crime rate per 100, population SAS_OHJELMA_ALKAA ods select Reg.MODEL1.Fit.S.ParameterEstimates; PROC REG DATA=lresunit; MODEL S = LBL PR D CR; RUN; QUIT; % SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept <.0001 LBL Log of number of blacks PR # inmates of correctional institutes 1970 (100's) D Divorce rate, per 10, <.0001 CR Crime rate per 100, population

23 23 SAS_OHJELMA_ALKAA ods select Reg.MODEL1.Fit.S.ParameterEstimates; PROC REG DATA=lresunit; MODEL S = LBL LSP D PRI; RUN; QUIT; % SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept <.0001 LBL Log of number of blacks <.0001 LSP Log of number of Spanish speaking D Divorce rate, per 10, <.0001 PRI Prison rate (Federal and State) per 100,000 residents Valinnassa on edellä olevien tietojen lisäksi tarkasteltu jäännösvaihtelun suuruutta ja muotoa mainituissa malleissa. Kappaleessa 7 nämä tarkastelut on esitetty valitun mallin osalta. 6.3 Valittu malli Valitun mallin selittävät muuttujat ovat: LBL = Log of number of blacks LSP = Log of number of Spanish speaking D = Divorce rate, per 10,000 PRI = Prison rate (Federal and State) per 100,000 residents Estimoitu malli on: S = LBL LSP D PRI F-testisuureen osalta nollahypoteesi on, että kaikkien selittävien muuttujien regressiokertoimet ovat nollia, eli etteivät ne selitä mitään muuttujan Suicide vaihtelusta: H 0 : β 1 = β 2 =... = β k = 0 (2) H 1 : ainakin jokin β i 0, i = 1, 2,..., k.

24 24 The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var F-testisuure on tilastollisesti merkitsevä (P < ), joten nollahypoteesi hylätään. Korjattu selitysaste (Adjusted R 2 ) on , eli estimoitu malli selittää 66 %:a kokonaisvaihtelusta. Vakiotermi α jätetään malliin. Selittävien muuttujien kertoimet b 1 b 4 ovat kaikki tilastollisesti merkitseviä 95 %:n tasolla. Valittu malli on kolmesta lähemmin tarkastelluista ainoa jossa kaikki kertoimet ovat merkitseviä tällä merkitsevyystasolla. Lopuksi on vielä piirretty kuvan 7 hajontakuvamatriisi malliin valituista muuttujista.

25 25 Kuva 7: Hajontakuvamatriisi, valittu malli.

26 26 7 Valitun mallin tarkastelu Tässä kappaleessa tarkastellaan valitun mallin jäännösvaihtelua ja siitä seuraavia mallin ominaisuuksia: 1. Mallin harhattomuus 2. Jäännösvaihtelun homoskedastisuus 3. Mallivirheiden normaalisuus 4. Multikollineaarisuus 5. Vaikutusvaltaiset havainnot 7.1 Mallin harhattomuus Piirretään hajontakuvio, jossa X-akselilla on selitettävän muuttujan ennustettu arvo ja Y-akselilla studentoidut residuaalit. Mikäli malli on harhaton, keskittyvät havaintopisteet kuvaan piirretyn regressiosuoran ympärille tasaisen lineaarisesti. Havaintopisteet on nimetty kuvaan niiden tunnistamiseksi. Kuva 8: Ennustetut arvot vastaan studentoidut residuaalit.

27 27 Piirretään hajontakuvioon lowess-tasoituskäyrä, joka auttaa arvioimaan poikkeamia referenssisuoran ympärillä. SAS_OHJELMA_ALKAA %lowess(data=modout,out=smooth, x=p, y=rstudent, htext=1, f=0.5, colors=black red, outanno=lowess, interp=r); RUN; % SAS_OHJELMA_LOPPUU ; Kuva 9: Lowess tasoitus, ennustetut arvot vastaan studentoidut residuaalit. Alueella, jossa valtaosa havainnoista sijaitsee, lowess-tasoituskäyrä käyttäytyy hyvin. Mallia voidaan pitää harhattomana. Piirretään seuraavaksi vastaavat tasoituskäyrät selittävien muuttujien ja studentoitujen residuaalien suhteen.

28 28 Kuva 10: Lowess tasoitus, muuttujan LBL arvot vastaan studentoidut residuaalit. Studentoidut residuaalit käyttäytyvät hyvin LBL-muuttujan suhteen. Kuvan 11 muuttujan LSP residuaalien tasoituskäyrä käyttäytyy hieman epä- Kuva 11: Lowess tasoitus, muuttujan LSP arvot vastaan studentoidut residuaalit. tasaisemmin kuin muuttujalla LBL, mutta vaihtelu on kuitenkin kohtuullisen pientä.

29 29 Kuva 12: Lowess tasoitus, muuttujan PRI arvot vastaan studentoidut residuaalit. Studentoidut residuaalit käyttäytyvät hyvin PRI-muuttujan suhteen. Kuvassa 13 esitetyt muuttuja D:n studentoidut residuaalit käyttäytyvät on- Kuva 13: Lowess tasoitus, muuttujan D arvot vastaan studentoidut residuaalit. gelmallisemmin kuin muiden muuttujien. Vaihtelua on kuitenkin alle yksi hajonnan mitta.

30 Jäännösvaihtelun homoskedastisuus Kappaleen 7.1 hajontakuvioiden muodosta nähdään, että jäännösvaihtelu on homoskedastista, eli se pysyy samansuuruisena havaintojen arvoista riippumatta. 7.3 Mallivirheiden normaalisuus Piirretään todennäköisyyspaperikuva. SAS_OHJELMA_ALKAA proc univariate data=modout noprint; probplot R / normal (mu=est sigma=est) ; run; % SAS_OHJELMA_LOPPUU ; Mikäli jäännösvaihtelu noudattaa normaalijakaumaa, todennäköisyyspaperikuvaan 14 piirretyt pisteet keskittyvät referenssisuoran ympärille ilman suuria tai systemaattisia poikkeamia. Kuva 14: Todennäköisyyspaperikuva residuaaleista.

31 31 Suuria poikkeamia referenssisuorasta ei ole, eli residuaalit näyttävät käyttäytyvän normaalisesti. 7.4 Multikollineaarisuus VIF-lukujen (Variance Inflation Factor) laskeminen [2]: V IF(b i ) = 1 TOL(b i ) = 1 1 Ri 2 Mikäli muuttujien välillä esiintyy multikollineaarisuutta, VIF on suuri ja TOL pieni. The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variance Variable Label DF Estimate Error t Value Pr > t Tolerance Inflation Intercept Intercept < LSP Log of number of Spanish speaking LBL Log of number of blacks < D Divorce rate, per 10, < PRI Prison rate (Federal and State) per 100,000 residents Jos äärimmäisenä oikealla olevan Variance Inflation -sarakkeen tunnusluvut lähentelisivät noin kymmentä, aiheuttaisi multikollineaarisuus ongelmia. Tässä tapauksessa kuitenkin VIF-arvot ovat huomattavasti pienempiä, joten syytä huoleen ei ole. 7.5 Vaikutusvaltaiset ja poikkeavat havainnot Studentoidut residuaalit ja hat-matriisin lävistäjäalkiot Lasketaan Bonferroni-korjatut vaikutusvaltaisien havaintojen rajat kuviin. SAS_OHJELMA_ALKAA data tmp; do k=4; p=k+1; n=50; stud=abs(tinv(0.05/n/2,n-k-2)); *Bonferronikorjaus; end; call symput('bonraja',put(stud,6.4)); run; %put &bonraja; % SAS_OHJELMA_LOPPUU ; (3)

32 32 Vaikutusvaltaisten havaintojen rajat ovat ± Piirretään havaintojen järjestysnumerot ja studentoidut residuaalit vastakkain kuvaan 15 sekä lisätään lasketut rajat. Samat rajat on piirretty myös kuvaan 17. SAS_OHJELMA_ALKAA symbol1 POINTLABEL=("#PA"); axis1 order=(-4 to 4 by 1); proc gplot data=modout; plot RSTUDENT*ID / vref= -&bonraja &bonraja vaxis=axis1; run; quit; % SAS_OHJELMA_LOPPUU ; Kuva 15: Havaintojen järjestysnumerot vastaan studentoidut residuaalit.

33 33 Hat-matriisin lävistäjäelementtien h ii odotusarvo on p n vaikutusvaltaisiksi havainnoiksi ne, joissa h ii > 2p. [2] n. Täten katsotaan SAS_OHJELMA_ALKAA data tmp; do k=4; p=k+1; n=50; hats=2*p/n; end; call symput('hraja',put(hats,6.4)); run; %put &hraja; % SAS_OHJELMA_LOPPUU ; Vaikutusvaltaisten havaintojen rajaksi saadaan Tämä raja on piirretty kuviin 16 ja 17. Kuva 16: Havaintojen järjestysnumerot vastaan hat-matriisin lävistäjäalkiot.

34 34 Kuva 17: Hat-matriisin lävistäjäalkiot vastaan studentoidut residuaalit. Ainoa havainto laskettujen rajojen ulkopuolella on Nevada (NV) Cookin mitta Tutkitaan vielä vaikutusvaltaisten havaintojen vaikutusta regressiokerroinvektoriin Cookin mitan avulla: C i = (b i b) T X T X(b i b) ps 2 (4) Cookin mitta noudattaa F-jakaumaa vapausasteilla p ja n p 2. Näinollen riskitasoa α käytettäessä voidaan vaikutusvaltaisiksi katsoa ne, joihin liittyvä C i > Fp,(n p 2) α. [2] Seuraavalla ohjelmalla on laskettu Cookin mitan vaikutusvaltaisten havaintojen raja:

35 35 SAS_OHJELMA_ALKAA data F_set; do k=4; p=k+1; n=50; F = finv(0.05, p, n-p-2); end; call symput('cookraja',put(f,6.4)); run; %PUT &cookraja; % SAS_OHJELMA_LOPPUU ; Cookin mitan vaikutusvaltaisten havaintojen rajaksi saadaan Raja on piirretty kuvaan 18. Vain Arkansas (AR) sijoittuu lähelle, mutta sekin jää niukasti ei-vaikutusvaltaiselle puolelle rajaa (tarkka Arkansasin Cookin mitta-arvo on ). Kuva 18: Havaintojen järjestysnumerot vastaan Cookin etäisyydet.

36 Mahalanobis-etäisyydet Kuvassa 19 tarkastellaan Mahalanobis-etäisyyksien perusteella, mitkä havainnot sijaitsevat kaukana muista. "Havaintopisteiden x i ja x j Mahalanobis-etäisyys on neliömuoto D 2 (x i, x j ) = (x i x j ) S 1 (x i x j ) (5) Mahalanobis-etäisyys on etäisyysmitta, joka ottaa huomioon satunnaismuuttujien x 1, x 2,...,x p havaittujen arvojen varianssien lisäksi myös niiden kovarianssit, ts. muuttujien väliset (lineaariset) riippuvuudet."[1] Kuvan 19 perusteella muista havainnoista Mahalanobis-etäisyyksien mielessä erottuvat Nevada, Arkansas ja Teksas. Kuva 19: Mahalanobis-etäisyydet.

37 37 8 Osoitinmuuttujat Muodostetaan uusi malli, jossa edellisessä kappaleessa tunnistetulle poikkeavalle havainnolle (NV) on määritetty osoitinmuuttuja. Osoitemuuttujan kertoimen merkitsevyyttä tarkastellaan 95 %:n merkitsevyystasolla. Osoitemuuttujan luonti: SAS_OHJELMA_ALKAA DATA lresunitos; SET lresunit; *Nevada; IF pa='nv' THEN NV=1; ELSE NV=0; LABEL NV='Nevada (osoitinmuuttuja)' ; RUN; % SAS_OHJELMA_LOPPUU ; Osoitinmuuttujamallin estimointi: SAS_OHJELMA_ALKAA ods select Reg.MODEL1.Fit.S.ParameterEstimates; PROC REG DATA=lresunitos; MODEL S = LBL LSP D PRI NV; RUN; QUIT; % SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept <.0001 LBL Log of number of blacks <.0001 LSP Log of number of Spanish speaking D Divorce rate, per 10, PRI Prison rate (Federal and State) per 100,000 residents NV Nevada (osoitinmuuttuja) Osoitinmuuttujaan liittyvä t-testisuureen arvo 0.89 ei ylitä kriittistä arvoa, joten havaintoa Nevada ei tarvitse huomioida mallituksessa erikseen.

38 38 9 Mallin tulkinta Estimoitu malli on: S = LBL LSP D PRI Seuraavien tekijöiden kasvu vaikuttaa estimoidun mallin mukaan itsemurhia lisäävästi: Espanjaa puhuvien asukkaiden määrä (LSP) Avioerojen määrä (D) Vankilapaikkojen lukumäärä (PRI). Seuraavat tekijät vaikuttavat estimoidun mallin mukaan itsemurhia vähentävästi: Mustaihoisten asukkaiden määrä (LBL). Kuten harjoitustyön alussa on todettu, muuttujien LSP (SP) ja LBL (BL) vaikutus on mahdollisesti selitettävissä kulttuurisilla eroilla. Avioerojen vaikutus on selkeä: kyseessä on tapahtuma, joka lisää epätoivoisten tekojen riskiä. PRI-muuttuja puolestaan kertoo yhteiskunnan tilasta: mikäli vankilapaikkoja on paljon suhteessa väestöön, myös rikoksia tapahtuu todennäköisesti paljon. Kriminalisoituminen lisää syrjäytymistä joka puolestaan on itsemurhariskiä kasvattava tekijä. Mielenkiintoista on, että tuloja ja köyhyyttä mittaavia muuttujia ei voimakkaimpien selittäjien joukossa esiintynyt. Osavaltion Nevada poikkeavuuden syy on sen kasinokaupunki Las Vegas, jonne matkustetaan mm. solmimaan avioliittoja.

39 39 Lähteet [1] I. Mellin. Moniulotteiset jakaumat ja havaintoaineistot. Luentomoniste, TKK., [2] J. Puranen. Data-analyysi. Luentomoniste, Helsingin yliopisto, tilastotieteen laitos., 1997.

A250A0050 Ekonometrian perusteet Tentti

A250A0050 Ekonometrian perusteet Tentti A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

proc glm data = ex61; Title2 Aliasing Structure of the 2_IV^(5-1) design; model y = A B C D E /Aliasing; run; quit; Title "Exercises 6"; Data ex61; input A B C D E y @@; Label A = "Furnance Temperature" B = "Heating Time" C = "Transfer Time" D = "Hold Down Time" E = "Quench of Oil Temperature" y = "Free Height of Leaf

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking) 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989.

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla.

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla. 5. Johdatus faktorikokeisiin 5.1 Taustaa Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla. Täten, jos faktorilla A on a tasoa ja faktorilla

Lisätiedot

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat TAMPEREEN YLIOPISTO Tilastollisen mallintamisen harjoitustyö Teemu Kivioja ja Mika Helminen Epätasapainoisen koeasetelman analyysi Worksheet 5 Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ...

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Opiskelija viipymisaika pistemäärä

Opiskelija viipymisaika pistemäärä 806109 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2012 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOILLA 8 JA 9! 1. Jatkoa harjoituksen 5 tehtävään

Lisätiedot

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiomallin valinta TKK (c) Ilkka Mellin (2004) 1 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset 4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset 4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i 3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli: 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. Son height (cm) 21 2 19 18 17 16 15 15

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet

Lisätiedot

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiomallin valinta TKK (c) Ilkka Mellin (2007) 1 Regressiomallin valinta >> Regressiomallin valinta: Johdanto Mallinvalintatestit

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Yleinen lineaarinen malli

Yleinen lineaarinen malli MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: 1 Määritelmä ja standardioletukset 2

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3 OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset

Lisätiedot

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking) 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 19.3.2019/1 MTTTP1, luento 19.3.2019 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

2. Keskiarvojen vartailua

2. Keskiarvojen vartailua 2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena

Lisätiedot

Makrojen mystinen maailma lyhyt oppimäärä

Makrojen mystinen maailma lyhyt oppimäärä Makrojen mystinen maailma lyhyt oppimäärä Makrot osana SAS-teknologiaa Yleiskuva Jouni Javanainen Aureolis lyhyesti Aureolis on jatkuvia Business Intelligence -palveluita tuottava asiantuntijaorganisaatio

Lisätiedot

Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

Lähtökohta: k faktoria, kullakin kaksi tasoa (high, low). tulee katettua (complete replicate). Havaintojen 6. 2 k faktorikokeet Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). Vähintään 2 k havaintoa, jotta kaikki vaihtoehdot tulee katettua (complete replicate). Havaintojen kokonaismäärä N = 2

Lisätiedot

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli MS-C2128 Ennustaminen ja aikasarja-analyysi 1. harjoitukset / Tehtävät Kotitehtävät: 2 Aiheet: Aluksi Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli Tällä kurssilla käytetään

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 V ls. Uusintamahdollisuus on rästitentissä.. ke 6 PR sali. Siihen tulee ilmoittautua WebOodissa 9. 8.. välisenä aikana. Soveltuvan

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs) 9. Muita koeasetelmia 9.1 Hierarkiset asetelmat (Nested Designs) Tietyissä koetilanteissa yhden faktorin tasot ovat samanlaisia joskaan ei täysin identtisiä toisen faktorin eri tasoilla. Tällaista asetelmaa

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa: Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle] Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Menestyminen valintakokeissa ja todennäköisyyslaskussa 21.5.21 Menestyminen valintakokeissa ja todennäköisyyslaskussa Esa Pursiheimo 45761L 1 JOHDANTO...2 2 LÄHTÖTIEDOT JA OTOS...3 3 PÄÄSYKOETULOKSIEN YHTEISJAKAUMA...4 4 REGRESSIOANALYYSI...9 4.1 MALLI JA

Lisätiedot

1. Tietokoneharjoitukset

1. Tietokoneharjoitukset 1. Tietokoneharjoitukset Aluksi Tällä kurssilla käytetään R-ohjelmistoa, jonka käyttämisestä lienee muutama sana paikallaan. R-ohjelmisto on laajasti käytetty vapaassa levityksessä oleva ammattimaiseen

Lisätiedot

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa 5. Johdatus faktorikokeisiin 5.1 Taustaa Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla. Täten, jos faktorilla A on a tasoa ja faktorilla

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat .9. Kaksiulotteiset satunnaismuuttujat MS-A Todennäköisslaskennan ja tilastotieteen peruskurssi Viikko Moniulotteiset satunnaismuuttujat sekä niiden jakaumat ja tunnusluvut; Moniulotteisia jakaumia Usein

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot