Lineaaristen mallien sovellukset -harjoitustyö



Samankaltaiset tiedostot
A250A0050 Ekonometrian perusteet Tentti

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Yleistetyistä lineaarisista malleista

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Harjoitus 9: Excel - Tilastollinen analyysi

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

2. Tietokoneharjoitukset

Mat Tilastollisen analyysin perusteet, kevät 2007

Testejä suhdeasteikollisille muuttujille

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Johdatus regressioanalyysiin. Heliövaara 1

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Korrelaatiokertoinen määrittely 165

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

HAVAITUT JA ODOTETUT FREKVENSSIT

MTTTP1, luento KERTAUSTA

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla.

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Regressiodiagnostiikka ja regressiomallin valinta

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

Tilastollinen aineisto Luottamusväli

Opiskelija viipymisaika pistemäärä

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

MTTTP1, luento KERTAUSTA

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

4. Tietokoneharjoitukset

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

4. Tietokoneharjoitukset

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Regressiodiagnostiikka ja regressiomallin valinta

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

Osa 2: Otokset, otosjakaumat ja estimointi

Väliestimointi (jatkoa) Heliövaara 1

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Yleinen lineaarinen malli

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Johdatus regressioanalyysiin

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MTTTP1, luento KERTAUSTA

2. Keskiarvojen vartailua

Makrojen mystinen maailma lyhyt oppimäärä

Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Kvantitatiiviset menetelmät

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Moniulotteisia todennäköisyysjakaumia

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)


FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Dynaamiset regressiomallit

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Menestyminen valintakokeissa ja todennäköisyyslaskussa

1. Tietokoneharjoitukset

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Transkriptio:

Lineaaristen mallien sovellukset -harjoitustyö Juha-Pekka Perttola 8. tammikuuta 2006

Sisältö 1 Johdanto 4 1.1 Perustiedot käytetystä aineistosta................ 4 1.2 Harjoitustyön tavoite....................... 4 2 Taustateoria 5 3 Hajontakuvamatriisit 6 3.1 Hajontakuvamatriisi koko aineistosta.............. 6 3.2 Osittaiset hajontakuvamatriisit ilman poikkeavia havaintoja. 11 4 Linearisoivat muunnokset 13 5 Korrelaatiomatriisi 17 6 Mallinvalinta 19 6.1 Mallinvalintakriteerit....................... 20 6.2 Tulkinnallisten mallien tarkastelu................ 21 6.3 Valittu malli............................ 23 7 Valitun mallin tarkastelu 26 7.1 Mallin harhattomuus....................... 26 7.2 Jäännösvaihtelun homoskedastisuus............... 30 7.3 Mallivirheiden normaalisuus................... 30 7.4 Multikollineaarisuus........................ 31 7.5 Vaikutusvaltaiset ja poikkeavat havainnot............ 31 7.5.1 Studentoidut residuaalit ja hat-matriisin lävistäjäalkiot 31 7.5.2 Cookin mitta....................... 34 7.5.3 Mahalanobis-etäisyydet.................. 36 8 Osoitinmuuttujat 37 9 Mallin tulkinta 38

Kuvat 1 Hajontakuvamatriisi, koko aineisto............... 7 2 Hajontakuvamatriisi, muuttujat Suicide rate (S), Marriage rate (MA) ja Divorce rate (D) - Nevada poistettu........ 11 3 Hajontakuvamatriisi, muuttujat Suicide rate (S) ja Number of inmates of correctional institutes (PR) - Kalifornia poistettu. 12 4 Hajontakuvamatriisi, logaritmoidut muuttujat LBL ja LSP.. 14 5 Box-Cox -muunnos muuttujasta SP............... 15 6 Box-Cox -muunnos muuttujasta BL............... 16 7 Hajontakuvamatriisi, valittu malli................ 25 8 Ennustetut arvot vastaan studentoidut residuaalit........ 26 9 Lowess tasoitus, ennustetut arvot vastaan studentoidut residuaalit............................... 27 10 Lowess tasoitus, muuttujan LBL arvot vastaan studentoidut residuaalit............................. 28 11 Lowess tasoitus, muuttujan LSP arvot vastaan studentoidut residuaalit............................. 28 12 Lowess tasoitus, muuttujan PRI arvot vastaan studentoidut residuaalit............................. 29 13 Lowess tasoitus, muuttujan D arvot vastaan studentoidut residuaalit.............................. 29 14 Todennäköisyyspaperikuva residuaaleista............ 30 15 Havaintojen järjestysnumerot vastaan studentoidut residuaalit 32 16 Havaintojen järjestysnumerot vastaan hat-matriisin lävistäjäalkiot................................ 33 17 Hat-matriisin lävistäjäalkiot vastaan studentoidut residuaalit. 34 18 Havaintojen järjestysnumerot vastaan Cookin etäisyydet... 35 19 Mahalanobis-etäisyydet...................... 36

4 1 Johdanto 1.1 Perustiedot käytetystä aineistosta Tässä harjoitustyössä käytetty aineisto on tiedostonimeltään HT8. Aineistossa on 50 havaintoriviä eli yksi jokaisesta USA:n osavaltiosta. Muuttujien nimet ja nimien selitykset ovat seuraavat: PA ='Abbreviation of the state name' POP='Total population (1000's)' UR ='Per mil of population living in urban areas' MV ='Per mil who moved between 1965 and 1970' BL ='# blacks (1000's)' SP ='# Spanish speaking (1000's)' AI ='# Native Americans (1000's)' IN ='# inmates of institutions (correctional, mental etc.) (1000's)' PR ='# inmates of correctional institutes 1970 (100's)' MH ='Homes and schools for mentally handicapped (100's)' B ='Births per 1000' HT ='Death rate from heart disease per 100,000 residents' S ='Suicide rate, 1978, per 10,000' DI ='Death rate from diabetes, 1978, per 100,000' MA ='Marriage rate, per 10,000' D ='Divorce rate, per 10,000' DR ='Physicians per 100,000' DN ='Dentists per 100,000' HS ='Per mil high school grads' CR ='Crime rate per 100,000 population' M ='Murder rate per 100,000 population' PRI='Prison rate (Federal and State) per 100,000 residents' RP ='% voting for Republican candidate in presidential election' VT ='% voting for presidential candidate among voting age population' PH ='Telephones per 100 (1979)' INC='Per capita income expressed in 1972 dollars' PL ='Per mil of population below poverty level'; 1.2 Harjoitustyön tavoite Tämän harjoitustyön päämääränä on rakentaa lineaarinen malli valitulle selitettävälle muuttujalle Suicide rate (S, itsemurhien lukumäärä) käyttämällä muita aineiston numeerisia muuttujia selittävinä muuttujina.

5 Mallin määrittelyn jälkeen tutkitaan jäännösvaihteluun perustuen, täyttyvätkö lineaarisiin malleihin liittyvät oletukset. Tämän lisäksi tarkastellaan havaintojen vaikutusvaltaisuutta. 2 Taustateoria Aluksi todettakoon, että tämän harjoitustyön tekijällä ei ole riittävää tietoa itsemurhiin johtavia syitä kuvaavista (sosiaali-)psykologisista teorioista. Alla on listattu aineiston muuttujista ne, joilla uskoakseni voi olla vaikutusta itsemurhariskiin. UR : Per mil of population living in urban areas MV : Per mil who moved between 1965 and 1970 BL : Number of blacks (1000s) SP : Number of Spanish speaking (1000s) AI : Number of Native Americans (1000s) IN : Number of inmates of institutions (correctional, mental etc.) (1000s) PR : Number of inmates of correctional institutes 1970 (100s) MH : Homes and schools for mentally handicapped (100s) B : Births per 1000 MA : Marriage rate, per 10,000 D : Divorce rate, per 10,000 DR : Physicians per 100,000 HS : Per mil high school grads CR : Crime rate per 100,000 population PRI: Prison rate (Federal and State) per 100,000 residents RP : % voting for Republican candidate in presidential election VT : % voting for presidential candidate among voting age population PH : Telephones per 100 (1979) INC : Per capita income expressed in 1972 dollars PL :Per mil of population below poverty level Monien näistä muuttujista voidaan katsoa kuvaavan yleistä hyvinvointia (esim. DR) tai mahdollista syrjäytymisen astetta (VT, PH jne.). Muuttujien BL ja SP olen katsonut kuvaavan kulttuurisia vaikutteita ja sitä kautta elämänasenteita. Aineistoon olisi luultavimmin sisällytetty myös muunlaisia muuttujia mikäli valinta ja kerääminen olisi suoritettu nimenomaan itsemurhien tutkimista

6 varten. Harjoitustyön selitettävä muuttuja on ymmärrettävistä syistä kuitenkin valittu jälkikäteen. 3 Hajontakuvamatriisit 3.1 Hajontakuvamatriisi koko aineistosta Kuvassa 1 on piirretty kaikki aineiston numeeriset muuttujat vastakkain hajontakuvamatriisiin. Jokaisella sivulla ensimmäiseksi on sijoitettu selitettävä muuttuja Suicide rate (S), jotta sen riippuvuutta selittävistä muuttujista olisi mahdollista tarkastella. Kuvat on tuotettu Michael Friendlyn ohjelmoimalla scatmat -makrolla (saatavilla osoitteesta www.math.yorku.ca/scs/sssg/scatmat.html) seuraavasti: SAS_OHJELMA_ALKAA 5560 +filename kuvatied "&outpath\draftmd1.eps"; 5561 +%scatmat(data=resunit, var=s POP UR MV BL); 5562 +filename kuvatied "&outpath\draftmd2.eps"; 5563 +%scatmat(data=resunit, var=s SP AI IN PR MH B HT ); 5564 +filename kuvatied "&outpath\draftmd3.eps"; 5565 +%scatmat(data=resunit, var=s RP DI MA D DR DN HS); 5566 +filename kuvatied "&outpath\draftmd4.eps"; 5567 +%scatmat(data=resunit, var=s CR M PRI VT PH INC PL); 5568 +% SAS_OHJELMA_LOPPUU ; Hajontakuvamatriisissa lävistäjäalkioiden alakulmissa on kyseisen muuttujan minimi- ja yläkulmissa maksimiarvo.

7 Kuva 1: Hajontakuvamatriisi, koko aineisto.

8

9

10

11 3.2 Osittaiset hajontakuvamatriisit ilman poikkeavia havaintoja Kuva 2: Hajontakuvamatriisi, muuttujat Suicide rate (S), Marriage rate (MA) ja Divorce rate (D) - Nevada poistettu. Joidenkin muuttujien osalta on kuvasta 1 selvästi nähtävissä, että poikkeavat havainnot tekevät mahdottomaksi tarkastella riippuvuuden muotoa. Kuvaan 2 on piirretty muuttujat Suicide rate (S), Marriage rate (MA) ja Divorce rate (D) hajontakuvamatriisiin ilman osavaltion Nevada havaintoja, jotka poikkeavat selvästi muista osavaltioista. Riippuvuudet näyttävät lineaarisilta Nevadan poistamisen jälkeen.

12 Kuva 3: Hajontakuvamatriisi, muuttujat Suicide rate (S) ja Number of inmates of correctional institutes (PR) - Kalifornia poistettu. Kuvassa 3 on vastaavasti tarkasteltu muuttujaa Number of inmates of correctional institutes (PR) Kalifornian osavaltion poistamisen jälkeen.

13 4 Linearisoivat muunnokset Hajontakuvamatriisien perusteella joitakin muuttujia on syytä muuntaa riippuvuuden linearisoimiseksi. Muunnostarvetta on mietitty ainoastaan niiden muuttujien osalta, jotka lueteltiin kappaleessa 2. Seuraavassa on logaritmoitu muuttujat Number of blacks (BL) ja Number of Spanish speaking (SP). Uudet muuttujat on muodostettu SAS-ohjelmalla seuraavasti: SAS_OHJELMA_ALKAA 5515 +DATA lresunit; 5516 + SET resunit; 5517 + LBL=LOG(BL); 5518 + LSP=LOG(SP); 5519 + LABEL 5520 + LBL ='Log of number of blacks' 5521 + LSP ='Log of number of Spanish speaking'; 5522 + ID+1; 5523 + DROP BL SP; 5524 +RUN; 5525 +% SAS_OHJELMA_LOPPUU ; Muodostetut muuttujat on nimetty Log of number of blacks (LBL) ja Log of number of Spanish speaking (LSP). Kuvassa 4 nämä muuttujat on piirretty selitettävän muuttujan S kanssa hajontakuvamatriisiin.

14 Kuva 4: Hajontakuvamatriisi, logaritmoidut muuttujat LBL ja LSP. Näyttää siltä, että näiden muuttujien osalta logaritmointi linearisoi riippuvuuden. Asian varmistamiseksi on tarkasteltu Box-Cox -muunnoksen antamia tuloksia. SAS_OHJELMA_ALKAA 5706 +ods output boxcox=b details=d; 5707 +ods exclude boxcox; 5708 +proc transreg details data=resunit; 5709 +model boxcox(sp / lambda=-0.4 to 0.2 by 0.01) = 5709!+identity(S); 5710 +output out=trans; 5711 +run; 5712 +filename kuvatied "&outpath\boxcoxsp.eps"; 5713 +%plotbxcx(ll=1,rmse=0,rsq=0); 5714 +% SAS_OHJELMA_LOPPUU ;

15 Plotbxcx-makro, jolla kuvat 5 ja 6 on piirretty, on saatavissa SAS Instituten sivuilta osoitteesta: www.support.sas.com/rnd/app/da/new/802ce/stat/chap15/sect9.htm Kuvissa 5 ja 6 on X-akselilla muunnosparametrin λ arvot ja Y-akselilla loglikelihood arvot. Kuvien pystysuorat viivat osoittavat 95 %:n luottamusvälin λ:n arvolle. Kuva 5: Box-Cox -muunnos muuttujasta SP.

16 Taulukko 1: Parametrin λ tulkittavissa olevat arvot [2] λ -2-1 -0.5 0 0.5 1 2 1 1 1 Muunnos y 2 y y log(y) y y y 2 Taulukosta 1 nähdään λ-parametrin arvot, jotka ovat helposti tulkittavissa. Lähin tulkittavissa oleva muunnosarvo parametrille λ SP on nolla, joka vastaa muuttujan SP logaritmointia. Arvo nolla sisältyy myös λ SP :n 95 %:n luottamusväliin. Muuttujasta SP käytetään jatkossa logaritmoitua muotoa LSP. Kuva 6: Box-Cox -muunnos muuttujasta BL.

17 Lähin tulkinnallinen muunnosarvo parametrille λ BL on nolla joka vastaa muuttujan BL logaritmointia. Arvo nolla sijaitsee λ BL :n 95 %:n luottamusvälin ulkopuolella, mutta muunnos on oikeansuuntainen ja auttaa linearisoimaan muuttujan riippuvuutta suhteessa selitettävään muuttujaan S. Muuttujasta BL käytetään jatkossa logaritmoitua muotoa LBL. Muita muuttujia käytetään jatkossa ilman muunnosta. 5 Korrelaatiomatriisi Seuraavaksi lasketaan korrelaatiomatriisi aineiston kaikista numeerisista muuttujista. SAS_OHJELMA_ALKAA 5850 +PROC CORR DATA=lresunit OUTP=pcorr NOPRINT; 5851 +VAR S POP UR MV LBL LSP AI IN PR MH B HT DI 5852 + MA D DR DN HS CR M PRI RP VT PH INC PL; 5853 +RUN; 5854 +% SAS_OHJELMA_LOPPUU ; Ohjelma tallentaa matriisin datatiedostoksi pcorr joka tulostetaan. SAS_OHJELMA_ALKAA 5869 +PROC PRINT DATA=pcorr NOOBS ROUND WIDTH=MINIMUM; 5870 +VAR S POP UR MV LBL LSP AI IN PR MH B HT DI 5871 + MA D DR DN HS CR M PRI RP VT PH INC PL; 5872 +RUN; 5873 +% SAS_OHJELMA_LOPPUU ; Tulostettu matriisi on luettavissa seuraavalla sivulla. Selitettävä muuttuja Suicide rate (S) sijaitsee toisessa sarakkeessa vasemmalta lukien.

Korrelaatiomatriisi S POP UR MV LBL LSP AI IN PR MH B HT DI MA D DR DN HS CR M PRI RP VT PH INC PL 1.00-0.13 0.11 0.65-0.28 0.06 0.31-0.22-0.02-0.27 0.25-0.40-0.36 0.58 0.75-0.12-0.07 0.33 0.49 0.28 0.28 0.31-0.24-0.09 0.11-0.02-0.13 1.00 0.45-0.08 0.68 0.78 0.35 0.97 0.95 0.90-0.28 0.26 0.07-0.14-0.16 0.42 0.20-0.09 0.28 0.43 0.17-0.17-0.28 0.27 0.25-0.03 0.11 0.45 1.00 0.28 0.38 0.75 0.26 0.43 0.41 0.45-0.05-0.17-0.08 0.16 0.11 0.61 0.54 0.41 0.79 0.34 0.11-0.01-0.21 0.40 0.62-0.42 0.65-0.08 0.28 1.00-0.10 0.17 0.40-0.18 0.05-0.24 0.39-0.69-0.72 0.39 0.71-0.11 0.04 0.41 0.58 0.39 0.38 0.30-0.28-0.27 0.36-0.07-0.28 0.68 0.38-0.10 1.00 0.65 0.08 0.63 0.64 0.60-0.38 0.33 0.23-0.07-0.10 0.27-0.14-0.48 0.20 0.66 0.54-0.35-0.55 0.14 0.07 0.25 0.06 0.78 0.75 0.17 0.65 1.00 0.41 0.72 0.73 0.71-0.10-0.02-0.08-0.02 0.05 0.48 0.28 0.07 0.59 0.55 0.26-0.01-0.38 0.24 0.33-0.03 0.31 0.35 0.26 0.40 0.08 0.41 1.00 0.31 0.46 0.19 0.17-0.24-0.34-0.03 0.21 0.08 0.02 0.20 0.32 0.24 0.12 0.23-0.14-0.05 0.14 0.08-0.22 0.97 0.43-0.18 0.63 0.72 0.31 1.00 0.89 0.94-0.34 0.32 0.11-0.16-0.24 0.47 0.28-0.04 0.22 0.32 0.06-0.20-0.19 0.30 0.30-0.12-0.02 0.95 0.41 0.05 0.64 0.73 0.46 0.89 1.00 0.75-0.22 0.16-0.02-0.11-0.08 0.38 0.12-0.10 0.31 0.49 0.26-0.13-0.36 0.22 0.22 0.04-0.27 0.90 0.45-0.24 0.60 0.71 0.19 0.94 0.75 1.00-0.38 0.31 0.15-0.17-0.29 0.50 0.35 0.00 0.22 0.26 0.04-0.20-0.12 0.33 0.34-0.20 0.25-0.28-0.05 0.39-0.38-0.10 0.17-0.34-0.22-0.38 1.00-0.68-0.45 0.10 0.31-0.48-0.16 0.28-0.01 0.05 0.03 0.62 0.11-0.42-0.19 0.16-0.40 0.26-0.17-0.69 0.33-0.02-0.24 0.32 0.16 0.31-0.68 1.00 0.73-0.19-0.41 0.13-0.12-0.47-0.35-0.14-0.12-0.32 0.08 0.41-0.22 0.10-0.36 0.07-0.08-0.72 0.23-0.08-0.34 0.11-0.02 0.15-0.45 0.73 1.00-0.25-0.38 0.05-0.24-0.46-0.27-0.09-0.09-0.31 0.02 0.29-0.24 0.10 0.58-0.14 0.16 0.39-0.07-0.02-0.03-0.16-0.11-0.17 0.10-0.19-0.25 1.00 0.75-0.14-0.08 0.16 0.34 0.40 0.33 0.24-0.30 0.13 0.13-0.05 0.75-0.16 0.11 0.71-0.10 0.05 0.21-0.24-0.08-0.29 0.31-0.41-0.38 0.75 1.00-0.32-0.25 0.15 0.40 0.50 0.40 0.34-0.35-0.17 0.05 0.12-0.12 0.42 0.61-0.11 0.27 0.48 0.08 0.47 0.38 0.50-0.48 0.13 0.05-0.14-0.32 1.00 0.71 0.24 0.52 0.00-0.15-0.44-0.11 0.34 0.44-0.39-0.07 0.20 0.54 0.04-0.14 0.28 0.02 0.28 0.12 0.35-0.16-0.12-0.24-0.08-0.25 0.71 1.00 0.67 0.45-0.37-0.45-0.08 0.33 0.34 0.63-0.73 0.33-0.09 0.41 0.41-0.48 0.07 0.20-0.04-0.10 0.00 0.28-0.47-0.46 0.16 0.15 0.24 0.67 1.00 0.49-0.38-0.33 0.40 0.43 0.29 0.63-0.76 0.49 0.28 0.79 0.58 0.20 0.59 0.32 0.22 0.31 0.22-0.01-0.35-0.27 0.34 0.40 0.52 0.45 0.49 1.00 0.42 0.35-0.01-0.32 0.22 0.54-0.33 0.28 0.43 0.34 0.39 0.66 0.55 0.24 0.32 0.49 0.26 0.05-0.14-0.09 0.40 0.50 0.00-0.37-0.38 0.42 1.00 0.75-0.06-0.78-0.15 0.00 0.49 0.28 0.17 0.11 0.38 0.54 0.26 0.12 0.06 0.26 0.04 0.03-0.12-0.09 0.33 0.40-0.15-0.45-0.33 0.35 0.75 1.00-0.02-0.68-0.10-0.08 0.40 0.31-0.17-0.01 0.30-0.35-0.01 0.23-0.20-0.13-0.20 0.62-0.32-0.31 0.24 0.34-0.44-0.08 0.40-0.01-0.06-0.02 1.00 0.17 0.12-0.03-0.09-0.24-0.28-0.21-0.28-0.55-0.38-0.14-0.19-0.36-0.12 0.11 0.08 0.02-0.30-0.35-0.11 0.33 0.43-0.32-0.78-0.68 0.17 1.00 0.19 0.07-0.42-0.09 0.27 0.40-0.27 0.14 0.24-0.05 0.30 0.22 0.33-0.42 0.41 0.29 0.13-0.17 0.34 0.34 0.29 0.22-0.15-0.10 0.12 0.19 1.00 0.39-0.48 0.11 0.25 0.62 0.36 0.07 0.33 0.14 0.30 0.22 0.34-0.19-0.22-0.24 0.13 0.05 0.44 0.63 0.63 0.54 0.00-0.08-0.03 0.07 0.39 1.00-0.75-0.02-0.03-0.42-0.07 0.25-0.03 0.08-0.12 0.04-0.20 0.16 0.10 0.10-0.05 0.12-0.39-0.73-0.76-0.33 0.49 0.40-0.09-0.42-0.48-0.75 1.00

19 Taulukko 2: Itseisarvoltaan suurimmat korrelaatiokertoimet. Suicide rate, 1978, _NAME_ per 10,000 D 0.74508 MV 0.65115 MA 0.57812 CR 0.48610 HT -0.39692 Taulukosta 2 nähdään, että itseisarvoltaan suurimmat korrelaatiokertoimet selitettävällä muuttujalla S on seuraavien selittävien muuttujien kanssa: Divorce rate (D) 0.75, Per mil who moved between 1965 and 1970 (MV) 0.65, Marriage rate (MA) 0.58, Crime rate per 100 000 population (CR) 0.49 ja Death rate from heart disease per 100 000 residents (HT) -0.40. 6 Mallinvalinta Jatkossa käsiteltyjen regressiokertoimien t-testien nolla- ja vastahypoteesit ovat seuraavat: H 0 : β i = 0 (1) H 1 : β i 0 Mikäli nollahypoteesi parametrille β i jää valitulla merkitsevyystasolla (yleensä 0.05) voimaan, voidaan regressiokerrointa vastaava selittäjä poistaa mallista.

20 6.1 Mallinvalintakriteerit Tutkitaan mahdollisia malleja kahden mallinvalintakriteerin, Mallowsin C:n (C p ) ja Bayeslaisen informaatiokriteerin (BIC) avulla. Näitä kahta kriteeriä on käytetty sillä perusteella, että ne johtavat vähäparametrisempiin malleihin kuin esimerkiksi Akaiken informaatiokriteeri (AIC). Seuraavissa tulosteissa on listattu kummankin valitun kriteerin suhteen kolmekymmentä parasta mallia. Number ID in Model C(p) Variables in Model 1 5-3.6398 UR LBL PR D CR 2 5-3.5202 UR LBL LSP D CR 3 5-3.2324 LBL PR D CR PRI 4 5-2.8294 LBL LSP B D PRI 5 4-2.8162 UR LBL D CR 6 5-2.6166 UR LBL AI D CR 7 5-2.5853 LBL IN PR D CR 8 4-2.4877 LBL PR D CR 9 6-2.4799 UR LBL IN PR D CR 10 6-2.4145 UR LBL LSP PR D CR 11 6-2.3714 LBL LSP PR B D PRI 12 6-2.3360 UR LBL PR D CR VT 13 6-2.3318 UR LBL LSP MA D CR 14 5-2.2671 LBL PR D DR PRI 15 6-2.2554 UR LBL LSP D CR VT 16 6-2.2542 UR LBL PR D CR PRI 17 6-2.1700 UR LBL LSP D CR PRI 18 6-2.1171 UR LBL PR MH D CR 19 5-2.0739 LBL PR D CR VT 20 6-2.0231 LBL PR B D CR PRI 21 7-2.0015 LBL LSP PR MH B D PRI 22 6-2.0004 UR LBL LSP AI D CR 23 7-1.9986 LBL LSP IN PR B D PRI 24 6-1.9797 UR LBL PR MA D CR 25 4-1.9613 LBL LSP D PRI 26 6-1.9507 UR LBL AI PR D CR 27 6-1.8685 UR LBL PR D CR PL 28 6-1.8662 LBL IN PR D CR PRI 29 5-1.8311 LBL LSP PR D PRI 30 6-1.7925 UR LBL PR D CR INC

21 Number ID in Model BIC Variables in Model 1 5 297.6143 UR LBL PR D CR 2 4 297.7245 UR LBL D CR 3 5 297.7366 UR LBL LSP D CR 4 5 298.0295 LBL PR D CR PRI 5 4 298.0625 LBL PR D CR 6 3 298.3310 LBL D CR 7 5 298.4364 LBL LSP B D PRI 8 4 298.5986 LBL LSP D PRI 9 5 298.6496 UR LBL AI D CR 10 5 298.6809 LBL IN PR D CR 11 5 298.9977 LBL PR D DR PRI 12 4 299.0613 LBL D CR PRI 13 5 299.1889 LBL PR D CR VT 14 4 299.2200 LBL AI D CR 15 4 299.2382 LBL D CR VT 16 5 299.4280 LBL LSP PR D PRI 17 5 299.4925 LBL PR D CR PL 18 5 299.5196 LBL PR MH D CR 19 5 299.5327 LBL LSP D DR PRI 20 4 299.6456 LBL D CR PL 21 5 299.6648 UR LBL IN D CR 22 5 299.6851 LBL PR D CR INC 23 5 299.7191 UR LBL D CR VT 24 6 299.7285 UR LBL IN PR D CR 25 4 299.7402 UR D HS CR 26 6 299.7910 UR LBL LSP PR D CR 27 4 299.7995 LBL PR D PRI 28 6 299.8321 LBL LSP PR B D PRI 29 6 299.8659 UR LBL PR D CR VT 30 6 299.8699 UR LBL LSP MA D CR Kriteerien perusteella vaikuttaa siltä, että on mahdollista rakentaa tulkinnallinen malli, jossa on neljä selittävää muuttujaa. Tämän dokumentoinnin ulkopuolella on tarkasteltu myös muita malleja, mutta näiden tarkastelujen perusteella on jatkossa keskitytty parhaisiin neljän selittävän muuttujan malleihin. 6.2 Tulkinnallisten mallien tarkastelu Tutkitaan tarkemmin seuraavia malleja: S = UR LBL D CR S = LBL PR D CR S = LBL LSP D PRI

22 SAS_OHJELMA_ALKAA 6067 +ods select Reg.MODEL1.Fit.S.ParameterEstimates; 6068 +PROC REG DATA=lresunit; 6069 +MODEL S = UR LBL D CR; 6070 +RUN; 6071 +QUIT; 6072 +% SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1 78.47425 13.38850 5.86 <.0001 UR Per mil of population living 1-0.06365 0.03287-1.94 0.0591 in urban areas LBL Log of number of blacks 1-2.98412 1.23663-2.41 0.0200 D Divorce rate, per 10,000 1 0.72977 0.13204 5.53 <.0001 CR Crime rate per 100,000 1 0.01210 0.00348 3.48 0.0011 population SAS_OHJELMA_ALKAA 6080 +ods select Reg.MODEL1.Fit.S.ParameterEstimates; 6081 +PROC REG DATA=lresunit; 6082 +MODEL S = LBL PR D CR; 6083 +RUN; 6084 +QUIT; 6085 +% SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1 71.72353 12.03991 5.96 <.0001 LBL Log of number of blacks 1-5.39076 1.46554-3.68 0.0006 PR # inmates of correctional 1 0.07503 0.04116 1.82 0.0750 institutes 1970 (100's) D Divorce rate, per 10,000 1 0.84861 0.12694 6.69 <.0001 CR Crime rate per 100,000 1 0.00553 0.00214 2.58 0.0132 population

23 SAS_OHJELMA_ALKAA 6095 +ods select Reg.MODEL1.Fit.S.ParameterEstimates; 6096 +PROC REG DATA=lresunit; 6097 +MODEL S = LBL LSP D PRI; 6098 +RUN; 6099 +QUIT; 6100 +% SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1 80.06979 9.71567 8.24 <.0001 LBL Log of number of blacks 1-8.56703 1.97418-4.34 <.0001 LSP Log of number of Spanish 1 6.85653 2.16308 3.17 0.0027 speaking D Divorce rate, per 10,000 1 0.73618 0.14153 5.20 <.0001 PRI Prison rate (Federal and 1 0.17135 0.06795 2.52 0.0153 State) per 100,000 residents Valinnassa on edellä olevien tietojen lisäksi tarkasteltu jäännösvaihtelun suuruutta ja muotoa mainituissa malleissa. Kappaleessa 7 nämä tarkastelut on esitetty valitun mallin osalta. 6.3 Valittu malli Valitun mallin selittävät muuttujat ovat: LBL = Log of number of blacks LSP = Log of number of Spanish speaking D = Divorce rate, per 10,000 PRI = Prison rate (Federal and State) per 100,000 residents Estimoitu malli on: S = 80.07 8.57 LBL + 6.86 LSP + 0.74 D + 0.17 PRI F-testisuureen osalta nollahypoteesi on, että kaikkien selittävien muuttujien regressiokertoimet ovat nollia, eli etteivät ne selitä mitään muuttujan Suicide vaihtelusta: H 0 : β 1 = β 2 =... = β k = 0 (2) H 1 : ainakin jokin β i 0, i = 1, 2,..., k.

24 The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 4 31981 7995.16527 24.73 <.0001 Error 45 14546 323.24086 Corrected Total 49 46527 Root MSE 17.97890 R-Square 0.6874 Dependent Mean 130.10000 Adj R-Sq 0.6596 Coeff Var 13.81929 F-testisuure on tilastollisesti merkitsevä (P < 0.0001), joten nollahypoteesi hylätään. Korjattu selitysaste (Adjusted R 2 ) on 0.6596, eli estimoitu malli selittää 66 %:a kokonaisvaihtelusta. Vakiotermi α jätetään malliin. Selittävien muuttujien kertoimet b 1 b 4 ovat kaikki tilastollisesti merkitseviä 95 %:n tasolla. Valittu malli on kolmesta lähemmin tarkastelluista ainoa jossa kaikki kertoimet ovat merkitseviä tällä merkitsevyystasolla. Lopuksi on vielä piirretty kuvan 7 hajontakuvamatriisi malliin valituista muuttujista.

25 Kuva 7: Hajontakuvamatriisi, valittu malli.

26 7 Valitun mallin tarkastelu Tässä kappaleessa tarkastellaan valitun mallin jäännösvaihtelua ja siitä seuraavia mallin ominaisuuksia: 1. Mallin harhattomuus 2. Jäännösvaihtelun homoskedastisuus 3. Mallivirheiden normaalisuus 4. Multikollineaarisuus 5. Vaikutusvaltaiset havainnot 7.1 Mallin harhattomuus Piirretään hajontakuvio, jossa X-akselilla on selitettävän muuttujan ennustettu arvo ja Y-akselilla studentoidut residuaalit. Mikäli malli on harhaton, keskittyvät havaintopisteet kuvaan piirretyn regressiosuoran ympärille tasaisen lineaarisesti. Havaintopisteet on nimetty kuvaan niiden tunnistamiseksi. Kuva 8: Ennustetut arvot vastaan studentoidut residuaalit.

27 Piirretään hajontakuvioon lowess-tasoituskäyrä, joka auttaa arvioimaan poikkeamia referenssisuoran ympärillä. SAS_OHJELMA_ALKAA 6254 +%lowess(data=modout,out=smooth, x=p, y=rstudent, 6255 +htext=1, f=0.5, colors=black red, outanno=lowess, 6256 +interp=r); 6257 +RUN; 6258 +% SAS_OHJELMA_LOPPUU ; Kuva 9: Lowess tasoitus, ennustetut arvot vastaan studentoidut residuaalit. Alueella, jossa valtaosa havainnoista sijaitsee, lowess-tasoituskäyrä käyttäytyy hyvin. Mallia voidaan pitää harhattomana. Piirretään seuraavaksi vastaavat tasoituskäyrät selittävien muuttujien ja studentoitujen residuaalien suhteen.

28 Kuva 10: Lowess tasoitus, muuttujan LBL arvot vastaan studentoidut residuaalit. Studentoidut residuaalit käyttäytyvät hyvin LBL-muuttujan suhteen. Kuvan 11 muuttujan LSP residuaalien tasoituskäyrä käyttäytyy hieman epä- Kuva 11: Lowess tasoitus, muuttujan LSP arvot vastaan studentoidut residuaalit. tasaisemmin kuin muuttujalla LBL, mutta vaihtelu on kuitenkin kohtuullisen pientä.

29 Kuva 12: Lowess tasoitus, muuttujan PRI arvot vastaan studentoidut residuaalit. Studentoidut residuaalit käyttäytyvät hyvin PRI-muuttujan suhteen. Kuvassa 13 esitetyt muuttuja D:n studentoidut residuaalit käyttäytyvät on- Kuva 13: Lowess tasoitus, muuttujan D arvot vastaan studentoidut residuaalit. gelmallisemmin kuin muiden muuttujien. Vaihtelua on kuitenkin alle yksi hajonnan mitta.

30 7.2 Jäännösvaihtelun homoskedastisuus Kappaleen 7.1 hajontakuvioiden muodosta nähdään, että jäännösvaihtelu on homoskedastista, eli se pysyy samansuuruisena havaintojen arvoista riippumatta. 7.3 Mallivirheiden normaalisuus Piirretään todennäköisyyspaperikuva. SAS_OHJELMA_ALKAA 6372 +proc univariate data=modout noprint; 6373 +probplot R / normal (mu=est sigma=est) ; 6374 +run; 6375 +% SAS_OHJELMA_LOPPUU ; Mikäli jäännösvaihtelu noudattaa normaalijakaumaa, todennäköisyyspaperikuvaan 14 piirretyt pisteet keskittyvät referenssisuoran ympärille ilman suuria tai systemaattisia poikkeamia. Kuva 14: Todennäköisyyspaperikuva residuaaleista.

31 Suuria poikkeamia referenssisuorasta ei ole, eli residuaalit näyttävät käyttäytyvän normaalisesti. 7.4 Multikollineaarisuus VIF-lukujen (Variance Inflation Factor) laskeminen [2]: V IF(b i ) = 1 TOL(b i ) = 1 1 Ri 2 Mikäli muuttujien välillä esiintyy multikollineaarisuutta, VIF on suuri ja TOL pieni. The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variance Variable Label DF Estimate Error t Value Pr > t Tolerance Inflation Intercept Intercept 1 80.06979 9.71567 8.24 <.0001. 0 LSP Log of number of Spanish 1 6.85653 2.16308 3.17 0.0027 0.51823 1.92963 speaking LBL Log of number of blacks 1-8.56703 1.97418-4.34 <.0001 0.32927 3.03698 D Divorce rate, per 10,000 1 0.73618 0.14153 5.20 <.0001 0.64323 1.55464 PRI Prison rate (Federal and 1 0.17135 0.06795 2.52 0.0153 0.46103 2.16905 State) per 100,000 residents Jos äärimmäisenä oikealla olevan Variance Inflation -sarakkeen tunnusluvut lähentelisivät noin kymmentä, aiheuttaisi multikollineaarisuus ongelmia. Tässä tapauksessa kuitenkin VIF-arvot ovat huomattavasti pienempiä, joten syytä huoleen ei ole. 7.5 Vaikutusvaltaiset ja poikkeavat havainnot 7.5.1 Studentoidut residuaalit ja hat-matriisin lävistäjäalkiot Lasketaan Bonferroni-korjatut vaikutusvaltaisien havaintojen rajat kuviin. SAS_OHJELMA_ALKAA 6453 +data tmp; 6454 +do k=4; p=k+1; n=50; 6455 +stud=abs(tinv(0.05/n/2,n-k-2)); *Bonferronikorjaus; 6456 +end; 6457 +call symput('bonraja',put(stud,6.4)); 6458 +run; 6459 +%put &bonraja; 3.5258 6460 +% SAS_OHJELMA_LOPPUU ; (3)

32 Vaikutusvaltaisten havaintojen rajat ovat ±3.5258. Piirretään havaintojen järjestysnumerot ja studentoidut residuaalit vastakkain kuvaan 15 sekä lisätään lasketut rajat. Samat rajat on piirretty myös kuvaan 17. SAS_OHJELMA_ALKAA 6485 +symbol1 POINTLABEL=("#PA"); 6486 +axis1 order=(-4 to 4 by 1); 6487 +proc gplot data=modout; 6488 +plot RSTUDENT*ID / vref= -&bonraja &bonraja vaxis=axis1; 6489 +run; 6490 +quit; 6491 +% SAS_OHJELMA_LOPPUU ; Kuva 15: Havaintojen järjestysnumerot vastaan studentoidut residuaalit.

33 Hat-matriisin lävistäjäelementtien h ii odotusarvo on p n vaikutusvaltaisiksi havainnoiksi ne, joissa h ii > 2p. [2] n. Täten katsotaan SAS_OHJELMA_ALKAA 6507 +data tmp; 6508 +do k=4; p=k+1; n=50; 6509 +hats=2*p/n; 6510 +end; 6511 +call symput('hraja',put(hats,6.4)); 6512 +run; 6513 +%put &hraja; 0.2000 6514 +% SAS_OHJELMA_LOPPUU ; Vaikutusvaltaisten havaintojen rajaksi saadaan 0.2000. Tämä raja on piirretty kuviin 16 ja 17. Kuva 16: Havaintojen järjestysnumerot vastaan hat-matriisin lävistäjäalkiot.

34 Kuva 17: Hat-matriisin lävistäjäalkiot vastaan studentoidut residuaalit. Ainoa havainto laskettujen rajojen ulkopuolella on Nevada (NV). 7.5.2 Cookin mitta Tutkitaan vielä vaikutusvaltaisten havaintojen vaikutusta regressiokerroinvektoriin Cookin mitan avulla: C i = (b i b) T X T X(b i b) ps 2 (4) Cookin mitta noudattaa F-jakaumaa vapausasteilla p ja n p 2. Näinollen riskitasoa α käytettäessä voidaan vaikutusvaltaisiksi katsoa ne, joihin liittyvä C i > Fp,(n p 2) α. [2] Seuraavalla ohjelmalla on laskettu Cookin mitan vaikutusvaltaisten havaintojen raja:

35 SAS_OHJELMA_ALKAA 6589 +data F_set; 6590 +do k=4; p=k+1; n=50; 6591 + F = finv(0.05, p, n-p-2); 6592 +end; 6593 +call symput('cookraja',put(f,6.4)); 6594 +run; 6595 +%PUT &cookraja; 0.2244 6596 +% SAS_OHJELMA_LOPPUU ; Cookin mitan vaikutusvaltaisten havaintojen rajaksi saadaan 0.2244. Raja on piirretty kuvaan 18. Vain Arkansas (AR) sijoittuu lähelle, mutta sekin jää niukasti ei-vaikutusvaltaiselle puolelle rajaa (tarkka Arkansasin Cookin mitta-arvo on 0.22306). Kuva 18: Havaintojen järjestysnumerot vastaan Cookin etäisyydet.

36 7.5.3 Mahalanobis-etäisyydet Kuvassa 19 tarkastellaan Mahalanobis-etäisyyksien perusteella, mitkä havainnot sijaitsevat kaukana muista. "Havaintopisteiden x i ja x j Mahalanobis-etäisyys on neliömuoto D 2 (x i, x j ) = (x i x j ) S 1 (x i x j ) (5) Mahalanobis-etäisyys on etäisyysmitta, joka ottaa huomioon satunnaismuuttujien x 1, x 2,...,x p havaittujen arvojen varianssien lisäksi myös niiden kovarianssit, ts. muuttujien väliset (lineaariset) riippuvuudet."[1] Kuvan 19 perusteella muista havainnoista Mahalanobis-etäisyyksien mielessä erottuvat Nevada, Arkansas ja Teksas. Kuva 19: Mahalanobis-etäisyydet.

37 8 Osoitinmuuttujat Muodostetaan uusi malli, jossa edellisessä kappaleessa tunnistetulle poikkeavalle havainnolle (NV) on määritetty osoitinmuuttuja. Osoitemuuttujan kertoimen merkitsevyyttä tarkastellaan 95 %:n merkitsevyystasolla. Osoitemuuttujan luonti: SAS_OHJELMA_ALKAA 6701 +DATA lresunitos; 6702 +SET lresunit; 6703 +*Nevada; 6704 +IF pa='nv' THEN NV=1; 6705 +ELSE NV=0; 6706 +LABEL NV='Nevada (osoitinmuuttuja)' ; 6707 +RUN; 6708 +% SAS_OHJELMA_LOPPUU ; Osoitinmuuttujamallin estimointi: SAS_OHJELMA_ALKAA 6715 +ods select Reg.MODEL1.Fit.S.ParameterEstimates; 6716 +PROC REG DATA=lresunitos; 6717 +MODEL S = LBL LSP D PRI NV; 6718 +RUN; 6719 +QUIT; 6720 +% SAS_OHJELMA_LOPPUU ; The REG Procedure Model: MODEL1 Dependent Variable: S Suicide rate, 1978, per 10,000 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1 85.26428 11.36752 7.50 <.0001 LBL Log of number of blacks 1-8.72037 1.98647-4.39 <.0001 LSP Log of number of Spanish 1 7.06536 2.18104 3.24 0.0023 speaking D Divorce rate, per 10,000 1 0.63133 0.18475 3.42 0.0014 PRI Prison rate (Federal and 1 0.17374 0.06816 2.55 0.0144 State) per 100,000 residents NV Nevada (osoitinmuuttuja) 1 22.81580 25.75146 0.89 0.3804 Osoitinmuuttujaan liittyvä t-testisuureen arvo 0.89 ei ylitä kriittistä arvoa, joten havaintoa Nevada ei tarvitse huomioida mallituksessa erikseen.

38 9 Mallin tulkinta Estimoitu malli on: S = 80.07 8.57 LBL + 6.86 LSP + 0.74 D + 0.17 PRI Seuraavien tekijöiden kasvu vaikuttaa estimoidun mallin mukaan itsemurhia lisäävästi: Espanjaa puhuvien asukkaiden määrä (LSP) Avioerojen määrä (D) Vankilapaikkojen lukumäärä (PRI). Seuraavat tekijät vaikuttavat estimoidun mallin mukaan itsemurhia vähentävästi: Mustaihoisten asukkaiden määrä (LBL). Kuten harjoitustyön alussa on todettu, muuttujien LSP (SP) ja LBL (BL) vaikutus on mahdollisesti selitettävissä kulttuurisilla eroilla. Avioerojen vaikutus on selkeä: kyseessä on tapahtuma, joka lisää epätoivoisten tekojen riskiä. PRI-muuttuja puolestaan kertoo yhteiskunnan tilasta: mikäli vankilapaikkoja on paljon suhteessa väestöön, myös rikoksia tapahtuu todennäköisesti paljon. Kriminalisoituminen lisää syrjäytymistä joka puolestaan on itsemurhariskiä kasvattava tekijä. Mielenkiintoista on, että tuloja ja köyhyyttä mittaavia muuttujia ei voimakkaimpien selittäjien joukossa esiintynyt. Osavaltion Nevada poikkeavuuden syy on sen kasinokaupunki Las Vegas, jonne matkustetaan mm. solmimaan avioliittoja.

39 Lähteet [1] I. Mellin. Moniulotteiset jakaumat ja havaintoaineistot. Luentomoniste, TKK., 2003. [2] J. Puranen. Data-analyysi. Luentomoniste, Helsingin yliopisto, tilastotieteen laitos., 1997.