TKMS7a-f/LRS20a-f/MAS2/KVS2/TMS82a-f/JOM/TJM/YRM Monimuuttujamenetelmien soveltaminen taloustieteissä Tentti 13.5.2014
Moduuli a: Faktorianalyysi Jos olet samaa mieltä esitetyn väitteen kanssa vastaa K, muussa tapauksessa vastaa E. HUOM.! Vastaa kuuteen väittämään. 1. Kommunaliteetti on suhteellinen osuus vastaavan muuttujan varianssista, joka selittyy yhteisfaktoreiden avulla. 2. Heywoodin tapauksessa vähintään yksi kommunaliteettiluku on suurempi tai yhtä suuri kuin 1. 3. Faktorianalyysissä faktoriavaruuden dimensio on yleensä pienempi kuin alkuperäisen muuttujan dimensio. 4. Jos mallin yhteensopivuustestin (Goodness of Fit) havaittu merkitsevyystaso on suurempi kuin 0.1, tarkoittaa se, että erityisfaktorit eivät korreloi. 5. Jos mallin yhteensopivuustestin (Goodness of Fit) havaittu merkitsevyystaso on pienempi kuin 0.1, tarkoittaa se, että yhteisfaktorit selittävät muuttujien korrelaatiorakenteen. 6. Faktoreiden kierrolla (rotaatiolla) pyritään löytämään tulkinnallisesti yksinkertaisin ratkaisu. 7. Kommunaliteetti ei muutu faktoreiden ortogonaalisessa kierrossa. 8. Heywoodin tapaus on laiton ratkaisu. 9. Vinokierron tuloksena saatavassa ratkaisussa faktorit eivät ole ortogonaalisia (kohtisuorassa toisiaan vastaan). 10. Faktorilataus voidaan tulkita ko. muuttujan ja faktorin väliseksi korrelaatioksi.
Moduuli c: Varianssianalyysi Oheisessa analyysissä selitettävänä muuttujana on kertaostoksen suuruus ( ) ja selittäjänä kotitalouden koko. Tulkitse tuloste. Muista tarkistaa reunaehdot. Mikäli reunaehtojen voimassaolossa on puutteita, pohdi niiden mahdollisia seurauksia analyysille. Oneway Descriptives kertaostoksen suuruus ( ) N Mean Std. Deviation 1 hlö 23 18.63 28.110 2 hlöä 31 29.39 41.128 3-4 hlöä 30 38.78 31.198 5 tai enemmän 80 67.36 53.132 Total 164 48.12 48.440 Test of Homogeneity of Variances kertaostoksen suuruus ( ) Levene Statistic df1 df2 Sig. 8.521 3 160.000 kertaostoksen suuruus ( ) ANOVA Sum of Squares df Mean Square F Sig. Between Groups 63098.029 3 21032.676 10.537.000 Within Groups 319376.277 160 1996.102 Total 382474.306 163 Robust Tests of Equality of Means kertaostoksen suuruus ( ) Statistic a df1 df2 Sig. Welch 11.957 3 70.301.000 a. Asymptotically F distributed.
Post Hoc Tests Dependent Variable: kertaostoksen suuruus ( ) Multiple Comparisons 95% Confidence Mean Interval (I) kotitalouden (J) kotitalouden Difference Std. Lower Upper koko koko (I-J) Error Sig. Bound Bound Tukey HSD 1 hlö 2 hlöä -10.757 12.295.818-42.68 21.17 3-4 hlöä -20.153 12.382.366-52.30 11.99 5 tai enemmän -48.726 * 10.571.000-76.17-21.28 2 hlöä 1 hlö 10.757 12.295.818-21.17 42.68 3-4 hlöä -9.396 11.442.844-39.10 20.31 5 tai enemmän -37.969 * 9.452.001-62.51-13.43 3-4 hlöä 1 hlö 20.153 12.382.366-11.99 52.30 2 hlöä 9.396 11.442.844-20.31 39.10 5 tai enemmän -28.573 * 9.565.017-53.41-3.74 5 tai enemmän 1 hlö 48.726 * 10.571.000 21.28 76.17 2 hlöä 37.969 * 9.452.001 13.43 62.51 3-4 hlöä 28.573 * 9.565.017 3.74 53.41 Tamhane 1 hlö 2 hlöä -10.757 9.430.835-36.55 15.04 3-4 hlöä -20.153 8.173.099-42.55 2.24 5 tai enemmän -48.726 * 8.345.000-71.32-26.13 2 hlöä 1 hlö 10.757 9.430.835-15.04 36.55 3-4 hlöä -9.396 9.328.899-34.84 16.05 5 tai enemmän -37.969 * 9.479.001-63.63-12.31 3-4 hlöä 1 hlö 20.153 8.173.099-2.24 42.55 2 hlöä 9.396 9.328.899-16.05 34.84 5 tai enemmän -28.573 * 8.230.005-50.72-6.42 5 tai enemmän 1 hlö 48.726 * 8.345.000 26.13 71.32 2 hlöä 37.969 * 9.479.001 12.31 63.63 3-4 hlöä 28.573 * 8.230.005 6.42 50.72 *. The mean difference is significant at the 0.05 level.
Means Plots
Moduuli d: Regressioanalyysi Selitä, mitä tarkoittavat seuraavat käsitteet a) yksinkertainen lineaarinen regressiomalli b) pienimmän neliösumman menetelmä (PNS) c) selitysaste d) multikollineaarisuus e) homoskedastisuus
Moduuli e: Logistinen regressio Pyritään arvioimaan luottojen riskiä kahden numeerisen tekijän avulla. Tekijät ovat: Luoton ikä ja erääntyneen maksun viipymä päivissä laskettuna. Variables in the Equation B S.E. Wald df Sig. Exp(B) 95% C.I.for EXP(B) Lower Upper BUSAGE,008,004 4,924 1,026 1,008 1,001 1,015 Step 1 a DAYSDELQ,102,020 26,076 1,000 1,107 1,065 1,151 Constant -5,706 1,157 24,332 1,000,003 a. Variable(s) entered on step 1: BUSAGE, DAYSDELQ. Yllä on analyysiohjelman antamat parametrien estimaatit. Kysymys 1: Miten muuttujat BUSAGE ja DAYDELQ vaikuttavat luoton laiminlyöntitodennäköisyyteen. Ovatko selittäjät tilastollisesti merkitseviä? Kysymys 2: Mitkä ovat tilastollisesti merkitsevien selittäjien kertoimien- ja niiden antilogaritmien arvot. Mallin sopivuutta voidaan arvioida Hosmer-Lemeshow-testin avulla. Kysymys 3: Onko malli sopiva, kun tulokseksi saadaan Hosmer and Lemeshow Test Step Chi-square df Sig. 1 6,510 8,590 Kysymys 4: Miten sovellat mallia ln( p )= logit(p) = -5.706+0.008 busage +0.102 daysdelq, 1 p jossa busage on lainan ikä ja daysdelq on vastaavasti erääntyneen maksun viipymä tarkastellun asiakkaan kohdalla, riskiasiakkaiden erottelemiseksi muista, kun oletetaan, että riskiasiakkaaksi ei luokitella sellaista, jonka kohdalla luoton laiminlyöntitodennäköisyys p < 1 2?
Moduuli b: Ryhmittelyanalyysi Tee valintasi mukaan toinen tehtävistä 1 ja 2 Tarkasteltavan aineiston muuttujat ovat rikostyyppejä (murder, rape, robbery, assault, burglary, larcenry, ja auto(theft)) ja tapauksina ovat Amerikan Yhdysvaltojen osavaltiot. Aineistoon sovellettiin ryhmittelyanalyysiä tarkoituksena jakaa osavaltiot rikosprofiilien mukaisesti homogeenisiin ryhmiin. Tehtävä 1: 1. Suoritettiin hierarkkinen ryhmittelyanalyysi. Alla olevassa kuvaajassa näkyy yhdistettävien ryhmien välinen etäisyys ryhmien lukumäärän funktiona. Miksi 5 voisi olla sopiva ryhmien lukumäärä? 2. Mikä on oleellisin ero hierarkkisen ja K:n keskiarvon ryhmittelymenetelmässä? 3. Eräs ryhmistä kiinnittää tarkastelijan huomion. Mitä erityistä ryhmässä on? 4. Luettele edellisen kohdan huomion kiinnittävän ryhmän jäsenet. Notes
K:n keskiarvo analyysi Iteratio n Iteration History a Change in Cluster Centers 1 2 3 4 5 1 426,172 144,352 178,166 432,311 335,394 2 109,425 55,843,000,000,000 3 64,833,000,000,000 17,219 4,000,000,000,000,000
Final Cluster Centers Cluster 1 2 3 4 5 murder 5 8 13 8 7 rape 20 38 42 20 21 robbery 208 173 231 75 89 assault 214 278 334 157 185 burglary 1506 1671 2400 850 1117 larcenry 2667 3453 4340 1660 2508 auto 756 465 499 217 298 ANOVA Cluster Error F Sig. Mean Square df Mean Square df murder 25,071 4 14,052 45 1,784,149 rape 834,216 4 51,908 45 16,071,000 robbery 33731,182 4 5500,962 45 6,132,001 assault 31241,553 4 8167,040 45 3,825,009 burglary 1709677,806 4 51670,398 45 33,088,000 larcenry 5676583,276 4 69197,688 45 82,034,000 auto 302330,207 4 13852,173 45 21,825,000 Alla olevassa taulukossa on lueteltu ryhmien 1, 2, 3, 4 ja 5 jäsenet. Complete Linkage 1 state 1 ALABAMA 2 ARKANSAS 3 GEORGIA 4 ILLINOIS 5 INDIANA
2 3 6 KANSAS 7 LOUISIANA 8 MISSISSIPPI 9 MISSOURI 10 NORTH CAROLINA 11 OHIO 12 OKLAHOMA 13 SOUTH CAROLINA 14 TENNESSEE 15 TEXAS 16 VIRGINIA Total N 16 1 ALASKA 2 ARIZONA 3 COLORADO 4 DELAWARE 5 FLORIDA 6 HAWAII 7 MARYLAND 8 MICHIGAN 9 NEW MEXICO 10 OREGON 11 WASHINGTON Total N 11 1 CALIFORNIA 2 NEVADA 3 NEW YORK Total N 3 Complete Linkage 4 state 1 CONNECTICUT 2 MASSACHUSETTS 3 NEW JERSEY 4 RHODE ISLAND
Total N 4 1 IDAHO 2 IOWA 3 KENTUCKY 4 MAINE 5 MINNESOTA 6 MONTANA 7 NEBRASKA 8 NEW HAMPSHIRE 5 9 NORTH DAKOTA 10 PENNSYLVANIA 11 SOUTH DAKOTA 12 UTAH 13 VERMONT 14 WEST VIRGINIA 15 WISCONSIN 16 WYOMING Total N 16 Total N 50 a. Limited to first 100 cases. Tehtävä 2: Alla on annettuna oliojoukon {A,B,C,D,E} etäisyysmatriisi. Suorita joukon hierarkkinen ryhmittely, kun metodina on ryhmien maksimietäisyys ja metriikkana alkioiden/ryhmien erotuksen itseisarvo: x-y. Esitä eri vaiheissa syntyvät etäisyysmatriisit ja ryhmät. A B C D E A 0 1 5 6 8 B 1 0 3 8 7 C 5 3 0 4 6 D 6 8 4 0 2 E 8 7 6 2 0
Moduuli f: Erotteluanalyysi Oheisessa analyysissä selitetään iällä (vuosina) ja asiakastyytyväisyydellä (pistemäärä 0-50), ostaako henkilö tuotteen vai ei. Tulkitse tuloste. Muista tarkistaa reunaehtojen voimassaolo ja pohdi myös analyysin mahdollisia puutteita. Discriminant Group Statistics Osti Valid N (listwise) Mean Std. Deviation Unweighted Weighted Ei Pistemäärä 31,72 5,124 30 30,000 ikä 27,67 10,873 30 30,000 Kyllä Pistemäärä 35,27 3,767 33 33,000 ikä 50,85 11,630 33 33,000 Total Pistemäärä 33,58 4,773 63 63,000 ikä 39,81 16,165 63 63,000 Tests of Equality of Group Means Wilks' Lambda F df1 df2 Sig. Pistemäärä,860 9,892 1 61,003 ikä,479 66,410 1 61,000 Analysis 1 Box's Test of Equality of Covariance Matrices Log Determinants Osti Rank Log Determinant Ei 2 7,836 Kyllä 2 7,465 Pooled within-groups 2 7,696 The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
dimension0 1 dimension0 1 Test Results Box's M 3,320 F Approx. 1,067 df1 3 df2 962840,125 Sig.,362 Tests null hypothesis of equal population covariance matrices. Summary of Canonical Discriminant Functions Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1,089 a 100,0 100,0,722 a. First 1 canonical discriminant functions were used in the analysis. Wilks' Lambda Test of Function(s) Wilks' Lambda Chi-square df Sig.,479 44,210 2,000 Standardized Canonical Discriminant Function Coefficients Function 1 Pistemäärä,026 ikä,990 Structure Matrix Function 1 ikä 1,000 Pistemäärä,386 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions. Variables ordered by absolute size of correlation within function. Functions at Group Centroids Osti Function Ei -1,077 1 Kyllä,979 Unstandardized canonical discriminant functions evaluated at group means
Classification Statistics Prior Probabilities for Groups Osti Cases Used in Analysis Prior Unweighted Weighted Ei,500 30 30,000 Kyllä,500 33 33,000 Total 1,000 63 63,000 Classification Function Coefficients Osti Ei Kyllä Pistemäärä 1,604 1,616 ikä -,013,167 (Constant) -25,955-33,446 Fisher's linear discriminant functions Classification Results a Osti Predicted Group Membership Ei Kyllä Total Original Count Ei 27 3 30 Kyllä 5 28 33 % Ei 90,0 10,0 100,0 Kyllä 15,2 84,8 100,0 a. 87,3% of original grouped cases correctly classified.