Laskuharjoitus 3. 1. Suomen kunnista on vuonna 23 kerätty seuraavat tiedot: asukasluku, asukasluvun muutos edelliseen vuoteen nähden, keskimääräinen tulotaso, veroprosentti sekä suhteelliset osuudet seuraaville väestöryhmille: korkeakoulutetut, naiset, lapset, vanhukset ja ulkomaalaiset. Alla on muuttujista laskettu korrelaatiomatriisi: Asukasl Asukasm Tulotas Veropro Korkeak Naisten Lasteno Seniore Ulkomaa Asukaslu 1..147.419 -.1652.4352.3588 -.361 -.2681.3444 Asukasmu.147 1..4697 -.2956.5224.1962.4873 -.5211.2583 Tulotaso.419.4697 1. -.4624.8796.5196.181 -.5867.3963 Veropros -.1652 -.2956 -.4624 1. -.396 -.2151 -.811.1828 -.387 Korkeako.4352.5224.8796 -.396 1..5229.2859 -.6377.399 Naisteno.3588.1962.5196 -.2151.5229 1. -.989 -.1662.2284 Lastenos -.361.4873.181 -.811.2859 -.989 1. -.7264 -.79 Seniorei -.2681 -.5211 -.5867.1828 -.6377 -.1662 -.7264 1. -.732 Ulkomaal.3444.2583.3963 -.387.399.2284 -.79 -.732 1. Pääkomponenttianalyysin tulokset olivat seuraavat: MMATRIX PCOMP.M Principal_components /// PCOMP1 PCOMP2 PCOMP3 PCOMP4 PCOMP5 PCOMP6 PCOMP7 PCOMP8 PCOMP9 Asukaslu.528 -.443.3373 -.4815 -.3618.2931 -.386.245 -.249 Asukasmu.6797.3349 -.2458 -.497.3742.3874 -.2654 -.446 -.41 Tulotaso.8922 -.165.475.1471 -.227 -.2651 -.1767 -.241 -.2242 Veropros -.5182.29.619 -.343.462 -.1488 -.182.29 -.251 Korkeako.963 -.548.1495.1356 -.12 -.1779 -.1783.228.1736 Naisteno.5435 -.4673.3663.349.2943.1753.3342 -.314.1 Lastenos.4299.8132 -.198 -.1151 -.366.417.3118.1817 -.842 Seniorei -.7436 -.5299 -.1878.847.132.1533 -.831.2588 -.935 Ulkomaal.4538 -.4531 -.441 -.4948.2644 -.283.1878 -.55.267 MATRIX PCOMPV.M Variances_of_principal_components /// PCOMP1 PCOMP2 PCOMP3 PCOMP4 PCOMP5 PCOMP6 PCOMP7 PCOMP8 PCOMP9 Variance 3.85886 1.71231.93644.77925.61192.45952.3976.14578.9828 MATRIX PCOCENT.M Variances_of_pr.components_(in_percentages) /// PCOMP1 PCOMP2 PCOMP3 PCOMP4 PCOMP5 PCOMP6 PCOMP7 PCOMP8 PCOMP9 Per_cent 42.8763 19.257 1.449 8.6584 6.7992 5.159 4.4178 1.6198 1.921 Cumulat. 42.8763 61.92 72.369 8.9653 87.7645 92.873 97.2882 98.979 1. Pääkomponentit 4 Muuttuja 3.5 3 2.5 2 1.5 1.5 1 2 3 4 5 6 7 8 9 1 Komponen
a) Jos halutaan selittää 7% vaihtelusta montako pääkomponenttia valitaan? Entä, jos haluttaisiin selittää 8% vaihtelusta? b) Jos valitaan vain ne selittäjät, joiden jälkeen on selkeä pudotus selitysasteen nousussa, niin montako selittäjää tällöin valitaan? c) Monenko muuttujan vaihtelu on yllä mainituissa tilanteissa saatu tiivistettyä valittuihin pääkomponentteihin? d) Mitkä muuttujat latautuvat vahvasti millekin pääkomponentille? e) Miten PCOMPV.M vektorin luvut saadaan pääkomponenttimatriisista? f) Miten PCOCENT.M matriisin luvut on laskettu? 2. Alla on lineaarisen regressiomallin tuloste, kun alkuperäisillä muuttujilla selitetään asuntojen hintoja. Hyvin heikoiksi osoittautuneet selittäjät (veroprosentti, lasten ja vanhusten osuus) on jätetty pois mallista. Linear regression analysis: Data KUNNAT23, Regressand Asuntohi N=416 Variable Regr.coeff. Std.dev. t beta Asukaslu.1412.245 5.756.29 Asukasmu 26.18478 6.54756 3.999.144 Tulotaso.36724.795 4.646.316 Korkeako 12.8271 2.982657 4.292.3 Naisteno -15.32469 6.56889-2.355 -.86 Ulkomaal 25.5877 11.73967 2.135.82 constant 958.72 299.1186 3.23 Variance of regressand Asuntohi=55726.48447 df=415 Residual variance=234.2224 df=49 R=.82 R^2=.643 Alla on vastaava malli, kun selittäjinä ovat laskemamme pääkomponentit. Hyvin heikot selittäjät (pääkomponentit 3 ja 5) on jätetty mallista pois. Linear regression analysis: Data KUNNAT23, Regressand Asuntohi N=416 Variable Regr.coeff. Std.dev. t beta PCOMP1 9.92571 3.57191 25.47.756 PCOMP2-21.931 5.38376-4.71 -.121 PCOM4-25.98433 8.573552-3.31 -.91 PCOMP6-15.16286 1.93781-1.386 -.42 PCOMP7-71.6844 12.77856-5.64 -.168 PCOMP8 39.88146 19.29587 2.67.61 constant 794.3276 6.78666 117.1 Variance of regressand Asuntohi=55726.48447 df=415 Residual variance=2321.42866 df=49 R=.84 R^2=.646 Jos mallista jätetään pois ei-merkitsevä selittäjä, niin selitysaste on 63.89%. a) Mikä on tämä ei-merkitsevä selittäjä? b) Nimeä selittäjiksi valitut pääkomponentit. c) Mikä on annettujen tietojen mukaan mielestäsi paras malli näistä kolmesta? d) Onko annettujen tietojen mukaan järkevää käyttää kuuden pääkomponentin lineaarista regressiomallia alkuperäisiin muuttujiin perustuvaan malliin verrattuna?
3. Alla on tuloste korrespondenssianalyysistä, jossa toinen luokitteleva muuttuja on espanjan maakunnat. Toisena luokituksena seuraavien yhdistelmät: työllisyys/työttömyys (E/U), sukupuoli (M/W) ja koulutusaste (primary / first secondary / second secondary / higher). Correspondence analysis on data ESPANJA: Rows=17 Columns=16 Canonical Eigen- Chi^2 Cumulative correlation value percentage 1.1874.351 623.652476 55.9 2.1299.169 299.919185 81.58 3.791.62 111.18164 91.38 4.471.22 39.4644521 94.87 5.428.18 32.533791 97.74 6.271.7 13.915843 98.9....637 1132.15 (df=24 P=) EDUCATION C1 C2 C3 REGION C1 C2 C3 EMPri -.146.79.126 Andalusia -.285.135 -.77 EM1Sec -.99 -.193 -.11 Aragon.172 -.21.9 EM2Sec.97.25.12 Asturia.63.8.125 EMHigh.224.94 -.48 BalearicI.1 -.219.69 EWPri -.72.4.132 CanaryI -.18.77.153 EW1Sec -.17 -.215 -.47 Cantabria.67 -.55.32 EW2Sec.151 -.26 -.8 Leon.1.74.19 EWHigh.229.55 -.24 LaMancha -.143 -.98.115 UMPri -.62.297 -.187 Catalonia.9 -.74 -.31 UM1Sec -.378.6 -.197 Valencia -.46 -.263 -.87 UM2Sec -.152.183 -.121 Extremadura -.281.36.31 UMHigh -.188.264 -.61 Galicia -.111 -.42.18 UWPri -.556.281 -.167 Madrid.276.87 -.45 UW1Sec -.318.19 -.165 Murcia -.62 -.33.4 UW2Sec -.2.118 -.47 Navarre.274.24.38 UWHigh -.1.243.11 BasqueC.245.23 -.32 Rioja.95 -.55.161 Seuraavalla sivulla on pistediagrammit, jossa molemmissa on pystykoordinaattiakselina C2. Vaakakoordinaattiakselina on ensimmäisessä C1 ja toisessa kuvassa C3. Pohdi seuraavia kysymyksiä: a) Miten koulutustasot sijaitsevat toisiinsa nähden? b) Miten työttömyys ja työllisyys sijaitsevat toisiinsa nähden? c) Miten sukupuolet sijaitsevat toisiinsa nähden? d) Miten edellä mainitut luokat sijaitsevat suhteessa maakuntiin? e) Löytyykö koordinaattiakseleille selityksiä?
Diagram of ESPANJA CR COORD.M.35 C2 UMPri UWPri.25.15.5 -.5 -.15 -.25 UMHigh UWHigh BasqueC UM2Sec Andalusia UW2Sec EMPri CanaryI EMHigh Leon Madrid UM1Sec Extremadura EWHigh UW1Sec Asturias EM2Sec Navarre EWPri Aragon Galicia Murcia EW2Sec Cantabria Catalonia Rioja LaMancha EM1Sec EW1Sec BalearicI Valencia -.35 -.65-.55-.45-.35-.25-.15-.5.5.15.25.35.45.55.65 C1 Diagram of ESPANJA CR COORD.M.35 C2.25.15.5 -.5 -.15 -.25 UMPri UWPri UMHigh UWHigh BasqueC UM2Sec Andalusia UW2Sec EMHigh Madrid Leon EMPri UM1Sec CanaryI EWHigh Extremadura UW1Sec EM2Sec Navarre Aragon Asturias EWPri EW2SecMurcia CantabriaGalicia Catalonia Rioja LaMancha EM1Sec EW1Sec BalearicI Valencia -.35 -.25 -.15 -.5.5.15.25 C3 4. a) Mitkä ovat pääkomponenttianalyysin oletukset? b) Mitkä ovat pääkomponenttianalyysin keskeiset tulokset? c) Millaisissa tilanteissa käytetään pääkomponenttianalyysiä? d) Mitkä ovat korrespondenssianalyysin oletukset? e) Mitkä ovat korrespondenssianalyysin keskeiset tulokset? f)) Millaisissa tilanteissa käytetään korrespondenssianalyysiä?
5. Alla on kaksi moniulotteisen skaalauksen avulla muodostettua karttaa. Toinen on laskettu maantie-etäisyyksien perusteella ja toinen vesireittien etäisyyksien perusteella. a) Pystytkö päättelemään kumpi on kumpi. Kannattanee verrata aitoon karttaan. b) Kumpi malleista antaa oikeamman kuvan kaupunkien sijanneille kartalla. Yrittäkää ottaa huomioon, että pohjoinen-etelä ja itä-länsi suuntaiset skaalaukset eivät välttämättä ole optimaalisia. Diagram of TSCAL.MAT 2 DIM1 15 1 5-1 -15-2 -25-3 -35-4 -5 Iisalmi Kuopio Pieksämä Kajaani Mikkeli Varkaus Lappeenr Vaalimaa Nurmes Imatra 5 1 15 2 25 3 35 Kuhmo Savonlin Joensuu Lieksa DIM2 Diagram of MSCAL.MAT 15 DIM1 1 Iisalmi 5-5 -1 Mikkeli Kuopio Vehmersa Leppävir Varkaus Puumala Imatra Lappeenr Savonlin Heinäves Oravi Savonran Joensuu -15-15 -1-5 5 1 15 DIM2
Bonus. Kunnat23 aineistosta on valittu luokitteleviksi muuttujiksi, kuntamuoto (kaupunki, kunta), Alue (Uusimaa, Länsi-Suomi, muut), veroprosentti (köyhä, normaali, rikas), korkeakoulutettujen osuus (vähän, enemmän, paljon) Alla Burtin taulukko ja sen perusteella piirretty moniulotteinen korrespondenssianalyysin tuloste (lisäksi myös luokkien koordinaatit molemmilla dimensioilla). Tulkitse kuvan perusteella miten kyseiset muuttujat riippuvat toisistaan. Burt's_table_of_TABLE_KUNNAT231 /// UUSIMAA LÄNSIS MUUT KAUPUNKI KUNTA RIKAS NORMAALI KÖYHÄ VÄHÄN ENEMMÄN PALJON UUSIMAA 88 27 61 38 48 2 22 36 3 LÄNSIS 24 52 152 7 118 16 84 78 42 MUUT 154 32 122 26 117 11 95 36 23 KAUPUNKI 27 52 32 111 4 62 9 19 43 49 KUNTA 61 152 122 335 94 221 2 182 17 46 RIKAS 38 7 26 4 94 134 34 46 54 NORMAALI 48 118 117 62 221 283 151 93 39 KÖYHÄ 2 16 11 9 2 29 16 11 2 VÄHÄN 22 84 95 19 182 34 151 16 21 ENEMMÄN 36 78 36 43 17 46 93 11 15 PALJON 3 42 23 49 46 54 39 2 95 Dim1 Dim2 UUSIMAA.562 -.3 LÄNSIS.93.383 MUUT -.445 -.336 KAUPUNKI.648 -.36 KUNTA -.215.12 RIKAS.616 -.27 NORMAALI -.264 -.94 KÖYHÄ -.276 1.42 VÄHÄN -.518 -.135 ENEMMÄN.166.448 PALJON.835 -.423 Multiple correspondence plot of KUNNAT23 1.2 Dim2 KÖYHÄ.8.4 JOITAIN LÄNSIS -.4 VÄHÄN MUUT KUNTA NORMAALI RIKAS KAUPUNKI UUSIMAA PALJON -.8 -.6 -.4 -.2.2.4.6.8 1 Dim1