Laskuharjoitus 3. Pääkomponenttianalyysin tulokset olivat seuraavat:



Samankaltaiset tiedostot
MATRIISILASKENTAA MATRIX ESIM1 /// PITUUS PAINO IKA SP X X X

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Teema 10: Regressio- ja varianssianalyysi

Lauri Tarkkonen: Erottelu analyysi

Markkinakatsaus. Profiili- ja trenditietoa majoitustilastoista ja Rajahaastattelututkimuksen tuloksista

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Harjoittele tulkintoja


Harjoitukset 4 : Paneelidata (Palautus )

Aluksi Kahden muuttujan lineaarinen epäyhtälö

Laakerin kestoikälaskenta ISO-281, ISO-281Add1 ja ISO16281 mukaan

Ratkaisuehdotukset Kesäyliopisto Kuvassa on esitetty erään ravintolan lounasbuffetin kysyntäfunktio.

Maantieteellisen alueen huomioiminen vahinkovakuutustuotteiden hinnoittelussa

Liikennealue // Nykyinen Waltti- Waltti Kunta // seutulipun yleiskausilipun *) kuntakausilipun **) Yhteysväli // hinta hinta hinta

TIETOISKU TUOTANTO LASKI VARSINAIS-SUOMESSA VUONNA 2012

Julkaistu Helsingissä 5 päivänä joulukuuta /2014 Liikenne- ja viestintäministeriön asetus

Arkkitehtitoimistojen Liitto ATL ry Julkisten hankintojen lainsäädännön vaikutus arkkitehtipalveluihin Kesä-elokuu 2010, vastaajia: 66

Ensimmäistä kertaa sijoitetut 0 20 vuotiaat , koko maa (n)

Katoavat työpaikat. Pekka Myrskylä

Kuopion matkailu tilastojen valossa VUONNA 2018

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Mielestämme hyvä kannustus ja mukava ilmapiiri on opiskelijalle todella tärkeää.

Matematiikan tukikurssi 3.4.

Dynaamisen järjestelmän siirtofunktio

Taustaa 1/3. Sosiaali- ja terveysalalla oli vuonna 2011 lähes työllistä (16 % kaikista työllisistä)

Sisällysluettelo. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5

MS-A Matriisilaskenta Laskuharjoitus 3

HALLINNOLLINEN JAKO...3 TÄRKEIMMÄT BASKITALOUDEN LUVUT...4 VÄESTÖN AKTIVITEETTI 1. VUOSINELJÄNNES VUONNA SOSIAALIHUOLTO...

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Kvantitatiiviset menetelmät

Suonenjoki. Asukasluku

Mikkelin kaupungin keskeiset asukasluvut, työttömyysprosentit, avoimet työpaikat sekä työmarkkinatuen vertailu 11 kaupunkiin Hallintopalvelut 2016

TYÖLLISYYS JA TYÖTTÖMYYS ETELÄ-SAVOSSA TAMMIKUU 2O12

I Keskiarvot ja hajonnat muuttujista 3-26 niin, että luokittelevana muuttujana on muuttuja 2 eli sukupuoli

Tallinna / Hemmotteluloma 5 pv

Sote-uudistus - järjestämislain valmistelu

Väestömuutokset - Tammi-toukokuu 2015 Tilastotiedote 9/2015

Asukastoimikuntien lausuntojen yhteenveto käyttöarvon mukaisesta vuokrien tasauksesta

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

11.4. Rakenteellista käsittelyä tilavuusrenderöintialgoritmeissa

Eläkeajan asumisen toiveet 1015 suomalaista työikäistä vastasi

Hae Opiskelija käyttöohje

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Radio 2020-toimilupakierros. Taajuuskokonaisuudet

2 2 -faktorikokeen määritelmä

Matriisit ja vektorit Matriisin käsite Matriisialgebra. Olkoon A = , B = Laske A + B, , 1 3 3

Julkaistu Helsingissä 13 päivänä toukokuuta /2011 Liikenne- ja viestintäministeriön asetus

Työttömyyskatsaus Kesäkuu Strategia ja kehittäminen/lemmetyinen

HALLINTOTIETEIDEN MAISTERIN TUTKINTO Valintakoe Pisteet yhteensä (tarkastaja merkitsee)

Julkaistu Helsingissä 13 päivänä kesäkuuta /2012 Liikenne- ja viestintäministeriön asetus

Julkaistu Helsingissä 12 päivänä lokakuuta /2011 Liikenne- ja viestintäministeriön asetus

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

String-vertailusta ja Scannerin käytöstä (1/2) String-vertailusta ja Scannerin käytöstä (2/2) Luentoesimerkki 4.1

N:o Televisio- ja radiotoiminnasta annetun lain mukainen televisiotoiminta. Aseman nimi Kanava MAX ERP Nippu A Nippu B Nippu C (kw)

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk

TILASTOKATSAUS 4:2016

Suomen ja ruotsinkielisten peruskoululaisten terveystottumukset

Frequencies. Frequency Table

Poliisilaitosalueet ja toimipisteet lukien

Väestömäärän kehitys, ikärakenne ja kielijakauma Hyvinkään kaupunki Talousosasto

Tani Savolainen ja Eveliina Kantola LAPIN AMK 2015

Liikenne- ja viestintäministeriön asetus

Vakava väkivaltarikollisuus. Venla Salmi Erikoistutkija, kriminologian dosentti Oikeuspoliittinen tutkimuslaitos

Hierarkkiset koeasetelmat. Heliövaara 1

JOENSUUN SEUDUN HANKINTATOIMI KOMISSIOMALLI

Etelä-Savossa työttömyys lisääntynyt vuodentakaisesta lähes kaikissa ammattiryhmissä. Työllisyyskatsaus, maaliskuu

Kun hälytys laukeaa. Hälytysvalo. Näyttö. Tulostin. Kuljettajan korttipaikka. Apukuljettajan korttipaikka

Lausuntopyyntö STM 2015

Suomen ja Keski-Suomen korkeakoulutetut työttömät koulutusaloittain ja asteittain

Esimerkkejä derivoinnin ketjusäännöstä

Hämeen työllisyys- ja työpaikkatilanne selvästi vuoden takaista parempi

Osavuosikatsaus

Maanalaisten kiinnivaahdotettujen kaukolämpöjohtojen rakentamiskustannukset 2012

pääomamäärä ,37 euroa - osittain yhteisvastuullisesti euroa ,19 euroa ,14 euroa ,58 euroa

Laadunvalvonta ja käytönaikaiset hyväksyttävyysvaatimukset TT laitteille

Opiskelija viipymisaika pistemäärä

Etelä-Savossa huhtikuussa työttömiä työnhakijoita 400 edellisvuotta enemmän

HAVAITUT JA ODOTETUT FREKVENSSIT

Äänekosken Juniorijalkapallo

Säännöllinen kapasiteetti

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Lähtökohtia tulevaisuuden hoivaan

Säännöllinen kapasiteetti

Itä-Suomen tila ja mitä on tehtävä? Itä-Suomen huippukokous Kuopio Matti Viialainen Etelä-Savon maakuntaliitto

Etelä-Savon kuntarakenneuudistuksen tausta-aineistoa

Hotellin asiakasliikenne ja kannattavuus

Asuntosijoittamisen alueelliset tuotot vuosina Julkaisuvapaa klo 9.00

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

TW- EAV510: WDS- TOIMINTO KAHDEN TW- EAV510 LAITTEEN VÄLILLÄ

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Huomaa, että 0 kitkakerroin 1. Aika harvoin kitka on tasan 0. Koska kitkakerroin 1, niin

Etelä-Savossa lähes 700 työtöntä enemmän kuin edellisessä vuodenvaihteessa. Työllisyyskatsaus, joulukuu klo 9.00

Pietarin väestö ja tulokatsaus 2009

MS-C2{04 Tilastollisen analyysin perusteet

Transkriptio:

Laskuharjoitus 3. 1. Suomen kunnista on vuonna 23 kerätty seuraavat tiedot: asukasluku, asukasluvun muutos edelliseen vuoteen nähden, keskimääräinen tulotaso, veroprosentti sekä suhteelliset osuudet seuraaville väestöryhmille: korkeakoulutetut, naiset, lapset, vanhukset ja ulkomaalaiset. Alla on muuttujista laskettu korrelaatiomatriisi: Asukasl Asukasm Tulotas Veropro Korkeak Naisten Lasteno Seniore Ulkomaa Asukaslu 1..147.419 -.1652.4352.3588 -.361 -.2681.3444 Asukasmu.147 1..4697 -.2956.5224.1962.4873 -.5211.2583 Tulotaso.419.4697 1. -.4624.8796.5196.181 -.5867.3963 Veropros -.1652 -.2956 -.4624 1. -.396 -.2151 -.811.1828 -.387 Korkeako.4352.5224.8796 -.396 1..5229.2859 -.6377.399 Naisteno.3588.1962.5196 -.2151.5229 1. -.989 -.1662.2284 Lastenos -.361.4873.181 -.811.2859 -.989 1. -.7264 -.79 Seniorei -.2681 -.5211 -.5867.1828 -.6377 -.1662 -.7264 1. -.732 Ulkomaal.3444.2583.3963 -.387.399.2284 -.79 -.732 1. Pääkomponenttianalyysin tulokset olivat seuraavat: MMATRIX PCOMP.M Principal_components /// PCOMP1 PCOMP2 PCOMP3 PCOMP4 PCOMP5 PCOMP6 PCOMP7 PCOMP8 PCOMP9 Asukaslu.528 -.443.3373 -.4815 -.3618.2931 -.386.245 -.249 Asukasmu.6797.3349 -.2458 -.497.3742.3874 -.2654 -.446 -.41 Tulotaso.8922 -.165.475.1471 -.227 -.2651 -.1767 -.241 -.2242 Veropros -.5182.29.619 -.343.462 -.1488 -.182.29 -.251 Korkeako.963 -.548.1495.1356 -.12 -.1779 -.1783.228.1736 Naisteno.5435 -.4673.3663.349.2943.1753.3342 -.314.1 Lastenos.4299.8132 -.198 -.1151 -.366.417.3118.1817 -.842 Seniorei -.7436 -.5299 -.1878.847.132.1533 -.831.2588 -.935 Ulkomaal.4538 -.4531 -.441 -.4948.2644 -.283.1878 -.55.267 MATRIX PCOMPV.M Variances_of_principal_components /// PCOMP1 PCOMP2 PCOMP3 PCOMP4 PCOMP5 PCOMP6 PCOMP7 PCOMP8 PCOMP9 Variance 3.85886 1.71231.93644.77925.61192.45952.3976.14578.9828 MATRIX PCOCENT.M Variances_of_pr.components_(in_percentages) /// PCOMP1 PCOMP2 PCOMP3 PCOMP4 PCOMP5 PCOMP6 PCOMP7 PCOMP8 PCOMP9 Per_cent 42.8763 19.257 1.449 8.6584 6.7992 5.159 4.4178 1.6198 1.921 Cumulat. 42.8763 61.92 72.369 8.9653 87.7645 92.873 97.2882 98.979 1. Pääkomponentit 4 Muuttuja 3.5 3 2.5 2 1.5 1.5 1 2 3 4 5 6 7 8 9 1 Komponen

a) Jos halutaan selittää 7% vaihtelusta montako pääkomponenttia valitaan? Entä, jos haluttaisiin selittää 8% vaihtelusta? b) Jos valitaan vain ne selittäjät, joiden jälkeen on selkeä pudotus selitysasteen nousussa, niin montako selittäjää tällöin valitaan? c) Monenko muuttujan vaihtelu on yllä mainituissa tilanteissa saatu tiivistettyä valittuihin pääkomponentteihin? d) Mitkä muuttujat latautuvat vahvasti millekin pääkomponentille? e) Miten PCOMPV.M vektorin luvut saadaan pääkomponenttimatriisista? f) Miten PCOCENT.M matriisin luvut on laskettu? 2. Alla on lineaarisen regressiomallin tuloste, kun alkuperäisillä muuttujilla selitetään asuntojen hintoja. Hyvin heikoiksi osoittautuneet selittäjät (veroprosentti, lasten ja vanhusten osuus) on jätetty pois mallista. Linear regression analysis: Data KUNNAT23, Regressand Asuntohi N=416 Variable Regr.coeff. Std.dev. t beta Asukaslu.1412.245 5.756.29 Asukasmu 26.18478 6.54756 3.999.144 Tulotaso.36724.795 4.646.316 Korkeako 12.8271 2.982657 4.292.3 Naisteno -15.32469 6.56889-2.355 -.86 Ulkomaal 25.5877 11.73967 2.135.82 constant 958.72 299.1186 3.23 Variance of regressand Asuntohi=55726.48447 df=415 Residual variance=234.2224 df=49 R=.82 R^2=.643 Alla on vastaava malli, kun selittäjinä ovat laskemamme pääkomponentit. Hyvin heikot selittäjät (pääkomponentit 3 ja 5) on jätetty mallista pois. Linear regression analysis: Data KUNNAT23, Regressand Asuntohi N=416 Variable Regr.coeff. Std.dev. t beta PCOMP1 9.92571 3.57191 25.47.756 PCOMP2-21.931 5.38376-4.71 -.121 PCOM4-25.98433 8.573552-3.31 -.91 PCOMP6-15.16286 1.93781-1.386 -.42 PCOMP7-71.6844 12.77856-5.64 -.168 PCOMP8 39.88146 19.29587 2.67.61 constant 794.3276 6.78666 117.1 Variance of regressand Asuntohi=55726.48447 df=415 Residual variance=2321.42866 df=49 R=.84 R^2=.646 Jos mallista jätetään pois ei-merkitsevä selittäjä, niin selitysaste on 63.89%. a) Mikä on tämä ei-merkitsevä selittäjä? b) Nimeä selittäjiksi valitut pääkomponentit. c) Mikä on annettujen tietojen mukaan mielestäsi paras malli näistä kolmesta? d) Onko annettujen tietojen mukaan järkevää käyttää kuuden pääkomponentin lineaarista regressiomallia alkuperäisiin muuttujiin perustuvaan malliin verrattuna?

3. Alla on tuloste korrespondenssianalyysistä, jossa toinen luokitteleva muuttuja on espanjan maakunnat. Toisena luokituksena seuraavien yhdistelmät: työllisyys/työttömyys (E/U), sukupuoli (M/W) ja koulutusaste (primary / first secondary / second secondary / higher). Correspondence analysis on data ESPANJA: Rows=17 Columns=16 Canonical Eigen- Chi^2 Cumulative correlation value percentage 1.1874.351 623.652476 55.9 2.1299.169 299.919185 81.58 3.791.62 111.18164 91.38 4.471.22 39.4644521 94.87 5.428.18 32.533791 97.74 6.271.7 13.915843 98.9....637 1132.15 (df=24 P=) EDUCATION C1 C2 C3 REGION C1 C2 C3 EMPri -.146.79.126 Andalusia -.285.135 -.77 EM1Sec -.99 -.193 -.11 Aragon.172 -.21.9 EM2Sec.97.25.12 Asturia.63.8.125 EMHigh.224.94 -.48 BalearicI.1 -.219.69 EWPri -.72.4.132 CanaryI -.18.77.153 EW1Sec -.17 -.215 -.47 Cantabria.67 -.55.32 EW2Sec.151 -.26 -.8 Leon.1.74.19 EWHigh.229.55 -.24 LaMancha -.143 -.98.115 UMPri -.62.297 -.187 Catalonia.9 -.74 -.31 UM1Sec -.378.6 -.197 Valencia -.46 -.263 -.87 UM2Sec -.152.183 -.121 Extremadura -.281.36.31 UMHigh -.188.264 -.61 Galicia -.111 -.42.18 UWPri -.556.281 -.167 Madrid.276.87 -.45 UW1Sec -.318.19 -.165 Murcia -.62 -.33.4 UW2Sec -.2.118 -.47 Navarre.274.24.38 UWHigh -.1.243.11 BasqueC.245.23 -.32 Rioja.95 -.55.161 Seuraavalla sivulla on pistediagrammit, jossa molemmissa on pystykoordinaattiakselina C2. Vaakakoordinaattiakselina on ensimmäisessä C1 ja toisessa kuvassa C3. Pohdi seuraavia kysymyksiä: a) Miten koulutustasot sijaitsevat toisiinsa nähden? b) Miten työttömyys ja työllisyys sijaitsevat toisiinsa nähden? c) Miten sukupuolet sijaitsevat toisiinsa nähden? d) Miten edellä mainitut luokat sijaitsevat suhteessa maakuntiin? e) Löytyykö koordinaattiakseleille selityksiä?

Diagram of ESPANJA CR COORD.M.35 C2 UMPri UWPri.25.15.5 -.5 -.15 -.25 UMHigh UWHigh BasqueC UM2Sec Andalusia UW2Sec EMPri CanaryI EMHigh Leon Madrid UM1Sec Extremadura EWHigh UW1Sec Asturias EM2Sec Navarre EWPri Aragon Galicia Murcia EW2Sec Cantabria Catalonia Rioja LaMancha EM1Sec EW1Sec BalearicI Valencia -.35 -.65-.55-.45-.35-.25-.15-.5.5.15.25.35.45.55.65 C1 Diagram of ESPANJA CR COORD.M.35 C2.25.15.5 -.5 -.15 -.25 UMPri UWPri UMHigh UWHigh BasqueC UM2Sec Andalusia UW2Sec EMHigh Madrid Leon EMPri UM1Sec CanaryI EWHigh Extremadura UW1Sec EM2Sec Navarre Aragon Asturias EWPri EW2SecMurcia CantabriaGalicia Catalonia Rioja LaMancha EM1Sec EW1Sec BalearicI Valencia -.35 -.25 -.15 -.5.5.15.25 C3 4. a) Mitkä ovat pääkomponenttianalyysin oletukset? b) Mitkä ovat pääkomponenttianalyysin keskeiset tulokset? c) Millaisissa tilanteissa käytetään pääkomponenttianalyysiä? d) Mitkä ovat korrespondenssianalyysin oletukset? e) Mitkä ovat korrespondenssianalyysin keskeiset tulokset? f)) Millaisissa tilanteissa käytetään korrespondenssianalyysiä?

5. Alla on kaksi moniulotteisen skaalauksen avulla muodostettua karttaa. Toinen on laskettu maantie-etäisyyksien perusteella ja toinen vesireittien etäisyyksien perusteella. a) Pystytkö päättelemään kumpi on kumpi. Kannattanee verrata aitoon karttaan. b) Kumpi malleista antaa oikeamman kuvan kaupunkien sijanneille kartalla. Yrittäkää ottaa huomioon, että pohjoinen-etelä ja itä-länsi suuntaiset skaalaukset eivät välttämättä ole optimaalisia. Diagram of TSCAL.MAT 2 DIM1 15 1 5-1 -15-2 -25-3 -35-4 -5 Iisalmi Kuopio Pieksämä Kajaani Mikkeli Varkaus Lappeenr Vaalimaa Nurmes Imatra 5 1 15 2 25 3 35 Kuhmo Savonlin Joensuu Lieksa DIM2 Diagram of MSCAL.MAT 15 DIM1 1 Iisalmi 5-5 -1 Mikkeli Kuopio Vehmersa Leppävir Varkaus Puumala Imatra Lappeenr Savonlin Heinäves Oravi Savonran Joensuu -15-15 -1-5 5 1 15 DIM2

Bonus. Kunnat23 aineistosta on valittu luokitteleviksi muuttujiksi, kuntamuoto (kaupunki, kunta), Alue (Uusimaa, Länsi-Suomi, muut), veroprosentti (köyhä, normaali, rikas), korkeakoulutettujen osuus (vähän, enemmän, paljon) Alla Burtin taulukko ja sen perusteella piirretty moniulotteinen korrespondenssianalyysin tuloste (lisäksi myös luokkien koordinaatit molemmilla dimensioilla). Tulkitse kuvan perusteella miten kyseiset muuttujat riippuvat toisistaan. Burt's_table_of_TABLE_KUNNAT231 /// UUSIMAA LÄNSIS MUUT KAUPUNKI KUNTA RIKAS NORMAALI KÖYHÄ VÄHÄN ENEMMÄN PALJON UUSIMAA 88 27 61 38 48 2 22 36 3 LÄNSIS 24 52 152 7 118 16 84 78 42 MUUT 154 32 122 26 117 11 95 36 23 KAUPUNKI 27 52 32 111 4 62 9 19 43 49 KUNTA 61 152 122 335 94 221 2 182 17 46 RIKAS 38 7 26 4 94 134 34 46 54 NORMAALI 48 118 117 62 221 283 151 93 39 KÖYHÄ 2 16 11 9 2 29 16 11 2 VÄHÄN 22 84 95 19 182 34 151 16 21 ENEMMÄN 36 78 36 43 17 46 93 11 15 PALJON 3 42 23 49 46 54 39 2 95 Dim1 Dim2 UUSIMAA.562 -.3 LÄNSIS.93.383 MUUT -.445 -.336 KAUPUNKI.648 -.36 KUNTA -.215.12 RIKAS.616 -.27 NORMAALI -.264 -.94 KÖYHÄ -.276 1.42 VÄHÄN -.518 -.135 ENEMMÄN.166.448 PALJON.835 -.423 Multiple correspondence plot of KUNNAT23 1.2 Dim2 KÖYHÄ.8.4 JOITAIN LÄNSIS -.4 VÄHÄN MUUT KUNTA NORMAALI RIKAS KAUPUNKI UUSIMAA PALJON -.8 -.6 -.4 -.2.2.4.6.8 1 Dim1