Laskari 1 1. keskiarvo kovarianssi korrelaatio a) C, B, D b) I, F, A c) E, H, G 2. a) Kenkä=0.000574*Nro+2.360140*SP+0.000526*Ikä-0.140472*Siv+0.142460* Pituus+0.034898*Paino+0.048616* Hius-0.040723*Koulu-0.050838*SL+12.52886 b) R 2 =0.7958 c) Sukupuoli, pituus ja paino, koska näiden muuttujien t >2. d) Nro, Ikä, Siv, Hius, Koulu ja SL. e) Kenkä, välimatka-asteikko Nro, suhdeasteikko (välimatka-asteikko) SP, laatueroasteikko (dikotominen muuttuja) Ikä, suhdeasteikko Siv, laatueroasteikko Pituus, suhdeasteikko Paino, suhdeasteikko Hius, laatueroasteikko Koulu, laatueroasteikko (järjestysasteikko) SL, suhdeasteikko f) Ikä, Pituus ja Paino lisäksi Numero, Satunnaisluku mitta-asteikon kannalta ja tietyllä ajattellumallilla Sukupuoli. Dikotomisilla muuttujilla on kvantitatiivinen ominaisuus, joka mahdollistaa niiden käytön lineaarisen mallin selittäjinä. 3. a) Kenkä=2.396*SP-0.0046*Ikä+0.141*Pituus+0.035*Paino+12.754 b) R 2 =0.7939 c) Idioottimaisimmat selittäjät on poistettu (järjestysluku, satunnaisluku). Mitta-asteikoltaan kelvottomat selittäjät (laatu- ja järjestysasteikolliset) on poistettu. Selittäjiä on selkeästi vähemmän (9 -> 5), silti selitysaste on pudonnut vain 0.2 prosenttia. d) Ikä ei ole merkitsevä selittäjä, joten se kannattaisi poistaa. Sukupuolet kannattaisi varmaankin erotella omiksi aineistoikseen, sen sijaan, että käytetään sukupuolta selittävänä muuttujana. e) ennuste: 2.396*1-0.0046*27+0.141*178+0.035*73+12.754=42.6788 residuaali: 42-42.68=-0.68 1
Laskari 2 1. Naiset Miehet a) Kahvi (0.997) ja Vaalea leipä (0.994) Onnellisuus (0.995) ja Aamupala (0.995) b) Aamupala (0.046) ja Viini (0.047) Tumma leipä (0.005) ja Vaalea leipä (0.023) c) 1.696, 1.259, 1.256, 0.861 1.695, 1.212, 1.118, 0.727 d) 5.071 4.572 e) 5.071/14=0.3622 4.572/14=0.3266 2. Naiset Miehet a) F3: Hyvinvointifaktori F1: Hyvinvointifaktori F2: Leipämieltymysfaktori F3: Terveet elämäntavat -faktori F1: Kahvifaktori F2: Pahoinvointifaktori? F4: eipä juuri mikään F4: eipä juuri mikään b) Eipä ole. Jopa ns. hyvinvointifaktorit poikkeavat toisistaan. c) Miehillä liikunta eriytyy omaksi faktorikseen. Naisilla sekä leipä että kahvi muodostavat oman faktorinsa (joka johtuu pääosin muutamasta poikkeavasta nauttijasta aineistossa). 3. a) Normaalijakautuneet muuttujat. Riippumattomat havainnot. Muuttujien välillä riippuvuuksia. Suuri määrä havaintoja suhteessa muuttujien määrään. Ensimmäisen oletuksen kanssa ristiriitaisesti vähintään järjestysasteikolliset muuttujat. b) Eksploratiivisen faktorianalyysin tuloksena syntyvät faktorit (tai faktoriavaruus), jotka kuvaavat piilevää faktorirakennetta, jonka oletetaan generoineen saamamme havainnot. Näitä (yleensä korreloimattomia) faktoreita voidaan sitten käyttää jatkotarkasteluissa muuttujien tapaan. c) Kun halutaan löytää latentti (piilevä) faktorirakenne aineistosta. Eli käytetään, kun kiinnostuksen kohteena olevat asiat, eivät ole suoraan mitattavissa. Oheistuotteena tiivistetään aineiston vaihtelu vähempään määrään muuttujia. 4. a) F3: Onnellisuus, F2: liikunnallisuus, F1: Painoarvio, loput on heikohkoja b) F1, F4 ja F5, koska niiden t-testisuureiden itseisarvot ovat suurempia kuin 2. c) Lineaarisen mallin selitysaste on multippelikorrelaatiokertoimen neliö R 2 =0.1917. d) Selitysaste on hyvin heikko, joten ei ole. Lisäksi malliin on jätetty ei-merkitseviä selittäjiä. 5. F1 korreloi heikosti uusien muuttujien kanssa ja oletettavasti F2 n ja F3 n poisto käänsi selittäjähypertasoa ja täten antoi F1 selle lisää selitystehoa. Mitä tulee F4 n ja F5 n heikkenemiseen, niin huolimatta heikosta korrelaatiosta, on uusien selittäjien täytynyt syödä selitysosuutta näiltä faktoreilta. 2
Laskari 3 1. a) Kumulatiivisesta variansseista näemme, että 70% (72.31%) on kertynyt kolmen pääkomponentin mallissa. 80% (80,97%) saavutetaan neljän pääkomponentin mallissa. b) Luonnollisesti selkein pudotus on ensimmäisen pääkomponentin jälkeen, mutta mallin kannalta tämä selkeä pudotus on toisen pääkomponentin jälkeen. c) Kahden komponentin malli selittää 5.6 muuttujan vaihtelun (3.85886+1.71231=5.57117) Kolmen komponentin malli: 5.5712+0.9364=6.5076 ja neljän: 6.5076+0.7793=7.2869. d) PC1: Korkeakoulutettujen osuus, tulotaso, senioreiden osuus, asukasluvun muutos, PC2: Lasten osuus, PC3: Veroprosentti. Muiden lataukset ovat varsin heikkoja. e) PCOMPV.M saadaan, kun vastaavat lataukset korotetaan toiseen ja lasketaan yhteen. f) PCOMPV.M jaetaan PCOMPV.M muuttujien lukumäärällä ja kerrotaan 100 prosentilla. Kumulatiiviset summataan. 2. a) PCOMP6, sillä sen t-testisuureen itseisarvo -1.386 <2. b) PC1: Hyvintoimeentulo- ja korkeakoulutuskomponentti. PC2: Lapsiperheiden osuus komponentti PC3 ei ole selittäjänä, mutta sille on edes jokin tulkinta (PC3: kunnallisverokomponentti). Loput komponentit ovat varsin heikkoja, joten niitä ei olisi malliin kuulunut edes ottaa. c) Alkuperäinen tiivistämätön malli, sillä pääkomponentit eivät kunnolla tiivistä aineistoa ja pääkomponenttien tulkinnat ovat hataria. d) Annettujen tietojen perusteella ei luonnollisestikaan ole. 3. a) Huomioitaessa työttömyys ja sukupuoli, niin koulutus kasvaa C1-akselin suunnassa. b) Työllisyys on (koulutus huomioiden) C2-suunnassa aina työttömyyden alapuolella ja C1- sunnassa vastaavasti oikealla. c) Koulutus ja työllisyys huomioiden miehet ovat C2-suunnassa aina naisten yläpuolella. d) Andalusia tuntuisi sijaitsevan työttömyysalueella ja Madrid on kiinnittynyt korkeakoulutettuihin työllistyneisiin. e) Mitään vahvoja tulkintoja ei pääse tekemään, sillä suurimmat lataukset ovat 0.6 n luokkaa. C1 näyttäisi liittyvän vähäiseen määrään matalaa koulutusastetta. 4. a) Ei varsinaisesti mitään, mutta jatkokäytön kannalta multinormaalisuus olisi ihanteellista. Muuttujien tulisi korreloida keskenään. b) Ensimmäiset (1-3) pääkomponentit. c) Kun halutaan tiivistää aineiston vaihtelu muutamiin muuttujiin (pääkomponentteihin). Poikkeavien havaintojen löytäminen. (Päävaikutuksen eliminointi.) d) Vähintään laatueroasteikolliset muuttujat, joissa on toisensa poissulkevat luokitukset. e) Kaksi- tai kolmiulotteinen kuva. f) Halutaan selvittää mitkä muuttujat ja havainnot ovat samankaltaisia. 5. a) Ensimmäinen kuva kuvaa maantie-etäisyyksiä. b) Maantie-etäisyydet antavat jossain määrin paremman kuvan, muttei vesistöetäisyydetkään erityisen huonoja ole. Bonus) Kaupungit on rikkaita, kunnat on normaalituloisia. Köyhyys on ihan omassa sfäärissään, joka johtuu siitä, että erityisen korkea veroprosentti on harvinainen. Uudellamaalla on paljon koulutusta, Länsi-Suomessa jonkin verran ja muualla vähän. Uudellamaalla on paljon kaupunkeja, Länsi-Suomessa on molempia ja muualla lähinnä kuntia. 3
Laskari 4 1. a) Kaikki korrelaatiot on vähennetty ykkösestä, jolloin pisteen etäisyys itseensä on haluttu 0 ja lineaarisen riippuvuuden suhteen etäisyydet kasvavat. b) Jotta koko 9-ulotteinen avaruus olisi euklidinen, ei saisi olla lainkaan negatiivisia ominaisarvoja. Toisaalta voidaan miettiä, onko saatu kaksiulotteinen kartta riittävän euklidinen (eli suorakulmainen). Koska kaksi ensimmäistä komponenttia selittävät selkeästi suurimman osan vaihtelusta ja negatiiviset ominaisarvot ovat pieneiä ja niitä on vähän, joten voidaan tulkita, että kaksiulotteinen kartta on riittävän suorakulmainen. c) Vasemmalla ylhäällä näyttäisi olevan suur -kaupunkimaisia ominaisuuksia. Korkeakoulutustaso, korkeat tulot ja korkeat asuntojen hinnat. 2. a) Kahdessa ensimmäisessä Albania liittyy viimeisenä yksin ryhmään. Suunnilleen samat maat ryhmittyvät aina ensin toisiinsa. esim: Suomi ja Itävalta, Italia, Espanja ja Saksa. Ylhäältä alaspäin mentäessä rautaesirippu laskeutuu selkeämmin aineistoon. b) Jos itä- ja Länsi-Euroopan jakoa haetaan, niin viimeinen on paras. 3. Kahteen ryhmään jaettaessa jakolinja lienee maiden kehittyneisyys/rikkaus. a) Edes G ja 4, joissa on sama määrä ryhmiä eivät johda samaan ryhmitykseen. Muut välttämättä johtavat erilaisiin ryhmityksiin. b) Kuuteen ryhmään jaettaessa Itä-Eurooppa erottuu Länsi-Euroopasta, kuten kävi edellisessä tehtävässä. c) Edelliseen tehtävään valitut maat valikoituvat samoihin ryhmiin. d) Riippuu tavoitteista. 4. a) Jotta etäisyyksissä olisi järkeä, niin vähintään välimatka-asteikolliset muuttujat ovat tarpeen. Tarvitaessa voidaan käyttää järjestysasteikollisiakin, kunhan se huomioidaan tuloksia tulkittaessa. b) Kaksi- tai kolmiulotteinen kartta. c) Kun halutaan selvittää etäisyyksien perusteella mitkä havainnot ovat samankaltaisia. d) Jotta etäisyydet olisivat toimivia, niin saisi olla vähintään välimatka-asteikolliset muuttujat. Voidaan hyvin käyttää järjestysasteikollisiakin, kunhan se huomioidaan tuloksia tulkittaessa. e) Dendrogrammi ja/tai ryhmittely luokkiin. f) Kun halutaan selvittää minkälaisia ryhmiä havainnot muodostavat tai siis mitkä havainnot kuuluvat samoihin luokkiin. 5. a) Sbp ei ole merkitsevä selittäjä. Waldin testin p-arvo on suurempi kuin 0.05. Ykkönen mahtuu odds ratioiden luottamusvälille. b) log(p/(1-p))=0.00412*sbp+0.0120*dbp+0.00618*scl+0.0172*age+0.0476*bmi-5.796 c) log(p/(1-p))=0.00412*120+0.0120*80+0.00618*267+0.0172*55+0.0476*25-5.796 = -0.55554 => p=1/(1+e 0.5555 )= 0.365 -> 36.5% 4
Laskari 5 1. TABLE TESTI A1 A2 Σ B1 17 16 33 B2 8 10 18 Σ 25 26 51 χ 2 -hengessä lasketut odotusarvot: 33*25/51=16.176470588235 18*25/51=8.8235294117647 33*26/51=16.823529411765 18*26/51=9.1764705882353 Log-likelihood hengessä lasketut odotusarvot: ln(33)+ln(25)-ln(51)=2.7835577536104 -> e 2.7835577536104 =16.176470588236 ln(18)+ln(25)-ln(51)=2.17742195004 -> e 2.17742195004 =8.8235294117644 ln(33)+ln(26)-ln(51)=2.8227784667636 -> e 2.8227784667636 =16.823529411764 ln(18)+ln(26)-ln(51)=2.2166426631933 -> e 2.2166426631933 =9.1764705882351 Malliyhtälön perusteella estimoidut odotusarvot: e 2.78356 =16.176506926932 e (2.78356-0.60614) =8.8235122055458 e (2.78356+0.03922) =16.823555206232 51-16.176506926932-8.8235122055458-16.823555206232=9.17642566129 2. a) Vähintään välimatka-asteikolliset selittävät muuttujat ja luokitteleva dikotominen selitettävä muuttuja. Lineaarinen riippuvuus muuttujien välillä. b) Mallin yhtälö ja sitä kautta lasketut ennusteet (eli siis todennäköisyydet). c) Kun halutaan tietää todennäköisyys, että havainto kuuluu johonkin luokkaan. d) Vähintään laatueroasteikolliset luokittelevat muuttujat. Tai vaihtoehtoisesti, kun poissonregressiota käytetään moniulotteisen logistisen regressioanalyysin tekemiseen, niin oletukset ovat samat kuin a-kohdassa paitsi, että selitettävä muuttuja on lukumäärä. e) Solujen odotetut arvot, eli lukumääräestimaatit. Vaihtoehtoisesti... kuten kohdassa b). f) Kun halutaan estimoida lukumäärävasteita. 3. a) Ominaisarvot ovat faktorilatausten neliöiden summia ja löytyvät viimeiseltä riviltä. Kommunaliteetit ovat faktorilatausten neliöiden summia ja löytyvät viimeisestä sarakkeesta b) Mallissa on kolme hyvää faktoria (kriteerinä ominaisarvo, joka on suurempi kuin 1). c) Nämä faktorit tiivistävät noin 10 muuttujan vaihtelun. (5.485+2.432+2.401=10.318) d) Nimeäminen on baseballia tuntematta kovin vaikeaa: Ensimmäisellä faktorilla lienee jotain tekemistä peliuran pituuden kanssa. Toinen ja kolmas liittyvät pelaajan lyöntikykyyn. 4. a) 1. Valitaan etukäteen jokin selitysosuus, joka pääkomponenttien tulee selittää. 2. Katsotaan missä kohtaa selitysosuuden lisäykseen tulee selkeä pudotus. 3. Valitaan ne pääkomponentit, joiden ominaisarvo on vähintään yksi. b) Valintatavat johtavat joko kolmeen tai kahteen pääkomponenttiin. c) Kolmen komponentin tapauksessa selitysosuus on n. 86.0 %. d) Kolme pääkomponenttia selittävät 12 muuttujan vaihtelun. (8.89+1.86+1.29=12.04) 5. a) Y=-0.04407*Urban-0.23859*Birthr+0.34152*Deathr+0.57831*Old-0.55876*Growth-2.3331 b) Mallissa on vain yksi merkitsevä selittäjä: Vanhojen ihmisten osuus (Old) c) Y fin =-0.04407*64.2-0.23859*11.2+0.34152*9.6+0.57831*15-0.55876*0.5-2.3331=3.8392 p fin =e 3.8391675 /(1+e 3.8391675 )=0.97894149779841 Bonus) Tehtävä on laadittu väärin! 5
Laskari 6 1. Peruspiiritason muuttujat erottelevat varsin hyvin suurpiiritason muuttujat toisistaan. Tämä on tietysti luonnollista, koska muuttujien joukossa on mm. talojen sijainnit kartalla. Outo viiva keskellä kuvaa on Korkeakoulutettujen osuutta kuvaava akseli. 2. a) Mallissa on 2*2=4 kanonista muuttujaa, eli kaksi kanonista y-muuttujaa ja kaksi kanonista x-muuttujaa. XCAN1 on voima, YCAN1 on koko. CAN2 sia on vaikea nimetä. b) Mallissa on kaksi kanoista korrelaatiota 0.7817 ja 0.4901, jotka ovat kanonisten vastinparien väliset korrelaatiot. c) ensimmäinen kanoninen korrelaatio: 0.7817 2 =0.61105489, toinen:0.4901 2 =0.24019801 3. a) (Samat kuin eksploratiivisessä faktorianalyysissä molemmille faktorianalyysimalleille.) Malleissa pitää olla sama määrä faktoreita ja lähtöaineistoissa tulee olla samat muuttujat. b) Residuaalimatriisi, jossa pitäisi olla lähellä nollaa olevia lukuja. Transformaatiomatriisi, jossa on diagonaalilla ykköstä lähellä olevia lukuja ja muualla nollaa lähellä olevia lukuja. c) Kun halutaan selvittää, ovatko kaksi faktorianalyysimallia samat. d) (Samat kuin eksploratiivisessä faktorianalyysissä.) Joko lähtöaineistoissa tulee olla samat muuttujat tai teoreettisessa ja empiirisessä aineistossa tulee olla samat muuttujat. Tutkijalla siis tulee olla selkeä käsitys faktorirakenteesta. e) Yhteensopivuustestien tulokset, joista näkee sopiiko uusi aineisto vanhaan malliin. f) Kun halutaan tietää, sopiiko uusi aineisto vanhaan malliin tai kun halutaan testata sopiiko aineisto teorian pohjalta laadittuun malliin. g) Vähintään välimatka-asteikolliset multinormaalijakautuneet muuttujat, joiden kovarianssimatriisit ovat samankaltaisia. h) Wilksin λ sekä p-arvot, jotka kertovat eroavatko ryhmät toisistaan vai eivätkö eroa. i) Kun halutaan testata poikkeavatko odotusarvovektorit toisistaan. EROTTELUANALYYSI on päässyt tehtävistä hukkumaan: a*) Etukäteistieto ryhmityksestä. Vähintään välimatka-asteikolliset muuttujat. Multinormaalisuudesta ei ole haittaa. b*) Luokituksen määrittävä muuttujaryhmä (ja kuva, josta näkee ryhmityksen toimivuuden). c*) Kun halutaan selvittää kykenevätkö muut kuin luokituksen määrittävä muuttuja aikaansaamaan halutun ryhmityksen. 4. a) Koska p-arvo 0.0469<0.05, niin nollahypoteesi kokojen samuudesta kaatuu. Yksiulotteisissa testeissä molemmat nollahypoteesit jäävät voimaan. Tulokset poikkeavat toisistaan. b) Koska p-arvo 0.0789>0.05, niin nollahypoteesi kokojen samuudesta jää voimaan Yksiulotteisissa testissä painon nollahypoteesi kaatuu. Tulokset poikkeavat osittain toisistaan. 5. a) Faktorirakenteet poikkeavat toisistaan. Molemmissa on nopeus-faktori. Toisessa on hyppyfaktori, mutta ensimmäisessä onkin pituushyppyfaktori. Ensimmäisessä on kuulafaktori ja toisessa vastaavasti heittofaktori. Ensimmäisen viimeinen faktori on hyppykeihäsfaktori. Toisessa jäljelle jäävä on kestävyysfaktori. b) Koska diagonaalilla olevat alkiot poikkeavat hyvin selkeästi ykkösestä ja vastaavasti diagonaalin ulkopuoliset alkiot poikkeavat hyvin selkeästi nollasta, niin faktorirakenteita ei voida pitää samoina. Vielä varmemmin samaan tulokseen tullaan residuaalimatriisin perusteella, jonka luvut poikkeavat selkeästi nollista. 6