Kyselytutkimuksen mittarit ja menetelmät
|
|
- Aila Hiltunen
- 9 vuotta sitten
- Katselukertoja:
Transkriptio
1 Kimmo Vehkalahti Kyselytutkimuksen mittarit ja menetelmät Kustannusosakeyhtiö Tammi Helsinki
2 Sisällys Alkusanat Johdanto. Kyselytutkimus Kirjan rakenne ja sisältö Mittaus ja tiedonkeruu 7. Johdatteleva esimerkki Kyselylomake mittausvälineenä Ulottuvuudet Osiot ja mittarit Avoimet ja suljetut osiot Mittauksen taso Luokittelu Järjestäminen Mittaaminen Mittauksen luotettavuus Validiteetti Reliabiliteetti Tiedonkeruu Perusjoukko ja otos Kokonaistutkimus ja rekisterit Näyteaineistot Kyselylomake tiedonkeruuvälineenä
3 Aineiston esikäsittely 5. Aineistoon tutustuminen Yhden muuttujan tarkastelu Jakaumat Tunnusluvut Kuvat Muunnokset Kahden muuttujan tarkastelu Taulukot Kuvat Tunnusluvut Muokkaukset Aineiston tiivistäminen Tilastollinen malli Mittausmalli Faktorianalyysi Oletukset Faktoreiden tulkinta Mittausmallin rakennevaliditeetti Mitta-asteikko Faktoripisteet Summamuuttujat Mitta-asteikon reliabiliteetti Havaintojen vertailu 5. Mittauskehikko Vertailuperuste Tulosasteikko Regressioanalyysi Oletukset Selittäjien valinta Taustamuuttujat ja ennustevaliditeetti Luokitellut selittäjät Regressiodiagnostiikka Jäännösvaihtelu Vaikutusvaltaisuus ja poikkeavuus
4 6 Aineiston ryhmittely 5 6. Hierarkkinen ja visuaalinen ryhmittely Moniulotteinen skaalaus Medoidiryhmittely Ryhmien visualisointi 7 7. Hajontakuvan yleistyksiä Erotteluanalyysi Korrespondenssianalyysi Kahden muuttujan taulukko Kahden muuttujan kuva Burtin matriisi Usean muuttujan kuva A Ohjelmistot ja dokumentointi 95 A. Ohjelmistot A.. Survo ja SPSS A.. Aineiston perustaminen A.. Dokumentoiva työskentelytapa A. Kuvien ja tulosteiden työkaavioita Lähteet ja kirjallisuus Kuvat, esimerkit, tulosteet ja taulukot 5 Hakemisto 9 5
5 Mittaamisesta ja faktorianalyysista Kimmo Vehkalahti yliopistonlehtori, soveltavan tilastotieteen dosentti Helsingin yliopisto, matematiikan ja tilastotieteen laitos Kvantitatiiviset tutkimusmenetelmät -kurssi Tilastokeskus syksy 007 Tiivistelmä Käyn lyhyesti läpi moniulotteisen mittaamisen peruskäsitteet sekä tarkastelen aidon tutkimusaineiston kanssa puuttuvien tietojen hallintaa ja korvaamista sekä faktorianalyysin suorittamista Survo- ja SPSS-ohjelmistoilla. Perusteellisemmin käsittelen aihepiiriä tekeillä olevassa oppikirjassani työnimeltään Kyselytutkimuksen mittarit ja menetelmät, joka ilmestyy näillä näkymin syksyllä 008. Sisältö Moniulotteinen mittaaminen. Mittauskehikko Mittauksen laatu Faktorianalyysi. Survo SPSS Viitteet ja lähteet
6 Moniulotteinen mittaaminen. Mittauskehikko Mittausmalli Mitta-asteikko ε τ x u Tulosasteikko Vertailuperuste ε τ x u z y ε x τ k u m z s y q ε p x p Vehkalahti, Puntanen ja Tarkkonen (007); Tarkkonen ja Vehkalahti (005); Vehkalahti (000); Tarkkonen (987) tutkimuksen suuntaviivat suunnittelusta analyyseihin perusta mittauksen laadun johdonmukaiseen arviointiin Mittausmalli. Mitä ilmiötä tutkitaan? Montako ulottuvuutta siinä on?. Millä ilmiötä mitataan mahdollisimman hyvin? Mitta-asteikko Mitta-asteikko on osioiden eli mitattujen muuttujien yhdistelmä. Esimerkkejä: faktoripisteet, summamuuttujat, indeksit jne. Tulosasteikko Tulosasteikkoja tuottavat erilaiset tilastolliset monimuuttujamenetelmät, esimerkiksi regressioanalyysi. Näin mittaaminen ja menetelmät kytkeytyvät luonnollisella tavalla toisiinsa. Toisinaan jatkotarkasteluissa voidaan hyödyntää myös suoraan ensimmäisen tason mittaasteikkoja. Vertailuperuste Vertailuperuste on mittausmallin ulkopuolella määritelty kriteeri, jota tarvitaan kun vastaajia vertaillaan toisiinsa erilaisilla asteikoilla, esimerkiksi järjestelemällä ja ryhmittelemällä tai laatimalla selitys- ja ennustemalleja.
7 . Mittauksen laatu Validiteetti ja reliabiliteetti Epävarmuutta tilastolliseen tutkimukseen tuovat sekä tiedonkeruu että mittaaminen. Molempiin on syytä kiinnittää huomiota. Tilastotiede on perinteisesti keskittynyt tiedonkeruuseen, etenkin otantaan, mutta läheskään aina ei käytännössä ole edes kyse otannasta. Mittaaminen kuuluu sen sijaan kuvaan otannasta riippumattakin. Mittauksen osalta on arvioitava kahta asiaa, tässä järjestyksessä:. validiteetti: mitataanko oikeaa asiaa? ehdottomasti ensisijainen mittauksen laatukriteeri kytkeytyy vahvasti ilmiön sisältöä koskevaan teoriaan mittauskehikon puitteissa arvioitavissa: mittausmallin rakennevaliditeetti mitta-asteikon ennustevaliditeetti. reliabiliteetti: onko mittaus riittävän tarkkaa? määritelmä: todellisen vaihtelun osuus koko vaihtelusta kuvaa mitta-asteikon tarkkuutta (tai luotettavuutta) kiinnostavaa vain mikäli validiteetti riittävän hyvä Reliabiliteetin arviointi Reliabiliteetin arviointiin vaikuttavat sekä mitta-asteikosta että mittausmallista tehtävät oletukset. yleisin arviointitapa: Cronbachin alfa (Cronbach, 95) vakiintunut 50 vuoden aikana rutiinikäyttöön useilla aloilla ristiriita: tutkimuksen ei pitäisi olla rutiinia! 00 vuotta vanha oletus yksiulotteisesta mallista (Spearman, 904) ristiriita: reaalimaailman ilmiöt ovat moniulotteisia! ongelma: reliabiliteetin (jopa karkea) aliarviointi parempi vaihtoehto: Tarkkosen rho (Vehkalahti ym., 007, 006; Tarkkonen ja Vehkalahti, 005; Vehkalahti, 000; Tarkkonen, 987) lähtökohta: moniulotteisuus ja mittauskehikko ei liian tiukkoja oletuksia: hyvä sovellettavuus haaste: tunnetuksi tekeminen vielä alussa uusin tutkimus (Lucke, 005; ten Berge ja Soĉan, 004) korostaa nyt moniulotteisuutta
8 Faktorianalyysi Faktorianalyysin taustaoletuksista, historiasta yms. keskustellaan luennolla (ks. myös materiaaliin sisältyvä monimuuttujamenetelmien monisteeni). Tässä menen suoraan asiaan käyttäen kahta ohjelmistoa, jotka ovat Survo (Mustonen, 00, 99) ja SPSS (SPSS Inc., 007). Lisää tietoa näistä löytyy mm. Google-haulla verkosta tai esim. julkaisuista Mustonen (007) ja Boslaugh (005). Tässä käsiteltävä aineisto on VTM Maarit Valtarin meneillään olevasta väitöskirjatutkimuksesta, joka koskee suomalaisten naisten käsityksiä heidän omasta ulkonäöstään. Maarit on ystävällisesti antanut aineiston käyttööni näille kursseille sekä tekeillä olevaan kirjaani. Huomautan, että tässä yhteydessä Maaritin aineiston perusteella esittämiini tuloksiin on syytä suhtautua varauksellisesti, sillä ne ovat minun aikaansaannoksiani ja toimivat enemmänkin teknisinä esimerkkeinä. Todelliset tutkimustulokset on parasta katsastaa aikanaan Maaritin väitöskirjasta. Ennen faktorianalyysia on aineistoon syytä perehtyä kunnolla, korjata mahdolliset virheet ja paikata mahdollisuuksien mukaan puuttuvat tiedot. Esimerkki alkaa suoraan paikkausvaiheesta.. Survo Tarkastellaan tietojen puuttuvuutta analyysiin valituissa mittareissa:
9 Oletuksena tilastolliset ohjelmistot jättävät pois kaikki havainnot, joissa on yksikin puuttuva tieto ( listwise deletion ). Yleensä tämä johtaa liian helposti datan tuhlaamiseen. Pelkkää tyhjää ei kuitenkaan kannata mennä korvaamaan yhtä hyvin voisi sitten generoida koko aineiston satunnaislukujen avulla. Esimerkissä sovellettu päätössääntö on melko tyypillinen, joskin tiukempiakin sääntöjä saatetaan soveltaa. Regressiomenetelmään pohjautuva puuttuvien tietojen korvaus on kehittyneempi tapa kuin pelkkä keskiarvolla korvaaminen, koska se ottaa huomioon muidenkin muuttujien arvot kuin sen, josta tietoja puuttuu. Se, kuten mikään muukaan menetelmä, ei kuitenkaan ole mikään automaatti vaan siihen liittyy tiettyjä oletuksia. 4
10 Survossa analyysien tulostukset tulevat samaan tilaan kuin komennot, joilla ne aikaansaadaan. Tulostukset ovat kompakteja; niissä on vain oleellisin. Koko faktorianalyysin tulostus pitkine muuttujien selityksineen mahtuu kokonaan tähän: Mukana ovat myös muuttujien lyhyet nimet sekä niiden kommunaliteetit (sarake Sumsqr), faktorien voimakkuudet (rivi Sumsqr) ja näiden summat, joista yhteisvaihtelua kuvaava summa 6.64 on juuri laskettu kosketuslaskennalla. Lataukset on järjestetty hierarkisesti ja korostettu varjomerkeillä, jotka näkyvät Survon toimituskentässä eri väreinä. Koko tulostus saadaan yhdellä /LOADFACT-komennolla sen jälkeen kun faktorianalyysi on suoritettu vaiheittain:. korrelaatiomatriisin laskeminen valituista muuttujista. faktorointi (oletuksena suurimman uskottavuuden menetelmällä), faktoria. rotaatio (oletuksena varimax, mutta myös graafinen rotaatio mahdollinen) 5
11 Lopuksi nimetään faktorit ja lasketaan niitä vastaavat mitta-asteikot eli faktoripistemäärät:. SPSS Tehdään samat vaiheet SPSS:llä. Pelkillä valikkojen klikkailulla ei pärjää pitkälle: työvaiheiden toistaminen on tuskallista eikä myöhemmin pysty palauttamaan mieleen miten työt on tehty. Niinpä työkaaviot on syytä tallettaa Syntax Editorin avulla. Tämä tapahtuu useimmiten niin, että valikkovalintojen jälkeen painetaan OK-painikkeen sijasta nappia Paste. Silloin saadaan vastaava esitys SPSS:n komentokielellä. Toisinaan (mm. Recode, Compute) syntaksia on nopeampi kirjoittaa käsin tai kopioida ja muokata kuin avata yhtäkään valikkoa. Tässä siis tarkastellaan aluksi tietojen puuttuvuutta analyysiin valituissa mittareissa: 6
12 Tehdään pari taulukkoa ja rajataan aineisto em. päätössäännön mukaan. Sen jälkeen korvataan loput puuttuvat tiedot regressioimputoinnilla. Count nc * Datan keräysvuosi Crosstabulation nc Total korvataan on kaikki Datan keräysvuosi Total Count ng * Datan keräysvuosi Crosstabulation ng Total jää pois korvataan on kaikki Datan keräysvuosi Total Count nq * Datan keräysvuosi Crosstabulation nq Total jää pois korvataan on kaikki Datan keräysvuosi Total nc * Datan keräysvuosi Crosstabulation nq * Datan keräysvuosi * ng * nc Crosstabulation Count Count nc Total Count ng Total Count nq Total korvataan on kaikki Datan keräysvuosi Total ng * Datan keräysvuosi Crosstabulation jää pois korvataan on kaikki Datan keräysvuosi Total nq * Datan keräysvuosi Crosstabulation jää pois korvataan on kaikki Datan keräysvuosi Total nc korvataan on kaikki ng jää pois korvataan on kaikki jää pois korvataan on kaikki nq Total nq Total nq Total nq Total nq Total nq Total jää pois on kaikki korvataan on kaikki jää pois korvataan on kaikki on kaikki korvataan on kaikki jää pois korvataan on kaikki Datan keräysvuosi Total nc korvataan on kaikki nq * Datan keräysvuosi * ng * nc Crosstabulation Count SPSS:n imputointialgoritmi on hieman eri kuin Survon, mutta periaate on sama. Tästä kuitenkin johtuvat pienet numeeriset erot faktorianalyysin tulostuksissa. Eroilla ei ole käytännössä mitään merkitystä. ng jää pois korvataan on kaikki jää pois nq Total nq Total nq Total nq Total jää pois on kaikki korvataan on kaikki jää pois korvataan on kaikki on kaikki Datan keräysvuosi Total
13 Faktorianalyysin syntaksi on aika hurjan näköinen johtuen muuttujien määrästä ja siitä että ne tulevat luetelluiksi nimeltä, vieläpä kahteen kertaan: Syntaksin perustana ovat valikossa Data Reduction Factor tehdyt valinnat, joita on runsaasti. Käyn ne tässä läpi vaihe vaiheelta. Ensin valitaan muuttujat. Kannattaa ehkä säätää SPSS näyttämään valintalokeroissa muuttujien lyhyet nimet (kuten olen tässä tehnyt), sillä lokerot ovat ahtaita, eikä niiden leveyttä voi säädellä. Alareunassa on viisi painiketta, joista jokainen avaa uuden valintaikkunan. Käydään seuraavaksi läpi jokainen niistä järjestyksessä vasemmalta oikealle, ennen kuin painetaan Paste-nappulaa. 8
14 Perustunnuslukuja on tarkasteltava jo aiemmin, tässä se on liian myöhäistä. Rotatoimaton ratkaisu tai kommunaliteettien alkuarvot kiinnostavat tuskin koskaan. Suurimman uskottavuuden menetelmä on syytä valita, ja erityisesti on syytä välttää SPSS:n oletuksena (psykometriikan historiasta kumpuavista syistä) tarjoamaa pääkomponenttianalyysia, johon myös Scree plot -kuva liittyy: On tyydyttävä varimax-rotaatioon (graafista ei ole). Vinorotaatiot ovat hyvin harvoin suositeltavia. Yleensä ne kannattaa unohtaa, eikä ainakaan lähteä kokeilemaan, ellei tiedä mistä on kysymys. Lopuksi pyydetään vielä faktoripisteet talteen regressiomenetelmällä ja tulosmatriisi järjestettynä: Oleellisin tulos koko faktorianalyysista on rotatoitu faktorimatriisi. Kokonaiskuvan hahmottaminen sen avulla on kuitenkin varsin hankalaa. Matriisi vie paljon tilaa (tässäkin se leviää alunperin kolmelle sivulle, jotka olen väkisin survonut samalle sivulle pienemmässä koossa). Taulukkoa SPSS:ssä editoimalla sarakkeita voi hiirellä venytellä, mutta se on erittäin hankalaa ja turhauttavaa. Sellaisia työvaiheita pitää välttää viimeiseen asti, koska niiden toistettavuus on olematon. Kommunaliteetit ovat aivan erillään omana taulukkonaan (jätin ne pois tästä). Kyseisessä taulukossa muuttujat ovat kaiken lisäksi eri järjestyksessä kuin faktorimatriisissa, joten niitä ei saa millään järkevästi yhdistettyä (eräs opiskelija teki joskus sitä varten makron Excelissä). Myös faktorien voimakkuudet tulevat omaan erilliseen karsinaansa (jätin senkin pois). Tässä ollaan siis pelkkien faktorilatausten varassa. Ne on järjestetty vähän samaan tapaan kuin Survossa, tosin latausten itseisarvojen mukaan, jolloin positiiviset ja negatiiviset lataukset ovat sekaisin. Korostuksia kuten lihavointeja ei ole. Niitä voisi lisäillä hiirellä, mutta siihen pätee sama kuin edellä: toistettaessa tämä työvaihe jouduttaisiin maalailut tekemään käsin uudelleen. Oletuksena SPSS esittää pienimmät lataukset (joilla ei edes ole mitään merkitystä) rumassa (niin sanotussa tieteellisessä) muodossa, jolloin numeeriset sarakkeet leviävät vielä entisestään. Kannattaa säätää tämä toiminto pois päältä (kuten olen tässä tehnyt), sillä se on tilastollisissa tarkasteluissa aivan turha. 9
15 Pidän ulkonäöstäni juuri sellaisena kuin se on. Olen tyytyväinen ulkonäkööni. Vaatteet näyttävät hyvältä päälläni. Kehoni on seksuaalisesti viehättävä. Pidän siitä mille näytän ilman vaatteita. En pidä ulkonäöstäni. Olen kaunis nainen. Laittautumattakin näytän hyvälle. Olen ruma. Olen aina ollut tyytyväinen omaan ulkonäkööni. En ole fyysisesti viehättävä Olen naisellinen. Olen aina hyvännäköinen ajankohdasta ja tilanteesta riippumatta. En pidä kehostani. Olen fyysisesti hyvässä kunnossa. Ulkonäköni vastaa sisäistä minääni. En mielelläni käy yleisillä rannoilla ulkonäköni takia. Joudun tekemään suhteettoman paljon ollakseni kulttuurimme ihanteiden mukainen. Median (television ja mainosten) esittämä naiskuva vähentää tyytyväisyyttäni omaa ulkonäköäni kohtaan. Ulkonäköni takia olen jättänyt osallistumatta joihinkin tilaisuuksiin tai tapahtumiin. En osallistu mielelläni iltamenoihin ulkonäköni takia. Ulkonäköni kertoo millainen ihminen minä olen. Yritän olla mahdollisimman huomaamattoman näköinen. Rotated Factor Matrix a Factor Suhtautumiseni ulkonäkööni vaihtelee: Toisinaan olen tyytyväisempi, toisinaan tyytymättömämpi. Käytän yleensä paljon aikaa itseni "laittamiseen" ennen ulos lähtöäni. Extraction Method: Maximum Likelihood. Rotation Method: Varimax with Kaiser Normalization. Yritän aina parantaa ulkonäköäni. Käytän paljon aikaa ulkonäköni katseluun ja tutkimiseen. Tarkastan ulkonäköni peilistä aina, kun se on mahdollista. Ulkonäköni on tärkeä osa minua. Minulle on tärkeätä, että näytän aina hyvälle. Nautin siitä, kun ihmiset katsovat minua. Ostan vaatteita, joissa näytän mahdollisimman hyvälle. Pyrin herättämään huomiota ulkonäölläni. Katson aina, miltä näytän, ennekuin lähden "ihmisten ilmoille". Pukeudun mielelläni seksikkäästi. Käytän hyvin vähän kauneudenhoitotuotteita. Meikattuna olen tyytyväisempi ulkonäkööni. Silloin, kun koen itseni viehättäväksi, olen myös halukkaampi seksuaaliseen kanssakäymiseen. Tiedän, jos olen "huonosti laitettu". Käytän yleensä vaatteita, jotka ovat helppokäyttöisiä välittämättä siitä, mille ne näyttävät. Harrastan liikuntaa pitääkseni vartaloni "kunnossa". Pyrin pukeutumaan niin, etteivät "heikot kohtani" näy. Kiinnitän erityistä huomiota hiuksiini (kampaukseen, leikkaukseen ja/tai väriin). Rotated Factor Matrix a Factor Miellyttävästä ulkonäöstä on hyötyä Olen suunnitellut plastiikkakirurgille menemistä. Hyvännäköiset ihmiset pärjäävät elämässään paremmin. Hyvännäköiset ihmiset ovat suositumpia Elämässä pärjääminen ei ole ulkonäöstä kiinni Extraction Method: Maximum Likelihood. Rotation Method: Varimax with Kaiser Normalization. Page Rotated Factor Matrix a Factor Naisia koskevat ulkonäkövaatimukset ovat vahvoja ja kovia. Hoikkuutta ja nuoruutta ihannoiva kulttuuri on naisille liikaa paineita aiheuttava. Kulttuurissamme ihannoidaan nuoria ja hoikkia naisia. Ihmisen ulkonäkö on kulttuurissamme liian arvostetussa asemassa. Naisten ulkonäöllä on meidän kulttuurissamme enemmän merkitystä kuin miesten Extraction Method: Maximum Likelihood. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 5 iterations. 0
16 Viitteet ja lähteet Sarah Boslaugh (005). An Intermediate Guide to SPSS Programming: Using Syntax for Data Management. SAGE, Thousand Oaks. L. J. Cronbach (95). Coefficient alpha and the internal structure of tests. Psychometrika, 6, Joseph F. Lucke (005). The α and the ω of congeneric test theory: An extension of reliability and internal consistency to heterogeneous tests. Applied Psychological Measurement, 9, Seppo Mustonen (99). Survo, An Integrated Environment for Statistical Computing and Related Areas. Survo Systems, Helsinki. Seppo Mustonen (00). SURVO MM: käyttöympäristö tekstin ja numeerisen tiedon luovaan käsittelyyn. Seppo Mustonen (007). Survo Crossings. CSCnews /007, sivut 0. C. Spearman (904). The proof and measurement of association between two things. American Journal of Psychology, 5, 7 0. SPSS Inc. (007). SPSS Inc. L. Tarkkonen ja K. Vehkalahti (005). Measurement errors in multivariate measurement scales. Journal of Multivariate Analysis, 96, Lauri Tarkkonen (987). On Reliability of Composite Scales. Statistical Studies 7, Suomen Tilastoseura, Helsinki. Jos M. F. ten Berge ja Gregor Soĉan (004). The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality. Psychometrika, 69, 6 6. Kimmo Vehkalahti (000). Reliability of Measurement Scales. Statistical Research Reports 7, Suomen Tilastoseura, Helsinki. Kimmo Vehkalahti, Simo Puntanen ja Lauri Tarkkonen (006). Estimation of reliability: a better alternative for Cronbach s alpha. Reports on Mathematics 40, Matematiikan ja tilastotieteen laitos, Helsingin yliopisto. Kimmo Vehkalahti, Simo Puntanen ja Lauri Tarkkonen (007). Effects of measurement errors in predictor selection of linear regression model. Computational Statistics & Data Analysis. In press,
17 Kimmo Vehkalahti Monimuuttujamenetelmät tekeillä ollut uusi versio viimeinen painos lokakuu 007
18 Alkusanat Käsillä oleva materiaali jäi viime talven aikana lopullisesti työstövaiheeseen hyvästä syystä: olen kirjoittamassa uutta oppikirjaa, enkä enää jatka tämän monisteen päivittämistä. Kirjani työnimi on Kyselytutkimuksen mittarit ja menetelmät, ja sen on tarkoitus ilmestyä vuonna 008. Valtaosa tässä olevasta materiaalista on suoraan vuonna 00 Metlan (Metsäntutkimuslaitos) kurssille tekemästäni monisteesta, jonka laitoin samana vuonna verkkoon saataville. Monisteesta on tullut varsin suosittu, ehkä siksi että näistä asioista on edelleen kirjoitettu melko vähän suomeksi. Onkin ollut mukava huomata, että monet ovat löytäneet monisteeni verkosta ja hyödyntäneet sitä opinnäytetöissään. Ehdin syksyllä 006 aloittaa monisteen mittaamista ja faktorianalyysia koskevan osan uudistamisen, mutta loppuosa on yhä entisessä muodossaan aivan sellaisenaan. Tarkoitukseni on ollut monipuolistaa esimerkkejä ja lisätä tarkempia viittauksia eri ohjelmistoihin. Esimerkkien ekologiapainotus juontaa juurensa Metlan ohella vuosina pitämiini monimuuttujamenetelmien kursseihin Helsingin yliopiston maatalous-metsätieteellisessä tiedekunnassa. Sittemmin kiinnostukseni kohteiksi ovat muodostuneet enemmänkin yhteiskunta- ja käyttäytymistieteiden sovellukset. Erityiskiitokset lausun jo tässä vaiheessa Pekka Niemiselle L A TEX-neuvoista. Ryhtyessäni päivittämään monistetta päätin tehdä työn edelleen Survolla, mutta nyt hyödyntäen sen L A TEX-liittymää, jolloin dokumentin rakenteen, viittausten ym. hallinta on vielä helpompaa. Olen hyödyntänyt tätä Survon ja L A TEX:in yhteispeliä myös viimeaikaisissa artikkeleissani [, ] hyvällä menestyksellä, joten ajattelin kokeilla, miten homma sujuu vähän laajemmassa yhteydessä. Näyttää sujuvan hyvin, joten tulen kirjoittamaan myös koko kirjan tällä tekniikalla. Monisteen ja tulevan kirjan sisältöä koskevia ehdotuksia ja muuta palautetta luen aina mielelläni, joten lähetä ihmeessä sähköpostia (Kimmo.Vehkalahti@helsinki.fi) /KV ii
19 Sisältö Alkusanat ii Mittaaminen ja aineiston esikäsittely. Mittausmalli ja mitta-asteikko Esimerkki: fyysinen suorituskyky Faktorianalyysi 5. Faktorointi Rotaatio Faktoripistemäärät Reliabiliteetti Jatkotarkasteluja Kirjallisuutta iii
20 Johdanto Tämä moniste on alunperin tarkoitettu oheismateriaaliksi sovelluspainotteiselle monimuuttujamenetelmien kurssille. Olen pitänyt useita sellaisia kursseja joko useamman viikon kestävänä periodiopetuksena yliopistolla tai päivän jaksoina mm. eri tutkimuslaitoksissa. Itseopiskeluun materiaalista lienee hyötyä lähinnä niille, jotka tuntevat aihepiiriä jo entuudestaan tai haluavat kerrata aiemmin oppimaansa. Kurssin aikana tulee tyypillisesti esille arviolta kaksinkertainen määrä tietoa rivien välistä sekä osallistujien kysymysten ja keskustelujen innoittamana. Monisteeseen olen pyrkinyt tiivistämään ydinkohtia keskeisimmiksi katsomistani asioista, joita ovat: moniulotteisten ilmiöiden ja etäisyyksien mittaaminen keskeiset tilastolliset monimuuttujamenetelmät faktorianalyysi pääkomponenttianalyysi erotteluanalyysi ryhmittelymenetelmät moniulotteinen skaalaus korrespondenssianalyysi menetelmien yleiset oletukset ja rajoitukset menetelmille ominaiset graafiset tarkastelut Lähestyn näitä asioita soveltajan näkökulmasta esitellen taustalla olevaa tilastotieteen teoriaa tarpeen mukaan. Tärkeintä on oppia valitsemaan kuhunkin tutkimustilanteeseen sopivia menetelmiä ja käyttämään niitä tarkoituksenmukaisesti sekä tulkitsemaan tilastollisten ohjelmien antamia tulostuksia järkevästi. Tilastotieteen perusasiat ja -käsitteet kuten mitta-asteikot, keskiarvo, hajonta, korrelaatio, frekvenssijakauma, ristiintaulukko, hypoteesien testaus jne. on syytä hallita etukäteen. Vaikka materiaalissa onkin viittauksia eri tilastollisiin ohjelmistoihin, ei kurssilla varsinaisesti opeteta minkään niiden käyttöä. Käytännön hyödyn kannalta onkin varsin oleellista osata itsenäisesti käyttää jotakin tarkoitukseen sopivaa ohjelmistoa, joita ovat esimerkiksi Survo, SPSS, R, SAS, S-Plus, Stata, Statistica, Systat ja Matlab.
21 Luku Mittaaminen ja aineiston esikäsittely Kvantitatiivinen tutkimus perustuu mittaamiseen, ja tutkimusten johtopäätökset nojaavat mittausten tilastolliseen analysointiin. Mikäli mittausten laatuun ei kiinnitetä tarpeeksi huomiota, mittausvirheet vaikuttavat liiaksi lopputuloksiin. Tällöin eivät hyvätkään menetelmät pelasta tilannetta. Sama ongelma esiintyy niin luonnon- kuin yhteiskunta- ja käyttäytymistieteissä.. Mittausmalli ja mitta-asteikko Mittausten laadun arviointi on siis tärkeää kaikessa tieteellisessä tutkimuksessa. Ensisijalla ovat erilaiset validiteettitarkastelut, mutta tärkeää on myös mittarin tekninen tarkkuus, jota arvioidaan reliabiliteetin avulla. Asialliset reliabiliteettitarkastelut edellyttävät mittausmallin estimointia ja riittävän yleistä mitta-asteikkoa. Mittausmallin tärkeä erikoistapaus on faktorianalyysimalli, johon perehdytään luvussa. Monet sovellustilanteet kannattaa hahmotella Kuvan. mittauskehikon (measurement framework) mukaisesti. Mittausmallin (measurement model) avulla spesifioidaan faktoreiden τ,τ,...,τ k ja mitattujen muuttujien x,x,...,x p väliset yhteydet ottaen huomioon, että kuhunkin mittaukseen liittyy mittausvirhe (measurement error), jota merkitään symboleillaε,ε,...,ε p. Tavoitteena on luoda uusia muuttujia eli asteikkoja (measurement scales), jotka kuvaavat teoreettisia faktoreita mahdollisimman hyvin ja sisältävät samalla mahdollisimman vähän mittausvirheistä johtuvaa vaihtelua... Esimerkki: fyysinen suorituskyky Tarkastellaan esimerkkinä fyysistä suorituskykyä olettaen että se koostuu ainakin kolmesta komponentista: nopeus, voima ja kestävyys. Käytetään mittarina kymmenottelua ja aineistona vuoden 97 maailman 48 parhaan urheilijan saavuttamia lajipisteitä. Valitaan analyysiin lajimuuttujat ja lasketaan niiden keskiarvot, hajonnat ja korrelaatiot. Tarkistetaan keskiarvot ja hajonnat sekä täydellisten havaintojen lukumäärät muuttujittain.
22 .. Mittausmalli ja mitta-asteikko Measurement model Measurement scale ε τ x u Second order scale Validity criteria ε τ x u z y ε x τ k u m z s y q ε p x p Kuva.. Mittauskehikon elementit (ks. []). Means, standard deviations and number of observations in KYMMEN: mean stddev N 00m m juoksu (pisteet) Pituush Pituushyppy Kuula Kuulantyöntö Korkeus Korkeushyppy 400m m juoksu Aidat m aidat Kiekko Kiekonheitto Seiväs Seiväshyppy Keihäs Keihäänheitto 500m m juoksu Mikäli havaintoarvoja puuttuu, koko havainto jää käsittelyjen ulkopuolelle (ns. listwise deletion -periaate). Siis vain täydelliset havainnot kelpuutetaan. Toinen, parittaisiin tietoihin perustuva korrelaatioiden laskentamenetelmä voi antaa hyvin harhaisia tuloksia, joten sen käyttö ei ole suositeltavaa. Tiedon puuttumisen syyt pitää selvittää. Puuttuminen ei ole välttämättä satunnaista. Se voi olla systemaattista jonkin muun asian suhteen. Tiedon puuttuminen voi myös johtua siitä ettei kaikkia tietoja ole ollut tarkoituskaan mitata kaikilta havaintoyksiköiltä. Aidosti puuttuvia tietoja ei mikään korvaa, mutta eri asteisia paikkauksia voi olla mahdollista tehdä ja saada jonkin verran vältettyä havaintojen täydellistä menettämistä. Usein käytännössä sovellettu keskiarvolla korvaaminen on melko alkeellista, ja sitä pitäisi
23 4 Luku. Mittaaminen ja aineiston esikäsittely välttää jos parempia menetelmiä on käytettävissä. Parhaat keinot perustuvat regressioestimointiin, ja ovat hyvinkin tehokkaita. Tässä aineistossa havainnot ovat täydellisiä, joten paikkausta ei tarvita. Vilkaistaan korrelaatiomatriisia: 00m Pituus Kuula Korkeu 400m Aidat Kiekko Seiväs Keihäs 500m 00m Pituush Kuula Korkeus m Aidat Kiekko Seiväs Keihäs m Korrelaatioistakin näkyy jo yhtä ja toista, esim. suurin korrelaatio (0.77) on kiekonheiton ja kuulantyönnön välillä. Korrelaatiomatriisi on kuitenkin vain lähtökohta useille monimuuttujamenetelmille; siitä ei pidä tehdä liian pitkälle meneviä päätelmiä. Varsinkaan ei kannata tuijottaa yksittäisten korrelaatioiden tilastollisiin merkitsevyyksiin (jotka edellä on kuitenkin automaattisesti korostettu yleissilmäilyn helpottamiseksi). Merkitsevyyksiä ei pidä ylipäätään ottaa liian vakavasti. On muistettava että tilastollinen merkitsevyys riippuu otoskoosta: suurilla aineistoilla kaikki on tilastollisesti merkitsevää (significant) vaikkei välttämättä käytännössä lainkaan merkittävää (notable, remarkable). Kun muuttujia on enemmän, lukujen silmäilykin käy äkkiä hankalaksi. Vaikka keskiarvot, hajonnat ja korrelaatiot (ns. tyhjentävät otossuureet) tiivistävätkin jo aineiston tietoa melkoisesti, ei se kuitenkaan riitä vielä mihinkään. Tarvitaan menetelmiä joilla informaatiota survotaan tästä huomattavasti tiiviimmäksi paketiksi. [Tähän tulee lisää aineiston esikäsittelystä, vaiheesta joka käytännössä voi usein viedä jopa enemmän aikaa kuin varsinainen analysointi.]
24 Luku Faktorianalyysi Faktorianalyysin (factor analysis, FA) perustana on tilastollinen malli, jossa ajatellaan havaittujen muuttujien riippuvuusrakenteen ilmentävän varsinaisen mielenkiinnon kohteena olevia piilomuuttujia joita ei voi suoraan havaita. Näitä niin sanottuja latentteja muuttujia kutsutaan tässä yhteydessä faktoreiksi. Faktorianalyysi on eräs vanhimmista tilastollisista menetelmistä. Se sai alkunsa käyttäytymistieteiden puolella, mutta muotoutui sittemmin täysin yleiseksi tilastolliseksi monimuuttujamenetelmäksi, jota voidaan soveltaa mitä moninaisimmilla aloilla.. Faktorointi Faktorianalyysi on usein jo tutkimuksen alkuvaiheessa sovellettu menetelmä, jolla saadaan tarkasteltavien muuttujien määrä realistisemmaksi. Samalla saadaan erotettua todellinen vaihtelu satunnaisesta mittausvirhevaihtelusta, mikä antaa mahdollisuuden arvioida mm. uusien muuttujien reliabiliteettia ja mittauksen keskivirhettä. Näin jatkoanalyysit voidaan tehdä muuttujilla joista on puhdistettu mittausvirheiden vaikutus. Oikean faktoriluvunkmäärääminen on olennaisen tärkeää. Sitä ei saa antaa ohjelman (korrelaatiomatriisin ominaisarvojen perusteella) "keksiä"vaan sen on oltava tutkijan vastuulla. Tutkijanhan parhaiten luulisi tietävän, minkälaista ja miten moniulotteista ilmiötä on mallintamassa! Ennakkokäsityksen mukaan tutkittava ilmiö on (ainakin) kolmiulotteinen, joten faktoroidaan korrelaatiomatriisi sen mukaisesti käyttäen faktorilukuna kolmea. Sovelletaan suurimman uskottavuuden (maximum likelihood) faktorointimenetelmää. Se on käytännössä suositeltavin. Muita asiallisia vaihtoehtoja ovat lähinnä pääakselimenetelmä (principal axes) tai yleistetty pienimmän neliösumman menetelmä (generalized least squares). Historiallisista syistä monissa ohjelmissa esiintyy vaihtoehtona (jopa oletuksena) tässä yhteydessä pääkomponenttianalyysi (principal components), mutta se ei ole sama asia kuin faktorianalyysi, joten sitä pitää osata tietoisesti välttää, jos haluaa tehdä kunnollista faktorianalyysia. Muut mahdollisesti tarjolla olevat vaihtoehdot kuten esim. alfa-faktorointi yms. ovat jäänteitä psykometriikan historiasta, ja ne on syytä jättää sinne. Tehdään siis faktorointi kolmella faktorilla edellä olevasta korrelaatiomatriisista. 5
25 6 Luku. Faktorianalyysi Factor analysis: Maximum Likelihood (ML) solution Factor matrix F F F h^ 00m Pituush Kuula Korkeus m Aidat Kiekko Seiväs Keihäs m Rotaatio Tulkinnan selkiyttämiseksi suoritetaan saadulle faktorimatriisille ortogonaalinen Varimaxrotaatio ja otetaan lopputulos esille siten että tulkinnan perusteet ovat selvästi näkyvissä. Tavoitteena on ns. yksinkertainen rakenne (simple structure). Asiaa voisi lähestyä tarkemminkin graafisen rotaation avulla. F F F Sumsqr Kuula Kuulantyöntö Kiekko Kiekonheitto 00m m juoksu (pisteet) 400m m juoksu Korkeus Korkeushyppy 500m m juoksu Pituush Pituushyppy Aidat m aidat Seiväs Seiväshyppy Keihäs Keihäänheitto Sumsqr Faktorit näyttäisivät löytyvän ennakkokäsityksen mukaisesti järjestyksessä F: kestävyys, F: nopeus, F: voima (taulukon järjestys perustuu faktoreiden voimakkuuksiin eli pystysuunnassa laskettuihin latausten neliösummiin). Siis esim. kuulantyöntö ja kiekonheitto latautuvat kolmannelle faktorille, jossa suurin negatiivinen korrelaatio on 500 metrin juoksulla. Tulkinta on varsin selvä: voimalajeissa menestyvät ovat isokokoisina vaikeuksissa kestävyysjuoksussa. Havainnollistetaan rotatoitua faktoriratkaisua graafisesti piirtämällä faktoriavaruuden dimensiot pareittain vastakkain. Muuttujat esiintyvät faktoriavaruudessa vektoreina, jotka kuvaavat vastaavia faktorilatauksia eli korrelaatioita faktorien ja muuttujien välillä.
26 .. Faktoripistemäärät 7 00m 400m Kiekko Kuula Kiekko Kuula F Aidat Pituush Seiväs Kiekko Kuula Keihäs Korkeus 500m F 00m Aidat Korkeus Keihäs Pituush Seiväs 400m 500m F Korkeus KeihäsAidat 00m Pituush Seiväs 400m 500m F F F. Faktoripistemäärät Kuva.. Faktoriavaruuden dimensiot pareittain. Havaintomatriisin tasolle palataan estimoimalla faktoreittain havaintokohtaiset arvot eli ns. faktoripistemäärät (factor scores). Tämä tapahtuu regressiomenetelmällä, sillä faktorianalyysin perusyhtälöä ei voi ratkaista yksikäsitteisesti faktoreiden suhteen. Lasketaan aluksi tarvittava painokerroinmatriisi. Kertoimet ovat pieniä, koska muuttujien saamat arvot ovat suuria. Vakiotermillä (Constant) aikaansaadaan keskistys, eli faktoripistemäärien keskiarvot tulevat olemaan nollia. Factor score coefficients /// % % % Constant m Pituush Kuula Korkeus m Aidat Kiekko Seiväs Keihäs m Lasketaan sitten uudet faktoripistemuuttujat (kestäv,nopeus,voima) alkuperäisten lineaarikombinaatioina, siis painotettuina summina, joiden painot määräytyvät faktorianalyysin perusteella. Tällaiset muuttujat ovat monesta syystä suositeltavampia kuin ns. summamuuttujat, joissa muuttujille annetaan painoja 0 ja osittain mielivaltaisesti. Nyt kullekin urheilijalle on saatu kymmenen lajipisteen sijasta kolme arvoa, jotka kuvaavat fyysisen suorituskyvyn eri dimensioita, kestävyyttä, nopeutta ja voimaa. Kukin muuttujista on asteikko dimension ääripäästä toiseen. Sinänsä lukuarvot ovat anonyymejä, vaihdellen nollan molemmin puolin. Parhaat urheilijat eri dimensioilla ovat Ghesquir (kestävyys), Bennett (nopeus) ja Zigert (voima).
27 8 Luku. Faktorianalyysi Nimi kestäv nopeus voima Skowrone Hedmark Le_Roy Zeilbaue Zigert Bennett Blinjaje Katus Berendse Gorbacho Kiseljev Gough Sherbati Ghesquir Avilov (loput jätetty tästä pois) Faktoripistemäärät eivät korreloi keskenään. Tämä on jatkotarkasteluja silmälläpitäen hyödyllinen ominaisuus, esim. regressioanalyysi on mukavampaa korreloimattomilla selittäjillä. Keskiarvot ovat siis nollia ja hajonnat suunnilleen ykkösen suuruisia, eli faktoripistemäärät vastaavat melko tarkalleen standardoituja muuttujia. Means, std.devs and correlations of KYMMEN N=48 Variable Mean Std.dev. kestäv nopeus voima Correlations: kestäv nopeus voima kestäv nopeus voima Yleinen (ns. keskeiseen raja-arvolauseeseen perustuva) totuus on, että kun lasketaan yhteen erilaisia muuttujia, saadaan jotain enemmän tai vähemmän normaalijakaumaa muistuttavaa. Niinpä ei ole yllätys, että faktoripistemäärien jakaumat ovat selkeästi normaalisia, vaikkei havaintoja ole kuin Reliabiliteetti Näin saatujen uusien faktoripistemuuttujien reliabiliteetit ovat varsin korkeita: 0.96, 0.88 ja 0.8. Näiden ja ao. muuttujien varianssien avulla voidaan laskea, että mittauksen keskivirheet ovat vastaavasti n. 0., 0. ja 0.4. Täten tiedetään miten tarkoista asteikoista nyt
28 .4. Reliabiliteetti 9 kestäv nopeus voima p=0.7 p=0.66 p=0.66 Kuva.. Faktoripistemuuttujien jakaumat normaalijakaumasovituksineen. muodostetuissa faktoripisteissä on kysymys, ja esim. erilaisissa vertailutilanteissa voidaan arvioida, ylittääkö havaittu ero mittausvirheestä johtuvan vaihtelun. Cronbachin alfa [] on yleisesti käytetty reliabiliteettiestimaattori, joka saisi jäädä jo historiaan. Tässä se antaa peräti negatiivisen tuloksen, mikä on täysin absurdia, kun luvun pitäisi kuvata todellisen vaihtelun ja mittausvirhevaihtelun sisältämän kokonaisvaihtelun välistä suhdetta (ja olla siten aina jotain ei-negatiivista). Moniulotteisille mitta-asteikoille kehitetty Tarkkosen rho [, 4, 5, 6] toimii kuten pitääkin. Mikäli yhdisteltäsiin muuttujia laskemalla kolmen faktoripistemuuttujan sijasta niiden suora summa, olisi summa-asteikon reliabiliteetti vain luokkaa 0.6 eli todella huono. On tosin huomattava, että juuri yhteispisteitähän tässä lajissa käytännössä lasketaan, mutta tutkimuskäyttöön sellaisesta muuttujasta ei taida olla. /RELIAB CORR.M,AFACT.M,MSN.M, Reliabilities of measurement scales by Tarkkonen s method, which supersedes Cronbach s alpha (see RELIAB? for more information) Factor images Factor scores E E E E Unweighted sum of all items E E Cronbach s alpha E: measurement errors are uncorrelated (assumed in factor model) E: measurement errors may correlate (more general model) To test the assumptions of the model, see the residual matrices below: /MATSHOW RCOV.M ##.### / Residual covariances /MATSHOW RCORR.M ##.### / Residual correlations Estimoidun kolmen faktorin ratkaisun rakennevaliditeettia voidaan myös näiden tarkastelujen perusteella kyseenalaistaa. Puolella lajeista on alhainen kommunaliteetti, mikä
29 0 Luku. Faktorianalyysi näkyi itse asiassa jo faktorimatriisista: F F F Sumsqr Korkeus Korkeushyppy Pituush Pituushyppy Aidat m aidat Seiväs Seiväshyppy Keihäs Keihäänheitto Kyseisille lajeille on yhteistä se että ne liittyvät tekniikkaan tai motoriikkaan. Tarkastellaan vielä faktorimallin jäännöskorrelaatiomatriisia: Residual_correlations /// 00m Pituu Kuula Korke 400m Aidat Kiekk Seivä Keihä 500m 00m Pituush Kuula Korkeus m Aidat Kiekko Seiväs Keihäs m Faktorimallin mukaisesti tämän matriisin tulisi olla diagonaalinen, eli lävistäjän ulkopuolella pitäisi olla vain nollaa. Nyt residuaalien korrelaatiot osoittavat että osa vaihtelusta on jäänyt mittausvirheiden puolelle, ja mallia modifioimalla sitä voitaisiin siirtää todellisen vaihtelun puolelle. Käytännössä tämä tarkoittaisi faktorilukumäärän nostamista. Malliin tarvittaisiin yksi tai kaksi tekniikkafaktoria, käsien ja jalkojen taidoille erikseen..5 Jatkotarkasteluja Eksploratiivisen faktorianalyysin puitteissa on aivan sallittua kehittää analyysia alkuperäistä konseptia moniulotteisemmaksi aineiston antaman informaation valossa. Tiukempi lähestymistapa eli ns. konfirmatorinen faktorianalyysi edellyttää enemmän ilmiöön liittyvää teoriaa ja tarkoittaa faktorirakenteeseen liittyvien hypoteesien testaamista tätä aiempaa tietämystä vasten. Eksploratiivinen työskentelytapa on käytännössä yleisemmin sovellettu. Faktorianalyysin yleistys useiden mittausmallien välisten suhteiden tutkimiseen tunnetaan puolestaan nimellä rakenneyhtälömallit (structure equation models, SEM), josta käytetään myös usein nimitystä LISREL-mallit (samannimisen ohjelmiston perusteella). Tietynlaista konfirmatorista työskentelytapaa edustaa myös transformaatioanalyysi, jolla voidaan vertailla faktorirakenteita toisiinsa, esim. eri tutkimusten, ajankohtien tms. välillä. Suoraan vertailuja ei pidä mennä tekemään, sillä rotaatiosta johtuen identtisetkin rakenteet voivat näyttää erilaisilta. Transformaatioanalyysin kehitti alunperin Ahmavaara
30 .6. Kirjallisuutta jo 950-luvulla [7]. Mustonen johti myöhemmin ns. symmetrisen transformaatioanalyysin mallin [8], ks. myös []. Kansainvälisesti menetelmää ei tunneta transformaatioanalyysin nimellä, mutta lähelle sitä tulee ns. Procrustes-rotaatio [9], jota faktorianalyysin yhteydessä ovat esittäneet mm. Schönemann [0] ja Cliff []. Erona transformaatioanalyysiin on, ettei Procrustes-rotaatiossa kiinnitetä huomiota poikkeamiin sen jälkeen kun ratkaisut lähimmäksi tuova rotaatio on löydetty. Juuri poikkeamat ovat kuitenkin mielenkiintoisia, sillä ne kertovat mistä mahdolliset rakenne-erot johtuvat. Mm. kulttuurierot kyselytutkimuksissa, joissa lomake on huolellisesti käännätetty toiselle kielelle, paljastuvat armotta. Edellä esitetty esimerkki sopii faktorianalyysin periaatteiden esittämiseen, mutta todellisuudessa aineiston pitäisi olla kooltaan suurempi. Hyötysuhdekin jää vaatimattomaksi, jos alunperin kymmenestä muuttujasta saadaan ulotteisuus tiivistettyä viiteen. Myös havaintojen suhteen aineisto on kovin pieni. Suurimman uskottavuuden estimointi on vakaammalla pohjalla, kun estimoitavia parametreja kohti on enemmän havaintoja. Tyypillisempiä aineistokokoja faktorianalyysissa ovatkin sellaiset, joissa muuttujia on 0 50 ja havaintoja Yleisiä suosituksia on mahdotonta antaa. Mittaustarkkuuskin vaikuttaa asiaan: mitä karkeammilla mittareilla mitataan, sitä enemmän olisi oltava havaintoja. Pienemmilläkin aineistoilla voidaan toimia, mutta tulokset jäävät helposti hatarammiksi. Havaintoja on joka tapauksessa oltava enemmän kuin muuttujia. Tämä pätee moniin muihinkin menetelmiin. SAS:issa faktorianalyysi tehdään proseduurilla FACTOR. Faktorointimenetelmä pitää muistaa valita eksplisiittisesti, sillä oletuksena tehdään pääkomponenttianalyysi. Asiallisia reliabiliteettitarkasteluja ei vielä ole SAS:issa yleisessä käytössä, mutta ne on verrattain helppo ohjelmoida esim. SAS:in matriisikielellä (IML). Juha-Pekka Perttola on tilastotieteen pro gradu -työssään [] näyttänyt mallia, miten näitä asioita voidaan lähestyä SAS-ympäristössä. SPSS:n valikoissa faktorianalyysi löytyy kohdasta Data Reduction. Tarjolla on lukuisia optioita, joskin monet niistä täysin turhia. SAS:in tapaan oletuksena tarjotaan tehtäväksi pääkomponenttianalyysia. Reliabiliteettitarkastelut rajoittuvat toistaiseksi Cronbachin alfojen laskeskeluun summamuuttujille. Parempia vaihtoehtoja on tarkoitus laatia SPSS:n komentokielen avulla..6 Kirjallisuutta Monimuuttujamenetelmistä on valtavasti kirjallisuutta (joskaan ei paljoakaan suomeksi). Tulen täydentämään tämän monisteen kirjallisuusluetteloa myöhemmin, mutta kannattaa tutustua kotisivuiltani löytyvään kirjallisuusluetteloon, jossa suuri osa teoksista koskee monimuuttujamenetelmiä. Sivun osoite on
31 Kirjallisuutta [] Kimmo Vehkalahti, Simo Puntanen, and Lauri Tarkkonen. Effects of measurement errors in predictor selection of linear regression model. Computational Statistics & Data Analysis, [] Kimmo Vehkalahti, Simo Puntanen, and Lauri Tarkkonen. Estimation of reliability: a better alternative for Cronbach s alpha. Reports on Mathematics 40, Department of Mathematics and Statistics, University of Helsinki, Helsinki, Finland, [] L. J. Cronbach. Coefficient alpha and the internal structure of tests. Psychometrika, 6:97 4, 95. [4] L. Tarkkonen and K. Vehkalahti. Measurement errors in multivariate measurement scales. Journal of Multivariate Analysis, 96:7 89, 005. [5] Kimmo Vehkalahti. Reliability of Measurement Scales. Number 7 in Statistical Research Reports. Finnish Statistical Society, Helsinki, Finland, 000. [6] Lauri Tarkkonen. On Reliability of Composite Scales. Number 7 in Statistical Studies. Finnish Statistical Society, Helsinki, Finland, 987. [7] Yrjö Ahmavaara. Transformation analysis of factorial data. Ph.D. Thesis, Annales Academiæ Scientiarum Fennicæ, Series B 88, 954. [8] Seppo Mustonen. Symmetrinen transformaatioanalyysi [Symmetric transformation analysis, in Finnish]. Report 4, Social Research Institute of Alcohol Studies, Helsinki, Finland, 966. [9] J. R. Hurley and R. B. Cattell. Procrustes program: producing direct rotation to test a hypothesised factor structure. Behavioral Science, 7:58 6, 96. [0] P. H. Schönemann. A generalized solution of the orthogonal Procrustes problem. Psychometrika, : 0, 966. [] N. Cliff. Orthogonal rotation to congruence. Psychometrika, : 4, 966. [] Juha-Pekka Perttola. Saslatex-kompendiumi yleisen reliabiliteettiestimaattorin laskemiseen. Pro gradu, Matematiikan ja tilastotieteen laitos, Helsingin yliopisto, 006.
32 Monimuuttujamenetelmät / Kimmo Vehkalahti Tämä luentomoniste on alunperin tarkoitettu oheismateriaaliksi n. 5 tunnin mittaiselle sovelluspainotteiselle monimuuttujamenetelmien kurssille. Olen pitänyt useita sellaisia kursseja joko useamman viikon kestävänä periodiopetuksena yliopistolla tai parin päivän jaksona erilaisissa tutkimuslaitoksissa. Itseopiskeluun materiaalista lienee hyötyä lähinnä niille, jotka tuntevat aihepiiriä jo entuudestaan tai haluavat kerrata aiemmin oppimaansa. Kurssin aikana tulee tyypillisesti esille arviolta kaksinkertainen määrä tietoa "rivien välistä", joten tämä esitys ei ole eikä yritäkään olla mitenkään tyhjentävä. Lisäksi kurssilaiset voivat tuoda omia kysymyksiään ja eri alojen sovellustilanteita käsiteltäviksi ja keskusteltaviksi. Näin jokainen kurssi on aina hieman erilainen. Tähän monisteeseen olenkin pyrkinyt tiivistämään vain keskeisimpiä asioita. Kurssin ydinkohtia: moniulotteisten ilmiöiden ja etäisyyksien mittaaminen keskeiset tilastolliset monimuuttujamenetelmät menetelmien yleiset oletukset ja rajoitukset menetelmille ominaiset graafiset tarkastelut Käsiteltäviä menetelmiä: faktorianalyysi pääkomponenttianalyysi erotteluanalyysi ryhmittelymenetelmät moniulotteinen skaalaus korrespondenssianalyysi Asioita lähestytään soveltajan näkökulmasta. Taustalla olevaa tilastotieteen teoriaa esitellään tarpeen mukaan. Tärkeintä on oppia valitsemaan tilanteeseen sopivia menetelmiä ja käyttämään niitä tarkoituksenmukaisesti sekä tulkitsemaan ohjelmien antamia tulostuksia oikealla tavalla. Tilastotieteen perusasiat ja -käsitteet on hyvä hallita etukäteen. Myöskään ohjelmien käyttöä ei kurssilla opeteta, joten käytännön hyötyä ajatellen jonkin tarkoitukseen sopivan ohjelmiston (esimerkiksi Survo, SAS, SPSS, S-Plus, SYSTAT) hallinta on suotavaa. Kurssin aikana asioita havainnollistetaan Survon Windows-version SURVO MM avulla (ks. Kirjallisuutta: Flury, B. (997). A First Course in Multivariate Statistics. Springer-Verlag, New York. Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. (998). Multivariate Data Analysis. 5th ed., Prentice Hall. Krzanowski, W. J. (000). Principles of Multivariate Analysis (revised edition). Oxford University Press. Mustonen, S. (995). Tilastolliset monimuuttujamenetelmät. Survo Systems, Helsinki. Ranta, E., Rita, H., & Kouki, J. (99). Biometria - tilastotiedettä ekologeille (. painos). Yliopistopaino, Helsinki. Monistetta saa vapaasti kopioida kotisivultani ja käyttää ei-kaupallisiin tarkoituksiin. Sivumennen sanoen niin tekstin kirjoittamisen, aineistojen analyysit, laskutoimitukset ja kuvien piirtämiset kuin ulkoasun viimeistelynkin olen tehnyt Survolla. Sen ansiosta moniste syntyikin nopeasti, vain parissa päivässä ennen Metsäntutkimuslaitoksella keväällä 00 pitämääni kurssia. Kaikki palaute on tervetullutta! Kimmo Vehkalahti Kimmo.Vehkalahti@helsinki.fi
Ellei tutkijalla ole käsitystä mittauksensa validiteetista ja reliabiliteetista, ei johtopäätöksillä
Lauri Tarkkonen: Validiteetti ja reliabiliteetti 1 Ellei tutkijalla ole käsitystä mittauksensa validiteetista ja reliabiliteetista, ei johtopäätöksillä ole pohjaa. Rakennevaliditeetin estimoiminen 1. Mitattavan
Otannasta ja mittaamisesta
Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,
Sisällys. Alkusanat... 7. 1 Johdanto 11 1.1 Kyselytutkimus... 11 1.2 Kirjan rakenne ja sisältö... 14
Sisällys Alkusanat.......................... 7 1 Johdanto 11 1.1 Kyselytutkimus.................... 11 1.2 Kirjan rakenne ja sisältö............... 14 2 Mittaus ja tiedonkeruu 17 2.1 Johdatteleva esimerkki................
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Faktorianalyysi (Factor analysis) Faktorianalyysi jaetaan perinteisesti kahteen osaan Eksploratiiviseen (explorative factor analysis)
pitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
- _FAKTORIMALLI_2: 8DIM_7_lisafaktoria_ / Tehdään mittausmalli hyvinvoinnille
- _FAKTORIMALLI_2: 8DIM_7_lisafaktoria_ / Tehdään mittausmalli hyvinvoinnille MASKING M_FA_8_9 THVKART: M / TURVKART: M / FYSVIOL: M / PAIHDEO: M / TSIS01: S / SIS Työni kohde on minua erittäin kiinnostava
pitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6
Sisällysluettelo ALKUSANAT 4 ALKUSANAT E-KIRJA VERSIOON 5 SISÄLLYSLUETTELO 6 1 PERUSASIOITA JA AINEISTON SYÖTTÖ 8 11 PERUSNÄKYMÄ 8 12 AINEISTON SYÖTTÖ VERSIOSSA 9 8 Muuttujan määrittely versiossa 9 11
Teema 3: Tilastollisia kuvia ja tunnuslukuja
Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989.
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien
Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
Kvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.
Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Perusnäkymä yksisuuntaiseen ANOVAaan
Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja
Kvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 V ls. Uusintamahdollisuus on rästitentissä.. ke 6 PR sali. Siihen tulee ilmoittautua WebOodissa 9. 8.. välisenä aikana. Soveltuvan
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä
Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö
SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin
54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
MONISTE 2 Kirjoittanut Elina Katainen
MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi
Harjoittele tulkintoja
Harjoittele tulkintoja Syksy 9: KT (55 op) Kvantitatiivisen aineiston keruu ja analyysi SPSS tulosteiden tulkintaa/til Analyysit perustuvat aineistoon: Haavio-Mannila, Elina & Kontula, Osmo (1993): Suomalainen
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13
OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3
OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset
Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3
voidaan hylätä, pienempi vai suurempi kuin 1 %?
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 5 viikko 42 6.10.2017 klo 10:42:20 Ryhmät: ke 08.30 10.00 LS C6 Paajanen ke 10.15 11.45 LS
Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4
Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,
Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
Harjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4
Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...
Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio
Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n
11. laskuharjoituskierros, vko 15, ratkaisut
11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen
Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen 08.09.2014 Ohjaaja: DI Mikko Harju Valvoja: Prof. Kai Virtanen Työn saa tallentaa ja julkistaa Aalto-yliopiston
RISTIINTAULUKOINTI JA Χ 2 -TESTI
RISTIINTAULUKOINTI JA Χ 2 -TESTI Kvantitatiiviset tutkimusmenetelmät maantieteessä Ti 27.10.2015, To 2.11.2015 Miisa Pietilä & Laura Hokkanen miisa.pietila@oulu.fi laura.hokkanen@outlook.com KURSSIKERRAN
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...
I. Ristiintaulukointi Excelillä / Microsoft Office 2010
Savonia-ammattikorkeakoulu Liiketalous Kuopio Tutkimusmenetelmät Likitalo & Mäkelä I. Ristiintaulukointi Excelillä / Microsoft Office 2010 Tässä ohjeessa on mainittu ensi Excelin valinnan/komennon englanninkielinen
Yleistetyistä lineaarisista malleista
Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit
Laskuharjoitus 9, tehtävä 6
Aalto-yliopiston perustieteiden korkeakoulu Jouni Pousi Systeemianalyysin laboratorio Mat-2.4129 Systeemien identifiointi Laskuharjoitus 9, tehtävä 6 Tämä ohje sisältää vaihtoehtoisen tavan laskuharjoituksen
HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET
HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET OHJELMAN KÄYNNISTÄMINEN Käynnistääksesi ohjelman valitse All Programs > > IBM SPSS Statistics 2x, tai käynnistä ohjelma työpöydän kuvakkeesta.
Johdantoa. Jokaisen matemaatikon olisi syytä osata edes alkeet jostakin perusohjelmistosta, Java MAPLE. Pascal MathCad
Johdantoa ALGORITMIT MATEMA- TIIKASSA, MAA Vanhan vitsin mukaan matemaatikko tietää, kuinka matemaattinen ongelma ratkaistaan, mutta ei osaa tehdä niin. Vitsi on ajalta, jolloin käytännön laskut eli ongelman
Soveltuvan menetelmän valinta. Kvantitatiiviset menetelmät. Faktorianalyysi. Faktorianalyysi. Faktorianalyysin perusidea.
Kvantitatiiviset menetelmät Soveltuvan menetelmän valinta SELITETTÄVÄ MUUTTUJA Pienryhmäkokoontumisissa tarvitaan EK0- aineiston haastattelulomake. Sen voi tulostaa verkosta. Linkki löytyy kurssin kotisivulta:
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana
Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi
Testejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
voidaan hylätä, pienempi vai suurempi kuin 1 %?
[TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine
Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi
Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 5 Seuraava etappi Datan keruu alkanut 9.2.2005 2.välinäyttönä palautetaan aineisto SPSS-tiedostona 14.2. palaute tiedostosta
Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto
Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto Luennon sisältö Pienten otoskokojen haasteista Pieni otoskoko Suositeltuja metodeja
Harjoitus 9: Excel - Tilastollinen analyysi
Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin
Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:
8 Kanta Tässä luvussa tarkastellaan aliavaruuden virittäjävektoreita, jotka muodostavat lineaarisesti riippumattoman jonon. Merkintöjen helpottamiseksi oletetaan luvussa koko ajan, että W on vektoreiden
Jatkuvat satunnaismuuttujat
Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään
Testit järjestysasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten
Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.
COMPUTE x=rv.ormal(0,0.04). COMPUTE y=rv.ormal(0,0.04). execute. compute hplib_man_r = hplib_man + x. compute arvokons_man_r = arvokons_man + y. GRAPH /SCATTERPLOT(BIVAR)=hplib_man_r WITH arvokons_man_r
Osa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö
3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö Yhtälön (tai funktion) y = a + b + c, missä a 0, kuvaaja ei ole suora, mutta ei ole yhtälökään ensimmäistä astetta. Funktioiden
Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]
Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen
Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +
Regressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3
Christina Gustafsson Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3 Kevät 2014 SISÄLLYSLUETTELO 9. REGRESSIOSTA... 2 10. EPÄPARAMETRISIA TESTEJÄ... 7 10.1. Kahden riippumattoman
Teema 8: Parametrien estimointi ja luottamusvälit
Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.
LIITE 1 VIRHEEN ARVIOINNISTA
Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi
Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen
Tilastollinen päättely II (MAT22003), kevät 2018
Tilastollinen päättely II (MAT22003), kevät 2018 Petteri Piiroinen 14.1.2018 Tilastollinen päättely II -kurssin asema opetuksessa Tilastotieteen pääaineopiskelijoille pakollinen aineopintojen kurssi. Pakollinen
A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:
11 Determinantti Neliömatriisille voidaan laskea luku, joka kertoo muun muassa, onko matriisi kääntyvä vai ei Tätä lukua kutsutaan matriisin determinantiksi Determinantilla on muitakin sovelluksia, mutta
Kandidaatintutkielman aineistonhankinta ja analyysi
Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi
Väitöskirjan kirjoittaminen ja viimeistely
1 Väitöskirjan kirjoittaminen ja viimeistely Pekka Kohti tohtorin tutkintoa 19.4.2017 UniOGS 2 Ensimmäinen versio väitöskirjasta Käytä Acta -kirjoituspohjaa Aloita väitöskirjan / yhteenvedon tekeminen
Mustat joutsenet pörssikaupassa
Mustat joutsenet pörssikaupassa Kimmo Vehkalahti yliopistonlehtori, VTT soveltavan tilastotieteen dosentti Opettajien akatemian jäsen Yhteiskuntatilastotiede, Sosiaalitieteiden laitos Valtiotieteellinen
T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa
MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics
MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN 28.4.2016 MANNE KALLIO 2016 MUUTTUJIEN NORMAALISUUS : Frequencies Statistics Output: Skewness ja kurtosis -1 1 < 2 X std.error Skewnessin ja kurtosiksen
Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
Tilastollinen päättely II (MAT22003), kevät 2019
Tilastollinen päättely II (MAT22003), kevät 2019 Petteri Piiroinen 13.1.2019 Tilastollinen päättely II -kurssin asema opetuksessa Tilastotieteen pääaineopiskelijoille pakollinen aineopintojen kurssi. Pakollinen
TUTKIMUSOPAS. SPSS-opas
TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien
Mittaamisen maailmasta muutamia asioita. Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori
Mittaamisen maailmasta muutamia asioita Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori SISÄLTÖ 1. Mittari vs. indikaattori vs. menetelmä - mittaaminen 2. Luotettavat mittarit 3. Arvioinnin
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita risto.lehtonen@helsinki.fi OHC Survey Tilastollinen analyysi Kysymys: Millä
Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.
1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin
HAVAITUT JA ODOTETUT FREKVENSSIT
HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta
Tuloperiaate Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta ja 1. vaiheessa valinta voidaan tehdä n 1 tavalla,. vaiheessa valinta voidaan tehdä n tavalla,
PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti
PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti Harjoitustyön ohje Tehtävänäsi on laatia tutkimussuunnitelma. Itse tutkimusta ei toteuteta, mutta suunnitelman tulisi
... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)
LIITE Vinkkejä lopputyön raportin laadintaan Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset) 1. Johdanto Kerro johdannossa lukijalle, mitä jatkossa
SELVITTÄJÄN KOMPETENSSISTA
OTM, KTM, Mikko Hakola, Vaasan yliopisto, Laskentatoimen ja rahoituksen laitos Helsinki 20.11.200, Helsingin kauppakorkeakoulu Projekti: Yrityksen maksukyky ja strateginen johtaminen SELVITTÄJÄN KOMPETENSSISTA
1 Kannat ja kannanvaihto
1 Kannat ja kannanvaihto 1.1 Koordinaattivektori Oletetaan, että V on K-vektoriavaruus, jolla on kanta S = (v 1, v 2,..., v n ). Avaruuden V vektori v voidaan kirjoittaa kannan vektorien lineaarikombinaationa:
Matematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 4 Jatkuvuus Jatkuvan funktion määritelmä Tarkastellaan funktiota f x) jossakin tietyssä pisteessä x 0. Tämä funktio on tässä pisteessä joko jatkuva tai epäjatkuva. Jatkuvuuden
Regressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
Mittaustekniikka (3 op)
530143 (3 op) Yleistä Luennoitsija: Ilkka Lassila Ilkka.lassila@helsinki.fi, huone C319 Assistentti: Ville Kananen Ville.kananen@helsinki.fi Luennot: ti 9-10, pe 12-14 sali E207 30.10.-14.12.2006 (21 tuntia)
Määrällisen aineiston esittämistapoja. Aki Taanila
Määrällisen aineiston esittämistapoja Aki Taanila 24.4.2017 1 Kategoriset muuttujat Lukumääriä Prosentteja (muista n-arvot) Pylväitä 2 Yhteenvetotaulukko (frekvenssitaulukko) TAULUKKO 1. Asunnon tyyppi
LIITE 1 VIRHEEN ARVIOINNISTA
1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten
Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto...2. 2 Aineiston kuvaus...3. 3 Riippuvuustarkastelut...4
TILTP1 Tilastotieteen johdantokurssin harjoitustyö Tampereen yliopisto 5.11.2007 Perttu Kaijansinkko (84813) perttu.kaijansinkko@uta.fi Pääaine matematiikka/tilastotiede Tarkastaja Tarja Siren 1 Johdanto...2
Matematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14
Monitasomallit koulututkimuksessa
Metodifestivaali 9.5.009 Monitasomallit koulututkimuksessa Mitä ihmettä? Antero Malin Koulutuksen tutkimuslaitos Jyväskylän yliopisto 009 1 Tilastollisten analyysien lähtökohta: Perusjoukolla on luonnollinen
Nollasummapelit ja bayesilaiset pelit
Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1
SEM1, työpaja 2 (12.10.2011)
SEM1, työpaja 2 (12.10.2011) Rakenneyhtälömallitus Mplus-ohjelmalla POLKUMALLIT Tarvittavat tiedostot voit ladata osoitteesta: http://users.utu.fi/eerlaa/mplus Esimerkki: Planned behavior Ajzen, I. (1985):