Mat-2.108 Sovelletun matematiikan erikoistyöt PSYKOLOGISTEN ILMIÖIDEN MITTAAMINEN. Auli Hämäläinen 48444R

Samankaltaiset tiedostot

Otannasta ja mittaamisesta

Mittaamisen maailmasta muutamia asioita. Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori

KOGNITIIVISTEN TESTIEN PISTEMÄÄRIEN SANALLISET KUVAUKSET

Move! laadun varmistus arvioinnissa. Marjo Rinne, TtT, erikoistutkija UKK instituutti, Tampere

2. luentokrt KOTITEHTÄVÄ: VASTAA UUDELLEEN KAHTEEN KYSYMYKSEESI TÄMÄN PÄIVÄN TIEDON PERUSTEELLA

Mittaamisen hyödyt. Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori

Jatkuvat satunnaismuuttujat

Kvantitatiiviset menetelmät

Ellei tutkijalla ole käsitystä mittauksensa validiteetista ja reliabiliteetista, ei johtopäätöksillä

Tilastollisten aineistojen kerääminen ja mittaaminen

MONISTE 2 Kirjoittanut Elina Katainen

Harjoitus 7: NCSS - Tilastollinen analyysi

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Monitasomallit koulututkimuksessa

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

ABHELSINKI UNIVERSITY OF TECHNOLOGY

hyvä osaaminen

Mittaustulosten tilastollinen käsittely

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

pitkittäisaineistoissa

Havainto ja sen kirjaaminen sekä Itsearvioinnin ja ulkopuolisen havainnoinnin sudenkuoppia. C: Tuomas Leinonen

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Mittausjärjestelmän kalibrointi ja mittausepävarmuus

Kojemeteorologia (53695) Laskuharjoitus 1

Yleistetyistä lineaarisista malleista

1. Tilastollinen malli??

Matemaatikot ja tilastotieteilijät

Testejä suhdeasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

LIITE 1 VIRHEEN ARVIOINNISTA

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Psykologia tieteenä. tieteiden jaottelu: TIETEET. EMPIIRISET TIETEET tieteellisyys on havaintojen (kr. empeiria) tekemistä ja niiden koettelua

PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti

Ene LVI-tekniikan mittaukset ILMAN TILAVUUSVIRRAN MITTAUS TYÖOHJE

Psykologitiimi Päämäärä Oy

LIITE 1 VIRHEEN ARVIOINNISTA

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Mat Tilastollisen analyysin perusteet, kevät 2007

YLEISKUVA - Kysymykset

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Mittariston laatiminen laatutyöhön

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

LIITE 1 VIRHEEN ARVIOINNISTA

pitkittäisaineistoissa

Kvanttimekaniikan tulkinta

805306A Johdatus monimuuttujamenetelmiin, 5 op

Identifiointiprosessi

Itsemääräämiskyvyn arviointi Turku. Esa Chydenius Johtava psykologi, psykoterapeutti VET Rinnekoti-Säätiö

Opiskelijan lähtötason arviointi. Testipiste / Janne Laitinen ja Eveliina Sirkeinen Osallisena arvioinnissa , Helsinki

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Sovellettu todennäköisyyslaskenta B

Regressioanalyysi. Kuusinen/Heliövaara 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

riippumattomia ja noudattavat samaa jakaumaa.

Käsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti

Mittausepävarmuuden laskeminen

Ajankäyttötutkimuksen satoa eli miten saan ystäviä, menestystä ja hyvän arvosanan tietojenkäsittelyteorian perusteista

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Socca. Pääkaupunkiseudunsosiaalialan osaamiskeskus. Vaikuttavuuden mittaaminen sosiaalihuollossa. Petteri Paasio FL, tutkija

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Johdanto erityyppisiin arviointimenetelmiin ja niiden käyttöalaan psyykkisen toimintakyvyn arvioinnissa

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Tilastotieteen jatkokurssi syksy 2003 Välikoe

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

} {{ } kertaa jotain

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sovellettu todennäköisyyslaskenta B

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Arviointi ja mittaaminen

hyvä osaaminen. osaamisensa tunnistamista kuvaamaan omaa osaamistaan

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Perusopintojen Laboratoriotöiden Työselostus 1

Testilautakunta KOGNITIIVISTEN TESTIEN SANALLISET LUOKITUKSET JOHDANTO

30A02000 Tilastotieteen perusteet

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Transkriptio:

Mat-2.108 Sovelletun matematiikan erikoistyöt PSYKOLOGISTEN ILMIÖIDEN MITTAAMINEN Auli Hämäläinen 48444R

1 Johdanto... 3 1.1 Työn tavoitteet... 3 1.3 Psykometriikan ja psykologisten testien historiaa... 3 1.4 Psykologiset testit nykypäivänä... 4 1.5 Psykologisten testien ominaisuuksia... 4 1.6 Psykologisten testien luokittelua... 5 2 Psykologisten testien ja mittaamisen teoriaa... 6 2.1 Klassinen testiteoria... 6 2.2. Klassisen testiteorian perusoletukset... 7 3 Testin reliabiliteetti... 8 3.1 Reliabiliteetin määritelmä... 8 3.2 Reliabiliteettikerroin... 8 3.3 Reliabiliteetin estimointi... 9 3.3.1 Rinnakkaistestimenetelmä... 9 3.3.2 Test-retest-menetelmä... 9 3.3.3 Split-half-menetelmä... 10 3.3.4 Sisäisen konsistenssin menetelmät... 10 3.4 Reliaabiliteettiin vaikuttavat tekijät... 11 3.4.1 Testattaviin liittyvät tekijät... 11 3.4.2 Testin rakenne... 11 3.4.3 Testin käyttötarkoitus... 11 3.4.4 Reliabiliteetin arviontimenetelmä... 11 3.5 Vaatimukset reliabiliteetille... 12 4 Testin validiteetti... 12 4.1 Validiteetin määritelmä... 12 4.2 Mittauksen validiteetti... 12 4.2.1 Sisältövaliditeetti... 12 4.2.2 Käsitevaliditeetti... 13 4.3 Kriteerivaliditeetti... 13 4.3.1 Ennustevaliditeetti... 13 4.3.2 Rinnakkaisvaliditeetti... 13 4.4 Face validity... 14 4.5 Reliabiliteetin ja validiteetin välinen suhde... 14 5 Testi-itemit... 14 5.1. Itemianalyysi... 14 5.1.1 Distraktorianalyysi... 14 5.1.2 Itemin vaikeus... 15 5.1.3 Itemin erottelukyky... 16 5.2 Itemien korrelaatiot... 16 6 Älykkyyden tutkimisesta... 17 6.1 Älykkyyden määritteleminen... 17 6.2 Älykkyystestien historiaa... 17 6.3 Wechsler Adult Intelligence Scale Revised (WAIS-R)... 18 6.4 Älykkyystestien heikkouksia... 18 Lähteet... 21

1 Johdanto 1.1 Työn tavoitteet Tämä tutkimus on tehty Teknillisen Korkeakoulun systeemi- ja operaatiotutkimuksen laboratorion erikoistyönä keväällä 2006. Työssä tarkastellaan yleisellä tasolla sekä esimerkkien kautta yhtä tilastotieteen sovellusalaa, psykometriikkaa. Esimerkkitapauksena psykologisesta mittaamisesta ja mittauksen arvioinnista toimivat älykkyystestit. Kirjallisuustutkimuksen lähteinä on käytetty Helsingin Yliopiston valtiotieteellisen tiedekunnan kirjastosta haettua psykologista mittaamista käsittelevää kirjallisuutta sekä internetiä, joista merkittävimpänä Lauri Nummenmaan Psykometriikan perusteet vuodelta 2002. 1.2 Psykometriikka käsitteenä Psykologiassa tutkittavat ilmiöt ovat usein monimutkaisia ja vaikeasti mitattavia. Silti voidaan usein olla vakuuttuneita niiden olemassaolosta. Esimerkkejä tällaisista ilmiöistä ovat persoonallisuus ja älykkyys. Ongelmana on, miten tällaista ihmisen ominaisuutta voidaan luotettavasti mitata tai arvoioida. Psykometriikka voidaan määritellä psykologisen mittaamisen tutkimukseksi [1]. Psykometriikassa on tarkoitus selvittää, miten psykologisia ilmiöitä voitaisiin mitata mahdollisimman virheettömästi. Käytännössä psykometriikkaa tarvitaan usein erilaisten psykologisten testien laatimisessa ja käyttämisessä. Psykometriikka ei kuitenkaan ole pelkästään testiteoriaa, vaan yleisemmin psykologisen mittaamisen teoriaa. 1.3 Psykometriikan ja psykologisten testien historiaa Psykologia on melko nuori tiede ja psykometriikan historia on sitäkin lyhyempi. Varsinaisia psykologisia testejä on ollut olemassa noin 150 vuotta. Yksi huomattavimmista aikaisista vaikuttajista oli englantilainen Sir Francis Galton (1822-1911), joka Darwinin oppien innoittamana kehitti menetelmiä ihmisten psyykkisten ominaisuuksien mittaamiseen. Hän oli edelläkävijä kyselylomakkeiden ja tilastollisten menetelmien käyttöönotossa psyykkisten ilmiöiden tutkimuksessa. Englantilainen matemaatikko Karl Pearson (1857-1936) kehitti suurta osaa nykyaikaisen tilastotieteen menetelmistä, kuten korrelaatiomenetelmiä ja regressioanalyysiä. Charles Spearman (1863-1945) tutki älykkyyttä ja loi näin pohjaa nykyiselle psykologiselle testaukselle. Spearmanin mukaan ihmisen älykkyyteen vaikuttaa kaksi tekijää, yleinen älykkyys (gfaktori) ja spesifi tilannekohtainen älykkyys (s-faktori). Spearman oli myös huomattava vaikuttaja faktorianalyysin kehittämisessä [1]. Nykyaikaisen psykologisen älykkyystestaamisen isänä on pidetty ransakalaista Alfref Binet'a (1857-1911). Hän suunnitteli ensimmäisen systemaattisesti laaditun älykkyystestin heikkolahjaisten oppilaiden tunnistamista ja heidän suorituskykynsä arviointia varten. Testi mittasi älykkyyttä usean erilaisen osatestin avulla eli testillä voitiin mitata älykkyyden eri osa-alueita. Aikaisemmin suuri osa älykkyystesteista oli perustunut jonkin yksittäisen ominaisuuden mittaamiseen.

Ensimmäisen maailmansodan aikana Yhdysvalloissa tarvittiin menetelmä rekrytoitujen miesten psyykkisten ominaisuuksien arviointiin. Robert M. Yerkes (1876-1956) työtovereineen kehitti tähän tarkoitukseen Army Alpha- ja Army Beta-testit, joiden perusteella voitiin arvioida värvättyjen henkilöiden sopivuutta erilaisiin tehtäviin. Testien etuna oli se, että ne voitiin esittää kerralla suurelle joukolle ihmisiä, vaikka niiden antamat arvioit eivät olleetkaan mahdollisimman tarkkoja. Ne olivat ensimmäisiä laajassa mittakaavassa käytettyjä joukkotestejä. Itävaltalainen Hermann Rorschach (1884-1922) suunnitteli Rorschachin mustetahratestin (Ro). Hän pyrki selvittämään, miten ihmisen persoonallisuus vaikuttaa hänen mustetahroista tekemiinsä havaintoihin. Ro-testi on levinnyt käyttöön ympäri maailmaa. Louis Leon Thurstone (1887-1955) tutki älykkyyttä faktorianalyysin keinoin. Hänen mukaansa älykkyyttä ei voi kuvata yhden yleisfaktorin (g) avulla, vaan älykkyys koostuu seitsemästä erillisestä osa-alueesta. David Wechslerin (1896-1981) mukaan älykkyys ei ole yleinen ominaisuus vaan moniulotteinen käsite, jota mitataan kymmenellä tai yhdellätoista osatestillä hänen kehittämissään älykkyystesteissä. Hän esitteli älykkyysosamäärän (ÄO) käsitteen [1]. 1.4 Psykologiset testit nykypäivänä Tänä päivänä on olemassa paljon psykologisiin testeihin liittyvää kaupallista toimintaa ja erilaisia testejä on markkinoilla paljon. Tietotekniikan ja tilastotieteellisten tutkimusmenetelmien kehittyminen on luonut testien suunnittelulle ja arvioimiselle aivan uudenlaisia mahdollisuuksia. Testaukseen liittyvä kaupallistumisella on myös varjopuolensa. Voi olla vaikea sanoa, mikä markkinoilla tarjolla olevista testeistä on hyvä ja mikä huono. Siksi on tärkeää suhtautua testeihin ja niiden käyttämiseen kriittisesti. Vaikka jokin testi olisi tutkimuksissa arvioitu käyttökelvottomaksi, saattavat jotkut psykologit käyttää sitä edelleen, mikäli se vaikuttaa toimivan hyvin käytännön työssä. Psykologisen mittausmenetelmän toimivuus olisi kuitenkin pystyttävä osoittamaan pätevästi tutkimuksessa [1]. 1.5 Psykologisten testien ominaisuuksia Psykologisia testejä käytetään useimmiten yksilöiden välisten erojen havaitsemiseen. Erilaisia testejä ja ihmisten psyykkisten ominaisuuksien mittaamiseen käytettäviä menetelmiä on lukuisia. Mikään yksittäinen testi ei sovi käytettäväksi jokaisessa tilanteessa. Psykometriikka on hyvä väline testien käyttökelpoisuuden arviointiin. Psykologisen testin määritelmänä käytetään usein sitä, että se täyttää seuraavat kolme kriteeriä: 1) Psykologinen testi on otos käyttäytymisestä. 2) Mittaus suoritetaan standardoiduissa olosuhteissa. 3) Mitattavan henkilön havaittu käyttäytyminen muunnetaan symboleiksi tiettyjen sääntöjen mukaan. Jos nämä kolme kriteeriä täyttyvät ja testin mittaus on suoritettu vähintään välimatka-asteikolla, kyseessä on psykometrinen testi [1]. Kaikki psykologiset testit eivät ole psykometrisia, mutta klassinen testiteoria soveltuu pelkästään psykometristen testien tarkastelemiseen. Psykologinen testi on siis käyttäytymisotos. Oletuksena on, että ihmisen psyykkiset ominaisuudet ilmenevät tietynlaisena käyttäytymisenä. Koska olisi mahdotonta mitata kaikkea ihmisen käyttäytymistä, testiä varten poimitaan otos hänen käyttäytymisestään. Tämän testissä havainnoitavan käytöksen ajatellaan edustavan hänen toimintaansa kaikissa niissä tilanteissa, joista

testissä ollaan kiinnostuneita. Esimerkiksi älykkyyden tapauksessa henkilön toimintaa mitataan jossakin sellaisessa tilanteessa, jossa hänen älykkyytensä oletetaan tulevan ilmi. Otoksen katsotaan edustavan kaikkea hänen "älykästä" käyttäytymistään. Tulosten keskinäistä vertailua varten on eri ihmiset testattava samalla tavalla. Testaustilanteen on oltava samanlainen kaikille testattaville. Olosuhteen pyritään standardomaan noudattamalla testin tekemiseen ja pisteyttämiseen laadittuja ohjeita. Yleensä on mahdotonta onnistua standardoinnissa täydellisesti, koska esimerkiksi testaaja tai testin tulkitsija voi vaikuttaa tuloksiin. Testissä ilmennyt käyttäytyminen muunnetaan symboleiksi, useimmiten numeroiksi. Kaikkea käyttäytymistä ei kuitenkaan muunneta numeroiksi; esimerkiksi testaaja saattaa kirjoittaa lomakkeelle kuvauksia henkilön toiminnasta testaustilanteessa. Symboleiksi muuntamalla saadaan tiivistettyä testitilanteeseen liittyvä valtava määrä informaatiota. Testin luotettavuutta ja tulosten käyttökelpoisuutta tarkastellaan kahden suureen, reliabiliteetin ja validiteetin avulla. Reliabiliteetti tarkoittaa testitulosten virheettömyyttä. Reliaabeli testi sisältää vähän mittausvirhettä ja paljon mittauksen kannalta tärkeää tietoa. Validiteetti taas kuvaa sitä, mittaako testi sitä asiaa tai ominaisuutta, jota sen on tarkoitus mitata [2]. 1.6 Psykologisten testien luokittelua Erilaisten psykologisten testien kirjo on laaja ja niitä voidaan myös luokitella useilla eri tavoilla. Yksi tapa luokitella testejä on jaotella ne suoritustavan mukaan. Suoritustesteissä testattavaa pyydetään tekemään jokin suoritus, jonka oikeellisuuden testaaja pystyy helposti arvioimaan. Havainnointitestissä testaaja arvioi testattavan käyttäytymistä jossain tilanteessa. Itsearvioinnissa testattava itse kuvailee esimerkiksi tuntemuksiaan, asenteitaan tai mielipiteitään [1]. Toinen tapa jaotella testejä on sen mukaan, tutkitaanko niissä testattavan maksimaalista vai tyypillistä suoritusta [1]. Edelliseen ryhmään kuuluvat esimerkiksi älykkyys- ja kykytestit. Tällaiset testit ovat tyypillisesti aikarajoitettuja ja suoriutumisen kriteereinä ovat oikeat vastaukset. Testaajan harhauttaminen tällaisessa testissä on vaikeaa. Tyypillisestä käyttäytymisestä puolestaan ollaan kiinnostuneita esimerkiksi persoonallisuus- ja asennetesteissä. Näissä testeissä ei yleensä ole aikarajoitusta tai oikeita vastauksia. Testaajan harhauttaminen on kuitenkin mahdollista, koska oikeita vastauksia ei ole ja testattava voi tuottaa vastauksia, joiden hän olettaa olevan testaajaa miellyttäviä. Testit voidaan jakaa myös objektiivisiin ja subjektiivisiin testeihin. Objektiivisuus tarkoittaa, että kuka tahansa testaaja saa ohjeita seuraten saman tuloksen. Testaajan omat tulkinnat eivät siis vaikuta testitulokseen. Tällaisia testejä on yleensä suhteellisen helppo käyttää ja tulkita. Subjektiivisissa testeissä puolestaan testaaja tekee johtopäätökset testisuorituksesta oman harkintakykynsä varassa eli kyse on kunkin testaajan omasta tulkinnasta. Testaajalta vaaditaan yleensä hyvää asiantuntemusta ja kokemusta testin käytöstä. Subjektiivisuus ei välttämättä tarkoita epäluotettavuutta vaan sitä, että testaajan tulkinnalla on suuri merkitys arvioinnissa [1]. Tyypillinen tapa jaotella psykologiset testit on niiden mittauskohteen mukaan. Testit voidaan jakaa karkeasti kolmeen ryhmään: kykytestit, persoonallisuustestit ja muut testit. Kykytesteillä mitataan henkilön maksimaalista suoritusta jollakin toiminnan osa-alueella. Älykkyystestit ovat tyypillisiä esimerkkejä kykytesteistä. Persoonallisuustestissä mitataan testattavan henkilön persoonallisuutta

jollakin tavalla. Tunnetuin esimerkki persoonallisuustestistä on Ro. Muut testit-luokkaan kuuluvat muut kuin kyky- ja älykkyystestit, esimerkiksi monet neuropsykologiset testit [1]. 2 Psykologisten testien ja mittaamisen teoriaa 2.1 Klassinen testiteoria Kaikkein selkein psykologisten mittaustulosten arviointia käsittelevä teoria on ns. klassinen testiteoria, josta käytetään myös nimeä rinnakkaisten mittausten teoria [1]. On olemassa myös muita, ns. moderneja testiteorioita, mutta tässä työssä keskitytään klassiseen testiteoriaan ja sen pohjalta tehtyihin tarkasteluihin psykologisista testeistä. Klassisessa testiteoriassa mittauksen laatimiseen ja arviointiin liittyvät ongelmat voidaan jakaa neljään osa-alueeseen: 1) testi-itemien suunnittelu, 2) mittauksen suorittaminen, 3) mittaustarkkuuden arvioiminen ja 4) mittaustulosten ennustearvon määrittäminen [1]. Mittaustarkkuuden arviointi liittyy testin reliabiliteettiin, muita kolme kohtaa puolestaan käsitellään itemianalyysin ja valideettitarkastelun yhteydessä. Psykologisen ilmiön mittausta suunnitellessa on otettava huomioon, mihin oletuksiin mittarin toiminta perustuu. Klassisessa testiteoriassa on kolme alkuoletusta: 1) tutkittava mittari mittaa yhtä ominaisuutta kerrallaan, 2) mittaus tapahtuu vähintään välimatka-asteikolla ja 3) mitta-asteikko on jatkuva. Tästä johtuen klassista testiteoriaa voidaan soveltaa vain, kun kyseessä on psykometrinen testi [1]. Esimerkiksi Ro-testin käyttämä mitta-asteikko ei ole välimatka- tai suhdeasteikko, joten sitä ei voida tutkia klassisen testiteorian keinoin. Klassisen testiteorian perusajatus on, että kaikki mittaaminen on jossain määrin virheellistä. Henkilön testissä saamaan pistemäärään vaikuttaa kaksi tekijää: itse mitattava ominaisuus ja mittausvirhe [3]. Jokin tekijä mittauksessa tuottaa virhettä tulokseen. Psykometriikassa on keskeistä mittausvirheen tarkasteleminen ja niiden keinojen etsiminen, joilla virheen suuruutta voidaan pienentää. Testissä havaittu pistemäärä koostuu siis kahdesta erillisestä osasta, todellisesta pistemäärästä ja mittausvirheestä [1]: X = T + e, (1) missä X = havaittu testipistemäärä T = todellinen pistemäärä ja e = mittausvirhe. Yhtälössä (1) on kaksi tuntematonta, T ja e. Yhden mittauksen perusteella ei voida selvittää henkilön todellista pistemäärää vaan pelkästään sen ja mittausvirheen summa. Mittausvirheen suuruutta tarkastellaan klassisessa testiteoriassa rinnakkaisten mittausten avulla eli käyttämällä kahta erilaista mittaria mittaamaan samaa ominaisuutta. Näistä mittalaitteista käytetään nimitystä

rinnakkaismittarit. Kaksi mittaria on rinnakkaisia, jos mittaustuloksen kannalta ei ole merkitystä kumpaa niistä käytetään [1]. 2.2. Klassisen testiteorian perusoletukset Klassinen testiteoria perustuu kuudelle perusoletukselle [1]: 1. Havaittu pistemäärä koostuu todellisesta testipistemäärästä T ja mittausvirheestä e: X = T + e 2. Mittausvirheiden keskiarvo on nolla: x e = 0 3. Mittausvirhe ja todellinen testipistemäärä ovat toisistaan riippumattomia: r = 0 r Te T g e h = 0 4. Rinnakkaismittausten virheet ovat korreloimattomia: r = 0 (4) e g e h 5. Jokainen rinnakkaismittari antaa henkilölle saman todellisen pistemäärän: T = T =... T (5) ig ih = 6. Mittauksen keskivirhe on jokaisessa rinnakkaismittarissa sama. SEM = SEM =... SEM (6) g h = Oletukset ovat luonteeltaan määritelmiä eli niitä ei voi osoittaa empiirisesti oikeiksi tai vääriksi. Ensimmäinen oletus tarkoittaa, että kaikki mittaaminen on virheellistä eli kaikkiin mittauksiin liittyy tietty virhekomponentti. Virhekomponenttien keskiarvo oletetaan nollaksi sen vuoksi, että tällöin virheillä ei ole systemaattista vaikutusta testipistemääriin [1]. Jos keskiarvo olisi nollaa suurempi, henkilöt saisivat testistä systemaattisesti liian korkeita pistemääriä. Mikäli keskiarvo olisi nollaa pienempi, pistemäärät olisivat säännöllisesti liian pieniä. Mittausvirheen ja testipistemäärän välillä ei ole korrelaatiota. Mikäli korrelaatio olisi olemassa, sen merkistä riippuen virhekomponentti joko suurenisi tai pienenisi testipistemäärään kasvaessa [1]. Oletus kuitenkin on, että tällaista riippuvuutta ei ole, vaan suuret ja pienet testipistemäärät ovat yhtä virheellisiä tai virheettömiä. Rinnakkaismittareiden keskivirheet oletetaan yhtä suuriksi. Tämä tarkoittaa, että virheen vaikutus saatuihin pistemääriin on samansuuruinen kaikissa rinnakkaismittareissa. Lisäksi oletetaan, että jokainen rinnakkaismittari antaa henkilölle saman todellisen pistemäärän. Rinnakkaismittarit siis mittaavat samaa ominaisuutta samalla tavalla, mutta mittausvirheen vaikutuksesta sama henkilö voi saada niillä eri pistemäärän [1]. Klassisessa testiteoriassa testin toimivuuden arviointiin liittyy kaksi suuretta, reliabiliteetti- ja validiteettikerroin. Reliabiliteettikerroin ilmaisee, kuinka suuren osan todelliset pistemäärät selittävät havaittujen pistemäärien varianssista. Validiteettikertoimella puolestaan tarkoitetaan testipistemäärän ja jonkin testin mittaamaa piirrettä hyvin mittaavan kriteerimuuttujan korrelaatiota [3]. Seuraavissa luvuissa tarkastellaan reliabiliteettia ja validiteettia yksityiskohtaisemmin. (2) (3)

3 Testin reliabiliteetti 3.1 Reliabiliteetin määritelmä Testin reliabiliteetti (toistettavuus) kuvaa, kuinka paljon mittausvirhettä mittaustulos sisältää [3]. Hyvä reliabiliteetti tarkoittaa, että testi toimii johdonmukaisesti ja testipistemäärissä on vain vähän virhettä. Täysin virheetöntä mittaria on käytännössä mahdotonta toteuttaa. Mittausvirheen olemassaolo ei kuitenkaan ole ongelma, jos sen suuruutta voidaan jotenkin arvioida. Klassisessa testiteoriassa mittausvirheen suuruuteen vaikuttavat satunnaistekijät, joilla ei ole tekemistä mitattavan piirteen kanssa. Mittausvirhe on klassisen testiteorian mukaan satunnaisesti jakautunut suuressa populaatiossa [1]. 3.2 Reliabiliteettikerroin Mittausvirheen ja testitulosten johdonmukaisuuden arviointiin on useita erilaisia menetelmiä. Yksinkertaisin niistä on ns. reliabiliteettikerroin. Testissä havaittu pistemäärä koostuu klassisen testiteorian mukaisesti todellisesta pistemäärästä ja mittausvirheestä. Voidaan olettaa, että sekä todellinen pistemäärä että mittausvirhe vaihtelevat eri henkilöiden välillä eli havaittujen pistemäärien varianssi koostuu näistä kahdesta komponentista. Toisaalta testipistemäärien keskiarvo on harhaton todellisten pistemäärien estimaatti, sillä mittausvirheet oletettiin nollakeskiarvoisiksi. Havaittujen pistemäärien varianssi on todellisen pistemäärän varianssin ja virhevarianssin summa [2]: σ = σ + σ (7) X T e Lause (7) voidaan todistaa klassisen testiteorian perusoletuksiin (1)-(6) perustuen. Testipistemäärien vaihteluun vaikuttaa siis kaksi tekijää: vaihtelut todellisissa pistemäärissä ja vaihtelut mittausvirheessä. Reliabiliteettikerroin ilmoittaa todellisen varianssin ja mittausvirheen varianssin välisen suhteen [2]: r xx σ = σ 2 T 2 X (8) Reliabiliteettikertoimen lauseke voidaan ilmoittaa myös lauseen (7) avulla: r xx 2 σ T = σ + σ 2 T 2 e (9) Toisaalta reliabiliteettikerroin voidaan määritellä havaitun ja todellisen pistemäärän korrelaation neliönä: 2 r xx = R XT (10)

Reliabiliteettikerroin siis kertoo, kuinka suuri osa havaittujen pistemäärien vaihtelusta syntyy mitattavasta ominaisuudesta [1]. Esimerkiksi jos testin reliabiliteetti on 0.9, niin 90% mittaustulosten vaihtelusta aiheutuu mitattavasta ominaisuudesta ja mittausvirheen vaikutus on 10%. Reliabiliteettia ei voi laskea yhdellä mittauksella saatujen pisteiden avulla. Sen sijaan reliabiliteettikerroin on mahdollista laskea kahden rinnakkaismittarin g ja h antamien pistemäärien korrelaationa [2]: σ r = r 2 T gh = 2 σ X xx (11) Lause (11) voidaan todistaa testiteorian perusoletusten avulla. Suuri osa reliabiliteettitarkasteluista perustuu tähän tulokseen. Rinnakkaiset mittaukset voidaan suorittaa usealla eri tavalla ja erilaisilla mittauksilla saadut reliabiliteettikertoimet kuvaavat erilaisia mittausvirheiden lähteitä. On tärkeää määrittää ensin mitkä virhelähteet ovat mittaustilanteen kannalta oleellisia ja valita sitten sopiva rinnakkaismittauksen menetelmä [1]. 3.3 Reliabiliteetin estimointi Ideaalitilanteessa tarkasteltavasta testistä on olemassa kaksi täysin rinnakkaista versiota, jotka antavat henkilölle täysin saman todellisen pistemäärän. Tällöin havaittujen pistemäärien ero johtuu ainoastaan mittausvirheestä. Mitä yhdenmukaisempia kahden mittauksen tulokset ovat, sitä tarkempia tuloksia testi antaa eli sitä reliaabelimpi se on. Kuten edellä on esitetty, reliabiliteettikerroin voidaan laskea rinnakkaismittareiden pistemäärien korrelaationa. Klassinen testiteoria tekee melko tiukkoja oletuksia rinnakkaismittareista, joten oletusten mukaisten mittareiden laatiminen voi olla käytännössä erittäin vaikeaa [1]. Reliabiliteettiä voidaan kuitenkin arvioida muullakin tavalla kuin käyttämällä rinnakkaismittareita. Seuraavassa esitellään neljä yleisintä tapaa rinnakkaisten mittausten suorittamiseen. 3.3.1 Rinnakkaistestimenetelmä Kahden rinnakkaisen testiversion käyttäminen on klassisen testiteorian tarjoama menetelmä reliabiliteetin arvioimiseen. Tässä menetelmässä testistä laaditaan kaksi versiota, jotka mittaavat samaa ominaisuutta ja molemmilla versioilla testataan samoja koehenkilöitä. Reliabiliteetti voidaan laskea ensimmäisen ja toisen testiversion pistemäärien korrelaationa [2]. Ongelmaksi muodostuu kahden mahdollisimman samankaltaisen testiversion laatiminen, joka on paitsi vaikeaa, myös aikaavievää ja kallista. Toisaalta rinnakkaistestit eivät saa olla liian samanlaisia, koska tällöin voi syntyä ns. siirtovaikutus eli toisen testin suorittaminen vaikuttaa toisen testin tulokseen. Testien pitäisi siis olla tarpeeksi samanlaiset, jotta ne antaisivat samat todelliset pistemäärät testattavalle henkilölle, mutta myös riittävän erilaiset siirtovaikutuksen välttämiseksi [1]. 3.3.2 Test-retest-menetelmä

Rinnakkaistestimenetelmän ongelmaksi muodostui kahden tai useamman riittävän samanlaisen rinnakkaismittarin laatiminen. Test-retest-(uusintatestaus)menetelmässä tämä ongelma pyritään välttämään testaamalla koehenkilöt kaksi kertaa samalla testillä siten, että suoritusten välillä on lyhyempi tai pitempi väliaika [2]. Mikä tahansa testi on täysin rinnakkainen itsensä kanssa, joten kahden testauskerran mittaustulosten erojen pitäisi johtua pelkästään mittausvirheestä. Reliabiliteetti määritetään peräkkäisten testauskertojen pistemäärien korrelaationa. Tässä menetelmässä ongelmana on se, että mitattava ominaisuus tai piirre saattaa muuttua testauskertojen välillä tai testin tekeminen on saattanut muuttaa sitä. Lisäksi siirtovaikutus voi olla edelleen olemassa. Siirtovaikutuksen vähentämiseksi testauskertojen välissä voidaan joutua pitämään pitkä tauko, jolloin testaaminen voi olla aikaavievää [1]. 3.3.3 Split-half-menetelmä Kolmas vaihtoehtoinen menetelmä reliabiliteetin määritykseen on ns. split-half- tai puolitusmenetelmä. Testi jaetaan kahteen eri osaan ja testin puolikkaita käsitellään rinnakkaismittareina. Kukin koehenkilö tekee koko testin, mutta testipistemäärät lasketaan erikseen testipuolikkaille. Testin reliabiliteetti saadaan laskemalla puolikkailla saatujen pisteiden välinen korrelaatio [2]. Menetelmällä on monia hyviä puolia: testauskertoja tarvitaan vain yksi, rinnakkaismittareita ei tarvitse laatia ja siirtovaikutuksesta tai testikertojen aikavälin vaikutuksesta ei tarvitse välittää, koska testi suoritetaan vain kerran. Toisaalta testin jakaminen kahteen osaan voi olla ongelmallista. Erilaisilla jaoilla saadaan tavallisesti erilainen reliabiliteettikerroin eikä ole olemassa teoreettisia perusteita sille, mitä niistä tulisi käyttää [1]. 3.3.4 Sisäisen konsistenssin menetelmät Sisäisen konsistenssin menetelmissä reliabiliteettiä tarkastellaan pelkästään testin sisäisenä ominaisuutena eli tarkastellaan yksittäisiä testikysymyksiä tai -tehtäviä, testi-itemejä. Testin reliabiliteettiin vaikuttaa kaksi tekijää: testi-itemien mittaustuloksien samankaltaisuus ja testiitemien määrä [3]. Jos itemit mittaavat samaa ominaisuutta samalla tavalla, pitäisi henkilön saada niillä suunnilleen sama pistemäärä. Lisäksi mitä enemmän itemeitä testi sisältää, sitä reliaabelimpi se on. Käytännössä sisäisen konsistenssien menetelmissä lasketaan korrelaatiot kaikkien testiitemien välille (kaikilla mahdollisilla kahden itemin kombinaatioilla) ja lasketaan korrelaatioiden keskiarvo. Itemien määrä otetaan huomioon reliabiliteetin kaavassa: nr ( ij ) α = 1 + ( n 1) r ij, (12) missä = testin reliabiliteetti n = testi-itemien lukumäärä r ij = testi-itemien välisten korrelaatioiden keskiarvo Suuretta kutsutaan Cronbachin -kertoimeksi [1]. Se kuvaa, kuinka hyvin testi-itemit mittaavat samaa asiaa. Kaavasta seuraa, että täysin mieletönkin testi voi olla reliaabeli, jos sen testi-itemien

määrä on riittävän suuri. Reliabiliteetti ei mittaa testin järkevyyttä vaan vain sen antamien tulosten yhdenmukaisuutta. 3.4 Reliaabiliteettiin vaikuttavat tekijät Testin reliabiliteettiin vaikuttavat tekijät voidaan jakaa neljään luokkaan [1]: 1. Testattaviin liittyvät tekijät 2. Testiin liittyvät tekijät (testin rakenne) 3. Testisuoritukseen liittyvät tekijät 4. Reliabiliteetin arviointiin käytetyt menetelmät 3.4.1 Testattaviin liittyvät tekijät Testin luotettavuus riippuu siitä, kuinka paljon testattavaan piirteeseen liittyy yksilöllistä variaatiota. Jos testattavat henkilöt eivät eroa juurikaan jonkin ominaisuuden suhteen, voi olla vaikea laatia testiä, jolla tämä ero saataisiin näkyviin [1]. Kun yksilöiden väliset erot ovat pieniä, muodostuu reliabiliteetistä todennäköisesti pieni. Esimerkiksi älykkyystesti on reliaabelimpi, mikäli testataan kaikki suomalaiset eikä pelkästään yliopisto-opiskelijat. 3.4.2 Testin rakenne Testin rakenne vaikuttaa sen reliabiliteettiin. Kuten edellä sisäisen konsistenssin menetelmien yhteydessä todettiin, testin reliabiliteettia voidaan kasvattaa joko parantamalla testi-itemien välistä korrelaatiota tai lisäämällä itemien määrää testissä [2]. Jälkimmäinen keino on käytännössä helpompi. Pitkä testi voi olla reliaabeli, vaikka itemien välinen korrelaatio olisi pieni. Toinen asia on sitten, kuinka pitkäksi testiä voidaan venyttää. 3.4.3 Testin käyttötarkoitus Se, mihin testipistemääriä aiotaan käyttää, vaikuttaa myös testin reliabiliteettiin. Testit antavat yleensä reliaabelimman kuvan testattavan ominaisuuksista testaushetkellä kuin pidemmän ajan kuluttua. 3.4.4 Reliabiliteetin arviointimenetelmä Reliabiliteettikertoimen suuruuteen vaikuttaa luonnollisesti myös reliabiliteetin arvioinnissa käytetty menetelmä. Eri menetelmillä saadaan erilaisia estimaatteja. Menetelmää valittaessa onkin mietittävä, mihin testituloksia aiotaan käyttää ja tehtävä valinta sen pohjalta. Usein käytännön tilanteissa sisäisen konsistenssin menetelmät ovat kaikkein käyttökelpoisimpia [1].

3.5 Vaatimukset reliabiliteetille Reliabiliteetti kuvaa mittausvirheen suuruutta ja niinpä mitä tarkempia mittaustuloksia tarvitaan, sitä korkeampi reliabiliteetti mittaustilanteessa on oltava. Yleisesti korkeaa reliabiliteettiä vaaditaan, kun testiä käytetään tehtäessä yksilön kannalta lopullisia päätöksiä tai kun yksilöitä luokitellaan useaan ryhmään melko pienten yksilöllisten erojen perusteella. Esimerkkejä tilanteista, joissa pienetkin vaihtelut testipistemäärissä ovat yksilön kannalta merkittäviä, ovat kliiniset testit ja rekrytoinnissa sovellettavat testit [1]. Toisaalta reliabiliteetin kasvattaminen on melko työlästä. Aina ei olekaan tarpeen saavuttaa mahdollisimman hyvää mittaustarkkuutta. Matalampi reliabiliteetti riittää usein, kun testiä käytetään vain alustavien päätösten tekemisessä tai kun yksilöitä luokitellaan vain muutamaan ryhmään suurten yksilöllisten erojen pohjalta. Reliabiliteettikertoimen arvoja jotka ovat alle 0.7, pidetään yleensä pieninä. Tällöin 30% tai suurempi osa mittauspisteiden vaihtelusta johtuu mittausvirheestä. Kliinisten testien reliabiliteetin rajana pidetäään vähintään 0.9 ja tutkimuskäyttöön tarkoitettujen mittareiden reliabiliteetin pitäisi olla vähintään 0.8 [1]. 4 Testin validiteetti 4.1 Validiteetin määritelmä Reliabiliteetti yksinään ei riitä kuvaamaan testin hyvyyttä. Se kertoo kuinka suuri on mittausvirheen osuus mittaustuloksissa, mutta ei vastaa erityisesti psykologisten ilmiöiden tutkimuksessa olennaiseen kysymykseen siitä, vastaako testi tarkoitustaan. Testin validiteetti (osuvuus) kertoo, missä määrin testi mittaa sitä, mitä sen on tarkoitus mitata [2]. Validiteetti on perinteisesti jaettu kahteen alaryhmään. Mittauksen validiteetti ilmaisee sen, mittaako testi sitä, mitä sen on ajateltu mittaavan. Mittauksen validiteetti voidaan vielä jakaa sisältövaliditeettiin ja käsitevaliditeettiin. Kriteeripohjainen validiteetti puolestaan ilmaisee, voidaanko testiä käyttää luotettavasti päätöksenteon pohjaana. Kriteerivaliditeetti voidaan jakaa ennustevaliditeettiin ja rinnakkaisvaliditeettiin [1]. 4.2 Mittauksen validiteetti Mittauksen validiteetilla arvioidaan, kuinka todennäköisesti testi mittaa sitä, mitä sen oletetaan mittaavan. Mittauksen validiteettia voidaan tarkastella sisältövaliditeetin ja käsitevaliditeetin arvulla. 4.2.1 Sisältövaliditeetti Sisältövalidititeetti ilmaisee sen, ovatko testiin valitut tehtävät edustava otos mitattavana olevasta käyttäytymisestä [1]. Se määritetään arvioimalla, kuinka suuri osa testi-itemeistä koskee mitattavaa ominaisuutta ja kuinka hyvin testi-itemit edustavat ominaisuuteen liittyviä eri käyttäytymispiirteitä. Keskeisten piirteiden pitäisi olla paremmin edustettuina testissä kuin vähemmän keskeisten. Esimerkiksi WAIS-R-älykkyystestin sisältövaliditeettia voidaan tutkia arvioimalla, kuinka hyvin eri

osatestit edustavat eri älykkyyden osa-alueita. Sisältövaliditeetti sopii tilanteisiin, joissa tutkittavan ominaisuuden täsmällinen määrittely on mahdollista (esim. soveltuvuus tiettyyn työtehtävään) [1]. Tilanteissa, joissa mitataan enemmän abstrakteja piirteitä tai ominaisuuksia kuten älykkyyttä, voidaan tutkia sisältövaliditeetin sijaan mittauksen käsitevaliditeettia. 4.2.2 Käsitevaliditeetti Käsitevaliditeetti liittyy saadun pistemäärän merkityksen tarkasteluun eli tutkitaan minkä ominaisuuden, piirten tai taidon määrää pisteet ilmaisevat [1]. Käsitevaliditeettia määritettäessä on ensin tutkittava millaisia käyttäytymisen muotoja mitattavaan käsitteeseeen liittyy, ja kuinka kiinteässä yhteydessä ne ovat käsitteeseen. Tämän jälkeen mitataan suoraan näitä käyttäytymispiirteitä ja lasketaan niiden korrelaatiot käsitettä mittaavan testin kanssa. Mikäli korrelaatiot ovat lähellä vastaavia teoreettisia arvioita, voidaan olettaa, että testillä on korkea käsitevaliditeetti. 4.3 Kriteerivaliditeetti Kriteerivaliditeetti ilmaisee, kuinka hyvin testillä tehdyt päätökset ovat onnistuneet jonkin kriteerin avulla tarkasteltuna [1]. Kriteerinä käytetään sellaista mittausta, jonka perusteella voidaan arvioida tehdyn päätöksen laatua. Testillä on korkea kriteerivaliditeetti, jos sen avulla voidaan tehdä onnistuneita päätöksiä. Esimerkiksi rekrytoinnissa käytetyn testin kriteerivaliditeetti on korkea, mikäli sen avulla voidaan valita työssä parhaiten menestyvät työntekijät. Kriteerivaliditeetti jaetaan usein kahteen alatyyppiin: ennustevaliditeettiin ja rinnakkaisvaliditeettiin. 4.3.1 Ennustevaliditeetti Ennustevaliditeetti lasketaan tiettyä tehtävää varten testattujen ihmisten joukosta satunnaisesti valittujen henkilöiden tehtävässä jatkossa menestymisen ja testipistemäärän välisenä korrelaationa [1]. Esimerkki ennustevaliditeetista ovat oppilaitosten valintakokeet, joiden olisi kyettävä ennustamaan oppilaitokseen pyrkijöiden tulevaa opintomenestystä. Todellisen ennustevaliditeetin määrittäminen testille on useimmiten mahdotonta, koska käytännön valintatilanteissa, esimerkiksi työhönotossa, ei satunnainen päätöksenteko tule kysymykseen ja se olisi myös eettisesti arveluttavaa. Ennustevaliditeettia voidaan yrittää estimoida tarkastelemalla vain niitä henkilöitä, jotka on testitulosten perusteella päätetty valita (yleensä testissä parhaiten menestyneet). Ongelmana kuitenkin on, että tässä ei oteta huomioon korrelaatiota huonosti menestyneiden ja heidän suorituskykynsä välillä. 4.3.2 Rinnakkaisvaliditeetti Käytännössä päädytään usein tarkastelemaan ennustevaliditeetin sijasta ns. rinnakkaisvaliditeettia. Tällöin testijoukkona on jokin ennalta valikoitu ryhmä, esimerkiksi jonkin koulun oppilaat, jotka tekevät testin ja heidän tehtävässä suoriutumisensa arvioidaan. Näiden mittausten perusteella voidaan laskea testipisteiden ja suorituksen välinen korrelaatio eli testin rinnakkaisvaliditeetti [1].

Ongelmana tämäntyyppisessä validiteetin määrityksessä on, että määritykseen käytetty ryhmä ei ole sama kuin se, johon testiä aiotaan jatkossa soveltaa. Kriteerivaliditeetti saa yleensä melko alhaisia arvoja, välillä 0.3-0.5 [1]. Tämä ei välttämättä tarkoita, että testin perusteella ei saada tehtyä hyviä päätöksiä, vaan johtuu ennemminkin siitä, että on vaikeaa laatia testiä, joka mittaisi suoriutumista jossain nimenomaisessa tehtävässä. 4.4 Face validity Edellisten validiteettilajien lisäksi puhutaan usein myös face- tai ilmivaliditeetista, jolloin arvioidaan intuitiivisesti testin uskottavuutta. Testin olisi hyvä olla myös testattavan näkökulmasta järkevä ja tarkoituksenmukainen, "katu-uskottava". Esimerkiksi Ro-mustetahratestillä on usein alhainen face validity, koska ihmiset eivät pidä uskottavana, että heidän persoonallisuuttaan voitaisiin arvioida mustetahroja näyttämällä [4]. 4.5 Reliabiliteetin ja validiteetin välinen suhde Reliabiliteetti kuvaa siis testin mittausvirhettä ja validiteetti sitä, kuinka hyvin testi mittaa sitä ominaisuutta, jota sen halutaan mittaavan. Korkea reliabiliteetti on validiteetin välttämätön muttei riittävä ehto [1]. Jos testin reliabiliteetti on alhainen, se ei siis luotettavasti mittaa sitä mitä sen on tarkoitus mitata, vaan suuri osa mittauksesta on virhettä. Tällöin testi ei ole myöskään määritelmään mukaan validi. Korkeasta reliabiliteetistä ei kuitenkaan seuraa automaattisesti validiteetti: esimerkiksi kuumemittari mittaa melko luotettavasti kuumetta, mutta se ei ole validi muiden sairauksien mittari. Yleisesti ottaen testi ei ole koskaan validi mittaamaan muuta kuin sitä ominaisuutta, mitä se on suunniteltu mittaamaan. 5 Testi-itemit 5.1. Itemianalyysi Useimmat psykologiset testit koostuvat testi-itemeistä (osioista), joihin testattavan tulee vastata. Itemianalyysissä arvioidaan yksittäisten testi-itemien käyttökelpoisuutta [3]. Näin pyritään löytämään syitä siihen, miksi testin reliabiliteetti tai validiteetti on havaitun kaltainen sekä keinoja parantaa niitä. Itemianalyysissä määritetään tilastotieteen keinoin mitkä itemit toimivat hyvin ja mitkä huonosti. Huonosti toimivat itemit pyritään korvaamaan paremmilla. Itemianalyysissä tarkastellaan kolmea seikkaa: tehtävän (itemin) vääriä vastausvaihtoehtoja, itemin vaikeutta sekä itemin erottelukukykyä [1]. 5.1.1 Distraktorianalyysi

Väärien vastausvaihtoehtojen tarkastelu koskee lähinnä monivalintatestejä. Tyypillisessä monivalintatehtävässä on yksi oikea vastausvaihtoehto ja loput ovat vääriä. Hyvin laadittu testiitemi on tässä tapauksessa sellainen, että oikean vastauksen tietävät henkilöt valitsevat oikean vastausvaihtoehdon ja ne, jotka eivät tiedä vastausta, valitsevat satunnaisesti kaikkien vastausvaihtoehtojen joukosta [3]. Ideaalitapauksessa vastauksen tietävä henkilö valitsee aina oikein ja tietämättömien vastaukset jakautuvat tasaisesti kaikkien vaihtoehtojen kesken. Näin ei kuitenkaan aina käy. Jos jokin väärä vaihtoehto on huomattavan suosittu tai huomattavan epäsuosittu, itemin erottelukyky on huonontunut [3]. Distraktorianalyysissä tarkastellaan vastausten jakaumaa oikeiden ja väärien vastausten näkökulmasta. Kun tunnetaan vastausten frekvenssijakauma kyseisessä tehtävässä, voidaan sitä verrata ideaaliseen vastausten jakaumaan eli tasajakaumaan esimerkiksi ²-testin avulla. Poikkeavuus tasajakaumasta voi johtua esimerkiksi siitä, että jokin vastausvaihtoehdoista on liian ilmeisesti väärä. Tämä johtaa siihen, että tietämättömän vastaajan todennäköisyys arvata oikea vastaus kasvaa, jolloin itemi on helpompi kuin on tarkoitettu. Toisaalta jokin väärä vaihtoehto saattaa olla suhteettoman suosittu. Tällöin kyseessä on todennäköisesti kompa tai muuten harhauttava kysymys. Yleisesti ottaen sekä suositut että epäsuositut väärät vaihtoehdot heikentävät testin luotettavuutta [1]. 5.1.2 Itemin vaikeus Toinen testi-itemin erottelukykyyn vaikuttava tekijä on tehtävän vaikeus. Itemin vaikeutta tarkastellaan laskemalla, kuinka moni henkilö osaa vastata siihen oikein [3]. Itemin vaikeuskerroin lasketaan seuraavasti: vaikeuskerroin = n N k 0, (13) missä n 0 = oikein vastanneiden lukumäärä N k = testattujen lukumäärä Vaikeuskerroin saa arvoja nollan ja ykkösen väliltä. Mitä suurempi se on, sitä helpompi on kyseinen testi-itemi. Vaikeuskerroin riippuu sekä itemistä itsestään että testattavasta populaatiosta. Samaa itemiä koskevat vaikeuskertoimet voivat olla erilaisia eri populaatioille, esimerkiksi jokin kysymys voi olla helpompi aikuisille kuin lapsille. Itemin vaikeuskerroin vaikuttaa voimakkaasti testin erottelukykyyn. Jos vaikeuskerroin on lähellä nollaa, saa suurin osa testatuista henkilöistä matalan pistemäärän. Jos taas vaikeuskerroin on lähellä yhtä, saavat kaikki vastaajat testistä korkeat pisteet. Molemmissa tapauksissa testipisteiden varianssi on pieni ja itemi on koehenkilöiden erottelun kannalta hyödytön. Eniten hajontaa testipisteissä syntyy silloin, kun kaikkien itemien vaikeuskerroin on 0.5 [1]. Tietyissä tilanteissa pienistä ja suurista vaikeuskertoimista on myös hyötyä. Esimerkiksi tilanteessa, jossa halutaan erotella populaatiosta erityisen huonosti suoriutuva joukko, kannattaa tehdä paljon helppoja itemejä, jotka kuitenkin tuottavat vaikeuksia vastata huonoimmin suoriutuville. Samoin voidaan erotella parhaiten pärjäävät muista tekemällä erityisen vaikeita itemejä. Tällaisilla testeillä

ei kuitenkaan saada juurikaan tietoa toisen ääripään suorituksista. Jos halutaan mitata koko populaation ominaisuuksia, tulee itemien vaikeuskertoimien olla lähellä arvoa 0.5 [1]. 5.1.3 Itemin erottelukyky Itemin käyttökelpoisuutta voidaan tarkastella myös sen perusteella, miten tehokkaasti se erottelee hyvät huonoista eli esimerkiksi tehtävässä korkeita pistemääriä saavat matalia pistemääriä saavista. Tätä ominaisuutta kuvaava suure on itemin erotteluindeksi [1]. Erotteluindeksi lasketaan vertaamalla kahden ääriryhmän, esimerkiksi pistemäärän perusteella parhaimpien 25%:n ja huonoimpien 25%:n pistemääriä: D U L =, (14) n n missä u l U = yläryhmässä oikein vastanneiden lukumäärä n u = henkilöiden kokonaislukumäärä yläryhmässä L = alaryhmässä oikein vastanneiden lukumäärä n l = henkilöiden kokonaislukumäärä alaryhmässä Mitä suurempi D on, sitä vahvempi itemin erottelukyky on. Jos taas D on lähellä nollaa tai negatiivinen, erottelukyky on huono, koska tällöinhän alaryhmä on vastannut yhtä hyvin tai jopa paremmin kuin yläryhmä. Vertailuryhmien muodostamiseen voidaan käyttää myös muita persentiilejä [1]. 5.2 Itemien korrelaatiot Testin reliabiliteettiä ja validiteettia tarkasteltaessa testipisteiden ja -itemien väliset korrelaatiot olivat tärkeässä osassa. Itemianalyysissä tarkastellaan yksittäisten testi-itemien välisiä korrelaatioita sekä niiden korrelaatiota koko testipistemäärän kanssa ja pyritään näin selvittämään, mitkä itemit eivät sovi testiin. Erotteluindeksi kertoo, kuinka hyvin testi-itemi erottelee yksittäiset testattavat toisistaan. Samaa ominaisuutta voidaan tutkia myös tarkastelemalla korrelaatiota kyseisen itemin ja testin kokonaispisteiden välillä [1]. Suuri positiivinen korrelaatio merkitsee, että itemi mittaa samaa asiaa kuin koko muu testi ja näin ollen itemin erottelukyky tutkittavan ominaisuuden suhteen on hyvä. Toisaalta lähellä nollaa oleva tai negatiivinen korrelaatio viittaa siihen, että testi-itemi ei ole sopusoinnussa muun testin kanssa ja sen erottelukyky on huono. Tällöin kannattaa harkita itemin poistamista lopullisesta testistä. Toisaalta voidaan tutkia myös yksittäisten itemien välisiä korrelaatioita. Näin voidaan selvittää, miksi tietyn itemin korrelaatio testin kokonaispistemäärän kanssa on heikko [1]. Mikäli itemi ei korreloi minkään toisen itemin kanssa, se ei selvästikään mittaa samaa asiaa kuin muu testi. Mikäli kyseisen itemin korrelaatiot osan testi-itemeistä kanssa ovat merkittäviä, tällöin testistä saattaa

erottua ryhmä itemejä, jotka mittaavat eri ominaisuutta kuin muu osa testistä. Laajoja testejä tarkasteltaessa yksittäisten korrelaatioiden laskemisen sijaan käytetään usein faktorianalyysiä. 6 Älykkyyden tutkimisesta 6.1 Älykkyyden määritteleminen Yksi psykologisen mittaamisen erikoisalue ovat ns. älykkyystestit. Älykkyys on monimutkainen psykologinen käsite, jota ei ole tähän mennessä kyetty määrittelemään yksimielisesti. Koska emme tarkasti tiedä mitä älykkyys on, emme myöskään voi mitata sitä luotettavasti esimerkiksi testaamalla. Älykkyyttä voidaan käytännössä vain tutkia ja kuvailla. Älykkyyden tutkimiseen ja testaamiseen liittyvistä ongelmista huolimatta tänä päivänä käytetään älykkyystestejä ehkä enemmän kuin koskaan aikaisemmin. Älykkyyden testaaminen perustuu oletukseen, että älykkyys ilmenee tietynlaisena käyttäytymisenä. Tämän käyttäytymisen perusteella voidaan tehdä päätelmiä älykkyyden rakenteesta [2]. Älykkyyteen liittyvästä käyttäytymisestä tai älykkyyden rakenteesta ei kuitenkaan ole saavutettu yksimielisyyttä tutkijoiden keskuudessa. Seuraavassa luvussa esitellään tunnetuimpia psykologian historian aikana esitettyjä älykkyysteorioita ja niiden pohjalta kehitettyjä älykkyystestejä. 6.2 Älykkyystestien historiaa Varhaisimpia älykkyyttä empiirisesti tutkineita tiedemiehiä oli edellä psykologisten testien yhteydessä mainittu Sir Francis Galton, joka tutki erityisesti suurmiesten nerouden periytymistä. Hänen mukaansa älykkyyttä kuvaa yksilön nopeus ja tarkkuus erilaisten asioiden havainnoinnissa. Nerouden perinnöllisyyttä hän tarkasteli eri sukupolvien välillä ilmenevinä korrelaatiokertoimina [5]. Charles Spearmanin kahden faktorin teorian (1904) mukaan älykkyyteen vaikuttaa kaksi faktoria, yleinen faktori g ja spesifit faktorit s [1]. Yleinen faktori vaikuttaa kaikkeen älykkääseen toimintaan, kun taas spesifi faktori liittyy johonkin tiettyyn toimintaan. Yksilölliset erot älykkyystesteissä johtuvat yleisestä faktorista. Ensimmäisen älykkyystestin kehitti Alfred Binet vuonna 1905. Testi mittasi kouluikäisten lasten älykkyyttä. Hän julkaisi samana vuonna toisen samanikäisille lapsille tarkoitetun testin, jolla voitiin erottaa heikkolahjaiset. Testeissä älykkyys määriteltiin ymmärtämisen, keksimisen ja arvioinnin tiedolliseksi kyvyksi [6]. Louis Leon Thurstone esitti ryhmäfaktorien teoriassa (1935), että älykkyys koostuu seitsemästä erilaisesta tekijästä. Nämä faktorit ovat verbaalinen ymmärtäminen, fluenssi, lukujen käsittely, spatiaalinen havaitseminen, assosiatiivinen muisti, visuaalinen havaitseminen ja järkeily. Lisäksi älykkyyteen vaikuttaa yleisfaktori g, johon osafaktorit ovat osittain yhteydessä. Koska faktorit ovat suurimmaksi osaksi riippumattomat toisistaan, niitä on älykkyystestissä mitattava erikseen [1].

David Wechsler (1969) määritteli älykkyyden yksilön kyvyksi ajatella rationaalisesti, toimia tarkoituksenmukaisesti ja hallita tehokkaasti ympäristöään [6]. Hänen mukaansa älykkyyttä ei voi käsittää pelkästään osataitojen summaksi, sillä se vaikuttaa ihmisen käyttäytymiseen yhtenä kokonaisuutena. Wechsler ja hänen työryhmänsä kehittivät WAIS-älykkyystestin, jonka eri versiot ovat laajasti käytössä ympäri maailmaa vielä nykyäänkin. Testi koostuu kielellisistä ja suoritustehtävistä. WAIS-testin uudistettu versio WAIS-R on tällä hetkellä Suomen eniten käytetty älykkyystesti [1]. Robert Sternbergin triarkkisessa älykkyysteoriassa (1984) älykkyys määritellään aiempaa laajemmin kykynä selviytyä elämässä. Perinteiset älykkyystestit mittaavat ihmisen komponentiaalista älykkyyttä eli hänen kykyään ongelmanratkaisuun ja tiedonkäsittelyyn. Kontekstuaalinen älykkyys tarkoittaa yksilön kykyä sopeutua ympäristöönsä. Kokemuksellinen älykkyys puolestaan tarkoittaa kykyä soveltaa opittua tietoa jokapäiväisessä toiminnassa [1]. Sternbergin mukaan älykkyyden kannalta on keskeistä osata arvioida milloin on toimittava nopeasti ja milloin syvällisesti pohtien. Sternbergin teoriaan perustuvia älykkyystestejä on olemassa. Thurstonen jälkeen monet tutkijat ovat kehitelleet vastaaviin jaotteluihin perustuvia älykkyysteorioita. Niissä faktoreiden lukumäärät ovat vaihdelleet ja uusia tekijöitä kuten sosiaalinen älykkyys on tullut mukaan. Useimmissa malleissa komponentteihin kuuluvat ainakin kielellinen, matemaattislooginen ja avaruudellinen ajattelu [1]. 6.3 Wechsler Adult Intelligence Scale Revised (WAIS-R) WAIS-R on Suomen käytetyin aikuisten yleisälykkyyden mittari. Se on tarkoitettu yli 16-vuotiaille. Vastaava lapsille (6-16-vuotiaille) tarkoitettu testi on nimeltään WISC-R ja esikouluikäisten testi on WPPSI-R. Luvussa 1.6 esiteltyjen luokittelujen mukaan WAIS-R on tehtäviin perustuva suoritustesti, jossa mitataan maksimaalista suoritusta ja jonka arviointi on objektiivinen. WAIS-R:ä käytetään älykkyyden mittaamiseen, mutta pääasiassa tarkoituksena on löytää heikommin suoriutuvat. Testi soveltuukin ainoastaan kliiniseen käyttöön [1]. WAIS-R koostuu yhdestätoista osatestistä, joista kuusi on kielellisiä ja viisi ei-kielellisiä. Testillä voidaan mitata erikseen henkilön kielellinen ja ei-kielellinen älykkyysosamäärä sekä edellisten summana yleinen älykkyysosamäärä. ÄÖ on standardoitu pistemäärä, jonka keskiarvo on 100 ja keskihajonta 15. Tämä mahdollistaa eri henkilöiden pistemäärien keskinäisen vertailun. Osatestien pistemäärien perusteella voidaan myös tutkia erityisen heikkoja tai vahvoja alueita ja vertaamalla näitä normeihin tarkastella henkilön mahdollisia kehitysvajaavuuksia. WAIS:n osatestien reliabiliteetit ovat yleisesti ottaen korkeita. Myös sen sisältö- ja käsitevaliditeetit on arvioitu tutkimuksissa hyviksi. Melko hyvästä kriteerivaliditeetista kertoo se, että testillä mitatut älykkyysosamäärät ovat yhteydessä esimerkiksi koulu- ja työmenestykseen. WAIS:n heikkoutena on, että testitulos ei yksinään kerro mitään testatun yksilön ongelmien laadusta. Siinä älykkyys on myöskin määritelty varsin suppeasti verrattuna esimerkiksi Sternbergin määritelmään. WAIS sopiikin parhaiten muun diagnostiikan apuvälineeksi, ei käytettäväksi yksinään [1]. 6.4 Älykkyystestien heikkouksia

Edellä on todettu, että älykkyyttä ei voida varsinaisesti mitata, koska sitä ei voi määritellä yhtenä kvantitatiivisena suureena. Sitä voidaan vain analysoida muun muassa erilaisten testien avulla. Yksilön testipistemäärään vaikuttavat sekä testillä mitattava äly että koehenkilöön liittyvät ympäristötekijät, esimerkiksi henkilön koulutus. Ympäristötekijöiden vaikutus pisteisiin voi olla huomattava. Älykkyystesti ei välttämättä testaa eri henkilöitä tasapuolisesti, vaan mittauksiin saattaa sisältyä ympäristötekijöistä johtuva systemaattinen virhe. Esimerkiksi testin kulttuurisidonnaisuus voi aiheuttaa harhaa. Useat älykkyystestit mittaavat yhteiskunnan valtakulttuurin arvostamia taitoja, joita ei välttämättä arvosteta vastaavalla tavalla jossakin vähemmistökulttuurissa. Tällöin testissä menestyminen riippuu osaltaan valtakulttuurin tapojen ja arvojen tuntemisesta. Yksi esimerkki kulttuurisidonnaisesta testistä on edellä esitelty WAIS [1]. Älykkyystestin perusteella tehtyihin ennusteisiin voi myös sisältyä systemaattinen virhe. Esimerkiksi lasten älykkyystestin ennustama koulumenestys saattaa riippua perheen sosioekonomisesta asemasta. Vaikka itse mittaus olisi täysin harhaton, sen perusteella tehtyyn ennuste voi olla harhainen [1]. Älykkyysosamääriä tarkasteltaessa on myös huomattava, että testipistemäärä on tietyllä hetkellä saatu mittaustulos, ei yksilön pysyvä ominaisuus. Pitkällä aikavälillä henkilön ÄO saattaa muuttua huomattavastikin [1]. Älykkyystestin mittaamia ominaisuuksia voidaan kehittää harjoittelulla. Harjoittelusta huolimatta kaikki eivät saa huippukorkeaa älykkyyspistemäärää. Älykkyyden kehittymiseen vaikuttaa ympäristötekijöiden lisäksi yksilön perimä, jonka voidaan ajatella asettavan kehitysmahdollisuuksille rajat. 7 Yhteenveto Psykologiassa tutkittavien ilmiöiden luotettava mittaaminen tai arviointi on usein vaikeaa, koska ilmiöt ovat tyypillisesti luonteeltaan monimutkaisia ja vaikeasti määriteltäviä. Psykometriikassa pyritään selvittämään, miten psykologisia ilmiöitä voitaisiin mitata mahdollisimman virheettömästi sekä arvioidaan erilaisten mittarien laatua. Mittarit ovat yleensä psykologisia testejä. Psykologisia testejä on ollut olemassa noin 150 vuotta. Erityisesti tutkimuksen kohteena on ollut älykkyyden mittaaminen. Nykyisin erilaisia testejä on käytössä lukuisa määrä. Psykologisia testejä voidaan luokitella muun muassa testin suoritustavan, tutkittavan suorituksen tyypin, testin objektiivisuuden tai mittauskohteen mukaan. Useimpien nykyisten psykologisten testien pohjana on ns. klassinen testiteoria. Klassisen testiteorian mukaan testistä saatuun pistemäärään vaikuttaa henkilön todellisen pistemäärän lisäksi mittausvirhe. Testipistemäärien vaihteluun eri henkilöiden välillä vaikuttavat sekä todellisen pistemäärän että mittausvirheen vaihtelut. Mittausvirheen suuruutta voidaan arvioida kahden tai useamman rinnakkaismittarin avulla. Rinnakkaismittarit ovat samaa asiaa mittaavia erilaisia mittareita, joiden antamien tulosten virhe on keskimäärin samansuuruinen. Klassisessa testiteoriassa testin toimivuuden arviointiin liittyy kaksi suuretta, testin reliabiliteetti ja validiteetti. Reliabiliteetti kuvaa, kuinka paljon mittausvirhettä mittarin antama tulos sisältää. Validiteetti puolestaan ilmaisee, kuinka todennäköisesti testi mittaa sitä, mitä sen halutaan mittaavan.

Psykologinen testi koostuu yleensä testiosioista eli itemeistä, joiden toimivuutta voidaan arvioida itemianalyysissä tilastotieteen menetelmillä. Itemianalyysissä tarkastellaan yksittäisten testi-itemien välisiä korrelaatioita sekä niiden korrelaatiota koko testipistemäärän kanssa ja pyritään näin selvittämään, mitkä itemit eivät sovi testiin ja mistä yhteensopimattomuus johtuu. Itemianalyysissä voidaan myös tutkia, onko testissä itemien muodostamia toisistaan eroavia ryhmittymiä. Älykkyystestit ovat yksi psykologisen mittaamisen erikoisalue. Älykkyys on monimutkainen psykologinen käsite, jolle ei ole vielä pystytty kehitettämään tutkijoiden yksimielisesti hyväksymää määritelmää. Älykkyyden testaaminen perustuu oletukseen, että älykkyys ilmenee tietynlaisena käyttäytymisenä. Tätä käyttäytymistä pyritään mittaamaan älykkyystesteillä. Suomessa yleisin käytetty älykkyystesti on WAIS-R. Älykkyystesteihin liittyy paljon ongelmia, koska älykkyyttä ei voi määritellä yhtenä kvantitatiivisena suureena. Erilaiset ympäristötekijät vaikuttavat testituloksiin testistä riippuen enemmän tai vähemmän. Tyypillisiä testipistemääriin vaikuttavia mitattavan ominaisuuden ulkopuolisia tekijöitä ovat kulttuurilliset erot sekä yksilön sosiaalinen asema.