Johdantoa evaluaatiotutkimukseen Mikko Mäntysaari 1
Luennon sisältö: 1. Evaluaation käsite 2. Evaluaation historia 3. Evaluaatiotutkimuksen lajit 4. Vaikutusten arviointi (Outcomes tai Impact Evaluation) 5. Koeasetelma 6. Realistinen arviointi 7. Arvioinnin etiikka 8. Arvioinnin keskeiset elementit 2
1 Evaluaation käsite Evaluaatio on jonkin asian tai toiminnan arvon, merkityksen tai ansion määrittelemistä. (Scriven, 1991a) Erilaisten evaluaatiotutkimuksen metodologioita on paljon; kvantitatiiviset, kvalitatiiviset, koeasetelmaan perustuvat ja toimintatutkimukselliset lähestymistavat ovat yhtä mahdollisia. Menetelmänäkökulmasta evaluaatio ei eroakaan muusta yhteiskuntatieteellisestä tutkimuksesta. Scrivenin mukaan evaluaatio on tilastotieteen kaltainen transdisipliini, jolla ei sinänsä ole omaa sisällöllistä tutkimuskohdettaan, mutta joka tuottaa välineitä toisten tutkimusalojen käyttöön. Evaluaation pitäisi aina tuottaa arvostelma evaluandin arvosta, ansiosta tai merkityksestä. 3
Keskeisestä käsitteestä on eri käytäntöjä (Mäntysaari, 1999): Evaluointi? Kehnoa suomea, mutta viittaa kansainvälisessä käytössä tiettyyn tiedon tuotannon muotoon. Arviointi? Pitää sisällään sekä edellä kuvatun evaluoinnin että vaikkapa metsänarvioinnin tai missien arvioinnin. Scrivenin mukaan nämä ovatkin osa evaluaation perinnettä. Arviointitutkimus? Painottaa ehkä liikaa sanaa tutkimus, mutta on silti lähempänä evaluaatio sanan yleistä sisältöä. 4
Evaluaatiotutkimuksen perusmuotona on ohjelma-arviointi (program evaluation), jossa evaluaation kohde, evaluandi, on jokin toimenpideohjelma, suomalaisessa kontekstissa projekti. Program evaluation is the use of social research methods to systematically investigate the effectiveness of social intervention programs in ways that are adapted to their political and organizational environments and are designed to inform social action to improve social conditions. (Rossi et al., 2004, 16) 5
Kaksi peruskysymystä ovat: miten projekti toimii? vaikuttaako projekti tarkoitetulla tavalla? Ohjelma-arvioinnin perusmenetelmät ovat ennen-jälkeen mittaus ja koeasetelma eri variantteineen. 6
2 Evaluaation historia Evaluaation syntyhistoriasta voidaan esittää erilaisia tarinoita. Erään mukaan idea ohjelma-arvioinnista syntyi, kun brittiläinen merikapteeni 1700-luvulla huomasi Välimerellä purjehtiessaan, että miehistön keripukkitapaukset näyttivät vähenevän jos ruoaksi tarjottiin sitrushedelmiä. Tarinan mukaan hän jakoi miehistön kahteen osaan, joista toiset söivät sitrushedelmiä, toiset eivät ilmeisin tuloksin. Sittemmin englantilaisia merimiehiä kutsuttiin nimellä limey koska he joutuivat syömään sitruunoita (Rossi et al., 2004, 2) 7
Arviointitutkimuksen ensimmäinen todella merkittävä kausi ajoittuu Yhdysvaltoihin, 1960-luvulle, jolloin nopeasti laajentuva sosiaalipoliittinen järjestelmä vaati tuekseen (tai sen kontrolloijaksi vaadittiin?) arviointitutkimusta. Tuolloin kehitetyt tai kehittyneet arviointitutkimuksen suuntaukset ja menetelmät ovat paljolti edelleen käytössä. Evaluaatiotutkimus vahvisti asemiaan erityisenä yhteiskuntatieteen lajina 1970-luvulla, jolloin syntyi joukko lehtiä, tieteellisiä seuroja ja tutkimuslaitoksia. Sosiaalipoliittisessa keskustelussa ja päätöksenteossa evaluaatiosta tuli yhä keskeisempi tekijä. 8
Evaluaatiosukupolvet (Tanskassa): Laajoihin haastatteluihin perustuneet ohjelma-arvioinnit (50-60 luvulta) Teoriaperustainen arviointi (70- luvulta alkaen) Käyttäjänäkökulmainen arviointi (80-luvulta alkaen) (Hansson, 1997) 9
Esimerkiksi Kansaneläkelaitos on tuottanut merkittävän määrän kvantitatiivista arviointitutkimusta nimenomaan Hanssonin tarkoittamassa ensimmäisen sukupolven merkityksessä. Vastaavasti Stakesin monet empiiriset tutkimukset sosiaali- ja terveyspalveluista viime vuosilta ovat kytkeytyneet käyttäjä- tai asiakasnäkökulmaan. Ehkä puutetta on Suomessa ollut pikemminkin teoreettisesti orientoituneesta arvioinnista kuin survey- tai asiakasnäkökulmaisesta arvioinnista. 10
2.1 Evaluaatioyhteiskunta vai palvelututkimus Donald Campbell (1969) tavoitteli evaluoivaa yhteiskuntaa (experimenting society). Poliittisen päätöksenteon perustana tulisi olla yhteiskunnallinen kokeilu ja niiden kokeilujen säännöllinen evaluointi syntyvien yhteiskunnallisten vaikutusten kannalta. Yhteiskuntatieteiden menetelmät ovat edistyneet niin pitkälle, että poliittisen päätöksenteon perustaksi voidaan ensimmäistä kertaa saada tieteellisesti tutkittua tietoa. Campbellin evaluoivan yhteiskunnan ideasta (tai utopiaa) syntyi vilkas keskustelu. Rajavaaran mukaan (1999) tuon ajan laboratoriomaisille tutkimusasetelmille oli ominaista se, että niissä arvolähtökohdat ja arvottaminen asetettiin tutkimuksen ulkopuoliseksi asiaksi, jolloin tutkimuksen tehtäväksi jäi vain mittaaminen sekä sen pohjalta tehtävät päätelmät ja suositukset 11
(Purola 1987, 20; (Rajavaara, 1999)). Tutkimus tavoitteli ennenkaikkea luotettavaa tietoa, positivistisen tieteenihanteen mukaisesti. 12
Toinen evaluaatiotutkimukseen paljon vaikuttanut kirjoittaja, Lee Cronbach väitti että evaluaation tarkoitusperät eroavat tieteellisestä tutkimuksesta selvästi. Hänen mukaansa evaluaatiossa on kysymys pikemminkin taiteesta (art) kuin tieteestä (science), ja totuuden sijasta tavoitteeksi evaluaatiossa tulisi asettaa sidosryhmien ja ohjelmasta päättävien tarpeisiin vastaaminen. (Rossi et al., 2004, 23) Kokeellisen arviointimetodologian rinnalle alkoi vähitellen syntyä myös muita lähestymistapoja kokeellisten tutkimusasetelmien ongelmien ja arviointitiedon hyödyntämisen kysymysten alkaessa 1970-luvulla yhä enemmän askarruttaa tutkijoita. Tämä arviointitutkimuksen kriisivaihe ajoittui kansainvälisen taloudellisen laman, öljykriisin aikoihin, jolloin käytiin keskustelua hyvinvointivaltion kriisistä (Albaek 1997; ks. myös Cook 1997, 40-41, teoksessa (Rajavaara, 1999)). 13
2.2 Miksi arviointitutkimus yleistyy? Kyse voi olla organisaation johdon halusta perustella tarpeelliseksi katsomiaan muutoksia Kyse voi olla organisaation eloonjäämiskamppailussa tarvittavien poliittisten ammusten tuottamisesta. Voi olla, että arviointitutkimus tilataan, koska sekä organisaation ulkopuolelle että myös organisaation sisäisesti halutaan osoittaa, että organisaatiomme on moderni, uudistushenkinen talo, jota johdetaan ajanmukaisten johtamisperiaatteiden mukaisesti. (Albæk, 1997) 14
Evaluaatio on viime vuosina yleistynyt Suomessakin. Syitä tähän on monia: Arvioinnin yleistymisen taustalla nähdään helposti yksinomaan yleisenä järkiperäistymisenä. Erik Albækin (Albæk, 1997) mukaan arviointitutkimuksen taustaoletusten näennäinen rationaalisuus hämää turhan helposti. Evaluaatiota voidaan tarvita rationaalisen organisaatioajattelun mukaisista syistä koska halutaan parantaa organisaation ohjautuvuutta. Syitä on silti muitakin. Evaluaatiotietoa voidaan käyttää myös organisaation eloonjäämiskamppailussa, irtisanomisten perusteluna, muodin vuoksi jne. 15
3 Evaluaatiotutkimuksen lajit Peruserotteluna voitaneen pitää jakoa kahden tyyppiseen arviointiin: toisaalta on olemassa tiedontuotantoarviointia, joka tähtää samaan kuin tieteellinen tutkimus yleensä, mahdollisimman luotettavan tiedon tuottamiseen. (Pawson & Tilley, 1997) Toinen arvioinnin päätyyppi on kehittävä arviointi, jossa pyritään toiminnan kehittämiseen, ehkä empowerment evaluaation tai osallistavan arvioinnin keinoin. (Patton, 1990; Fetterman et al., 1996) Tässä erottelussa elää vahvana Campbellin ja Cronbachin esiinnostama ristiriita. 16
Kehittämisperusteinen evaluaatio, jota erityisesti Patton (1997) on kehitellyt, perustuu tiedon hyödyntämisen keskeiseen merkitykseen evaluaatiossa. Käyttämättä jäävä tieto, vaikka paikkansa pitävääkin, on evaluaation kannalta turhaa tietoa. Evaluaation tilaajat asettavat tutkimuskysymykset. Monessa mielessä houkutteleva näkökulma, mutta sisältää myös ongelmia: mitä seuraa tilanteesta, jossa vain tutkimuksen tilaajat katsotaan keskeiseksi viiteryhmäksi. Johtaako tilanteeseen, jossa evaluaatioita tehdään vain yhteiskunnan hyväosaisten eduista lähtien. (Rajavaara, 1999) Evaluaation on hyvä ottaa huomioon yhteiskunnan laajempi etu, mitä se sitten onkaan. 17
Formatiivinen ja summatiivinen evaluaatio Keskeinen evaluaatiotyyppien erottaja Summatiivinen e.:tavallisesti tehdään toiminnan päätyttyä tai vakiinnuttua ulkopuolisen yleisön tai päätöksentekijän tarpeeseen, tekijöinä voivat olla sisäiset tai ulkoiset arvioijat tai näiden yhdistelmät. Kyse ei ole vain vaikutusten arvioinnista eikä kokonaisarvioinnista. Formatiivine e.: tehdään ohjelman kuluessa tai kehittyessä, ja sitä tehdään organisaatiolle itselleen tarkoituksenaan parantaa arvioinnin avulla toimintaa. Toteuttaja voi olla ulkoinen tai sisäinen arvioija. (Scriven, 1991a, s. 340) Stake: kun kokki maistaa keittoa, kyse on formatiivisesta e., kun asiakas maistaa keittoa, summatiivisesta evaluaatiosta. (Scriven, 1991a, 168-169) 18
Arvioinnin kohde Prosessi Terapeuttirooli Konsulttirooli Empowerment arviointi toimintatutkimus Implementaatioarviointi prosessiarviointi Arvioijien asemat Sisäinen Ulkoinen Kontrollitutkimus Tapauskohtainen asetelma (single case design) Kustannus/hyötyanalyysi tehokkuusmittaus tuottavuusarviointi Tulos/ Output 19
Arviointi voi olla itsearviointia ja/tai ulkoista arviointia kvantitatiivista vaikuttavuusarviointia kvalitatiivista prosessiarviointia hyötynäkökulmasta lähtevää tai tiedontuotantoarviointia realistista (Pawson & Tilley, 1997) tai konstruktionistista (Guba & Lincoln, 1989) arviointia koeasetelmaan perustuvaa tai löyhää seurantaa 20
Arvioinnin menetelmiä on paljon, ja arviointikysymykset ratkaisevat, mikä menetelmä on sopiva kuhunkin kysymykseen. Sahaa ei voi käyttää höyläämiseen, eikä talonrakentamista toisaalta voi toteuttaa vain höylillä (Töttöä matkien). Eli menetelmät on valittava arviointikysymysten mukaan, ja arviointikysymykset yhteiskunnallisen tehtävän tai tarpeen mukaan. 21
4 Vaikutusten arviointi (Outcomes tai Impact Evaluation) Tarkoitus on selvittää, missä määrin ohjelma täyttää tavoitteensa: esimerkiksi vähentää perheväkivaltaa tai päihdeongelmia. Vaikutusten arvioinnissa kysytään, onko ohjelmalla saavutettu tarkoitettuja tavoitteita, ja onko tavoitteiden saavuttamisesta seurannut tarkoittamattomia seurauksia. (Rossi et al., 2004, 58) on erotettava toisistaan: pitkäaikaisvaikutukset välittömät vaikutukset kustannukset ja vaikutukset asiakkaan kokemat / ammattilaisten työssä näkyvät vaikutukset 22
Lawrence Martinin luonnehdinta panoksen, prosessin ja tuotoksen (output), laadun ja vaikuttavuuskäsitteiden suhteista: ASSESMENT OF OUTCOMES OUTPUT DATA feedback INPUT PROCESS OUTPUT QUALITY OUTCOMES QUALITY ASSESMENT Figure: Systems model of service production process (Martin - Kettner 1997) 23
Sosiaalisiin ongelmiin vaikuttamaan pyrkivät toimenpideohjelmat pyrkivät ihmisten ja yhteiskunnan kannalta hyvään tavoitteeseen. Projektia toteuttavat työntekijät tekevät yleensä ahkerasti työtä. Hyvistä tavoitteista ja ahkeruudesta ei tietenkään automaattisesti seuraa, että kohdeongelmaan voitaisiin vaikuttaa tavoitellulla tavalla. 24
Taiwan on pieni saari jossa väestöntiheys on suuri. Jätehuolto on tuntuva ongelma, jonka vuoksi hallitus päätti kokeilla jätteiden vähentämistä toimenpideohjelmalla. Taiwanissa on tapana kerätä jätteet joka päivä. Ohjelma sisälsi kokeilun, jossa jäteautot eivät kiertäneet tiistaisin. Ajatus oli, että kun ihmiset joutuvat varastoimaan jätteet asuntoihinsa päiväksi, johtaa se tarkempaan jätteiden erotteluun ja tekee jäteongelman muutenkin näkyväksi. Prosessievaluaatio osoitti, että toimenpideohjelma toteutettiin täysin suunnitelman mukaan. Vaikutusevaluaatio perustui kahden asuinalueen vertailuun, jossa toisessa toimenpideohjelmaa sovellettiin, toisessa ei. Vertailu osoitti, että, että jätemäärä ei kokeilualueella laisinkaan vähentynyt, mutta keskiviikkoisin kerättävää jätettä oli kaksinkertainen määrä. (Rossi et al., 2004, 59) 25
Vaikutusten arvioinnin perusolettamuksen tiivistää Peter Rossi seuraavasti: If there is any empirical law that is emerging from the past decade of widespread evaluation activity, it is taht the expected value for any measured effect of a social program is zero. (Rossi et al., 2004, 5) 26
Asiakastyön vaikuttavuuden arvioinnin malleja Koeasetelmaan perustuva arviointi (Orr, 1999) Tapauskohtainen arviointi (Bloom & Fischer, 1982) Elämänlaadun arviointi (Martin & Kettner, 1997) Realistinen tapauskohtainen arviointi (Kazi, 1998) 27
5 Koeasetelma Koeasetelma on ohjelma-arvioinnin perusta. Klassinen koeasetelma käsittää kaksi vertailtavissa olevaa ryhmää: koeryhmän ja kontrolliryhmän. Nämä ryhmät ovat muuten samanlaisia, ainoana erona on, että koeryhmään suunnataan jokin tarkastelun kohteeksi valittu interventio. Tätä vaikutusta koeryhmään voidaan kutsua hoidoksi tai riippumattomaksi muuttujaksi. Ryhmiin jako tapahtuu satunnaisesti. Riippumattoman muuttujan vaikutusta koeryhmään tarkastellaan riippuvien muuttujien vaihtelua seuraamalla. Klassisessa koeasetelmassa riippuvien muuttujien arvojen mittaus tehdään kahdesti: ennen interventiota ja toisen kerran kun interventio on vaikuttanut koeryhmään sopivaksi katsotun ajan. Puhutaan ennen-jälkeen mittauksista. Mikäli koeryhmän ennen-jälkeen mittauksessa on 28
havaittavissa ero verrattuna kontrolliryhmän tuloksiin, ajatellaan, että muutos on syntynyt riippumattoman muuttujan vaikutuksesta. (Frankfort-Nachmias & Nachmias, 1996, 101) Ryhmä Pretest Posttest Ero Koeryhmä R O X O 1 2 O 2 - O 1 = d e Kontrolliryhmä R O O 3 4 O - O 4 3 = d c Kuva 1: Klassinen koeasetelma Klassinen koeasetelma voidaan esittää Kuvion 1 muodossa, jossa X esittää riippumatonta muuttujaa ja O 1, O 2, O 3 jao 4 riippuvan 29
muuttujan mittauksia. R viittaa ryhmien satunnaiseen valintaan. Tunnusluku d e edustaa intervention aikaansaamaa muutosta. Kokeella pyritään selvittämään joidenkin tekijöiden (kuten esimerkiksi käsittelyjen, menetelmien) vaikutuksia koeyksikön jotakin ominaisuutta kuvaavaan muuttujaan. Muiden ns. taustamuuttujien vaikutus tutkittavaan muuttujaan pyritään eliminoimaan tarkoituksenmukaisten koejärjestelyjen avulla. (Liski-Puntanen, 1975) Koeasetelmassa ollaan usein kiinnostuneita monien eri tekijöiden yhteisvaikutuksesta. Usein tutkimuksessa on vaikeaa ellei mahdotonta vakioida kaikkia taustamuuttujia. Tulosten luotettavuuden parantamiseksi pyritään homogeenisiin koeyksikköjoukkoihin, joissa taustamuuttujat on vakioitu. Tämän vuoksi esimerkiksi psykologisissa tutkimuksissa käytetään kaksosia, maanviljelyskokeissa maaperältään mahdollisimman 30
homogeeminisia koelohkoja, eläinkokeissa suunnilleen samanlaisia eläimiä sekä opetusmenetelmiä kokeiltaessa mahdollisimman samankaltaisia opiskelijoita. (Liski-Puntanen, 1975). Mahdolliset erot riippuvassa muuttujassa saattavat koe- ja kontrolliryhmän välillä johtua myös lukuisista häiriötekijöistä kuten mittausvirheistä, vakioinnin epätarkkuudesta jne. jotka kaikki aiheuttavat mittaustuloksiin satunnaisvaihtelua. Siksi koeasetelmaan perustuvassa tutkimuksessa pyritään erottamaan tämä satunnaisten tekijöiden aiheuttama virhekomponentti intervention aiheuttamasta systemaattisesta vaikutuksesta. (Liski-Puntanen, 1975) 31
Koeasetelma on liian vaativa asetelma sosiaalityössä Evaluaatiota ei tehdä, koska evaluoinnin haastetta pidetään liian kovana. Sosiaalityöntekijätkin pitävät "todellisena evaluointina vain kontrolloituun koeasetelmaan perustuvia hankkeita (Shaw;Smith). Toisaalta vaatimattomammin tavoitteiden liikkeelle lähteviä arvostellaan pinnallisiksi ja epäluotettaviksi menetelmiksi. 32
Sosiaalityön vaikuttavuuden arviointi... the profession lacks systematic empirical validation of its practice strategies. Ongoing evaluation of social work interventions seems to be a desperate need all over the world. (Hokenstad, Kinduka, Midgley 1993) 33
Interventiot ja palvelut on erotettava toisistaan! Sosiaalityö ei ole palvelua vaikka se sosiaalihuoltolaissa luetaankin sosiaalipalveluihin. Kyse on interventiosta sosiaalisiin ongelmiin. Palvelut ja interventiot arvioidaan eri tavalla! Interventioiden arvioinnissa vaikuttavuuskysymys on tärkeä. 34
Juliet Cheetham ym (Cheetham et al., 1992, s. 18-19) puhuvat tarpeesta edetä sosiaalityön evaluaatiotutkimuksessa pienin konkreettisin askelin. Kaikkea ei voi selvittää kerralla. 35
Tapauskohtainen evaluointi tarkoittaa ns. tapauskohtaisten asetelmien (engl. single system designs) käyttöä evaluoinnissa. Tapauskohtaiset asetelmat ovat tutkimusasetelmia, joissa selvitetään systemaattisesti ja määrämuotoisesti yksittäisten tapausten kehitystä. Tämä tapahtuu mittaamalla toistuvasti (määrävälein) jotain asiaa tai ulottuvuutta. 36
Seuranta-asetelmia käytetään arvioitaessa, kuinka yksilö tai ryhmä ( asiakassysteemi ) on edistynyt asetettujen tavoitteiden suunnassa. Seuranta-asetelmia voi olla monenlaisia: tyypillisiä ovat AB ja ABAB asetelmat. Myös pelkkä B asetelma on mahdollinen, jos interventio tai menetelmä on vaikeasti tunnistettavissa. 37
Kyse on klassisen koe-asetelman sovellutuksesta: kun perinteinen koeasetelma edellyttää koe- ja vertailuryhmän olemassaoloa, pyritään tapauskohtaisessa asetelmassa päättelemään prosessin vaikutuksia vain yhden yksilön tai ryhmän kohdalla aikajanalla. Monasti koeasetelmaa ei voida soveltaa (esim. huostaanotto), usein koeasetelman soveltamiseen ei ole resursseja. 38
Evaluatiivinen ja kokeellinen kysymys Tapauskohtainen arviointi pyrkii ratkaisemaan kaksi kysymystä: 1. Muuttuiko työskentelyn kohteena oleva ongelma (evaluatiivinen kysymys) 2. Johtuiko tapahtunut muutos sovelletusta työmenetelmästä (kokeellinen kysymys) (Bloom & Fischer, 1982) 39
Tapauskohtaisen evaluaation soveltamisen kehittelyistä käynnistyneen liikkeen, empiirisen kliinisen käytännön mallin (engl. Empirical Clinical Practice, ECP) synnyn yhteydessä puhuttiin jopa sosiaalityön tutkimuksen empiirisestä vallankumouksesta (Fischer, 1981). 40
Tapauskohtaisista asetelmista puhutaan monikossa koska niitä on erilaisia. Niinpä asetelma voivat sisältää mittauksia sekä asiakkaiden lähtötasosta (tilanne ennen interventiota: vaihe A) että toimenpidevaiheista (vaihe B) erilaisina yhdistelminä. Ns. B-asetelmassa seurataan asiakasta vain toimenpiteiden ja työskentelyn aikana. AB-asetelmassa selvitetään myös lähtötaso ja ABA-asetelmassa tilannetta seurataan myös intervention päättämisen jälkeen. 41
Tapauskohtaisen arvioinnin kehittäjinä ovat toimineen mm. Joel Fischer ja Martin Bloom (ks esim Bloom & Fischer, 1982; Bloom, 1975; Blythe & Rodgers, 1993). Suomeksi menetelmää on esitelty Rostilan ja Mäntysaaren teoksessa (Rostila & Mäntysaari, 1997a,b) 42
6 Realistinen arviointi Realistisessa evaluaatiossa (Pawson & Tilley, 1997) on aina selvitettävä, millaisessa kontekstissa jokin prosessi tai mekanismi vaikuttaa, tuottaa tuloksen. Context - mechanism - outcome, eli CMO-analyysi johtaa pohtimaan myös teoreettisia kysymyksiä, tiedon siirrettävyyden ongelmia ja tuloksia. Ero perinteiseen yhteiskuntatieteelliseen tutkimukseen ei ole kovin suuri. Marja Holmila ja tutkimusryhmä on soveltanut tätä ennaltaehkäisevän päihdepolitiikan arviointiin. Seuraavassa tarkastelen realistista evaluaatiota kriittisen realismin näkökulmasta. 43
Realismi on syntynyt nimenomaan vastareaktioksi tietynkaltaiselle empirismille, jossa ajateltiin olevan mahdollista tehdä suoria ja välittömiä havaintoja todellisuudesta. Realismin kanta on, että ei-käsitteellinen todellisuuden tarkastelu ei ole mahdollista (tai on mahdollista vain rajatusti; vrt. Barnes - Bloor - Henry ja havaitsemisen modulaarisuus). Tässä mielessä realismi seuraa Kantin käsitystä käsitevapaan havaitsemisen mahdottomuudesta. 44
Monia realismin suuntauksia Metafyysinen tai transsendentaalinen realismi, mm. Bhaskar Sisäinen tai pragmaattinen realismi, Tuomela, Sellars, Putnam Fallibilistinen realismi (Campbell, Popper) 45
Metafyysinen realismi pitää maailmaa (a) valmiina, inhimillisestä tajunnasta riippumattona objektien kokonaisuutena. Sen mukaan (b) on olemassa yksi ja vain yksi täydellinen kuvaus maailmasta. Tässä kuvauksessa (c) totuus merkitsee maailman ja kielen välistä korrespondenssia. Kyse on siten radikaalisti ei-episteemisestä todellisuuskäsityksestä. 46
Sisäinen realismi kieltää edellä esitettyjen teesian (a), (b) ja (c) pätevyyden. Sisäinen realismi puolestaan väittää, että (a ) maailma on eräässä mielessä ihmisten tekemä, eli siihen vaikuttaa ihmisten käsitteellistäminen ja että (b ) on mahdollista esittää useita keskenään kilpailevia, mutta tosia ja täydellisiä kuvauksia maailmasta, ja että (c ) totuus on episteeminen ja teoriaan sidottu käsite. 47
Tuomela määrittelee oman kausaalisen sisäisen realisminsa seuraavien teesien avulla: On olemassa singulariteetteja (objekteja, tapahtumia, prosesseja ja niin edelleen), jotka ovat riippumattomia ihmismielestä. Nämä singulariteetit ovat, tai ainakin voivat olla keskinäisessä kausaalisessa vuorovaikutuksessa toistensa ja ihmisten kanssa, mikä tekee oppimisen ja maailmaa koskevan tiedon mahdolliseksi. On olemassa kolmentyyppistä annettuutta koskevaa myyttiä. Näiden myyttien mukaan Maailma (AM o ), sitä koskeva tieto (AM e ), ja kieli (AM l ) ovat annettuja. Tuomela hylkää kaikki kolme annetun myyttiä. Tämä tarkoittaa että: 48
eli: (a) maailma ei ole meille ontologisesti annettu (= (AM o )), (b) Ihmiset eivät voi olla ei-käsitteellisessä mutta silti kognitiivisessa vuorovaikutuksessa maailman kanssa (= (AM e )). (c) ei ole olemassa semanttisesti ensisijaista kieltä (= (AM l )). Tiede on paras maailman kuvaamisen tapa (scientia mensura -thesis) 49
Teorioiden rooli tietoperustan luomisessa Tuomelan mukaan realismille olemassaolevat vaihtoehdot ovat lähinnä empirismi, instrumentalismi ja ehkä pragmatismi. Empirismi pitää maailmaa sellaisena kuin se näyttää olevan. Maailma on meille annettu. Emipirismi uskoo välittömiin havaintoihin ja katsoo tutkimuksen tehtävänä olevan näiden havaintojen järjestämisen raportiksi. Instrumentalismi puolestaan pitää teorioita välineinä, joilla voidaan organisoida ja systematisoida dataa, ja pitää havaittavan jokapäiväisen maailman ja ei-havaittavien teorioiden välistä eroa luonteeltaan ontologisena. Realistiselle tutkijalle teoria ei ole vain väline, jolla yksittäisiä havaintoja järjestetään raportiksi. Se, että jokin ei ole havaittavissa, ei merkitse sitä, että ilmiö ei olisi olemassa. 50
Teoria määrittelee, mikä on olemassaolevaa: Oletetaan, että on olemassa teoria yhteiskuntaluokista. Realismin mukaan, mikäli teoria on kelvollinen, ovat luokat olemassa. Realismin variantista riippuen pidetään sekä tieteen avulla kuvattu ilmiö että arkipäivän ymmärryksen mukaista kuvausta olemassaolevana (minimaalinen realismi), tai vain parhaan mahdollisen teorian kuvaamaa ilmiötä totena, ja arkiymmärryksen kuvaamaa ilmiötä oikeastaan ei-olemassaolevana. 51
Teorioita tarvitaan erityisesti tekemään yhteiskunnalliset rakenteet näkyviksi. Yhteiskunnan keskeisiä aspekteja on todella vaikea kuvata induktiivisesti. Olipa kyse globalisaatiosta, pankkijärjestelmästä, rahasta tai sukupuolijärjestelmästä, on induktiivinen tutkimusstrategia hankaluuksissa. Induktivismin ongelmat ovat todellisia, ja siksi tilanne, jossa huomattava osa sosiaalityön tutkimuksesta nojaa vahvasti siihen, on pulmallinen sosiaalityön tietoperustan kehittymisen kannalta. 52
Bruce Thyer: sosiaalityön tutkimuksessa on päästävä eroon teorioiden tavoittelusta ja keskityttävä interventioiden vaikutusten arviointiin. Näitä arviointeja yhteenliittämälä voidaan luoda tietoperusta sosiaalityölle. Tomi Gomoryn mielestä Thyerin verifikationistinen sosiaalityön tutkimus pyrkii induktiivisesti osoittamaan, että koska yhdessä tutkimuksessa on voitu todeta jonkin menettelytavan olevan hyödyllinen, ja sama tulos voidaan osoittaa toisissakin tutkimuksissa, on valittu interventio todistettu hyväksi. Hänen mukaansa tämä strategia on kestämätön, eikä johda sosiaalityön tietoperustan kehittymiseen. Monenkaan testauksen jälkeen on vaikea osoittaa, että interventio todellakin auttaa asiakkaita toivotulla tavalla. 53
Vaihtoehtoiseksi strategiaksi Gomory esittää popperilaista falsifikationistista ohjelmaa, jossa pyrittäisiin fallibilistisesti ja noninduktiivisesti testaamaan teorioita. Tavoitteena ei olisi pyrkiä induktiivisesti osoittamaan toistuvilla testeillä, että jokin interventio toimii, vaan teorioiden toimivuutta testaamalla osoittamaan, mikä niissä ei toimi. Siksi Thyerin vaatimus teoriattomasta empiirisestä tutkimuksesta on pulmallinen, eikä johda sosiaalityön tietoperustan kehittymiseen. 54
Normatiivisista johtopäätöksistä: Hilary Putnam: Ajatus, jonka mukaan tosiasiat ja arvo voitaisiin jyrkästi erottaa toisistaan on väärin. Mutta vaikka onkin totta, että on olemassa oikeita ja vääriä moraalisia päätelmiä, parempia ja huonompia moraalisia käsityksiä ja oikeita ja vääriä evaluatiivisia arvioita, kyse ei kuitenkaan ole metafyysisestä ideasta vaan pikemminkin praktisesta ideasta. 55
Evaluatiivisessa tutkimuksessa kysytään aina kausaatiopäättelyä (causal inference). Sosiaalityön menetelmiä on erittäin vaikea opettaa, jos lähtökohtana on, että kausaalipäättely ei ole sallittua. Miten voidaan olettaa, että joku menetelmä olisi opettamisen arvoinen, jos ei laisinkaan oleteta sen seurauksia. Sama dilemma koskee evaluaatiotutkimusta: ohjelmaevaluaatiossa tehdään aina kausaalipäättelyä, vaikka sitä ei välttämättä kutsuta siksi. 56
Realistit ovat esittäneet humelaisen kausaalipäättelyn tilalle generatiivista kausaalipäättelyä, jossa edetään kontekstissa vaikuttavien mekanismien luoman alttiuden tai taipumuksen analyysin kautta. Syntynyt vaikutus (outcome) on mahdollista vain tietyssä kontekstissa, ympäristössä tai organisaatiossa. Tässä kontekstissa vaikuttaa joukko voimia, joiden tarkkaa keskinäistä vuorovaikutusta ei tunneta, eikä ehkä voida loppuun saakka tunteakaan. Voimat näyttävät kuitenkin aikaansaavan kohtuullisen säännöllisesti tietynkaltaisia seurauksia. Siksi voidaan puhua kontekstissa syntyvästä alttiudesta. Konteksti, siinä vaikuttavat mekanismit ja niiden yhdessä aikaansaama vaikutus muodostavat systeemin, jota voidaan analysoida realistisen evaluaation keinoin. 57
Samalla tavalla pulmallista on omaksua relativistinen asenne (sosiaalityössä/evaluaatiotutkimuksessa). Michael Scrivenin mukaan relativistinen asenne evaluaatiossa on yksinkertaisesti virhe. Relativismi on ristiriitainen kanta, joka kumoutuu itsestään. Jos relativismi olisi totta, olisi väite relativismi on totta yhtä vähän totta kuin väite relativismi ei ole totta, ja siksi relativismi ei voi olla totta. Siksi relativismi on väärässä. Bhaskar ei hyväksy tätä - mutta Putnam hyväksyy. 58
Eileen Gambrill esittää sosiaalityön tietoperustaa koskevan kriisin ratkaisuksi näyttöön perustuvan ammattikäytännön edistämistä. Näyttöön perustuvan ammattikäytännön mahdollisuus perustuu kriittisen ilmapiirin syntymiseen sosiaalityössä ja myös siihen, että asiakkaat otetaan mukaan tiedontuotantoon hyvin informoituina osallisina. Raimo Tuomelan mukaan tiede on kuin laiva, jonka kaikki lankut ja laudat voidaan vaihtaa kesken purjehduksen. Tiede on itseään korjaava järjestelmä. Tulostensa ohella tiede korjaa myös metodejaan, metodologiaansa ja teorioitaan - itseään. Valmius itsensä korjaamiseen tulisi olla sosiaalityönkin tutkimuksen tavoitteena mikäli se haluaa edistyä. Sosiaalityön tutkimuksen olisi hyvä pyrkiä objektiivisuuteen, kriittiseen asenteeseen, testattavuuteen, itsensä korjaavuuteen, autonomiaan ja kumuloituvuuteen. 59
Mikä realismissa on lopulta oleellista sosiaalityön tietoperustan kehittämisen kannalta? Mielestäni oleellista on teoreettisen analyysin tuoma kriittisen tutkimuksen mahdollisuus ja tiedon kumuloivuus. Sosiaalityön tutkimuksen tulisi ottaa huomioon yhteiskuntarakenteiden vaikutukset, historia ja ympäristö. Tässä kovassa haasteessa kriittinen realismi tarjoaa välineitä sekä sosiaalityön interventioiden tutkimiseen että sosiaalityön vaikutusten analyysiin sekä metatasolla että mikrotasolla. Kumuloivuus syntyy siitä, että yksittäisten tutkimusten tuloksia toisaalta vedetään yhteen teorioiden avulla, toisaalta siitä, että teoreettisten johtopäätösten perusteella tehtävä empiirinen tutkimus testaa ja osoittaa vääräksi aiemmin tiedettyä. 60
6.1 Esimerkkejä realistisen arvioinnin käytöstä Ilmari Rostilan Monet-projekti. EU:n Employment Integra -projekti, joka on järjestänyt työttömiä kuntouttavaa toimintaa syrjäytymiskehityksen katkaisemiseksi. Projekti on ollut osa EU:n pilottitoimintaa, jossa on etsitty kolmannen sektorin uusia työllistämismahdollisuuksia ("Third System and Employment Pilot Action"). Projekti alkoi vuoden 1998 alussa ja päättyi vuoden 2000 lopussa. Monet-projektissa kehitetty sosiaalisen kuntoutuksen toimintamalli. Marja Holmila (toim.) Asuinalue ja päihdehaitat. Arviointitutkimus ehkäisevästä paikallistoiminnasta Tikkurilassa ja Myllypurossa. Raportti esittää alueellisen päihdehaittojen ehkäisykokeilun evaluoinnin tulokset. 61
Mansoor Kazin realistinen arviointi Mansoor A.F. Kazi Huddersfieldin yliopistosta on kehittänyt tapauskohtaiseen arviointiin perustuvan asiakastyön vaikutusten arvioinnin menetelmän, jossa hyödynnetään realistisen arvioinnin (Pawson ja Tilley) CMO-analyysin periaatteita. Asiakastyön vaikuttavuutta tarkastellaan asiakkaan elämän kontekstissa, ja hänen elämäänsä vaikuttavat mekanismit pyritään tunnistamaan. Riippumattomana muuttujana on syntyneet vaikutukset (outcomes). Analyysissa käytetään binäärilogistista regressioanalyysia. Kazin menetelmää sovelletaan käynnissä olevissa projekteissa Helsingin sosiaaliviraston eri toimipisteissä. 62
7 Arvioinnin etiikka Amerikkalaisen arviointiyhdistyksen (American Evaluation Association) eettiset ohjeet syntyivät laajana yhteistyönä. (AEA, 2001) Amerikkalaisella arviointiyhdistyksellä on viisi arvioinnin eettistä periaatetta: Järjestelmällisyys (Systematic Inquiry) Pätevyys (Competency) Rehellisyys (Integrity/Honesty) Ihmisten kunnioittaminen (Respect for people) Yhteiskunnallinen vastuu (Responsibilities for General and Public Welfare) 63
8 Arvioinnin keskeiset elementit Erilaisia tarkistuslista -tyyppisiä luetteloita siitä, mitä arvioinnin tulee pitää sisällään, on olemassa runsaasti. Michael Scrivenin kehittämä Key Evaluation Checklist (Scriven, 1991b) pitää sisällään seuraavat välttämättömät osat (eli nämä elementit on aina löydettävä arvioinnista): Kuvaus: Mitä aiotaaan arvioida. Arvioinnin kohde tulee kuvata oikein, mikä ei välttämättä ole sama kuvaus kuin se, jonka arvioinnin tilaaja kohteesta esittää. Kuvauksen tulee tunnistaa komponentit, jotka kohteessa on olemassa. Tilaajan antama kuvaus on käännettävä mitattavissa olevalle kielelle, eli operationalisoitava. Tausta ja konteksti. Taustoitus luo perspektiiviä ja auttaa suunnittelemaan arviointiasetelmaa. Tähän kuuluu asiakkaiden 64
ja panostenhaltijoiden tunnistaminen. Mitä arvioinnin kohteena olevan asian/ilmiön on tarkoitus tavoitella. Mitä sen uskotaan tekevän. Tässä vaiheessa myös täsmennetään, millaisesta arviointiasetelmasta on kysymys, onko tarkoitus tehdä formatiivista vai summatiivista, ritualistista vai aitoa, tavoiteperustaista vai tavoitevapaata arviointita. + Kuka tai ketkä hyötyvät arvioinnin kohteena olevan ilmiön vaikutuksesta? Kuka tarvitsisi arvioinnin kohteena olevaa ilmiötä, esimerkiksi palvelua, mutta jää sitä ilman. Vastaanottajat tai asiakkaat on tunnistettava. Veronmaksajat ovat usein tärkeitä asiakkaita. Mikä on arvioinnin kohteen kokonaisvaikutus (Outcomes). Tarkoitetut asiakkaat tunnistetaan edellisessä kohdassa, tässä aidot asiakkaat. Resurssien kartoitus. Kyse on arvioinnin kohteen vahvuuksien arvioinnista sen sijaan että arvioitaisiin asiakkaiden tarpeita. 65
Mitä eri resursseja arvioinnin kohteella on käytettävissään. Kyse ei ole sen kartoittamisesta, mitä resursseja todellisuudessa tällä hetkellä käytetään, vaan mitä voitaisiin käyttää. Kyse voi olla rahaasta, asiantuntemusta teknologiasta, asiakkaiden tai palvelujen käyttäjien valikoinnista jne. Arvot. Arviointi perustuu aina arvoihin. Arviointiprosessi pitää sisällään arvojen tunnistamisen. Sitä tarvitaan kun faktojen perusteella tehdään lopuksi arvottavia johtopäätöksiä. Arvojen tunnistaminen voi tapahtua arvioinnin kohteen vaikutuspiirissä olevan väestön tarveanalyysin kautta. On epäammattimaista tehdä relativistista arviointita, jossa hyväksytään työskentelyn perustaksi arvoja niitä testaamatta tai arvioimatta. Prosessi. Prosessin hahmottelu aloitettiin kuvailussa, ja nyt edellisessä kohdassa tunnistetut arvot otetaan käyttöön tässä prosesissa. Prosessin kuluessa arvioinnin kohteen kaikki 66
ominaisuudet analysoidaan keräämällä niistä tietoa ja soveltamalla tässä tiedonkeruussa edellä täsmennettyjä arvoja. Vaikutukset (Outcomes). Mitä arvioinnin kohteen avulla saadaan aikaiseksi? Millaisia tarkoitettuja ja tarkoittamattomia vaikutuksia sillä on? Tarkoitetut ja tarkoittamattomat vaikutukset tulee erottaa toisistaan. Painopisteenä tulee olla, mitä lisäarvoa arvioinnin kohteella oikeasti saavutetaan. Harvard-erhettä tulee tarkkailla. a Se, mitä pidetään vaikutuksena, vaikuttaa olennaisesti arviointiasetelmaan. Vaikutukset tulee erottaa prosessista. Rahan kuluminen ei ole toiminnan vaikutus, se on vain kulu. Samoin se, että ohjelma a Harvard-erheellä tarkoitetaan erityisesti koulutuksen arvioinnissa havaittua ilmiötä. Jos haluamme verrata toisiinsa Kuopion yliopiston ja Harvard Universityn opetuksen laatua, ei vertailua voi suorittaa pelkästään esimerkiksi laskemalla, kummassa yliopistossa on valmistunut enemmän nobelisteja. Vertailussa on huomioitava myös opiskelemaan tulevien nuorten motivaatio, kyvyt ja taidot. 67
työllistää ihmisiä ei ole vaikutus, vaan prosessin ominaisuus. Summatiiviset (siis vaikutusta kaikkien asiakkaiden kohdalta tarkastelevat) tilastot eivät ole riittävän hyviä. Usein kokonaisvaikutusta mittaavat tilastot voivat osoittaa nollaa tai miinusta, mutta se, että esimerkiksi köyhät tai etniseen vähemmistöön kuuluvat ihmiset hyötyvät, voi olla hyvin tärkeää. Tässä arvot tulevat taas mukaan. Mikä on kausaatio mikä vaikuttaa, jotta vaikutuksia syntyy. Kustannukset. Tässä arvioidaan, miten käytettävissä olevat taloudelliset resurssit suhteutuvat asiakkaiden määriin, henkilöstöön, käytettävissä olevaan aikaan. Kyse voi olla myös suorien ja epäsuorien kustannusten kirjaamisesta. Vertailu vaihtoehtoisten mallien välillä. Tunnistetut ja ei-tunnistetut vaihtoehdot. Mitä muita toimintamalleja voi olla olemassa. Erityisen tärkeitä ovat kriittiset kilpailijat eli sellaiset, 68
jotka saavat parempia tuloksia pienemmillä panoksilla. Yleistettävyys. Mitä hyötyä toimintamallista voisi olla, jos toiset ihmiset käyttäisivät sitä. Millaisia markkinoita sovelletulle toimintatavalle voisi olla. Merkitys. Arvio kaikesta edellä sanotusta, synteesi, joka tuottaa arvion arvioinnin kohteen suhteellisesta kustannus-tehokkuudesta todellisiin tarpeisiin vastaamisessa, ja pitäen mielessä eettiset ja lailliset näkökohdat, sivuvaikutukset ja mallin mahdollisen yleistettävyyden. Synteesin tekemistä ei voi pääsääntöisesti jättää asiakkaalle. Suositukset. Tilaaja voi toivoa näitä tai sitten ei. Tilaaja voi seurata niitä tai ei. Raportti. Raportoinnin kieli, mitta, formaatti, väline, aika, paikka ja henkilöstö on harkittava huolella. Samoin salaisuus, julkisuus 69
ja ennakkotarkastus. Formatiivisessa arvioinnissa raportoinnilla on koulutusfunktioita. Raportoinnissa on sekä tieteellisen esittämisen että arkikielisen esittämisen funktioita ja tarpeita. Visuaalinen ulkoasu on tärkeä tekijä. Meta-arviointi. Ammattilainen käsittelee omaa tuotostaan samalla kriittisyydellä kuin arvioinnin kohdettakin. 70
Viitteet AEA (2001) Guiding Principles for Evaluators. American Evaluation Association. Tulostettu 10.5.2001 http://www.eval.org/evaluationdocuments/aeaprin6.html. Albæk, Erik (1997) Miksi kaikki evaluoivat. Janus 5 (4), 371 397. Bloom, Martin (1975) The Paradox of Helping: Introduction to the Philosophy of Scientific Practice. New York: John Wiley & Sons, Inc. Bloom, Martin, Fischer, Joel (1982) Evaluating Practice: guidelines for the accountable professional. Englewood Cliffs: Prentice-Hall Inc. Blythe, Betty J., Rodgers, Antoinette Y. (1993) Evaluating our own practice: past, present and future trends. Teoksessa Single-System Designs in the social services: issues and options for the 1990s, toimittaja Martin Bloom. Binghampton, N.Y.: The Haworth Press, sivut 101 119. 70-1
Cheetham, Juliet, Fuller, Roger, McIvor, Gill, Petch, Alison (1992) Evaluating social work effectiveness. Buckingham: Open University. Fetterman, David M., Kaftarian, Shakeh J., Wandersman, Abraham (toimittajat) (1996) Empowerment Evaluation. Knowledge and Tools for Self- Assessment and Accountability. Thousand Oaks, CA: Sage. Fischer, Joel (1981) The Social Work Revolution. Social Work 26, 199 207. Frankfort-Nachmias, Chava, Nachmias, David (1996) Research Methods in the Social Science. London - Sydney - Aucland: Arnold, viides painos. Guba, Egon G., Lincoln, Yvonna S. (1989) Fourth Generation Evaluation. Newbury Park, London, New Delhi: Sage. Hansson, Finn (1997) Evaluation Traditions in Denmark: Critical comments and perspectives. Evaluation 3 (1), 85 97. Kazi, Mansoor A.F. (1998) Single-Case Evaluation by Social Workers. Ashgate. 70-2
Liski-Puntanen (1975) Tilastotieteen opetusmoniste. Liski-Puntanen. Martin, Lawrence L., Kettner, Peter M. (1997) Performance measurement: the new accountability. Administration in Social Work 21 (1), 17 29. Mäntysaari, Mikko (1999) Arviointitutkimuksen taustaoletukset. Teoksessa Arviointi ja asiantuntijuus, toimittajat Risto Eräsaari, Tuija Lindqvist, Mikko Mäntysaari, Marketta Rajavaara. Helsinki: Gaudeamus, sivut 54 68. Orr, Larry L. (1999) Social Experiments. Evaluating Public Programs with Experimental methods. Sage. Patton, Michael Quinn (1990) Qualitative Evaluation and Research Methods. Newbury Park,London,New Delhi: Sage, second edition painos. (1997) Utilization-focused Evaluation. The New Century Text. Sage, kolmas painos. Pawson, Ray, Tilley, Nick (1997) Realistic Evaluation. Oaks and New Delhi: Sage Publications. London, Thousand 70-3
Rajavaara, Marketta (1999) Arviointitutkimuksen hyödynnettävyys. Teoksessa Arviointi ja asiantuntijuus, toimittajat Risto Eräsaari, Tuija Lindqvist, Mikko Mäntysaari, Marketta Rajavaara. Gaudeamus, sivu XXX. Rossi, Peter H., Lipsey, Mark W., Freeman, Howard E. (2004) Evaluation. A systematic approach. Sage, 7. painos. Rostila, Ilmari, Mäntysaari, Mikko (1997a) Tapauskohtainen arviointi sosiaalityössä menetelmän rajat ja mahdollisuudet. Janus 5 (4), 398 415. (1997b) Tapauskohtainen evaluointi sosiaalityön välineenä. Raportteja no. 212. Helsinki: STAKES. Scriven, Michael (1991a) Evaluation Thesaurus. Newbury Park,CA: Sage, neljäs painos. (1991b) Evaluation Thesaurus. SAGE Publications, neljäs painos. 70-4