Lauri Tarkkonen: Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus Tässä rajoitutaan tarkastelemaan kahden arvioitsijan tapausta, Olettakaamme, että n havaintoa on arvioitu kahden arvioitsijan toimesta toisistaan riippumatta ja arviot tapahtuvat nominaaliasteikolla (esim. diagnoosi, kohteen tunnistaminen tms.) Taulukko 1 Kahden arvioitsijan diagnoosit, n=100. Arvioitsija A Psyk. Neur. Org. Total Psyk..75.01.04.80 Neur..05.04.01.10 Org.00.00.10.10 Tot.80.05.15 1.00 On mahdollista, että arvioitsijat olisivat enemmän yhtä mieltä, jostain diagnoosista, kenties se eroaa selkeämmin kaikista muista tai se olisi helpompi tunnistaa. Sen vuoksi tarkastellaan aluksi jokaista diagnoosia erikseen. Taulukko 1 supistetaan siten, että otetaan vuorollaan jokainen diagnoosi ja verrataan sitä jäljelle jääviin. Syntyy kolme mallin Taulukko kaltaista taulukkoa. Taulukko Arvioitsija A Diag_X Ei_X Total Diag_X a b p 1 Ei_X c d q 1 Tot p 1.0 Arvioitsija A Psyk. Ei_psyk. Total Psyk..75.05.80 Ei_psyk..05.15.0 Tot.80.0 1.00
Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus Seuraavaksi tarkastellaan Neuroottisuutta: Arvioitsija A Neur. Ei_Neur. Total Neur..04.06.10 Ei_Neur..01.89.90 Tot.05.95 1.00 Ja viimeksi Orgaanisperäistä häiriötä: Arvioitsija A Organ. Ei_Organ. Total Organ..10.00.10 Ei_Organ..05.85.90 Tot.15.85 1.00 Useimmiten käytetty tunnusluku arvioitsijoiden vastaavuudelle on tässä tapauksessa p o = a + d. Usein kirjallisuudessa esiintyvä kilpailija on p 0-1. Edellä olevista taulukoista voidaan laskea nämä indeksit: Psyk.: p o ->.75+.15=0.90 *.90-1=0.80 Neur.: p o ->.04+.89=0.93 *.93-1=0.86 Org.: p o ->.10+.85=0.95 *.95-1=0.90 Jos tarkasteltava arvo on hyvin harvinainen, niin silloin d on usein iso, ja ilmiön poissaolo dominoi mainittuja suureita. Tämän vuoksi on haluttu muodostaa sellaisia tunnuslukuja, jotka muodostetaan ilman tätä poissaolevaa kategoriaan. = *a/(*a + b + c) Tälle voidaan antaa myös probabilistinen tulkinta, jos valitaan ensin satunnaisesti toinen arvioitsija ja katsotaan minkä arvo hän antaa, niin on ehdollinen todennäköisyys toisen arvioitsijan antamalle arvolle. Edellä olevista taulukoista voidaan laskea nämä indeksit: Psyk.: -> *.75/(*.75+.05+.05)=0.94 Neur.: -> *.04/(*.04+.06+.01)=0.53 Org.: -> *.10/(*.10+.05+.00)=0.80 Goodman ja Kruskal suosittelivat hieman erilaista indeksiä, λ r = (*a-(b+c))/((*a+(b+c))
Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus 3 Tämä voidaan laskea vastaavasti kaikille ryhmille: Psyk.: λ r -> (*.75-(.05+.05))/(*.75+(.05+.05))=0.88 Neur.: λ r -> (*.04-(.06+.01))/(*.04+(.06+.01))=0.07 Org.: λ r -> (*.10-(.05+.00))/(*.10+(.05+.00))=0.60 Joskus pelätään, että a dominoi tarkastelua ja rakennetaan kaava ilman a:ta, tavallaan :n komplementtina. = *d/(*d + b + c) Tällöin saadaan kaikille kolmelle kategorialle arvot: Psyk.: -> *.15/(*.15+.05+.05)=0.75 Neur.: -> *.89/(*.89+.06+.01)=0.96 Org.: -> *.85/(*.85+.05+.00)=0.97 Jälleen tarjotaan hieman erilainen kuva arvioitsijoiden yhdenmukaisuudesta. Lienee luonnollista ajatella, että kenties :n ja keskiarvo olisi turvallisempi. A = ( + )/ = a/(p 1 +p ) + d/(q 1 + ) Näin saadaan seuraavat arvot: Psyk.: A ->.75/(.80+.80)+.15/(.0+.0)=0.84 Neur.: A ->.04/(.10+.05)+.89/(.90+.95)=0.75 Org.: A ->.10/(.10+.15)+.85/(.90+.85)=0.89 Tällaisia indeksejä, jotka kuten kenties on jo havaittu asettavat arvioitsijoiden yhdenmukaisuuden eri järjestykseen joka kerta voidaan muodostaa, ja on muodostettukin useita muitakin. Sattuman vaikutuksen eliminoiminen Edelliset indeksitä eivät huomioi sattumaa, sillä vaikka arvioitsijat arpoisivat arvionsa, niin joissakin tapauksissa he päätyisivät samoihin arvioihin. Todennäköisyys samaan diagnoosiin sattumalta. Arvioitsija A Diag_X Ei_X Total Diag_X p 1 p p 1 p 1 Ei_X q 1 p q 1 q 1 Tot p 1.0
Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus 4 Arvioitsija A Psyk. Ei_psyk. Total Psyk..64.16.80 Ei_psyk..16.04.0 Tot.80.0 1.00 Seuraavaksi tarkastellaan Neuroottisuutta: Arvioitsija A Neur. Ei_Neur. Total Neur..005.095.10 Ei_Neur..045.855.90 Tot.05.95 1.00 Ja viimeksi Orgaanisperäistä häiriötä: Arvioitsija A Organ. Ei_Organ. Total Organ..015.085.10 Ei_Organ..135.765.90 Tot.15.85 1.00 Edellä esitetty p o = a + d kuvasi havaittua todennäköisyyttä arvioitsijoiden samanmielisyydelle, jos nyt merkitsemme p e = p 1 p + q 1, joka siis on todennäköisyys, että sattumalta päädytään samaan arvioon, niin erotus p o - p e kertoo kuinka paljon sattumaa parempi arvioitsijoiden tulos on. Koska p o ei olla olla suurempi kuin 1, niin osamäärä κ = (p o - p e )/(1 - p e ) = *(a*d-b*c)/(p1*q+p*q1) Voi saada suurimmillaan arvon 1 ja pienimmillään arvon -1, senkin vain jos pe =.5, muulloin se on välillä -1 ja 0. Voimme laskea κ:n edellä esitetyille oireille: Psyk.: κ -> ((.75+.15)-(.64+.04))/(1-(.64+.04))=0.69 Neur.: κ -> ((.04+.89)-(.005+.855))/(1-(.005+.855))=0.5 Org.: κ -> ((.10+.85)-(.015+.765))/(1-(.015+.765))=0.77
Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus 5 Tehdään edelläesitetyistä kertoimista yhteenveto: Oire p o λ r A κ Psyk.:.90.94.88.75.84.69 Neur.:.93.53.06.96.75.50 Org.:.95.80.60.97.89.77 Kirjallisuudessa väitetään, että κ on analoginen reliabiliteettikertoimen kanssa, jos reliabiliteettia estimoidaan intraclass korrelaation avulla. Tähän väitteeseen tulee kuitenkin suhtautua huomattavalla varauksella, sillä reliabiliteetin määritelmä on, jos x = t + e, jos t = tosiarvo ja e on mittausvirhe, niin x:n varianssi voidaan jakaa: s x = s t + s e, jolloin reliabiliteetti on: r xx = s t /s x eikä reliabiliteetti kahden neliön osamääränä voi olla negatiivinen. (Neliö ei voi olla negatiivinen luku reaalilukujärjestelmässämme.) Usein halutaan myös kokonaisarvio kahden arvioitsijan yhtenevyydelle, edellä esitetyn "diagnoosikohtaisen" arvion sijaan. Eräs tapa olisi laskea edellä esitettyjen kappojen painotettu keskiarvo, siten että painoina käytetään jälkimmäisessä kaavassa esitettyjen yksittäisten kappojen laskemissa käytettyjä nimittäjiä: p1*q+p*q1, mutta kaava voidaan esittää myös suoraan: Arvioitsija A 1... k Total 1 p 11 p 1... p 1k p 1. p 1 p... p k p................ k p k1 p k... p kk p k. Total p.1 p.... p.k 1 Nyt p o = Σ p ii ja p e = Σ p i. p.i Taulukon 1 perusteella voidaan laskea: p o ->.75+.04+.10=0.89 p e ->.80*.80+.10*.05+.10*.15=0.66 jolloin κ = (.89-.66)/(1-.66)=0.68 Jos oletamme, että kappa on nolla ympäristössä suurinpiirtein normaalisti jakautunut, s eo = sqrt(p e + p e - Σ p i. p.i (p i. +p.i ))/((1-p e )sqrt(n)), jolloin z = κ/s eo s eo -> sqrt((.66+.66^)-1.085)/((1-.66)*sqrt(100))=0.076 z =.68/.076=8.95
Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus 6 Laskeminen esimerkiksi SURVOlla: Jos aineistona on suhteellisia frekvenssejä, on muunnettava frekvensseiksi: Aineisto tarjolla useimmin frekvenssitaulukkona. N=100 TABLE FLEISS,x,X,F B PsychB NeurB OrgB A * PsychA.75.01.04 NeurA.05.04.01 OrgA.00.00.10 Okei, sitten vain frekvenssejä: TABLE FLEISS,y,Y,F B PsychB NeurB OrgB A * PsychA 75 1 4 NeurA 5 4 1 OrgA 0 0 10 /KAPPA FLEISS Kappa and related statistics from table FLEISS: N=100 ACCURACY=4 Kappa=(p0-pe)/(1-pe) se=mat_kappa.m(kappa,se) z=kappa/se p=1-n.f(0,1,z) x=n.g(0,1,1-a/) p0=mat_kappa.m(agr_rate,observed) ConfL=Kappa-x*se a=0.05 pe=mat_kappa.m(agr_rate,expected) ConfR=Kappa+x*se Kappa.=0.6765 ConfL.=0.571 z.=8.8791 se.=0.076 ConfR.=0.858 p.=0 Agreement rate expected by chance: pe.=0.66 Observed agreement rate: p0.=0.89