Käytech päätösseminaari. Risto Heikkinen. Tilastollinen estimointi käytettävyystestien koehenkilöiden lukumäärän optimoinnin apuvälineenä

Käytech päätösseminaari Risto Heikkinen Tilastollinen estimointi käytettävyystestien koehenkilöiden lukumäärän optimoinnin apuvälineenä JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Tilastotiede Lokakuu 2007

Sisältö 1 Johdanto 2 2 Ongelman esittely 3 2.1 Aiemman tutkimukset...................... 4 3 Menetelmä 5 3.1 Merkintöjä ja oletuksia...................... 6 3.2 Suurimman uskottavuuden estimointi.............. 7 3.3 Muita estimaattoreita....................... 10 3.4 Lisäkoehenkilöiden valinnasta.................. 11 1

1 Johdanto Yleinen käytäntö testata käyttöliittymät on valita satunnaisesti n kappaletta käyttöliittymän kohderyhmään kuuluvaa henkilöä suorittamaan ennalta määrättyjä testitehtäviä. Käyttöliittymä voi tässä tapauksessa tarkoittaa yhtä hyvin tietokonesovelluksen, web-sivuston tai matkapuhelimen käyttöliittymää. Yksi käytettävyystestauksen vaikeimmista ongelmista on koehenkilöiden lukumäärän järkevä valinta. Jos valitaan liian vähän koehenkilöitä, voi useita merkittäviä ongelmia jäädä paikantamatta. Liian suuri koehenkilölukumäärä taas aiheuttaa turhia kustannuksia ja hidastaa tutkimustyötä. Tämä on erityisen ongelmallinen valinta, koska etukäteen emme voi tietää, kuinka paljon käyttöliittymässä ongelmia on ja kuinka helposti yksi koehenkilö kunkin virheen löytää. Tarkoituksena on tutkia näitä ongelmia tilastotieteen tarjoamin keinoin. Tulen johtamaan estimaattorit: ongelmien paikantamistodennäköisyydelle havaitsemattomien ongelmien lukumäärälle Pohdin myös koehenkilöiden lukumäärän optimointia näiden estimaattoreiden avulla 2

2 Ongelman esittely Oletetaan, että aineistona on dikotomisesti (1/0) koodattu tieto siitä, törmäsikö tietty koehenkilö tiettyyn havaittuun ongelmaan vai ei Ongelmana on valita koehenkilöiden lukumäärä n niin, että toivottu osuus käyttöliittymässä olevista käytettävyysongelmista löytyy, mutta vältyttäisiin turhilta kustannuksilta ja aikataulujen venymisiltä. Perustellun ratkaisun löytämiseksi, täytyy meillä olla tietoa käytettävyysongelmien todellisesta lukumäärästä ja käytettävyysongelmien paikantamistodennäköisyydestä. 3

2.1 Aiemman tutkimukset Jakob Nielsen: "5 koehenkilöä riittää" [1] kritisoitu (esim Woolrych ja Cockton [2]) aiheellisesti, koska siitä oletetaan, että ongelmat löytyvät aina 31% todennäköisyydellä kyseinen todennäköisyys on keskiarvo suuresta joukosta Nielsenin tutkimuksia kuitenkin kyseinen paikantamistodennäköisyys voi vaihdella suurestikin eri käyttöliittymien välillä luottaminen sokeasti 31% todennäköisyyteen tulee johtamaan helposti virheellisiin johtopäätöksiin Paikantamistodennäköisyyden estimointia on tutkinut James R. Lewis [3] testaa omilla tutkimusaineistolla erilaisien estimaattoreiden ja niiden kombitaatioiden toimivuutta lopulliset valinnat ei tukeudu matemaattiseen teoriaan 4

3 Menetelmä Lähden lähestymään optimaalisen koehenkilöiden määrään liittyvää ongelmaa suurimman uskottavuuden estimoinnin kautta. Koska tarvitsemme aineistoa estimointiin, on käytettävyystestaus jaettava seuraaviin vaiheesiin: 0) Pilottitesti. Testataan, että tutkimusvälineistö ja tekniikka toimii. Ei huomioida tuloksia jatkoanalyysiin. I) Kartoitustestit. Suoritetaan suunnitelman mukainen testaus muutaman koehenkilön kanssa. II) Kartoitustestien tuloksien avulla estimoidaan vielä löytämättömien ongelmien lukumäärää ja ongelmien paikantamistodennäköisyyttä. Näiden tuloksien avulla valitaan optimaalinen määrä lisäkoehenkilöitä, jotka kutsutaan vielä suorittamaan testi. III) Suoritetaan testit loppuun ja analysoidaan tulokset. Lopullisessa anlyysissa on siis mukana sekä I) että III) vaiheen koehenkilöt. III)-vaiheen jälkeen on vielä mahdollista toistaa vaihe II) uudella isommalla aineistolla ja mahdollisesti vielä kutsua lisää koehenkilöitä, mikäli vaikuttaa ettei olla vielä löydetty haluttua osuutta ongelmista. 5

3.1 Merkintöjä ja oletuksia Oletetaan, että on tehty kartoitustestit ja siitä muodostetussa aineistossa on määritelty seuraavat muuttujat ja tunnusluvut N = ongelmien kokonaislukumäärä (havaitut ja havaitsemattomat), n = testattujen koehenkilöiden lukumäärä, x ij = 1, kun koehenkilö i havaitsee ongelman j, = 0, muulloin, p j = P (x ij = 1) = ongelman j paikantamistodennäköisyys kun i satunnainen, y j = n x ij = koehenkilöiden lukumäärä, jotka löysivät ongelman j, f k = s = i=1 N I(y j = k) = niiden ongelmien lukumäärä jotka löytyivät k kertaa, k = 0, 1,..., n, j=1 n f k = k=1 N I(y j > k) = havaittujen ongelmien lukumäärä, j=1 ν = N s = havaitsemattomien ongelmien lukumäärä, tuntematon. Huomioitavaa on se, että ainoastaan aidosti positiiviset arvot y j havaitaan. Myös f 1,..., f n havaitaan, mutta f 0 on tuntematon. Oletetaan, koehenkilöt löytävät ongelmat toisistaan riippumatta, joten x ij ovat riippumattomia toisistaan, kuten myös y j 6

3.2 Suurimman uskottavuuden estimointi Oletetaan käyttöliittymän kaikkien ongelmien löytyvän ainakin likimain yhtä suurella todennäköisyydellä: p j = p, kaikilla j = 0, 1,..., n. Nyt Y j Bin(n, p) kaikilla j = 0, 1,..., n. Todennäköisyys, että yksi tietty ongelma j löytyy: P (Y j > 0) = 1 (1 p) n Havaittujen ongelmien lukumäärä s voidaan ajatella myös toistokokeena: S Bin(N, 1 (1 p) n ). Koska ainoastaan aidosti positiiviset y j :n arvot havaitaan, käytämme uskottavuusfunktiossa ehdollista (katkaistua) binomijakaumaa P (Y j = y j, Y j > 0) = ( n y j ) p y j (1 p) n y j 1 (1 p) n Näillä tiedoilla voimme johtaa uskottavuusfunktion havainnoille. Uskottavuusfunktiossa käytetään merkintää t = s j=1 y j L = P (S = s, Y 1 = y 1,..., Y s = y s ) = P (S = s)p (Y 1 = y 1,..., Y s = y s S = s) ( ) [ ] t N p (1 p) nn s 1 p Koska mielenkiinto kohdistuu havaitsemattomiin ongelmiin ja havaitsemistodennäköisyyteen, merkitään s + ν = N ja kirjoitetaan uskottavuusfunktio muotoon L(ν, p) [ ] t (s + ν)! p (1 p) n(s+ν) s!ν! 1 p Lähdetään maksimoimaan tätä ensiksi ν:n suhteen. Tehdään se tutkimalla funktion käyttäytymistä kahden peräkkäsen uskottavuusfunktion pisteen avulla, kun p ajatellaan kiinnitetyksi. 7

r(ν) = = L(ν) L(ν 1) (s + ν) (1 p) n ν Kun L(ν) on kasvava, suhde r(ν) 1. Ratkaistaan epäyhtälö olettaen, että ν > 0 s + ν (1 p) n ν 1 ν s(1 p) n 1 (1 p) n Vaikka ν on käytännössä kokonaislukuarvoinen muuttuja käsitellään sitä toistaiseksi reaalilukuna. SU-estimaattori on siis ν(p) = s(1 p)n 1 (1 p) n p:n SU-estimaattoria ei pystytä ratkaisemaan suljetussa muodossa mutta se löytyy maksimoimalla numeerisesti logaritminen proiliuskottavuus, jossa kertomat on korvattu gammafunktioilla: λ(p) log Γ(s + ν(p) + 1) + t log p + (n(s + ν(p)) t) log(1 p) Γ(s + 1)Γ( ν(p) + 1) Olkoon tämän maksimi p Lopullinen (reaaliarvoinen) estimaattori havaitsemattomille ongelmille, kun p on tuntematon, on siis: ν( p) = s(1 p)n 1 (1 p) n Estimaattorin odotusarvo ja varianssi kun p on tunnettu: E( ν) = N(1 p) n V ar( ν) = (1 p)3n N 1 (1 p) n 8

Näiden avulla saadaan johdettua log-normaalinen approksimaatio ν:n (1-α)% luottamusvälille: ν exp( z α σ + 1 2 2 σ2 ) s ν ν exp(z α σ + 1 2 2 σ2 ) s (1 p) n (1 p) n σ = log(1 + V ar( ν) E( ν) 2 ) z α 2 = std. normaalijakauman(1 α )% fraktiili 2 Simulointikokeiden perusteella V ar( ν) aliestimoituu rajusti, kun p on tuntematon ja joudumme käyttämään p :a. Tällöin luottamusvälikään ei ole luotettava (tutkimukset jatkuu...) Kun pyritään kokonaislukuarvoiseen estimaattoriin [ ] löytämättömien [ ongelmien lukumäärälle, valitaan joko ν N = S(1 ˆp) n ] tai ν 1 (1 ˆp) n N = S(1 ˆp) n + 1 1 (1 ˆp) n sen mukaan, kumpi saa suuremman arvon uskottavuusfunktiossa. Käytännössä järkevä ja vaivaton ratkaisu on pyöristää reaaliarvoinen estimaatti ylöspäin, mikäli se ei ole kokonaisluku 9

3.3 Muita estimaattoreita Oletus paikantamistodennäköisyyksien yhtäsuuruudesta ei välttämättä aina ole järkevä ja silloin edellisessä kappaleessa johdettu ν aliestimoituu SU-estimointi on eriävillä paikantamistodennäköisyyksillä hankalaa ja pienellä otoskoolla ei voida olettaa päästävän kovin luotettaviin tuloksiin Eläinlajien lukumäärän arviointi on vastaava ongelma käytettävyysongelmien lukumäärän kanssa, eikä kaikkia eläinlajeja yleensä voida olettaa havaittavan samalla todennäköisyydellä Eläinlajien tutkijat ovat käyttäneet mm. seuraavia estimaattoreita kokonaislajimäärän arviointiin: 1. asteen Jackknife estimaattori N JN1 = s + n 1f n 1 [4] Chaon estimaattori N CHAO1 = s + f 1 2 2f 2 [5] 10

3.4 Lisäkoehenkilöiden valinnasta Oletetaan, että paikantamistodennäköisyydet ovat yhtäsuuria ja että meillä on estimoitu ˆν (kokonaisluku) ja ˆp Määritellään uudet muuttujat S 2 =jatkotestauksessa löydettävät uudet ongelmat n 2 =lisäkoehenkilöiden lukumäärä κ =löytötavoite(kuinka monta uutta ongelmaa toivotaan vähintään löydettävän) Nyt S 2 Bin(ν, 1 (1 p) n 2 ), eli likimain S 2 Bin(ˆν, 1 (1 ˆp) n 2 ) Binomijakauman kertymäfunktion kautta päästään käsiksi lopulliseen ratkaisuun P (S 2 κ) = ˆν ) (ˆν i=κ i (1 (1 ˆp) n 2 ) i (1 ˆp) (ˆν i)n 2 Edelliseen kaavaan voidaan sijoittaa eri n 2 arvoja, ja valita uudeksi koehenkilöiden lukumääräksi ensimmäinen, jolla tyydyttävä todennäköisyys (esim. 50%) tulee täyteen. Esimerkki. Olkoon meillä aineisto, jossa s = 15 ja on laskettu estimaatit ˆν = 5 sekä ˆp = 0.25. Tällöin ˆN = 15 + 5 = 20. Seuraavassa taulukossa erilaisilla n 2 arvoilla laskettuja todennäköisyyksiä P (S 2 κ), kun tavoitteena on löytää vähintään 90% (=18 kpl)kaikista ongelmista. Ts. 3 uutta ongelmaa. n 2 P (S 2 3) 2 0.38 3 0.64 5 0.91 6 0.96 8 0.99 Vastaava taulukko, kun tavoitteena on löytää kaikki löydettävisää olevat ongelmat n 2 P (S 2 5) 6 0.38 7 0.49 10 0.75 14 0.91 16 0.95 11

Viitteet [1] Jakob Nielsen, Why You Only Need to Test With 5 Users. Jakob Nielsen's Alertbox, http://www.useit.com/alertbox/20000319.html, 2000. [2] Alan Woolrych, Gilbert Cockton, Why and When Five Test Users are not Enough. Proceedings of IHM-HCI Conference, 2001. [3] James R. Lewis, Evaluation of Procedures for Adjusting Problem- Discovery Rates Estimated From Small Samples, International Journal of Human-Computer Interaction, 13 (4) pp. 445-479, 2001. [4] K.P. Burnham, W.S. Overton, Estimation of the size of a closed population when capture probabilities vary among animals. Biometrika, 1978. [5] Anne Chao, Estimating the Population Size for Capture-Recapture Data with Unequal Catchability.Biometrics, 1987. 12