J. H. Goldberg, X. P. Kotval: Eye movement-derived measures of interface usability
Sisällys Johdanto (6 kalvoa) Menetelmä (6) Koe 1 (3) Koe 2 (3) Koe 3 (3) Mittareiden ja arvioiden välinen suhde (3) Diskussio (2) Omat kommentit (2)
Johdanto Käytettävyyden objektiivinen arviointi on Goldbergin ja Kotvalin mukaan toivottava päämäärä, koska Uusien käyttöliittymien kehitys on nopeaa ja laajalle levinnyttä. Tarjoaa mahdollisuuden kehittää uusia suunnitteluohjeita ja automatisoida käytettävyyden arviointia. Subjektiiviset tekniikat sitovat usein paljon resursseja.
Johdanto Golberg ja Kotval listaavat useita käytettävyyden arviointimetodeita ja taksonomioita Teoria-pohjaiset menetelmät Tarkistuslistat/standardit Kokeellinen tutkimukset Tehtäväpohjaiset mallit (esim. GOMS) Käyttäjälähtöinen arviointi Kognitiivinen läpikäynti, heuristiikat (Nielsen) Näissä menetelmissä on omat ongelmansa Silmänliikkeiden tutkimukseen perustuva menetelmä voisi tarjota ratkaisuja ongelmiin.
Johdanto Tutkijat esittelevät katseenseurannan aikaisempia sovellutuksia Esim. radiologia, liikennetutkimukset, lukututkimukset. Lisäksi käsitellään aikaisempaa tutkimusta silmänliikkeiden ja käytettävyyden välisestä suhteesta Käyttöliittymän käytettävyyden/laadun manipulointi. Luonnollisten silmänliikkeiden mittaaminen käyttötilanteessa. Aikaisempien tutkimusten tulokset eivät ole sitovia Tulokset kuitenkin osoittavat, että katseenseuranta saattaa tarjota mahdollisuuden kehittää kvantitatiivinen lähestymistapa käytettävyyden arviointiin.
Johdanto Goldberg ja Kotval valitsivat 11 silmänliikkeistä johdettua mittaria tutkiakseen niiden herkkyyttä käytettävyyden muutoksille Mittarit tuottavat informaatiota visuaalisen haun tuottavuudesta ja tehokkuudesta. Faktorianalyysi kokeiden tuloksista paljasti mittareista 3 ryhmää: Processing Local Search Global Search
Johdanto
Johdanto Kuten todettua, tutkimuksen päällimmäisenä tavoitteena oli tutkia katseenseurannan kehittämistä käytettävyyden arviointityökaluna. Kokeiden tarkoituksena oli tutkia valittujen silmänliikemittareiden herkkyyttä käytettävyyden muutoksille. Käytettävyyden muutokset/manipulaatiot sisälsivät käyttöliittymäkomponenttien ryhmittelyä (Grouping), näkyvyyttä (Visibility) ja esitysmuotoa (Representation) varioivia versioita samasta peruskäyttöliittymästä.
Menetelmä Silmänliikkeiden mittaamiseen käytettiin DBA Systems Model 626 katseenseurantalaitetta 60 Hz mittaustaajuus Kamera 56 cm etäisyydellä dominoivasta silmästä. Laite kalibroitiin useasti kokeiden aikana, jolloin päästin alle 0.5 virhetarkkuuteen. Katsedatan keräämiseen ja kokeiden esittämiseen käytettiin kahta 486-tasoista PC:tä. Fiksaatiot määritettiin vähintään 6 peräkkäisen katsepisteen joukosta Kesto > 100 ms Yli 40 pikselin päähän fiksaation keskiöstä osuva katsepiste päätti fiksaation.
Menetelmä Sakkadien määritettiin olevan peräkkäisten, toisistaan vähintään 160 pikselin (5.3 ) etäisyydellä olevien fiksaatioiden välillä.
Menetelmä Yksinkertaista piirto-ohjelmaa jäljittelevä käyttöliittymässä oli kaksi osaa: Työkalupaletti, jossa sijaitsevat yksittäiset työkalukomponentit olivat halkaisijaltaan 2.5 cm (2.2 ). Työpöytä, joka sisälsi ohjetekstilaatikon sekä koetehtävissä etenemiseen käytetyt painikkeet. Tehtävänä jokaisessa kokeessa oli valita ohjetekstin ilmaisema työkalukomponentti mahdollisimman nopeasti. Silmänliikkeiden nauhoitus tapahtui tehtävän aloituksen ja valinnan välisenä aikana. Käyttäjille tarjottiin oikein/väärin palaute tehtävien aikana.
Menetelmä
Menetelmä Kokeissa käytetyt 11 käyttöliittymäversiota arvioitutettiin 80 henkilöllä: 50 tyypillistä käyttäjää + 30 käyttöliittymä-suunnittelijaa. Arviointi skaalalla 1 (erinomainen) 5 (mahdoton hyväksyä). Luokitukset erosivat merkittävästi osassa kategorioita Grouping ja Representation (F 3,316 > 350, p < 0.001). Visibility kategoriassa ei kuitenkaan merkittävää eroa eri versioiden välillä (F < 1.6, p > 0.2).
Menetelmä Käytettävyysarviot olivat johdonmukaisia kautta linjan. Suunnittelijat olivat ankarampia arvioissaan kuin tavalliset käyttäjät.
Koe 1 Kokeen tarkoituksena oli tutkia miten työkalukomponenttien ryhmittely vaikuttaa silmänliikemittareiden arvoihin. Oletettiin, että käytettävyydeltään huonot ryhmittelymallit tuottaisivat tilallisesti ja ajallisesti pitkiä silmäilypolkuja. Koehenkilöinä 12 jatko-opiskelijaa (7 miestä / 5 naista) Koehenkilöille näytettiin 4 eri ryhmittelyversiota Functional Majority Physical None
Koe 1 Jokaiselle koehenkilölle näytettiin jokainen 11 työkalukomponentista 3 kertaa 3 testisession aikana (yhteensä 4 x 11 x 3 x 3 = 396 tehtävää)
Koe 1 Ryhmittely vaikutti merkittävästi kuuteen Global Search ryhmän mittariin. Local Search ja Processing -mittarit olivat vähemmän herkkiä ryhmittelyn vaikutuksille. Työkaluikonien erilaisuus vaikutti merkittävästi kaikkiin mittareihin Osa työkaluista oli tunnistettavampia kuin muut ryhmittelystä huolimatta. Tutkijat päättelivät kokeen 1 tulosten tukevan oletuksiaan siitä, että käyttöliittymäkomponenttien ryhmittely vaikuttaa merkittävästi visuaaliseen hakuun, mutta ei niinkään prosessoinnin tarpeeseen.
Koe 2 Tarkoituksena tutkia miten työkalukomponenttien näkyvyys (saliency) vaikuttaa silmänliikemittareiden arvoihin. Oletettiin, että hyvin näkyvät komponentit kiinnittäisivät käyttäjien huomion, mahdollistaen tehokkaan haun. Koehenkilöinä 10 jatko-opiskelijaa (5 miestä / 5 naista) Koehenkilöille näytettiin 5 eri versiota High-positive Low-positive High-negative Low-negative No-salience
Koe 2 Jokaiselle koehenkilölle näytettiin jokainen 11 työkalukomponentista 3 kertaa 3 testisession aikana (yhteensä 5 x 11 x 3 x 3 = 495 tehtävää)
Koe 2 Yleisesti ottaen näkyvyyden muutokset eivät vaikuttanut silmänliikemittareiden arvoihin, kuten tutkijat olivat odottaneetkin. Kiinnostavimmaksi havainnoksi tutkijat mainitsevat sen, että sakkadien pituus high-positive ja no-salience versioissa oli pitempi kuin muissa versioissa. Tulos tukee aikaisempaa tutkimusta, jonka mukaan sakkadien pituudet ovat herkempiä paikallisille vihjeille (local cues) kuin muut silmänliikkeet. Sakkadien pituuden perusteella voidaan näin ollen arvioida paikallisten suunnitteluratkaisujen laatua.
Koe 3 Tarkoituksena tutkia miten työkalukomponenttien esitysmuodon välittömyys (directness) vaikuttaa silmänliikemittareiden arvoihin. Tutkijoiden oletusten perusteella abstraktimpien komponenttien tunnistamisen tulisi vaatia suurempaa prosessointitarvetta, joka lisäisi fiksaatioiden kestoa. Koehenkilöinä 12 jatko-opiskelijaa (5 miestä / 7 naista) Koehenkilöille näytettiin 4 eri versiota komponenteista Graphic Linguistic Coded Numeric
Koe 3 Jokaiselle koehenkilölle näytettiin jokainen 11 työkalukomponentista 3 kertaa 3 testisession aikana (yhteensä 4 x 11 x 3 x 3 = 396 tehtävää)
Koe 3 Käyttäjien tehokkuus koodatun version kanssa oli jokaisella osaalueella heikompi kuin muilla versioilla. Sakkadien ja fiksaatioiden määrä kasvoi sekä sakkadien pituus väheni mitä abstraktimmaksi komponenttien esitysmuoto tuli Vahvisti tutkijoiden oletuksia siitä, että hyvin suunnitellussa käyttöliittymässä voidaan suunnitella pitempiä sakkadeja kohdealueelle pääsemiseksi. Myös tulokset prosessoinnin tarpeen osalta tukivat tutkijoiden oletuksia Esim. fiksaatioiden kesto oli lyhyempi graafisen ja lingvistisen version kohdalla kuin koodatun ja numeerisen version kohdalla.
Mittareiden ja arvioiden välinen yhteys Kokeissa kerätty keskiarvoistettu data kerättiin yhteen yli kokeiden ja mallinnettiin vasten käytettävyysarvioiden luokituksia. Kaikki saaduista malleista olivat merkittäviä (p < 0.5), ja muutamissa havaittiin jopa vahvoja trendejä. Mallit kehitettiin myös yksittäisistä havainnoista, mutta niitä ei voitu pitää hyväksyttävinä (R 2 < 0.10), vaikkakin ne olivat merkittäviä. Goldberg ja Kotval toteavatkin, että ainoastaan keskiarvotrendien ennustaminen saattaa olla järkevää.
Mittareiden ja arvioiden välinen yhteys Global Search mittareiden osalta suhde käytettävyysarvioihin oli lineaarinen Herkkyydeltään parhaita malleja olivat silmäilypolun kesto sekä peräytymisten (backtracking) määrä. Esim. fiksaatioiden ja sakkadien määrä silmäilypolussa olivat vain keskimääräisen herkkiä käytettävyyden muutoksille. Haun kattama alue (coverage) oli mittareista vähiten herkkä käytettävyyden muutoksille. Local Search ja Processing mittareiden suhde arvioihin oli neliöllinen Huolimatta mallien vahvuudesta (R 2 > 0.77), niiden herkkyys jäi alle 50%:iin.
Mittareiden ja arvioiden välinen yhteys
Diskussio Diskussio-osuudessa kerrataan tiivistetymmin paperissa esitettyjä oletuksia, koeasetelmaa sekä tuloksia, viitaten useasti aikaisempaan tutkimukseen. Lopuksi raportoidaan tutkimuksen varsinainen tulos Silmäilypolkuun liittyvien parametrien ja käyttöliittymän käytettävyyden välillä on selvä yhteys kun mittareiden dataa analysoidaan keskiarvoistettuna. Samalla kuitenkin varoitetaan keskiarvoistamisen mukanaan tuomasta virhemahdollisuudesta. Tutkijat raportoivat myös lisätutkimuksen tarpeen Neliöllisten mallien todellisuuden varmistamiseksi ja lineaaristen mallien suuren varianssin selittämiseksi.
Diskussio Goldberg ja Kotval toteavat lisäksi, että silmäilypolkuanalyysi voi tarjota paremman näkemyksen sellaisista käyttöstrategioista, jotka ei ole helppo havaita muita käytettävyysarviointimenetelmiä käyttämällä.
Omat kommentit Positiivista Pyrkimys luoda selkoa silmänliikkeiden ja käyttöliittymän käytettävyyden suhteeseen. Tulokset todentavat aikaisempien tutkimusten tuloksia ja pyrkivät mallintamaan käytettävyyden arvioinnin kannalta oleellisia ilmiöitä. Koeasetelma on kuvattu tarpeeksi tarkasti, jotta se voitaisiin toistaa esim. suuremmalla koehenkilömäärällä. Mittaustulokset on analysoitu ilmeisen huolellisesti ja analysoinnissa käytettyjen metodien aiheuttamat mahdolliset virheet on dokumentoitu. Koeasetelmassa tehdyt valinnat ja muutokset perusteltiin mielestäni pätevästi.
Omat kommentit Negatiivista Paperin hieman sekava rakenne. Silmäilypolkumittareiden valinta ja mittareiden laskemiseen liittyvät algoritmit jäivät vielä hämäriksi. Osa käyttöliittymäversioista turhan keinotekoisia, mikä on saattanut vaikuttaa tuloksiin. Koehenkilöiden alhainen määrä. Mittaustulosten analyysin dokumentointi. Tutkijat eivät kovinkaan paljon kommentoineet siitä, kuinka mittareiden ja käytettävyysarvioiden väliltä löytyneitä suhteita voitaisiin käyttää apuna käytettävyystutkimuksessa.