TEKNILLINEN KORKEAKOULU Tietoliikenneohjelmistojen ja Multimedian Laboratorio T-111.210 Informaatioverkostot: Studio 4 Kevät 2005 KVANTATIIVISEN TIEDON VISUALISOINTI PÄÄTÖKSENTEON TUKENA Markus K Berg 60262R Informaatioverkostot markus.berg@hut.fi
JOHDANTO Vuonna 1986, tammikuun 28 päivä, yhdysvaltalainen avaruussukkula Challenger räjähti ilmassa 73 sekunnin lennon jälkeen. Syyksi koko maailmaa koskettaneeseen onnettomuuteen todettiin apuraketin kumisen tiivisterenkaan pettäminen laukaisuhetkellä. Renkaan rikkoutuminen johtui poikkeuksellisen kylmistä olosuhteista. Mielenkiintoisinta onnettomuuden jälkipuinneissa oli se, että raketin valmistajayrityksen, Morton Thiokolin insinöörit olivat suositelleet johtohenkilöstölleen laukaisun lykkäämistä juuri tiivisterenkaiden aikaisempien kylmyyskestävyysongelmien takia. He toimittivat asiasta 13 erilaista kaaviota illalla ennen Challengerin laukaisua, koska aamuksi oli luvattu poikkeuksellisen kylmää säätä. Kaaviot eivät kuitenkaan Thiokolin eikä NASAn johtoa vakuuttaneet ja sukkula laukaistiin kohtalokkain seurauksin. Kirjassaan Visual Explanations: Images and Quantities, Evidence and Narrative professori Edward Tufte käyttää Challengerin onnettomuutta esimerkkitapauksena siitä, minkälaisia seurauksia tiedon visualisoinnin onnistumisella ja epäonnistumisella voi olla päätöksenteossa. Joskus monimutkaisestakin tieteellisestä datasta joudutaan laatimaan visualisaatioita ja tiivistelmiä, joita useimmin vähemmän tekniikkaan perehtyneet johtajat joutuvat käyttämään hyvin monenlaisten päätösten tekoon. Tällaisissa tapauksissa usein voidaan ajatella, että päätös syntyy ainoastaan visualisoinnin perusteella, minkä takia se kannattaakin pyrkiä tekemään mahdollisimman tehokkaasti. Tämän tavoitteen saavuttamiseksi on olemassa lukuisia ohjeita ja jopa sääntöjä, joita noudattamalla lopputulos saadaan tyydyttäväksi. Tufte kuitenkin jo esipuheessaan mainitsee, että selkeys ja oivallisuus ajattelussa on pitkälti samaa kuin selkeys ja oivallisuus datan esittämisessä (s. 9). Tiedon visualisointi on aina luova prosessi, joka antaa mahdollisuudet uusiin innovatiivisiinkiin ratkaisuihin vanhojen hyväksi havaittujen keinojen yhdistelemisen lisäksi. VISUAALISEN AJATTELUN PERUSPERIAATTEISTA Voidaan yksimielisesti sanoa, että kvantatiivisen datan esittämiseen on olemassa selkeästi parempia ja huonompia tapoja (Tufte, s. 27). Mikäli muutamia fundamentaalisia periaatteita ei huomioida, data tulee esitetyksi muodossa, joka ei palvele ketään eikä koko visualisointiprosessista ole hyötyä. Seuraavassa esittelen enimmäkseen Edward Tuften lanseeraamia suosituksia, joita on lainattu sittemmin lähes kaikessa informaation visualisointiin liittyvässä aineistossa. (Tuften asema informaation visualisoinnin kentällä on kiistaton ja hän on nykyisinkin hyvin suosittu puhuja monentyyppisissä konferenseissa ja seminaareissa kautta maailman.) Seuraavat neljä periaatetta on lainattu Eugene Eric Kimin artikkelista Tufte on Visualizing information. 1
1. Kvantatiivisen ajattelun peruspilari: vertailukohde Esittääkseen jotain tiettyä ilmiötä, graafin tai vastaavan visualisaation pitää olla tarpeeksi tarkasti spesifioitu omassa aihealueessaan. Tähän ei voida päästä ilman mahdollisuutta vertailla sitä, mitä graafi kuvaa ja mitä se ei kuvaa. Tarkastellaan esimerkkitapauksena tietyn pieneläinlajin populaatiossa tapahtuvaa kuolleisuutta tautiepidemian vaivaaman vuoden aikana. Kun data on olemassa, siitä on helppo muodostaa kuvan 1 kaltainen graafi, joka näyttää kuolleet yksilöt kuukausittain vuoden ajalta. Kuolleisuus (100 yksilöä) 14 12 10 8 6 4 2 0 tammikuu Epidemian alkuhetki helmikuu maaliskuu huhtikuu toukokuu kesäkuu heinäkuu elokuu syyskuu lokakuu marraskuu joulukuu epidemia Kuukausi Kuva 1 Tämänkaltaisesta kuvaajasta on helppo nähdä, että kesäkuusta alkaen kuolleisuus on lähtenyt jyrkkään nousuun. Voidaan helposti tehdä johtopäätös, että epidemian takia yksilöitä on kuollut melkein kaksinkertainen määrä normaaliin verrattuna. Kuitenkin, kuvan 1 suuri heikkous on puuttuva vertailukohta. Jos lisäämme graafiin populaation normaalikuolleisuuden, näemme välittömästi hetki sitten tekemämme johtopäätöksen vääräksi. Kuva 2 osoittaa, että kyseisellä lajilla on ilman epidemiaakin vaikeuksia selvitä talven yli. Kuolleisuus (100 yksilöä) 14 12 10 8 6 4 2 0 tammikuu Epidemian alkuhetki helmikuu maaliskuu huhtikuu toukokuu kesäkuu heinäkuu elokuu syyskuu lokakuu marraskuu joulukuu normaali epidemia Kuukausi Kuva 2 2
Huomaamme, että epidemia ei lisännytkään kuolleisuutta niin paljon, kuin ensimmäisestä graafista päättelimme. Esimerkki havainnollistaa konkreettisesti vertailukohteen merkityksen sekä havainnollistettavan syyn että että seurauksen määrittelyssä. Ilman oikeita vertailukohtia tuloksena voi olla kuvia, jotka päätöksentekohetkellä johtavat selkeästi harhaan. 2. Syy ja seuraus Kvantatiivista dataa käsiteltäessä on selvää, että data on muodostettu jostain konkreettisesta, mitattavasta ilmiöstä. Visualisoinnin tulos muodostuu juuri näistä ja havainnollistaa seurausta. Aina ei kuitenkaan ole selvää, mitkä tekijät vaikuttavat datan muodostumiseksi juuri sellaiseksi kuin se on. Myös kuva 2:n kuvaaja voi olla hyvin harhaanjohtava, jos esimerkiksi epidemiavuonna onkin ollut poikkeuksellisen lauha talvi, jolloin tartunnalta välttyneet yksilöt ovat selvinneet talven yli keskimääräistä suuremmalla prosentilla; ilman lauhaa talvea epidemian vaikutus kuvaajissa olisi ollut vieläkin voimakkaampi. Tämänkaltaisessa tapauksessa kuvaajan muodostumiselle on kaksi niin tärkeää syytä, ettei niistä kumpaakaan voi jättää huomioimatta. Kuvassa 3 normaalikuolleisuuden käyrä on korvattu keskiarvolla niistä vuosista, jolloin talvi on ollut lämpötiloiltaan samaa tasoa kuin epidemiavuosikin. Kuolleisuus (100 yksilöä) 14 12 10 8 6 4 2 0 tammikuu Epidemian alkuhetki helmikuu maaliskuu huhtikuu toukokuu kesäkuu heinäkuu elokuu syyskuu lokakuu marraskuu joulukuu lämpimät vuodet epidemia Kuukausi Kuva 3 Kuva 3 puhuu selkeästi sen puolesta, että epidemian vaikutus oli sittenkin huomattavasti suurempi, kuin mitä hyväksi kuvittelemamme kuva 2 antoi ymmärtää. Monta kertaa visualisoinnissa juuri edellä kuvaillulla tavalla joudutaan huomioimaan useita syitä, jotta todelliset ilmiöt kuvautuisivat oikealla tavalla. Muutokset ilmiöiden syissä ja aiheuttajissa pitäisi selkeästi näkyä seurauksissa (Tufte s. 52), jotta oikeat johtopäätökset on mahdollista tehdä. 3
3. Useiden muuttujien visualisoimiseen vaaditaan useita ulottuvuuksia Edellä esitetty esimerkki kuvasi yksinkertaistä ilmiötä, jossa kuolleisuutta mitattiin ajan kuluessa. Nämä kaksi muuttujaa on helppo valjastaa selkeäksi, kaksiulotteiseksi kuvaajaksi. Useissa tilanteissa ei kuitenkaan selvitä näin vähällä. Voisimme laajentaa esimerkkiämme ottamalla siihen mukaan vaikka epidemian vaikutuksen tietyillä maantieteellisillä alueilla. Kolmannen muuttujan mukaan tuominen tarkoittaisi sitä, että kaksiulotteinen kuvaaja kävisi helposti riittämättömäksi välineeksi tehokkaan visualisoinnin luomiseksi. Alueellista kuolleisuutta olisi kyllä mahdollista esittää esimerkiksi omilla erivärisillä käyrillään edellisenkaltaisessa kuvaajassa, mutta havainnollisempaa voisi olla käyttää vaikka kolmiulotteisen kartan päälle liitettyjä pylväitä tai muita useamman ulottuvuuden ratkaisuja. Moniulotteisen visualisoinnin klassikkoesimerkki on Charles Minardin piirtämä kuva Napoleonin onnettomasta sotaretkestä Venäjälle vuonna 1812. Kuvaa (kuva 4) pidetään jopa parhaimpana koskaan piirrettynä kuvaajana. Kuva 4 Nerokkaassa visualisoinnissa nähdään Napoleonin sotajoukkojen reitit kartalla, (ruskea väri kuvaa meno- ja musta paluumatkaa) samalla kun viivan paksuus kertoo sotajoukon suuruudesta. Alussa joukkojen määrä oli huimat 420 000, joista kotiin palasi ainoastaan 10 000. Tämän lisäksi kuvan alalaidassa on vielä lämpötilakuvaaja, jonka lämpötilat seuraavat joukkojen olosuhteita Moskovasta takaisin kotiin koko paluumatkan ajan. Yhteensä tässä kaksiulotteiseksi levitetyssä kuvassa kuvataan peräti kuusi muuttujaa (armeijan koko, kaksiulotteinen sijainti, joukkojen suunta, aika ja lämpötila). (Designing the Past.) Monesti vastaavankaltaisiin, hyvin monen ulottuvuuden kuvaajiin ei ole mielekästä edes pyrkiä, koska suurten informaatiomäärien mahduttaminen yhteen kuvaajaan on erittäin hankala tai jopa mahdoton tehtävä. Moniulotteiset visualisaatiot voidaan usein helpommin jakaa useaksi eri kuvaksi. 4
4. Ulkoasun suunnittelun tärkeys Edellä mainittujen, pitkälti sisällöllisten seikkojen lisäksi ei voida sivuuttaa enemmän ulkonäöllisiä keinoja visualisoinnin parantamiseksi. Pahimpia virheitä havainnollisuuden epäonnistumisen kannalta ovat Tuften mukaan ovat seuraavat: datan väärä järjestys, selkeyden puute syy-seuraus suhteen kuvauksessa sekä selitysten puute. Näitten lisäksi ymmärtämistä vaikeuttaa muun muassa yllättävän yleinen kaavioroska. (Tufte, s. 47-48.) Vaikka itse kysymys, johon visualisointi vastaa, olisi asetettu täysin oikein, voidaan koko havainnollistamisprosessi pilata väärällä datan järjestyksellä ja kontekstilla. Jos esimerkiksi kuvan 3 tiedot järjestetään suuruusjärjestykseen kuolleisuuden mukaan, tuloksena on siisti laskeva käyrä, jossa kuukaudet olisivat sekaisin ja näin ollen kuvaaja ei esittäisi juuri mitään (kuvassa 5 juuri tämä toimii varoittavana esimerkkinä). Etenkin johtopäätösten vetäminen tämänkaltaisesta kuvaajasta on ellei mahdotonta niin ainakin työlästä ja aikaavievää. Datan oikean järjestyksen suurin etu on kausaalisen esittämisen onnistuminen. Kun ilmiön kulkua voidaan tulkita visualisoinnista riittävän hyvin, sen perusteella on helppo tehdä päätöksiä ja jopa ennustaa, miten ilmiö käyttäytyy missäkin tilanteessa. Nykyisin varsinkin monista kalvoesityksistä saattaa havaita, että tekijä on yrittänyt panostaa graafisuuteen ja sitä kautta näyttävyyteen jopa enemmän kuin itse asian tehokkaaseen esittämiseen. Nyrkkisääntönä voidaan pitää, että kaikenlainen turha grafiikka, muun muassa symbolit ja ikonit, kannattaa jättää suosiolla pois kaikissa tapauksissa (Tufte s. 49). Pahimmillaan puhtaalla grafiikan väärinkäytöllä joudutaan tilanteisiin, joissa tieto on pakko sijoittaa grafiikan sanelemin ehdoin paikkoihin, joista sen välittyminen tehokkaasti katsojalle ei toimi. Näin katoaa myös mahdollisuus seurata visualisoinnille elintärkeää syy-seuraus suhdetta. Joissain tapauksissa on yleistä, että samantyyppistä informaatiota esitetään peräkkäin eri kuvissa. Tällaisissa tapauksissa on perin yleistä, että kuvaajien yksi tärkeimmistä elementeistä, selitykset jätetään pois muista paitsi ensimmäisestä kuvasta. Kuvaajan laatija voi ilmiön tuntiessaan ajatella, että kerran selitykset nähtyään katsoja muistaa selkeät merkitykset visualisoinnin eri osille. On kuitenkin huomattavasti hitaampaa yrittää kaivaa merkityksiä ensin muistista ja sitten soveltaa todennäköisesti ei-eksaktia muistikuvaa edessä olevaan kuvaan. Vaikka suurimmasta osasta turhaa mustetta tuleekin visualisoinnissa pyrkiä eroon, selitykset ja asteikot ovat kuitenkin kvantatiivisen visualisoinnin perusosia, jotka tulisi löytyä jokaisesta kuvasta. Enemmän puhtaasti visuaalisena ohjeena Tufte puhuu kaavioroskan (chartjunk) minimoimisesta. Ihmisen näkökyky on erittäin tarkka huomaamaan pieniä eroja kuvassa ja tätä kykyä Tufte suositteleekin käyttämään hyväksi pienimmän vaikuttavan eron 5
käytöllä (s. 73). Muun muassa kaaviokuvissa sekundääriset elementit, kuten akselit, selitykset, asteikot jne, ovat tärkeitä olla olemassa, mutta mitä vähemmän ne pistävät silmään, sitä parempi. Kun sekundääriset elementit ovat sivuosassa, katsojalle käy huomattavasti selvemmin ilmi itse asia, joka toteutetaan sitten edellä mainittuja selkeämmin. Kuva 5 on varoittava esimerkkikuva siitä, mitä asioita kannattaa kuvaajissa välttää. Se esittää täsmälleen saman datan kuin kuva 3, mutta siihen on lisätty tässä kappaleessa esitettyjä virheitä. 1) Ensinnäkin kuvasta ei käy ilmi se ilmiö, joka kuvaa 3 katsoessa on itsestäänselvää. 2) Selitysten puuttuessa kuvaa pitäisi täydentää oheen liitettävällä tekstillä tai puheella. 3) Sen data on järjestetty epidemiavuoden kuukausikuolleisuuden mukaan, jolloin ero normaalivuoteen ei näytä millään lailla kausaaliselta. 4) Asteikko on säädetty väärin ja kaaviossa on enemmän turhaa kuin esittävää tilaa. 5) Ulkoasullisesti kuvaaja on hyvin epäselvä ja epämiellyttävä katsoa, koska toissijaiset elementit näkyvät yhtä selvästi ellei jopa selvemmin kuin itse informaatio. Edellä mainittujen seikkojen ansiosta täysin oikeanlaisen datan havainnollistamisessa syy-seuraus suhteen kuvaaminen on kadonnut kokonaan ja ero kuvaan 3 on valtava. 50 45 40 35 30 25 20 15 10 5 0 elokuu syyskuu lokakuu heinäkuu marraskuu joulukuu tammikuu helmikuu maaliskuu toukokuu kesäkuu huhtikuu Kuva 5 (varoittava esimerkki) Toisin kuin luulisi, kaikesta huolimatta tämäntasoisia kuvaajia tulee vastaan aina silloin tällöin. Kyse voi silloin olla visualisoinnin laatijan kokemattomuudesta tai ajattelemattomuudesta. Mielenkiintoisinta on kuitenkin joissain tapauksissa pohtia, minkälaisia mahdollisuuksia huonon visualisoinnin laatiminen tuottaa. Ei varmastikaan liene sattumaa, että epäinformatiivisimpia visualisointeja löytyy yritysten tiedotteista, jos esimerkiksi edellisen vuoden tulos ei olekaan ollut aivan kaikkia sijoittajia tyydyttävä. Näin visualisointeja voidaan käyttää harhauttamiseen päätöksentekoprosessissa ja parhaimmillaan (pahimmillaan) visualisoinnit voivat hämätä kokemattomampaa katsojaa taikatemppujen tavoin. Edward Rolf Tuften sanoin kaavionlaatijat paljastavat tasan sen minkä he päättävät paljastaa (s. 43). 6
LÄHTEET 1. Edward Tufte: Visual Explanations: Images and Quantities, Evidence and Narrative Graphics Press, Creshire, Connecticut, 1997 2. Kari-Jouko Räihä, Saila Ovaska: Ihmisen ja tietokoneen vuorovaikutus / Tiedon visualisointi osoitteessa http://www.cs.uta.fi/~ov/itv/luennot/kalvot/visu/ 3. Eugene Eric Kim Tufte on Visualizing Information, 1997 osoitteessa http://www.ercb.com/feature/feature.0008.1.html 4. Designing the Past osoitteessa http://chnm.gmu.edu/moh/design/ 7