Visualisointi kansanedustajista neljässä eri ulottuvuudessa Jaakko Talonen talonen.dm@gmail.com
Johdanto Helsingin Sanomat julkaisi eduskuntavaalien 2011 vaalikoneensa avoimena tietona. Vaalikoneen tietojen julkaiseminen mahdollisti HS:n ulkopuolisten koodarien, graafikoiden ja toimittajien pääsemisen käsiksi ehdokkaiden vastauksiin. Journalismin perustehtävä on tiedon välittäminen ja valtaa pitävien tarkkaileminen. Tiedot julkistetiin [Creative Commons] -lisenssillä Nimeä-epäkaupallinen-tarttuva 3.0. http://creativecommons.org/licenses/by-nc-sa/3.0/ [hs-julkaisee-vaalikoneensa-avoimena-tietona-ennenvaaleja]. 2/22
Johdanto: Politiikka tutuksi tilastotieteen avulla Avoin poliittinen data + Tilastotiede = Parempi Demokratia. Kuka tahansa saa visualisoinnin avulla nopeasti ja helposti kokonaiskuvan siitä, millä arvoilla ja ketkä kansaa edustaa Arkadianmäellä. Hans Roslingin kehittämä sovellus mahdollistaa muuttujien vertailemisen internet-selaimella. TED konferista videopätkä: Hans Rosling näyttää parhaat koskaan näkemänne tilastot. Suomenkielinen tekstitys saatavilla. 3/22
Johdanto: visualisointi antaa vastauksen mm. seuraaviin kysymyksiin Vuoden 2011 eduskuntavaaleissa oli yli 2000 ehdokasta. Lähes samankaltaisia ehdokkaita oli edustettuna eri puolueissa. Erosiko valitut kansanedustajat toisistaan ja miten? Äänestäjän on vaikea hahmottaa sitä, mikä puolue edustaa parhaiten hänen kantaansa. Onko puolueissa eroja? Missä aihepiireissä? Onko talous-aihepiirin vastauksilla ja vasemmisto-oikeisto -akselin välillä riippuvuutta? Korreloiko yhtiörahoituksen määrä ja esimerkiksi talouteen liittyvät vastaukset? 4/22
Data: lähteet Visualisoinnissa käytettiin useita eri tietolähteitä ja menetelmiä. Tärkein yksittäinen tietolähde analyysin kannalta oli HS:n julkaisema vaalikonedata: [HS-vaalikone2011.xls]. Datassa oli kuitenkin puutteita, joita paikattiin eri lähteistä: A. Poikola yhdisteli HS:n dataa oikeusministeriön dataan: [Ehdolla.org] vaalitulos: [Vaalit.fi] ja ministerit sekä suuren valiokunnan jäsenet osoitteesta: [Eduskunta.fi]. HS oli koonnut vaalirahoitusdatan yhteen tiedostoon: [280-kaikki-ilmoitukset-rahoitusmuodossa.xls]. 5/22
Data: luokittelu Data luokiteltiin viiteen eri ryhmään: (A) aihepiirimuuttujat: Aihepiirin kysymyksiin samalla tavalla vastanneiden kansanedustajien pisteytys on lähellä toisiaan. (I) numeerinen informaatiomuuttujat: ikä ja äänimäärä. (HS) vaalikonedatasta laskettu muuttuja: yksittäisestä luvusta voidaan jo tehdä päätelmiä. (L) luokkamuuttuja: Tämä voidaan valita vain ulottuvuuteen väri. (e) vaalirahoitukseen liittyvä muuttujat. 6/22
Data: HS oli jaotellut kysymykset yhdeksään eri aihepiiriin Vaalikoneessa oli yhteensä 31 kysymystä eri aihepiireistä: (yleiset) Kysymykset 1-5, Eläkkeet 6-8, Talous 9-11, Verot 12-15, Puolustus 16-17, Ulkomaat 18-21, Kotimaa 22-26, Kunnat 27-30, Hallituspohja 31. 7/22
HS datan jalostaminen aihepiirimuuttujiksi Vaalikoneen jokainen vastausvaihto edustaa matriisissa X saraketta. Sarakkeita painotettiin kunkin kysymyksen vastausvaihtoehtojen lukumäärällä sekä ehdokkaan antaman painotuksen perusteella. Tämän jälkeen matriisi X b projisoitiin suoralle aihepiireittäin. Tämä helpottaa huomattavasti esimerkiksi vaalirahoitusdatan vertailemista mielipiteisiin. Yksittäinen aihepiirimuuttujan arvo ei vielä sisällä mitään informaatiota. Lähellä olevat arvot viittaavat siihen, että kansanedustajat vastasivat samalla tapaa aihepiirin kysymyksiin ja ääriarvot suurista eroista mielipiteissä. Muuttujan luotettavuutta on arvioitu käyttämällä merkintää "x/100"visualisoinnin aihepiirimuuttujissa (A). Lopuksi vastaamatta jättäneet ehdokkaiden aihepiirimuuttujat estimoitiin puolueen ehdokkaiden vastauksien perusteella. 8/22
Datan analysointi: pääkomponenttianalyysi Pääkomponenttianalyysi (engl. Principal components analysis, PCA) on dimension redusointitekniikka. Pääkomponenttianalyysin tavoitteena on löytää monidimensioisesta datasta ne komponentit, joiden avulla sen keskeisimmät piirteet voidaan esittää ilman, että merkittävää informaatiota menee hukkaan. [Pääkomponenttianalyysi]. Pääkomponenttianalyysin avulla kukin moniulotteinen aihepiiridata projisoitiin suoralle. Lisäksi vastausmatriisi X b projisoitiin 173-ulotteisesta avaruudesta tasoon. Visualisoinnissa muuttujat on merkitty HS: kaikki kysymykset 1.komp. ja 2.komp.. 9/22
Datan analysointi: pääkomponenttianalyysi Vastausdata projisoituna tasoon. Interaktiivisessa visualisoinnissa käyttäjä voi tarkastella kansanedustajia vaihtamalla koordinaatistoa, väriä ja palluran kokoa. 10/22
Datan tarkempi analysointi: taulukko Kansanedustajien vastauksia voi tarkastella visualisoinnin alla olevasta taulukosta. Vaalikoneessa oli mahdollisuus painottaa vastaustaan ja se on merkitty taulukkoon seuraavasti: (-) pieni ja (+) suuri merkitys. Lähellä toisiaan olevat aihepiirimuuttujat (A) vastaavat samankaltaisia kansanedustajien vastauksia. 11/22
Muiden tekemiä analyysejä mukana visualisoinnissa Mielenkiintoisia analyysejä voidaan tehdä yhdistelemällä datan lisäksi myös muiden tutkijoiden tuloksia. Tuomas Yli-Anttila arvioi ehdokkaiden konservatiivisuutta. [HS blogi] Martti Leppänen laski ehdokkaiden sijainnit vasemmisto-oikeisto sekä restriktiivi-liberaali koordinaatistossa. Visualisointi ja laskentatapa löytyy täältä: [Leppänen]. Leppäsen HS-vaalikoneen vastausten pisteytystaulukko: [konsensuspisteet.pdf]. 12/22
Muiden tekemiä analyysejä mukana visualisoinnissa: Yli-Anttila Tämän mittarin perusteella näyttää siltä, että konservatiiviset kansanedustajat jäivät oppositioon. 13/22
Muiden tekemiä analyysejä mukana visualisoinnissa: Leppänen Hallitus ja oppositio ovat melko samankaltaisia. Hallituksen sisällä näyttäisi olevan ristiriitoja, sillä kansanedustajia on restriktiivi-liberaali akselin ääripäissä. 14/22
Kaikki ehdokkaat Pääkomponenttianalyysin ja Leppäsen koordinaattiakselien parivertailu. Ensimmäinen pääkomponentti korreloi vasemmisto-oikeistoakselin kanssa. 15/22
Kaikki ehdokkaat Ehdokkaiden riippuvuutta komponentti- ja Martti Leppäsen määrittelemillä akseleilla vertailtiin. Johtopäätös: Komponenttiakselit ovat hyödyllisiä, kun halutaan tutkia sitä, keillä ovat erilaiset ja samanlaiset arvot, sillä pääkomponenttianalyysi perustuu suurimman varianssin suuntaan. Ehdokkaiden sijainti suhteessa toisiin ehdokkaisiin ovat melko samantyyppiset molemmissa koordinaatistoissa. Komponenttiakselit voidaan laskea mihin kysymyksiin tahansa. Tulkinta hankalampaa, mutta ei mahdotonta. Toisaalta tulkinnan kannalta Leppäsen laskemat mittarit ovat mielekkäämmät. 16/22
Menetelmien jatkojalostus Visualisointia varten Leppäsen laskemat mittarit painotettiin ehdokkaiden antamien painotusten perusteella. pieni merkitys: kerroin 0.5. suuri merkitys: kerroin 1.5. Koordinaatiston akselit skaalattiin asettamalla vasemmistolaisin ehdokas pisteeseen -100, oikeistolaisin ehdokas pisteeseen 100, restriktiivisin ehdokas pisteeseen -100, liberaalein ehdokas pisteeseen 100. Saadaan vastaus esimerkiksi kysymykseen: Kuinka liberaali kansanedustaja? 17/22
Esimerkki: Kuinka liberaali kansanedustaja? Kimmo Sasi on 67% restriktiivi ja Markus Mustajärvi on 64% liberaali. Tämän liberaalimmat ja restriktiivimmät eivät tulleet valituksi, ks. [Leppäsen visualisointi]. 18/22
Vasemmisto-oikeisto vs. yhtiörahoitus Kokoomuksen ja Keskustan kansanedustajat saivat eniten yhtiörahoitusta. 19/22
approksimointi HS:n vaalikoneeseen antoi vastauksia 1820 ehdokasta. Vastaamatta jättäneiden ehdokkaiden vastaukset approksimoitiin. Kansanedustajat, jotka eivät vastanneet HS:n vaalikoneeseen on merkitty *:llä. Heidän sijaintinsa vasemmisto-oikeisto sekä restriktiivi-liberaali akseleilla (HS) on approksimoitu puolueen kansanedustajien ja vaalipiirin perusteella. Heidän sijaintinsa komponentti- ja aihepiiriakseleilla (A) on approksimoitu puolueen ehdokkaiden ja äänimäärän perusteella. 20/22
approksimointi Kansanedustajat, jotka eivät vastanneet HS:n vaalikoneeseen on merkitty *:llä. 21/22
Politiikan ja tilastotieteen ilosanoma! Tutustu kansamme edustajiin ja siirry visualisointiin: Visualisointi kansanedustajista 22/22