TILASTOTIEDE KÄYTÄNNÖN TUTKIMUKSESSA Pekka Pere Matematiikan ja tilastotieteen laitos Helsingin yliopisto Syyslukukausi 2009 OPISKELIJA JA TILASTOTIEDE Alta opimme, että tilastotiede on maailman hauskin oppiaine. Se on myös erittäin hyödyllinen sivuaine. Numeroiden tulkinnassa tilastotiede on keskeisessä asemassa ja monissa opinnäytteissä välttämätön työkalu. Yksi opiskelijan elämän säännönmukaisuuksia on katumus pro gradu vaiheessa, että tilastotiedettä ei tullut opiskeltua enempää tai perusteellisemmin. Eräs yhteiskuntatieteiden professori muotoili tilastotieteen tarpeen opiskelijalle näin: Gradussa tulee olla muitakin numeroita kuin sivunumerot. Toinen niin, että hän kuvitteli monimuuttujamenetelmien hallinnan riittävän alallaan, mutta nykypäivänä se ei enää riitä. Opiskeluasenteeksi ei sovi kiire. Luetun sivumäärän päivää kohden ei ole suotavaa olla kovin suuri. Tilastotieteen pidemmälle menevässä opiskelussa tarvitaan kynää ja paperia eli sitä ei voi oppia vain "lukemalla". Tilastotieteen peruskurssit ovat mahdollisesti pisimmälle kantavat kurssit opiskelijan elämässä. 1 Oman alansa tehtäviin sijoittuva tuore maisteri hyödyntää uransa alkuvaiheessa pääaineensa erityistietämystä ja mahdollisesti tilastotiedettä. Työelämässä edetessään hän tyypillisesti erkaantuu oman alansa erikoistehtävistä ja siirtyy johtajuutta vaativiin tehtäviin. Edelleen ellei jopa enenevässä määrin hän kuitenkin tekee päätöksiä tilasto- tai yleisemmin kvantitatiiviseen tietoon perustuen. Tilastotieteen opiskelun tavoite on, että maisteri pystyy ymmärtämään ja lukemaan kriittisesti muiden tekemiä empiirisiä tilastotieteellisiä tutkimuksia sekä tekemään itse pienimuotoisia sellaisia. Zacharias Topelius (1905, s. 448): MITÄ TILASTOTIEDE ON? Määritelmiä ja käsitteitä Kuinka maamme edistyy varallisuudessa uuden ajan elähyttävien voimien kautta, sen näemme silmäimme edessä, ja siitä kertoo nykyinen tilastotiede eli valtiotiede. Samoin kuin historia meille kuvaa menneen, jo päättyneen ajan, samoin tilastotiede merkitsee nykyajan olot, jotka vielä ovat tekeillä, ja vertaa niitä toisiinsa tai entisiin aikoihin. Tämä on opettavaista. Se osoittaa meille selvillä numeroilla, edistyykö vai taantuuko maa varallisuudessa, väkiluvussa, hyvissä tavoissa, 1 David Hand (2009): Modern Statistics: The Myth and the Magic (RSS Presidential Address). Journal of the Royal Statistical Society, Series A, 172, 287-306.
2 tiedossa ja monessa muussa. Vuodesta 1865 on Helsingissä tilastollinen virkakunta, joka vuosittain ikäänkuin vaa alla punnitsee minkä arvoinen maa on. 2 Alla on Wikipedian kuvausta tilastotieteestä 3 : Tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii tilastollisten aineistojen keräämistä, käsittelyä ja tältä pohjalta tehtävää päättelyä. Kun tilastotieteen menetelmiä käytetään aineiston esittämiseen, on kyse lähinnä kuvailevasta tilastotieteestä. Kun kuvailusta siirrytään aineiston tarkasteluun tai mallinnukseen siten, että aineiston epävarmuus ja havaintojen satunnaisuus otetaan huomioon, puhutaan tilastollisesta päättelystä. Näissä molemmissa tapauksissa on kyse soveltavasta tilastotieteestä. Matemaattinen tilastotiede keskittyy puolestaan tarkastelemaan tilastotieteen teoreettista perustaa. -- Tilastotieteen soveltaminen tarkasteltavaan tieteelliseen, teolliseen tai yhteiskunnalliseen ongelmaan alkaa populaation määrittelyllä. Kyseessä voi olla jonkin maan väestö tai tehtaan valmistamat tuotteet. Aineistoa on tavallisesti mahdollista kerätä vain populaation osajoukosta, jolloin tutkimuksen kohteena on otos. Otoksesta voidaan kerätä aineistoa joko havainnoiden tai kokeellisessa asetelmassa. Kun aineisto on kerätty, siitä tehtävä analyysi voidaan jakaa kuvailuun ja päättelyyn, jotka tosin liittyvät usein toisiinsa läheisesti: * Kuvaileva tilastollinen analyysi on aineiston esittämistä joko numeerisesti tai graafisesti. * Tilastollinen päättely on aineiston mallintamista, satunnaisuuden huomioon ottamista sekä aineistosta saatujen tuloksien yleistämistä populaatioon. Jos tarkasteltava otos on edustava eli kuvaa populaatiota, voidaan tilastollinen päättely laajentaa otoksesta koko populaatioon. Keskeinen ongelma on se, missä määrin otos on edustava. Tilastotieteen menetelmät mahdollistavat satunnaisvaihtelun huomioimisen, joka syntyy otoksen keräämisestä eli otannasta. Englanninkielinen Wikipedia ehdottaa 4 : Statistics is a mathematical science pertaining to the collection, analysis, interpretation or explanation, and presentation of data. Tilastotiede muutoksessa Iso-Britannian kuninkaallisen tilastotieteellisen seuran presidentti David Handin (Imperial College - yliopisto) mielestä tilastotieteen käsitettä tulisi laajentaa. Alla oleva perustuu hänen artikkeliinsa. 5 2 Maamme kirja. Kymmenennen tekijän kuoleman jälkeen (1898) korjatun painoksen mukaan suomentanut P. Cajander. Edlund, Helsinki. 3 http://fi.wikipedia.org/wiki/tilastotiede. Tämä ja WWW-viittaukset alla on tehty syksyllä 2009. 4 http://en.wikipedia.org/wiki/statistics. 5 Modern statistics: The Myth and the Magic (RSS Presidential Address). Journal of the Royal Statistical Society, Series A, 172, 287-306. Samoja pohdintoja löytyy David Handin kirjasta (2009): Statistics: A Very Short Introduction. Oxford University Press. Tämä ja kaksi seuraavaa jaksoa noudattelevat pitkälti Handin artikkelia.
Ei ole olemassa elämän aluetta, jota tilastotiede ei koskettaisi. Esimerkkejä asioista, joissa tilastotiede on keskeisessä roolissa: - tilastokeskus (ilmeinen ja kattava) - ilmastonmuutos (analyysi, ennustaminen, riskien arviointi jne.) - bioinformatiikka (biologisten mekanismien päättely, geenien rakenne ja toiminta jne.) - vähittäiskauppojen valtavat tietovarannot ja yleisemminkin nykyiset valtavat tietovarannot esimerkiksi Internetissä. John Tukey: Parasta tilastotieteilijän ammatissa on, että pääsee leikkimään jokaisen takapihalle. Tilastotiede on kaikista oppialoista jännittävin! Tilastotiede on nykyään yhtälailla laskennallinen kuin matemaattinen tiede. Tietokone on mullistanut tilastotieteen luonteen ja käytön. J. M. Chambers (2003): "Suurempi tilastotiede" (greater statistics). Kaikki mikä liittyy aineistosta oppimiseen. "Vähäisempi tilastotiede" (lesser statistics). Tilastotieteilijöiden kehittämä metodologinen ydin eli se tilastotiede, joka julkaistaan alan aikakauskirjoissa, josta tehdään väitöskirjat jne. Handin mukaan moderni tilastotiede tulisi määritellä "suuremman tilastotieteen" tapaan. Uudet sovellusalueet ovat perinteisesti vieneet tilastotiedettä eteenpäin: Maanviljelyskokeet inspiroivat kokeensuunnittelun teorian. Lääketieteen kysymykset veivät elinaika-analyysiin (survival analysis). Käyttäytymistieteiden ongelmat johtivat faktorianalyysiin. Yhteiskuntatieteelliset teemat tuottivat survey-tutkimusten teorian jne. Näin on edelleen. Esimerkiksi Internetin valtaisat tietomäärät ovat johtaneet uusiin menetelmiin valtavien ja muuttuvien tietomäärien hallintaan. Tietokone on muuttanut tilastotieteen luonnetta siten, että tilastotieteilijät sekä sen soveltajat voivat keskittyä entistä enemmän ymmärtämiseen laskennan sijaan. Mallit voidaan jakaa ikonisiin ja empirisiin: Ikonisissa malleissa teoriaa oleellisesti määrää mallin (esim. fysiikan lakien määräämä yhtälö). Empiirisiset mallit summeeravat aineiston "sopivasti". Teoria ei esimerkiksi kerro selkeästi, miten ja mitkä muuttujat kuuluvat malliin. Yhteiskuntatieteiden, bioinformatiikan, rahoituksen jne. piirissä rakennettavat mallit ovat tyypillisesti tällaisia. Äärimmäisiä esimerkkejä empiirisistä malleista ovat mallit, jotka on löydetty kalastuksella (data mining). Tällöin suuresta aineistosta haetaan pitkälti ilman sovellusalan teorian tukea mahdollisesti monimutkainen malli, joka näyttää sopivan aineistoon hyvin. Yhä suuremmat aineistot ja laskuvoimaisemmat tietokoneet mahdollistavat yhä perinpohjaisemman kalastuksen ja yhä pienempien aineiston piirteiden huomioinnin. 3
4 Tilastotieteen fragmentoituminen Hand pahoittelee, että monet tilastotieteen erityisalueen taitajat eivät pidä itseään tilastotieteilijöinä vaan esimerkiksi ekonometrikkoina, kemometrikkoina tai ympäristömetrikkoina (econometrics, chemometrics, environmetrics). Tilannetta voidaan verrata monien tieteenalojen matematisoitumiseen (vrt. McCloskey (2000) 6 ). Tilastotiede ylösalaisin Perinteisesti tilastotiede on mielletty pitkälti yleisten lakien hauksi empiirisistä aineistoista. Esimerkiksi kun Statistical Section of the British Association perustettiin 1832, todettiin sen intressinä olevan tosiasiat, jotka liittyvät ihmisiin ja ovat ilmaistavissa numeroilla ja joista vaikuttaa voitavan päätellä yleisiä lakeja. Viimeaikoina yleistynyt piirre tilastotieteessä on mahdollisuus tai periaatteellinen mahdollisuus päinvastaiseen päättelyyn eli yleisistä säännönmukaisuuksista yksilöä koskevaan johtopäätösten tekoon. Esimerkkejä: Kuinka lääke toimii yksilön kohdalla (riippuen yksilön geeniperimästä, muista ominaisuuksista jne.). Yksilöön liittyvän riskin arviointi: * Minkälainen riski koituu pankille yksittäisestä lainanhakijasta? * Minkälainen riski liittyy vakuutuksenottajaan?: ** Kuinka paljon tupakointi lisää kuolleisuutta seuraavien vuosien aikana (henkivakuutuksen hinta)? ** Kuinka paljon sukupuoli ja ikä vaikuttavat vaaraan joutua liikenneonnettomuuteen (liikennevakuutuksen hinta)? Mitä tuotteita kannattaa mainostaa tuotteen X ostaneelle kuluttajalle? (Esim. nettikirjakauppojen ehdotukset kirjoista, joista kaupassakävijä voisi olla myös kiinnostunut.) Mitä asioita poliitikon kannattaa ajaa? (Kyselytutkimusten tiedot, mitä äänestäjät haluavat.) Rikollisen profilointi. Nyky-yhteiskunnassa tilastollinen päättely kohdistuu myös yksilöön! Huom! Joissain esimerkeissä edellä tällainen tilastollinen päättely johtaa selkeästi hyvään (esim. sopivan lääkkeen tai lääkeannoksen osoittaminen) mutta osaa esimerkeistä voi joku pitää eettisesti arveluttavana (onko oikein hinnoitella vakuutusta sukupuolen mukaan?!). Yksilöistä kerättäviin valtaviin tietomääriin liittyy yleisempikin eettinen ongelma yksityisyydensuojasta. 6 Deirdre N. McCloskey (2000): How to be Human though an Economist. University of Michigan Press.
5 Havaintotiede Palataan tilastotieteestä esitettyihin presidentti Handin artikkelia edeltäviin määritelmiin. Alla oleva määritelmä löytyy Matematiikan ja tilastotieteen laitoksen kotisivuilta (lehtori Juha Purasen johdolla laadittu Tilastosanasto) 7 : Tilastotiede on tieteenala, joka tutkii miten havaintoihin perustuva tieteellinen tutkimus pitää suorittaa. Professori Ole Barndorff-Nielsenin (Århusin yliopisto) mukaan tilastotieteen tärkein käsite onkin havainto. Olisiko havaintotiede tilastotiedettä osuvampi nimitys?! Tulevaisuus Peter Phillips (Yale in yliopisto) visioi 8, että tulevaisuudessa tilastollisen mallin valinnan ja sovittamisen voi "koneistaa" ja "ulkoistaa". Hänen ajatuksensa on, että aineistot ympäri maailmaa lähetetään Internetin välityksellä tietokoneelle, jonka automaattinen mallin valinta ja sovitus -ohjelmisto putkauttaa vastauksena valitsemansa ja estimoimansa mallin. Käyttäjän kannalta kyseessä olisi pitkälti "musta laatikko", joka toimii "nappia painamalla". Se mahdollistaisi nykyistä laajemman tilastotieteen käyttäjäkunnan ja soveltamisen. En ole vakuuttunut, onko näin äärimmäinen "käyttäjäystävällisyys" hyvä asia. Kyky tulkita tuloksia on mielestäni keskeisintä tilastotieteessä. 7 http://mathstat.helsinki.fi/tilastosanasto/sanasto/tilastotiede. 8 Laws and Limits of Econometrics. The Economic Journal, 113, C26 C52.