Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Mitä tilastotiede on? Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Mitä tilastotiede on? Reaalimaailmaa koskevan tiedon keräämisen, käsittelyn, analysoinnin sekä johtopäätösten teon tietoa ja taitoa Päämääränä on tuottaa ymmärrystä havaintoaineistossa piilevästä informaatiosta Maalaisjärjen tehostusta sattuma ja systemaattisuus pyritään erottamaan auttaa mallintamaan asioita ja luo näin järjestystä elävän elämän moniselkoisuuteen 1
Mitä tilastotiede ei ole? Tilastotiede ei ole oppia tilastoista ja niiden tekemisestä Tilastot ovat usein tilastotieteen soveltajan tutkimuskohteena ja tilastojen laadinnassa käytetään apuna tilastotieteen menetelmiä Tilastotuotannon kokonaisuutta nimitetään tilastotoimeksi Tilastotieteen käyttöalue on paljon tätä laajempi Työkalupakki Tilastotiede koostuu numeeristen tietojen jalostamisen menetelmistä tilastotieteilijät kehittävät soveltajat käyttävät Tilastotieteen alaan kuuluvaksi tulkitaan ongelmanasettelut, joissa ainakin yksi tilastotieteen menetelmä näyttelee merkittävää osaa Saadakseen selville mitä tilastotiede on, pitää opiskella tilastotiedettä ja sen käyttöä 2
Menetelmätiede Tilastotiede sijoittuu tieteiden kentässä matematiikan, filosofian ja tietojenkäsittelytieteen rinnalle Menetelmätieteissä kehitetään työkaluja muiden tieteiden tutkimusongelmien ratkaisuksi on myös oma sovelluksista vapaa teorianmuodostuksensa Sattuman ottaminen huomioon tutkimusasetelmissa erottaa tilastotieteen muista menetelmätieteistä Tilastotieteen kenttä Matematiikka Soveltava Teoreettinen Tietojenkäsittely 3
Lähtökohtana aineisto Aineisto on tilastotieteessä ratkaisevassa asemassa pelkkä menetelmien kehittäminen on matematiikkaa pelkkää aineistoon keskittyminen on tietojenkäsittelyä Computer Science = Tietojenkäsittelytiede? Tilastotiedettä pitäisi oikeastaan kutsua tietojenkäsittelytieteeksi Hyödyllisen tiedon survomista aineistosta Suomen kielessä tietojenkäsittely ymmärretään kuitenkin laajemmassa mielessä ohjelmoitavissa olevaksi automatisoimiseksi, jota tilastotiede ei perusolemukseltaan suinkaan ole 4
Statistics are not collected, but produced; research results are not findings but creations Vaikka kvantitatiivisia aineistoja ei voida pitää objektiivisina faktoina asioiden tilasta, se ei tarkoita, etteivätkö tulokset olisi käyttökelpoisia Järkevät käytön ehtona on kuitenkin menetelmien, aineiston ja tutkittavan ilmiön pintaa syvemmälle ulottuva tuntemus menetelmien oletukset on osattava ottaa huomioon ja toisaalta odottamattomien tulosten syyt on pystyttävä jäljittämään Ongelmalähtöisyys On pystyttävä valitsemaan ja käyttämään menetelmiä, jotka antavat aineistosta vastauksia haluttuihin kysymyksiin On käytettävä niin yksinkertaisia menetelmiä kuin mahdollista, mutta ei yhtään yksinkertaisempia 5
Substanssitietous Ongelmanratkaisussa tarvitaan metodisen osaamisen lisäksi välttämättä myös substanssitietoutta on pystyttävä arvioimaan ongelmanasettelun ja tulosten tarkoituksenmukaisuutta Tutkijan tieteelliset ja yhteisölliset sitoumukset heijastuvat välttämättä tutkimuksen kulkuun toimijuuden ei silti tarvitse olla toistoa tietyn menetelmän ja käsitteellisen maailman rajoissa Alkuperäinen ongelma? Tutkimuksen aikana tehdyt havainnot vaikuttavat varmasti lopullisiin johtopäätöksiin ne syventävät aineiston ja ilmiön tuntemusta Parhaimmillaan tuloksena on yksityiskohtainen ja periaatteessa myös toiston mahdollistava vakuuttava kuvailu tutkimusprosessin etenemisestä ja saatujen tulosten järkevyydestä 6
Menetelmien monimutkaisuus? Tilastollisen päättelyn osaamisen välttämättömyys voi johtaa tutkittavan ilmiön kannalta täysin epäoleelliseen tekniseen näpertelyyn Kolmannen tyypin virhe: Saadaan oikeita vastauksia, mutta vääriin kysymyksiin Black-box ilmiö: Saadaan ehkä oikeita vastauksia, mutta ei tiedetä miksi ja mihin kysymyksiin Tieteellisyys = matemaattisuus? Teknistä esitystä käyttävää tutkijaa pidetään lahjakkaana, koska hän kykenee käyttämään vaikeita menetelmiä Ongelma ei saisi päästä unohtumaan! Tekninen esitys ei takaa ideologisesti vähemmän sitoutunutta tutkimusta 7
Tilastotieteen alkujuuret Tilastotiede on saanut alkunsa siitä, että yhteiskunnan modernisoituessa on tarvittu yhä enemmän tietoja erilaisiin hallinnollisiin tarpeisiin Samalla on syntynyt tarve kehittää menetelmiä joiden avulla tilastojen luotettavuutta on voitu parantaa jotka mahdollistavat tilastoihin perustuvien johtopäätösten teon Ongelmasta menetelmään Suurin osa tilastotieteen menetelmistä on alun perin kehitetty jonkin konkreettisen tutkimusongelman innoittamana Kiinnostuksen kohteena olevat ilmiöt ovat sekä ajallisesti että kulttuurillisesti riippuvia Menetelmien lähtökohdat eivät matemaattisuudestaan huolimatta ole välttämättä neutraaleja 8
Tilastotieteen positivismi? Positivismissa ajatellaan, että ilmiöt noudattavat luonnontieteiden tapaan universaaleja lakeja ilmiöiden käyttäytymisen lait on mahdollista johtaa hierarkkisesti muutamasta yleisestä peruslaista Positivisteille selittäminen ja ennustaminen ovat pohjimmiltaan samoja asioita Positivismin kritiikkiä (1/2) Jättää systemaattisesti huomioimatta sosiaaliseen vuorovaikutukseen liittyvät subjektiiviset tuntemukset, kokemukset ja havainnot Sosiaalisten merkitysten tulkinta ja ymmärtäminen edellyttää muutakin kuin havaitun aineiston tekstiä luettaessa on tavoitteena ymmärtää eikä vain tarkastella kirjainmerkkejä ja niiden yhdistelmiä 9
Positivismin kritiikkiä (2/2) Universaalit lait eivät voi olla arvovapaita Yhteiskuntatieteellisissä lainalaisuuksissa ihmisiä kohdellaan kuin manipuloitavia objekteja tietoa voidaan käyttää väärin Tilastotiede ja positivismi? Tutkijalla on (positivistinen) ideologia, ei tilastotieteellä Jos kvantitatiivinen mittaus pystyy antamaan tutkittavasta ilmiöstä tutkimusongelman kannalta relevanttia tietoa, voidaan aineiston analyysiin käyttää tilastollisia menetelmiä 10
Tilastotieteen mahdollisuudet Menetelmät eivät välttämättä ole järkeviä, mutta ne ovat joka tapauksessa eksplikoitavissa Jokainen voi arvioida saatuja tuloksia suhteessa aineistoon, sen ennakkoehtoihin ja käytettyihin menetelmiin Nappitekniikkaa? Heikkojen laskentamahdollisuuksien aikana analyysien tekeminen oli käytännössä varsin työlästä Kehittyneiden tietojenkäsittelyllisten resurssien myötä monimutkaisiakin analyysejä on mahdollista tehdä tietämättä menetelmien teoreettisesta taustasta yhtään mitään Analyyseja tehdään ymmärtämättä mistä on itse asiassa kysymys 11
Nappitekniikkaa - kiitos ei Helppokäyttöisistä tilasto-ohjelmistoista on riittävät perustaidot omaaville käyttäjille erittäin paljon hyötyä Koneiden ja ohjelmien käytön opettelu ei kuitenkaan ole varsinaista tilastotiedettä ajattelutavat tärkeämpiä kuin yksittäisten ohjelmien kommervenkit Tilastotieteen väärinkäyttö Vale, emävale, tilasto Tilastoja ja tilastotiedettä käytetään paljon väärin usein tahatonta (esim. puutteellisesta koulutuksesta johtuvaa) joskus tarkoituksellista Monet tilastolliset menetelmät ovat vaikeita ja vaativat soveltajiltaan paljon Myös tutkijoilla valitettavan usein tilastotieteestä vain perustiedot, jos sitäkään 12
Tilastotieteen sovellusaloja Tilastotiedettä käyttävät apuvälineenään kaikki tieteenalat, joissa analysoidaan numeerista tietoa Kaikki kokeellinen tutkimus käyttää apunaan tilastollisia menetelmiä Tilastotieteen tutkimuskenttä? Koska tilastotieteellä on sovelluksensa miltei kaikilla tieteenhaaroilla, on syntynyt rajatieteitä demografia, psykometriikka, sosiometria, ekonometria, management science, induktiologiikka, informaatioteoria, matemaattinen tilastotiede, todennäköisyyslaskenta, systeemiteoria, stokastiikka, laskennalliset menetelmät, data mining, knowledge discovery, hahmontunnistus, tekoäly, koneoppiminen, neurolaskenta, laadun tarkkailu, teknometria, operaatioanalyysi, signaalinkäsittely, koesuunnittelu, statistinen mekaniikka, kemometria, biometria, biostatistiikka, teoreettinen epidemiologia, genetiikka jne. 13