Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 1 Tilastotiede käytännön tutkimuksessa, kesä 2003 Reijo Sund Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus (Stakes) <reijo.sund@stakes.fi> Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus Kesä 2003 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 2 Kurssin tavoitteet Laajentaa johdantokurssin antamaa kuvaa tilastollisten menetelmien roolista empiirisen tutkimusaineiston keräämisessä ja analysoimisessa Opettaa tilastollista ajattelua ja sen hyödyntämistä eri tyyppisissä tutkimusongelmissa
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 3 Kirjallisuus Luentomuistiinpanot ja vastaavat Oheislukemistoa: Ilkka Mellin (1996): Johdatus tilastotieteeseen 1. & 2. kirja johdanto- ja jatkokurssi Alkula ym. (1994): Sosiaalitutkimuksen kvantitatiiviset menetelmät. WSOY. Helsinki. Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 4 Tieteenfilosofiaa Mitä on luvassa? Tilastotieteen olemuksen pohdintaa ja sovellusaloja Tilastollisen ajattelun elementtejä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 5 Mitä on luvassa? Tilastollisen päättelyn perusteet Kertausluontoisesti: Todennäköisyys ja sen tulkinta Satunnaismuuttujat Odotusarvo, varianssi, korrelaatio Jakaumia ja niiden yhteyksiä normaalijakaumaan Tilastollinen malli Estimointi Luottamusvälit Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 6 Tutkimusprosessi teoriassa ja käytännössä Ongelman asettaminen Ongelman täsmentäminen ja tutkimusstrategian laatiminen Aineiston kerääminen Aineiston ennakkoehdot Mittaaminen ja otanta Survey- ja rekisteriaineistot Aineiston kuvaaminen Aineiston analyysi Tilastolliset mallit Johtopäätösten teko Tutkielman tai raportin laatiminen Tutkimustulosten julkaiseminen
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 7 Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Tieteen ja tutkimuksen lähtökohtia Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2003 Reijo Sund Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus Kesä 2003 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 8 Tiede ja tutkimus Tiede on järjestelmällistä ja järkiperäistä uuden tiedon hankintaa Haaparanta & Niiniluoto (1986): Johdatus tieteelliseen ajatteluun. Filosofian laitoksen julkaisuja 3/86. Helsingin yliopisto. Tieteellinen tutkimus on tutkivan subjektin ja tutkimusobjektin välistä vuorovaikutusta
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 9 Tieteen määritelmä? (1/4) Tiede ymmärretään toiminnaksi, jossa tavoitellaan ja hankitaan tietoa Tiede eroaa muista inhimillisen toiminnan muodoista, joilla on erilainen päämäärä Urheilu, tanssi, taide, tekniikka, maanviljely, kaupankäynti, politiikka Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 10 Tieteen määritelmä? (2/4) Vaatimus uudesta tiedosta sulkee tieteen käsitteen ulkopuolelle toiminnot, joissa on kyse vain aikaisemmin hankittujen tietojen omaksumisesta ja järjestämisestä opiskelu, komitea- ja selvitystyö
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 11 Tieteen määritelmä? (3/4) Tiede ylittää tiedostamisen arkitason järjestelmällisyytensä ansiosta tieteellinen tiedonhankinta on organisoitu instituutioiden tehtäväksi ja tulokset kootaan systemaattisiksi tietojärjestelmiksi yliopistot, korkeakoulut, tutkimuslaitokset tieteelliset julkaisut Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 12 Tieteen määritelmä? (4/4) Järkiperäisyyden vaatimus asettaa ehtoja tieteelliselle ajattelutavalle: tiede ei voi nojautua yksilölliseen vaistoon tai intuitioon suostutteluun propagandaan tai jumalalliseen ilmoitukseen Tiedon hankkimisen on tapahduttava tiedeyhteisön hyväksymän tutkimusmenetelmän avulla
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 13 Epätiede? Esitetty tieteen määritelmä ei täysin rajaa käsitteen merkitystä Miten eroavat papin saarna, poliitikon vaalipuhe, tieteellinen esitelmä? Demarkaatio-ongelma tieteen ja epätieteen välinen rajanveto Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 14 Tieteen luonne? Mitä tarkoitetaan tiedolla loogisella ajattelulla ja tieteellisellä tutkimusmetodilla? Näiden ongelmien järjestelmällinen ja kriittinen tarkastelu on metodologian ja tieteenfilosofian tehtävä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 15 Milloin tutkimus on tieteellistä? Tiede on tiedonhankintaa, jossa käytetään erityistä tieteellistä menetelmää eli metodia Metodologinen optimismi: on mahdollista muotoilla kaikille tutkimusaloille soveltuva yleinen menetelmä Määrääkö tutkimuskohde tutkimusmetodin? Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 16 Objektiivisuus Tieteellisen menetelmän kriteereitä (1/4) tutkimuskohteen ominaisuudet ovat tutkijan mielipiteistä riippumattomia tieteellinen tieto tutkimuskohteesta syntyy tutkijan ja tutkimuskohteen vuorovaikutuksen tuloksena tiedon lähteenä on tutkimuskohteesta saatava kokemus tutkimuskohteesta voidaan saada totuudellista tietoa, jonka laadusta myös tutkijayhteisö voi olla yhtä mieltä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 17 Kriittisyys Tieteellisen menetelmän kriteereitä (2/4) ilmenee niinä vaatimuksina, joita hypoteesin perustamiselle, testaamiselle ja hyväksymiselle on asetettu tieteellisten hypoteesien tulee olla intersubjektiivisesti testattavissa eli niillä täytyy olla yhdessä sopivien lisäoletusten kanssa sellaisia seurauksia, joiden totuus tai virheellisyys voidaan julkisesti tarkistaa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 18 Tieteellisen menetelmän kriteereitä (3/4) Autonomisuus tieteen tulosten arvioiminen on tieteellisen yhteisön oma asia, johon tieteen ulkopuolella olevat ryhmät eivät saa vaikuttaa ei ole hyväksyttävää vedota siihen, että väitteen totuus olisi toivottavaa tai epätoivottavaa esimerkiksi poliittisista, uskonnollisista tai moraalisista syistä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 19 Edistyvyys Tieteellisen menetelmän kriteereitä (4/4) Tieteen edistyminen merkitsee kasvun eli tulosten määrällisen lisääntymisen ohella sitä, että virheellisiä hypoteeseja tai teorioita korvataan uusilla tuloksilla, jotka ovat tosia tai ainakin vähemmän virheellisiä kuin aikaisemmat Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 20 Tieteellinen ajattelu Tieteelliselle ajattelulle on tunnusomaista myös se, että se pohtii ja kehittelee paradigmojaan, oman toimintansa perusteita ei voida johtaa siitä miltä asiat näyttävät, kuten arkiajattelussa tiede kehittää teoriaa kriittisesti ja määrätietoisesti rationaalisen ajattelun keinoin
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 21 Tutkimus Jokaisen tutkimuksen lähtökohtana on - tai ainakin pitäisi olla - tiedollisen uteliaisuuden, käytännön tarpeiden tai teorian kehittämispyrkimyksen herättämä ongelma, johon tutkimuksen avulla etsitään vastausta Tutkimus yrittää käsittää sekä tutkitun ilmiön että sen tajunnassa synnyttämät spontaanit mielikuvat tai arkipäivän teoriat Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 22 Tutkimuksen rajat? Tutkimus antaa aina vajavaisen kuvan tutkimuskohteesta havaittava tieto ei pysty kattamaan kaikkea tutkimuskohteeseen liittyvää ymmärtämiseen tarvittava havaintomaailman hahmotus tuottaa ideologisesti ja historiallisesti sitoutuneita yksinkertaistavia sekä luonteeltaan usein hyvin teoreettisia abstraktioita
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 23 Tutkimuksen vaatimukset? Tutkimus edellyttää arkikieltä täsmällisempää kommunikaatiota ongelmaan liittyvien käsitteiden huolellinen määritteleminen ja erittely on tarpeellista eivät korvaa empiiristä tietoa vaikuttavat tiedon järjestymiseen ja sen perusteella tehtäviin päätelmiin Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 24 Luonnonlait Jotkut ilmiöt (esim. painovoima) ovat luonteeltaan varsin pysyviä voidaan tehdä luotettavasti laajojakin yleistyksiä selityksiä voidaan empiirisesti testata matemaattisia esityksiä voidaan hedelmällisesti kehittää
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 25 Kontekstisidonnaiset mallit Tarkastellaan usein ilmiöitä jotka eivät suurelta osin ole toistettavia vaihtelevat huomattavasti ajan myötä Tieto ei voi kasaantua tavanomaisessa mielessä, koska se ei kykene ylittämään historiallisia rajojaan Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 26 Käsitteiden arvosisältö? Käsitteet ovat harvoin arvovapaita useimmat voidaan korvata toisilla käsitteillä, joilla on hyvin erilainen arvosisältö Arvottava lataus osaksi tarkoituksellista (!?!) Toisaalta arvoihin sitoutuminen väistämätön sosiaalisen olemassaolon sivutuote Yhteiskunnan jäseninä meillä on tuskin mahdollisuutta irtautua arvoistamme, kun pyrimme ammatillisiin päämääriin Gergen, Kenneth J. (1973): Social Psychology as History. Journal of Personality and Social Psychology 26:2, 309-320. (Suomeksi: Sosiaalipsykologia historiana. Psykologia 26(1991):2, Psykologian helmiä.)
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 27 Arvolatauksien ongelmia Arvopainotteisten valintojen tunnistaminen saattaa olla vaikeaa Myös päinvastainen ongelma olemassa: tutkimusta arvioidaan siihen perustellusti tai perusteettomasti kiinnitettyjen arvonäkökohtien mukaan Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 28 Tutkimuksen rajat! On mahdotonta päästä neutraaliuteen ja objektiivisuuteen Pulma pitäisi silti pystyä tiedostamaan Tutkimusta voi tehdä joistakin arvolähtökohdista, mutta sen tulisi olla näkyvää Omien arvojen mahdollisimman selvä eksplikointi on yksi keino, jolla voi yrittää vähentää piiloarvojen vaikutusta tutkimukseen
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 29 Kontekstisidonnaisten ilmiöiden mittaaminen? Ilmiöiden rakenne ja toiminta on ehdollinen käytettävän merkitysjärjestelmän suhteen kysymys mittaamisesta asetettava suhteessa tähän käsitejärjestelmään joudutaan tekemään erilaisia kompromisseja eksaktisuus- ja systemaattisuusvaatimusten sekä arkikielen monimerkityksisyyden välillä Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 30 Metodologinen pluralismi Kaikkia menetelmiä voi soveltaa hyvin tai huonosti, mutta niitä voi käyttää myös luovasti väärin Kvantitatiiviset ja kvalitatiiviset menetelmät, samoin kuin niiden sisäiset vaihtoehdot ja erilaiset menettelytavat voivat täydentää toisiaan jossain tutkimusongelmassa, mutta ne voivat kilpailla keskenään jossain toisessa yhteydessä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 31 Tutkimusprosessi Reijo Sund Tilastotiede käytännön tutkimuksessa Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus Kesä 2003 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 32 Tutkimusprosessi? Tutkimusta ei yleensä ole mahdollista jakaa selvästi erillisiin ja ajallisesti toisiaan seuraaviin vaiheisiin Usein on kuitenkin tarkoituksenmukaista jäsentää tutkimuksessa kohdattavia tehtäviä ja niiden välisiä suhteita tutkimusprosessin käsitteen avulla
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 33 Tutkimuksen luonne Tutkimusprosessin vaiheet toistuvat vuorotellen ja limittäin, sillä tutkimuksen aikana tehdyt havainnot muokkaavat tutkimuksen kulkua Tutkimuksen tekeminen vaikuttaa lopullisiin johtopäätöksiin, sillä aineiston ja ilmiön tuntemus kasvaa tutkimuksen kuluessa Päätelmien tieteellisyyden (periaatteellinen) tarkistusmahdollisuus on tärkeää Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 34 Tutkimuksen rakenne Keskustelu Asemointi Ongelma 3 2 Kysymys 4 5 Aineisto 6 Menetelmä Analyysi 7 Näkökulma 1 Idea Vastaus Teoria 8
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 35 Ilmiön ymmärtäminen Tutkimuksen lähtökohtana joku ongelma, johon tutkimuksen avulla etsitään vastausta [1] Tieto ei voi ylittää historiallisia rajojaan, joten tieteelliset teoriat ovatkin vain loogisia apuvälineitä, joita voidaan käyttää ilmiön tutkimuksen välineenä tai keinona sillä ehdolla, että sekä ilmiö että teoria asemoidaan ja tulkitaan suhteessa vallitseviin olosuhteisiin ja tieteelliseen keskusteluun [2] Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 36 Määritelmät Ilmiöitä ei voida tutkia sellaisenaan, vaan vain niiden ilmentymien kautta käsitteiden avulla Tutkimus edellyttää arkikieltä täsmällisempää kommunikaatiota, joten ongelmaan liittyvien käsitteiden huolellinen määritteleminen ja erittely on tarpeellista Määritelmät eivät korvaa empiiristä tietoa, mutta ne vaikuttavat tiedon järjestymiseen ja sen perusteella tehtäviin päätelmiin
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 37 Havaittava tieto Yleensä ajatellaan, että todellisuudesta saadaan tietoa tavalla tai toisella havaintoja tekemällä Havaittava tieto ei mitenkään pysty kattamaan kaikkea tutkimuskohteeseen liittyvää ja toisaalta ymmärtämiseen tarvittava havaintomaailman hahmotus tuottaa ideologisesti ja historiallisesti sitoutuneita yksinkertaistavia sekä luonteeltaan usein hyvin teoreettisia abstraktioita Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 38 Operationalisointi Havainnoiminen ja mittaaminen joudutaan suhteuttamaan valittuun käsitejärjestelmään Joudutaan tekemään kompromisseja mittauksen eksaktisuus- ja systemaattisuusvaatimusten ja arkikielen monimerkityksisyyden välillä On operationalisoitava tutkimusasetelma sellaiseksi, että tutkittavasta ilmiöstä pystytään tuottamaan ongelmanratkaisun kannalta tarkoituksenmukaista tietoa
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 39 Näkökulman kiinnittäminen? Operationalisoinnin avulla siirrytään teorian tasolta empirian tasolle ja samalla tulee määritellyksi näkökulma, josta ongelmaa tarkastellaan [3] Käsitteet ja niiden yhteyksistä esitettävät näkemykset voivat vaihtua tutkimuksen kuluessa, kunnes lopulta saavutetaan käsitteiden kyllääntymispiste Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 40 Numeerinen mittaus Numeerisen mittauksen onnistumiseksi käsitteen muotoilu on kiinnitettävä mittariksi Numeeristenkin mittausten tulkinta edellyttää, että niitä on tulkittava siinä kontekstissa, josta ne ovat peräisin On kohtalokas virhe pakottaa tutkijan ideologisesti värittyneitä tulkintoja kontekstiin, jossa käsitteet eivät välttämättä vastaa tutkijan määritelmiä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 41 Aineisto Aineisto edustaa tutkimuksessa empiiristä maailmaa ja se valitaan ongelmanasettelun perusteella [4] Tarvitaan systemaattinen aineisto, jonka avulla on mahdollista vastata tutkimuskysymyksiin Aineiston tuottamiseen liittyy useita valintoja, jotka implisiittisesti määräävät myös mahdolliset analyysimenetelmät [6] Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 42 Esikäsittely Aineisto ei ole keräämisen jälkeen yleensä koskaan suoraan käytettävissä vaan vaatii erinäistä käsittelyä [5] Esikäsittely on operationalisoinnin toinen vaihe, jossa aikaisemmin tehtyjen valintojen aineistossa esiintyvät ilmentymät sovitetaan vastaamaan ongelmanasettelua Esikäsittely voi olla esimerkiksi numeeristen mittausten virheiden korjaamisesta tai laadullisen aineiston koodausta
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 43 Analyysi Analyysivaiheessa sopivasti käsitelty aineisto ja ongelma pyritään sovittamaan yhteen siten, että ongelmaan saataisiin perusteltu ratkaisu [7] Oleellista analyyseissa on, että niitä varten tehtävät abstraktiot ja oletukset sisältävät ongelmanasettelun kannalta keskeiset tekijät sellaisella tavalla, ettei oletuksiin liittyvä informaation häviäminen kyseenalaista saatavia tuloksia Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 44 Tulkinta Analyysien tulokset on tulkittava eli käännettävä ne takaisin empirian kieleltä teorian kielelle Tavoitteena on substanssitietouteen perustuen tuottaa uutta tietoa siten, että se lisää myös substanssitietoutta Tulkinnan voi ajatella olevat operationalisoinnin käänteistapahtuma Tutkimuksen läpivieminen sekä tulkinnan kannalta onnistunut operationalisointi ovat loppujen lopuksi yksi ja sama asia
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 45 Raportointi Parhaimmillaan tutkimusraportti on vakuuttava (ja periaatteessa toiston mahdollistava) kuvaus tutkimusprosessin kaikista vaiheita, jolloin lukija voi itse päättää haluaako uskoa saatuihin tuloksiin vai ei Keskeistä on tuoda esille, mitä uutta kyseessä oleva tutkimus on paljastanut ilmiöstä ja suhteuttaa se olemassa olevaan tietoon Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 46 Tulosten perustelu Tutkimuksen pätevyyttä ja yleistettävyyttä ja analyysin arvioitavuutta ja uskottavuutta tulisi pohtia raportissa Tutkimuksen kuluessa tehdyt valinnat tulisi perustella tiedostaen mahdollisuuksien mukaan myös omat normatiiviset tai arvopainotteiset valinnat
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 47 Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Mitä tilastotiede on? Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2003 Reijo Sund Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus Kesä 2003 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 48 Mitä tilastotiede on? Reaalimaailmaa koskevan tiedon keräämisen, käsittelyn, analysoinnin sekä johtopäätösten teon tietoa ja taitoa Päämääränä on tuottaa ymmärrystä havaintoaineistossa piilevästä informaatiosta Maalaisjärjen tehostusta sattuma ja systemaattisuus pyritään erottamaan auttaa mallintamaan asioita ja luo näin järjestystä elävän elämän moniselkoisuuteen
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 49 Mitä tilastotiede ei ole? Tilastotiede ei ole oppia tilastoista ja niiden tekemisestä Tilastot ovat usein tilastotieteen soveltajan tutkimuskohteena ja tilastojen laadinnassa käytetään apuna tilastotieteen menetelmiä Tilastotuotannon kokonaisuutta nimitetään tilastotoimeksi Tilastotieteen käyttöalue on paljon tätä laajempi Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 50 Työkalupakki Tilastotiede koostuu numeeristen tietojen jalostamisen menetelmistä tilastotieteilijät kehittävät soveltajat käyttävät Tilastotieteen alaan kuuluvaksi tulkitaan ongelmanasettelut, joissa ainakin yksi tilastotieteen menetelmä näyttelee merkittävää osaa Saadakseen selville mitä tilastotiede on, pitää opiskella tilastotiedettä ja sen käyttöä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 51 Menetelmätiede Tilastotiede sijoittuu tieteiden kentässä matematiikan, filosofian ja tietojenkäsittelytieteen rinnalle Menetelmätieteissä kehitetään työkaluja muiden tieteiden tutkimusongelmien ratkaisuksi on myös oma sovelluksista vapaa teorianmuodostuksensa Sattuman ottaminen huomioon tutkimusasetelmissa erottaa tilastotieteen muista menetelmätieteistä Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 52 Tilastotieteen kenttä Matematiikka Soveltava Teoreettinen Tietojenkäsittely
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 53 Lähtökohtana aineisto Aineisto on tilastotieteessä ratkaisevassa asemassa pelkkä menetelmien kehittäminen on matematiikkaa pelkkää aineistoon keskittyminen on tietojenkäsittelyä Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 54 Computer Science = Tietojenkäsittelytiede? Tilastotiedettä pitäisi oikeastaan kutsua tietojenkäsittelytieteeksi Hyödyllisen tiedon survomista aineistosta Suomen kielessä tietojenkäsittely ymmärretään kuitenkin laajemmassa mielessä ohjelmoitavissa olevaksi automatisoimiseksi, jota tilastotiede ei perusolemukseltaan suinkaan ole
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 55 Statistics are not collected, but produced; research results are not findings but creations Vaikka kaiken kritiikin kestäviä kaikille näkökulmille yhteisiä objektiivisia faktoja asioiden tilasta ei pystytäkään tuottamaan, se ei tarkoita, etteivätkö tulokset olisi käyttökelpoisia Järkevän käytön ehtona on kuitenkin menetelmien, aineiston ja tutkittavan ilmiön pintaa syvemmälle ulottuva tuntemus Lähtökohtana on tutkimusongelma ja tutkijan valitsema näkökulma Aineisto on todellisuuden vääristynyt kuvailuyritys Menetelmien oletukset on osattava ottaa huomioon ja toisaalta odottamattomien tulosten syyt on pystyttävä jäljittämään Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 56 Ongelmalähtöisyys On pystyttävä valitsemaan ja käyttämään menetelmiä, jotka antavat aineistosta vastauksia haluttuihin kysymyksiin On käytettävä niin yksinkertaisia menetelmiä kuin mahdollista, mutta ei yhtään yksinkertaisempia
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 57 Substanssitietous Ongelmanratkaisussa tarvitaan metodisen osaamisen lisäksi välttämättä myös substanssitietoutta on pystyttävä arvioimaan ongelmanasettelun ja tulosten tarkoituksenmukaisuutta Tutkijan tieteelliset ja yhteisölliset sitoumukset heijastuvat välttämättä tutkimuksen kulkuun toimijuuden ei silti tarvitse olla toistoa tietyn menetelmän ja käsitteellisen maailman rajoissa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 58 Alkuperäinen ongelma? Tutkimuksen aikana tehdyt havainnot vaikuttavat varmasti lopullisiin johtopäätöksiin ne syventävät aineiston ja ilmiön tuntemusta Parhaimmillaan tuloksena on yksityiskohtainen ja periaatteessa myös toiston mahdollistava vakuuttava kuvailu tutkimusprosessin etenemisestä ja saatujen tulosten järkevyydestä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 59 Menetelmien monimutkaisuus? Tilastollisen päättelyn osaamisen välttämättömyys voi johtaa tutkittavan ilmiön kannalta täysin epäoleelliseen tekniseen näpertelyyn Kolmannen tyypin virhe: Saadaan oikeita vastauksia, mutta vääriin kysymyksiin Black-box ilmiö: Saadaan ehkä oikeita vastauksia, mutta ei tiedetä miksi ja mihin kysymyksiin Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 60 Tieteellisyys = matemaattisuus? Teknistä esitystä käyttävää tutkijaa pidetään lahjakkaana, koska hän kykenee käyttämään vaikeita menetelmiä Ongelma ei saisi päästä unohtumaan! Tekninen esitys ei takaa ideologisesti vähemmän sitoutunutta tutkimusta
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 61 Tilastotieteen alkujuuret Tilastotiede on saanut alkunsa siitä, että yhteiskunnan modernisoituessa on tarvittu yhä enemmän tietoja erilaisiin hallinnollisiin tarpeisiin Samalla on syntynyt tarve kehittää menetelmiä joiden avulla tilastojen luotettavuutta on voitu parantaa jotka mahdollistavat tilastoihin perustuvien johtopäätösten teon Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 62 Ongelmasta menetelmään Suurin osa tilastotieteen menetelmistä on alun perin kehitetty jonkin konkreettisen tutkimusongelman innoittamana Kiinnostuksen kohteena olevat ilmiöt ovat sekä ajallisesti että kulttuurillisesti riippuvia Menetelmien lähtökohdat eivät matemaattisuudestaan huolimatta ole välttämättä neutraaleja
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 63 Tilastotieteen kritiikkiä? Tilastotiedettä on arvosteltu siitä, että analyysien lähtökohtana on usko todellisen maailman ja näin ollen aineistoa generoivien mekanismien olemassaoloon Arvostelijoiden mukaan selittämistä ja ennustamista pidetään tilastotieteessä pohjimmiltaan samoina asioina Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 64 Lisää kritiikkiä! Jättää systemaattisesti huomioimatta sosiaaliseen vuorovaikutukseen liittyvät subjektiiviset tuntemukset, kokemukset ja havainnot Sosiaalisten merkitysten tulkinta ja ymmärtäminen edellyttää muutakin kuin havaitun aineiston tekstiä luettaessa on tavoitteena ymmärtää eikä vain tarkastella kirjainmerkkejä ja niiden yhdistelmiä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 65 Vastaus kritiikkiin.. Tutkijalla on ideologia, ei tilastotieteellä Jos kvantitatiivinen mittaus pystyy antamaan tutkittavasta ilmiöstä tutkimusongelman kannalta relevanttia tietoa, voidaan aineiston analyysin apuna käyttää tilastollisia menetelmiä Tilastotieteen tarjoamia apuvälineitä voi siis käyttää siten, että tulkinnat eivät ole naiiveja ja että ne ottavat huomioon tutkittavien oman maailman eivätkä pakota tulkintaan ja edelleen tuloksiin tutkijan ehkä täysin erilaista maailmaa tutkittavien maailman sijaan Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 66 Mikä on menetelmien yhteinen tavoite? Erotella (löytää) kohinasta (aineistosta) signaalia (säännönmukaisuutta) Tilastotieteen menetelmät ovat yksinkertaisia maalaisjärjen tehostamiskeinoja Laadullisessa tutkimuksessa hyödynnetään menetelmistä ylivoimaisesti monipuolisinta: ihmistä Vrt. hahmontunnistus: Ihminen pystyy vaivatta lukemaan käsinkirjoitettua tekstiä, jota kehittyneinkään lukuohjelma ei saa painokelpoiseksi Vrt. luokittelu: Ihminen luo tulkinnallisesti järkevät luokittelukriteerit ja pystyy helposti muuttamaan niitä tarpeen vaatiessa, mutta paraskaan luokittelualgoritmi ei voi tietää tutkijan tavoitteita
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 67 Tilastotieteen mahdollisuudet Menetelmät eivät välttämättä ole järkeviä, mutta ne ovat joka tapauksessa eksplikoitavissa Jokainen voi arvioida saatuja tuloksia suhteessa aineistoon, sen ennakkoehtoihin ja käytettyihin menetelmiin Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 68 Nappitekniikkaa? Heikkojen laskentamahdollisuuksien aikana analyysien tekeminen oli käytännössä varsin työlästä Kehittyneiden tietojenkäsittelyllisten resurssien myötä monimutkaisiakin analyysejä on mahdollista tehdä tietämättä menetelmien teoreettisesta taustasta yhtään mitään Analyyseja tehdään ymmärtämättä mistä on itse asiassa kysymys
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 69 Nappitekniikkaa - kiitos ei Helppokäyttöisistä tilasto-ohjelmistoista on riittävät perustaidot omaaville käyttäjille erittäin paljon hyötyä Koneiden ja ohjelmien käytön opettelu ei kuitenkaan ole varsinaista tilastotiedettä ajattelutavat tärkeämpiä kuin yksittäisten ohjelmien kommervenkit Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 70 Tilastotieteen väärinkäyttö Vale, emävale, tilasto Tilastoja ja tilastotiedettä käytetään paljon väärin usein tahatonta (esim. puutteellisesta koulutuksesta johtuvaa) joskus tarkoituksellista Monet tilastolliset menetelmät ovat vaikeita ja vaativat soveltajiltaan paljon Myös tutkijoilla valitettavan usein tilastotieteestä vain perustiedot, jos sitäkään
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 71 Tilastotieteen sovellusaloja Tilastotiedettä käyttävät apuvälineenään kaikki tieteenalat, joissa analysoidaan numeerista tietoa Kaikki kokeellinen tutkimus käyttää apunaan tilastollisia menetelmiä Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 72 Tilastotieteen tutkimuskenttä? Koska tilastotieteellä on sovelluksensa miltei kaikilla tieteenhaaroilla, on syntynyt rajatieteitä demografia, psykometriikka, sosiometria, ekonometria, informaatioteoria, matemaattinen tilastotiede, todennäköisyyslaskenta, stokastiikka, laskennalliset menetelmät, data mining, knowledge discovery, hahmontunnistus, tekoäly, koneoppiminen, neurolaskenta, operaatioanalyysi, signaalinkäsittely, kemometria, biometria, biostatistiikka, teoreettinen epidemiologia jne.
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 73 Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Tilastotieteellisen ajattelun keskeiset elementit Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2003 Reijo Sund Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus Kesä 2003 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 74 Tilastotieteellinen ajattelu Tilastotieteellisistä ongelmanasetteluista voidaan löytää tiettyjä yhteisiä elementtejä Elementtejä voi kuvata niin yleisellä tasolla, että ne eivät enää ole sidoksissa yksittäiseen ongelmaan Ne heijastelevat kaikille ongelmanasetteluille yhteisiä piirteitä Eivät kuitenkaan ole tee se näin -listoja
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 75 1. Satunnaisvaihtelu Sattuma esiintyy lähes kaikissa tilastollisissa ongelmanasetteluissa Vaihtelun välttämättömyys tiedostettava Ilmiö koostuu systemaattisesta osasta ja satunnaisesta vaihtelusta Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 76 2. Ilmiön ja ongelman hahmottaminen järjestelmäksi Järjestelmä on joukko toisiinsa liittyviä asioita tai osia, jotka toimivat yhdessä tai ovat jonkinlaisessa yhteydessä siten, että niiden voidaan ajatella muodostavan eriteltävissä olevan kokonaisuuden Tarvitaan kuvaus järjestelmään liittyvistä olioista, ilmiöistä ja toisaalta myös rajoituksista
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 77 Hahmottamisen vaiheet Todellisen järjestelmän operationalisointi kvantitatiiviseksi kuvaukseksi järjestelmästä Tilastollisen mallin ja järjestelmästä mitattavissa olevan aineiston yhteensovittaminen Mallin antamien tulosten muotoilu sellaiseen muotoon, että ne auttavat ymmärtämään mitä aineisto kertoo tarkasteltavasta ilmiöstä Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 78 3. Tilastollisen mallin muodostaminen ja siihen perustuva päättely Kaikki mallit ovat vääriä, mutta jotkut ovat käyttökelpoisia Kuinka saada malliin mukaan kaikki ongelmanasettelun kannalta keskeiset tekijät sellaisella tavalla, ettei oletuksiin ja abstraktioihin liittyvä informaation häviäminen kyseenalaista saatavia tuloksia Vaikutusten eritteleminen on vaikeata, mutta tilastollinen malli on yksi tapa ajatella, kuinka erittely voidaan tehdä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 79 Knowledge about our world is, and always must be, partial knowledge Esimerkki mallista: y = f(x) + e y on selitettävä ilmiö x on tunnettu ja havaittu selittäjä f on selittäjän funktio eli se kuvaa selittäjän vaikutusmekanismin selitettävään ilmiöön nähden e on virhetermi, joka kuvaa ilmiön selittämätöntä osaa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 80 4. Synteesi Tilastollisia tarkasteluja tehdään, koska substanssitietous ei aina riitä haluttuun käyttöön Yhdistämällä tilastotieteen keinoja sekä substanssitietoutta saadaan ongelma ratkaistua vakuuttavalla ja perustellulla tavalla
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 81 Synteesi jatkuu... Tavoitteena tuottaa substanssitietoon perustuen - tilastotieteen keinoja hyödyntäen - uutta tietoa siten, että se lisää myös substanssitietoutta Jokaisen tutkijan tulisi olla tilastotieteilijä ja jokaisen tilastotieteilijän tutkija Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 82 5. Muita osatekijöitä Rikas mielikuvitus Ilman mielikuvitusta uusia yhteyksiä ei keksi etsiä Kriittinen ajattelu Miksi tämä olisi nyt se oikea vastaus?
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 83 Tilastollisen päättelyn perusteet Tilastotiede käytännön tutkimuksessa kesä 2003 Reijo Sund Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus Kesä 2003 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 84 Ilmiöiden luonteesta Deterministinen ilmiö Ilmiön alkutilan perusteella voidaan ennustaa tarkasti sen lopputila eli tulos Satunnaisilmiö Alkutilasta ei voi tarkasti ennustaa tulosta, mutta tulosvaihtoehtojen esiintyminen ei ole mielivaltaista
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 85 Satunnaisilmiön hallitseminen Satunnaisilmiöiden käsittelyyn tarvitaan jonkinlainen viitekehys, joka mahdollistaa ilmiöön liittyvän epävarmuuden hallitsemisen Ylivoimaisesti suosituin lähestymistapa on todennäköisyyslaskenta Muitakin on olemassa esimerkiksi sumea logiikka Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 86 Todennäköisyys Todennäköisyyden voi ajatella olevan epävarmuuden numeerinen mitta Päätetään, että tapahtuman epävarmuuden aste on luku väliltä [0,1] 0 = mahdoton tapahtuma 1 = varma tapahtuma Tapahtuman A todennäköisyyttä merkitään P(A):lla
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 87 Todennäköisyyden tulkintoja Todennäköisyydelle on esitetty monenlaisia tulkintoja Toistettavissa oleville tapahtumille todennäköisyys on tulkittavissa tapahtuman suhteelliseksi frekvenssiksi Mittaa henkilökohtaista uskottavuuden astetta tapahtuman toteutumiselle Geometrinen todennäköisyys pinta-alojen suhteina Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 88 Todennäköisyyden ehdollisuus? Mikä on tapahtuman A:n todennäköisyys sillä ehdolla, että B on tapahtunut? Tätä todennäköisyyttä kutsutaan A:n ehdolliseksi todennäköisyydeksi ehdolla B ja sitä merkitään: P(A B) Ehdollinen todennäköisyys on todennäköisyys Olkoon A kiinnostuksen kohteena oleva tapahtuma ja B siihen liittyvä taustatietämys Tällöin P(A B) on tapahtuman A todennäköisyys käytettävissä olevalla tietämyksellä B
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 89 Todennäköisyyslaskenta Riippumatta todennäköisyyden täsmällisestä tulkinnasta, voidaan todennäköisyyslaskentaa ja sen lakeja käyttää todennäköisyyksien hallitsemiseen Matemaattisesti todennäköisyys on normeerattu täydellisesti additiivinen mitta Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 90 Satunnaisilmiön todennäköisyysmalli Mitä hyötyä todennäköisyydestä on satunnaisilmiöitä tarkasteltaessa? Satunnaisilmiön todennäköisyysmallin voi intuitiivisesti ajatellen hahmottaa koostuvaksi kahdesta osasta: Mahdollisten tulosvaihtoehtojen kuvauksesta Tulosvaihtoehtoihin liittyvien todennäköisyyksien kuvauksesta
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 91 Satunnaismuuttuja Formalisoidaan satunnaisilmiön todennäköisyysmalli satunnaismuuttujan käsitettä käyttäen: Satunnaismuuttuja on muuttuja, jonka arvot määräytyvät todennäköisyyksien avulla Satunnaismuuttuja on kuvaus perusjoukosta reaaliakselille (tulosvaihtoehdoiksi) Satunnaismuuttujalla on jakauma, joka määrää minkälaisilla todennäköisyyksillä erilaisia arvoja saadaan Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 92 Perusjoukko Perusjoukko on tutkittavien yksiköiden joukko (tai sen idealisaatio) Nopanheitossa perusjoukkona ovat kaikki nopanheitot Nopanheittoja voi ajatella olevan äärettömästi Jos tutkimuskohteena on ihminen, niin ihmiset muodostavat perusjoukon Onko ihmisiä äärettömästi? Entä suomalaisia? Vanhuksia?
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 93 Tulosvaihtoehdot Kuhunkin perusjoukon alkioon liittyy satunnaismuuttujan tulosvaihtoehto Satunnaismuuttujan voi ajatella liittävän kuhunkin perusjoukon alkioon jonkin sopivan numeroksi koodatun ominaisuuden Nopanheitossa nopan tahon osoittaman luvun Tutkittaessa ihmistä esimerkiksi:»sukupuolen, siten että 1=mies ja 2=nainen»Pituuden lukuarvon senttimetreinä»elämänlaatumittarin mukaisen välillä [0, 1] olevan lukuarvon Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 94 Kuvaus perusjoukosta reaaliakselille Satunnaismuuttuja kuvaa jokaisen mahdollisen perusjoukon alkion, s Ω, reaaliluvulle Matemaattisesti satunnaismuuttuja X on kuvaus eli funktio X: Ω R eli X(s) = reaaliluku (kaikilla s Ω) Ω s 2 s3 X(s 2 ) = x 2 s 1 x 1 = x 3 x 2 R
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 95 Satunnaisuus? Satunnaismuuttujan arvo on täysin määrätty heti kun se kiinnitetään johonkin tiettyyn perusjoukon alkioon Sen sijaan yleisesti perusjoukon alkiolle - ennen jonkun tietyn alkion valitsemista - voidaan sanoa vain millä todennäköisyyksillä eri tulosvaihtoehtoja saavutetaan Satunnaismuuttujan satunnaisuus siis keskittyy alkion s Ωvalintaan, kuvaus X itse on täysin määrätty Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 96 Tulosvaihtoehdon todennäköisyys Satunnaismuuttujan kaikki tulosvaihtoehdot löytyvät reaaliakselilta eli se saa varmasti jonkun arvon Voidaan ajatella, että todennäköisyysmassa on levitetty tulosvaihtoehtojen päälle reaaliakselilla Tavallista kuusitahoista noppaa heitettäessä tiedetään, että mahdolliset tulosvaihtoehdot ovat 1,2,3,4,5 sekä 6 ja että jokaisen tulosvaihtoehdon todennäköisyys on 1/6 Usein halutaan laskea millä todennäköisyydellä satunnaismuuttujan arvo kuuluu johonkin annettuun R:n (tulosvaihtoehtojen) joukkoon A
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 97 Satunnaismuuttujan jakauma Tulosvaihtoehtojen todennäköisyydet ilmaisevaa joukkofunktiota P X -joka siis kuvaa R:n osajoukot todennäköisyyksiksi - sanotaan satunnaismuuttujan jakaumaksi Koska satunnaismuuttuja saa arvon joukosta A täsmälleen silloin, kun vastaava perusjoukon alkeistapaus kuuluu alkukuvaan X -1 (A), on näillä tapahtumilla sama todennäköisyys eli P X (A) = P(X -1 (A)) Ω X X -1 (A) A R Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 98 Kertymäfunktio Satunnaismuuttujan X todennäköisyyslakia kuvataan yleensä sen kertymäfunktiolla: F(x) = P(X x) F(x) kuvaa paljonko todennäköisyysmassaa on kertynyt vasemmalta pisteeseen x saakka satunnaismuuttujan X kertymäfunktion F(x) avulla voidaan määrätä kaikki satunnaismuuttujaan X liittyvät todennäköisyydet: kertymäfunktio määrittelee ko. satunnaismuuttujan todennäköisyysjakauman
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 99 Kertymäfunktion ominaisuuksia F(- ) = 0 F(+ ) = 1 Funktio F(x) on ei-vähenevä: F(x 1 ) F(x 2 ), jos x 1 x 2 Funktio F(x) on oikealta jatkuva: F(x+h) F(x), jos h 0 oikealta Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 100 Teoreettisen jakauman tunnuslukuja Varsinaisessa tilastoteoreettisessa päättelyssä ja mallintamisessa käytetään usein satunnaismuuttujan jakauman ominaisuuksia tiivistävästi kuvailevia tunnuslukuja Tärkeimmät näistä abstrakteista tunnusluvuista ovat odotusarvo ja varianssi
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 101 Odotusarvo Satunnaismuuttujan X odotusarvo E(X) kuvaa X:n todennäköisyysjakauman paikkaa samaan tapaan kuin (painotettu) aritmeettinen keskiarvo kuvaa muuttujan havaittujen arvojen jakauman paikkaa Odotusarvo sijoittuu jakauman painopisteeseen Vakion odotusarvo: Jos X = a (vakio), niin E(X) = a Suurten lukujen laki: Aritmeettinen keskiarvo lähestyy odotusarvoa havaintojen määrän kasvaessa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 102 Varianssi Jakauman paikan lisäksi kiinnostuksen kohteena on usein jakauman keskittyneisyys (hajaantuneisuus) Satunnaismuuttujan X jakauman hajaantuneisuutta voidaan kuvata jakauman varianssin avulla: var(x) = E[X-E(X)] 2 = E(X 2 ) - [E(X)] 2 tai paremminkin sen standardipoikkeaman std(x) eli varianssin neliöjuuren avulla Vakion varianssi: Jos X = a (vakio), niin var(x) = 0
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 103 Tilastollisen päättelyn lähtökohtia Tilastotieteessä on tavoitteena tehdä johtopäätöksiä ilmiöstä havaintoaineiston perusteella Pyritään tekemään päätelmiä satunnaisilmiöstä, kun käytettävissä on äärellinen määrä sitä kuvaavien satunnaismuuttujien havaittuja arvoja Ongelmana on siis se, että teoriassa toimiva satunnaismuuttujiin perustuva todennäköisyysmalli pitäisi virittää vastaamaan käytännön tarpeita Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 104 Tilastollinen päättely? Frekventistinen tilastollinen päättely Eilispäivän havainnot analysoidaan tänään laaditulla tai tänään korjatulla mallilla ja raportoidaan luottamuksena reaalimaailman tilasta Luottamus perustuu ilmiön oletettuun tilastolliseen stabiliteettiin ja periaatteelliseen mahdollisuuteen toistaa aineistonkeruu huomenna ja kaikkina seuraavina päivinä Bayes-päättely Toissapäivänä kvantifioitu uskomus muuntuu eilispäivän empiiristen havaintojen perusteella tämän päivän kvantifioiduksi uskomukseksi
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 105 Frekventistisiä lähtökohtia Käytettävissä oleva aineisto on yksi mahdollinen satunnaismuuttujien realisaation ilmentymä Jokainen muuttujan arvo voisi olla erilainen satunnaismuuttujien jakaumien määräämissä puitteissa Aineisto on otos superpopulaatiosta Jokainen aineistosta laskettu (tunnus)luku on satunnaismuuttujien funktiona satunnaismuuttuja Tunnusluvun arvo voisi olla erilainen siihen liittyvän satunnaismuuttujan (otos)jakauman määräämissä puitteissa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 106 Perustilanne Oletetaan, että analysoitavana on aineisto y 1,y 2,,y n, eli yhden muuttujan arvot n:lle havaintoyksikölle Tulkitaan havainnot satunnaismuuttujien Y 1,Y 2,,Y n toteutuneiksi arvoiksi Oletetaan edelleen, että nämä satunnaismuuttujat ovat toisistaan riippumattomia ja että ne ovat samoin jakautuneita havaintoarvot ovat saman satunnaismekanismin tuotoksia
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 107 Parametrista vai ei-parametrista? Parametrinen lähestymistapa Oletetaan, että satunnaismuuttuja noudattaa jotain tiettyä parametrista jakaumaperhettä Jakaumaperhe määrää jakauman tyypin, parametrit tarkan muodon Ei-parametrinen lähestymistapa Satunnaismuuttujalle ei oleteta mitään tiettyä analyyttista jakaumaa Parametreina kaikki havainnot Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 108 Ei-parametrisia lähestymistapoja Havaittujen arvojen jakaumaan voidaan liittää empiirinen todennäköisyysjakauma esim. histogrammi on tiheysfunktion ei-parametrinen estimaattori Tunnuslukujen laskemiseksi jakaumaa ei tarvitse kiinnittää Tunnuslukujen otosjakaumien käsittelyn mahdollistamiseksi jakaumaoletus on kuitenkin usein tarpeellinen Ristiintaulukointi Bootstrap, permutaatiotestit yms.
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 109 Bernoulli-jakauma Todennäköisyysmalli, jossa tulosvaihtoehdot 0 = ei tapahdu 1 = tapahtuu Todennäköisyydet P(tapahtuu) = p P(ei tapahdu) = 1-p X B(p) Satunnaismuuttuja X noudattaa Bernoulli-jakaumaa parametrillä p (0 p 1). Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 110 Binomijakauma Olkoot X 1,X 2,,X n ovat riippumattomia satunnaismuuttujia ja X i B(p), i = 1,2,,n Jos Y = X 1 +X 2 + +X n, niin Y Bin(n,p) Y noudattaa binomijakaumaa parametrein n, p Kuinka monta onnistumista n:ssä kokeessa, jos yhdessä kokeessa onnistumisen tn on p n P( Y = k ) = p k 1 p k E(Y) = np var(y) = np(1-p) ( ) n k
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 111 Normaalijakauma X N(µ,σ 2 ), E(X)=µ, var(x)=σ 2 f ( x) 1 1 e x µ 2 = σ σ 2π Yllä oleva tiheysfunktio määrittelee kokonaisen parven normaalijakaumia, kun vakioille µ ja σ annetaan erilaisia arvoja Normaalijakauman keskeinen asema tilastotieteessä johtuu siitä, että monien satunnaismuuttujien on havaittu noudattavan normaalijakaumaa empiirisesti 2 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 112 Keskeinen raja-arvolause Olkoot satunnaismuuttujasta X tehtyjen riippumattomien havaintojen X 1, X 2,, X n odotusarvo E(X i )=µ ja varianssi var(x i )=σ 2 kaikille i. Tällöin havaintoarvojen aritmeettinen keskiarvo X = n 1 n X i i= 1 on suurille havaintojen lukumäärille n approksimatiivisesti normaalinen N(µ,σ 2 /n).
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 113 Parametrinen tilastollinen malli Tilastollisella mallilla tarkoitetaan satunnaisvektorin Y = [ Y 1,Y 2,,Y n ] yhteisjakaumaa f Y (y; θ), jonka oletetaan riippuvan tunnetulla analyyttisella tavalla havaintovektorista y = [ y 1,y 2,,y n ] ja parametrista θ (joka voi myös olla vektori) Tavoitteena on tehdä havaintoihin perustuen johtopäätöksiä tuntemattomasta parametrista θ, joka määrää havaintojen satunnaisuutta kuvaavan todennäköisyysmekanismin Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 114 Uskottavuusfunktio (likelihood) Olkoon f Y (y; θ) tilastollinen malli ja y = [ y 1,y 2,,y n ] havaittu aineisto Parametrin θ funktiota L(y; θ) = f Y (y; θ) sanotaan uskottavuusfunktioksi, joka kuvaa todennäköisyyttä saada aineisto y parametrin arvolla θ Uskottavuusfunktion avulla voidaan tutkia todennäköisyyttä saada havaittu aineisto erilaisilla tuntemattoman parametrin arvoilla θ ja päätellä, että jotkut parametrin arvot ovat uskottavampia kuin jotkut toiset
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 115 Estimointi Oletetaan, että havainnot ovat peräisin tutkimuksen kohteena olevan ilmiön satunnaisia piirteitä kuvaavaksi tilastolliseksi malliksi valitusta parametrisesta jakaumasta Jakauman tarkan muodon määräävät parametrit pyritään estimoimaan havaintojen perusteella Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 116 Parametrin estimaattori Valitaan sopiva havaintojen funktio (tunnusluku), joka kuvastaa parametria eli on parametrin estimaattori Merkitään tuntemattoman parametrin a estimaattoria â:lla ( hatulla ) Estimaattori on havaintojen funktiona satunnaismuuttuja! Parametrin a estimaattorilla â on todennäköisyysjakauma, johon (parametrinen) tilastollinen päättely suurelta osin perustuu
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 117 Piste-estimointi Lasketaan havainnoista vastaava (otos)tunnusluku, jota sitten käytetään parametrin estimaattina Mallin parametreilla on yleensä tutkittavan ilmiön ominaisuuksiin liittyvät tulkinnat Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 118 Väliestimointi Estimaattori on satunnaismuuttuja, joten siihen liittyy epävarmuutta Väliestimoinnissa parametrille määrätään havainnoista riippuva väli, joka peittää tietyllä, tutkijan valittavissa olevalla todennäköisyydellä tuntemattoman parametrin arvon ko. väliä kutsutaan luottamusväliksi ja tutkijan valitsemaan todennäköisyyttä luottamustasoksi»luottamustaso kuvaa eräässä mielessä sitä varmuutta, jonka voimme havaintojen perusteella saada siitä, että tuntematon parametrin arvo sijaitsee luottamusvälillä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 119 Hyvän estimaattorin ominaisuuksia (1/2) Harhattomuus Jos E(â) = a, niin estimaattori â on harhaton Tyhjentävyys â on tyhjentävä, jos se käyttää kaiken otokseen sisältyvän parametria a koskevan informaation Järjestystunnusluku on triviaali tyhjentävä tunnusluku Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 120 Hyvän estimaattorin ominaisuuksia (2/2) Tarkentuvuus â on tarkentuva, jos estimaattorin â arvot lähestyvät parametrin a todellista arvoa siinä mielessä, että suuret poikkeamat todellisesta arvosta tulevat yhä epätodennäköisemmiksi otoskoon kasvaessa Tehokkuus Olkoot â 1 ja â 2 kaksi parametrin a harhatonta estimaattoria. Tällöin â 1 on tehokkaampi kuin â 2, jos var(â 1 ) var(â 2 )
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 121 Estimointimenetelmiä Suurimman uskottavuuden menetelmä â on parametrin a suurimman uskottavuuden estimaattori (maximum likelihood estimator), jos se maksimoi otoksen X 1, X 2,, X n todennäköisyyden Maksimoidaan riippumattomien samaa - parametrista a riippuvaa - jakaumaa noudattavien havaintojen yhteisjakauma (uskottavuusfunktio) parametrin a suhteen»derivoidaan uskottavuusfunktio a:n suhteen ja määrätään a:n arvo maksimia vastaavassa derivaatan nollakohdassa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 122 Lisää estimointimenetelmiä Pienimmän neliösumman menetelmä (Ordinary Least Squares) minimoidaan jäännösvaihtelutermien neliösummaa maksimoidaan mallin ja aineiston yhteensopivuutta Momenttimenetelmä asetetaan otosmomentit vastaamaan jakauman momentteja ja näin saatujen yhtälöiden avulla estimoidaan parametrit Bayes-estimointi priori uskottavuus posteriori
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 123 Frekventistinen lähestymistapa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 124
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 125 Monta satunnaismuuttujaa? Tarkasteltaessa samanaikaisesti montaa satunnaismuuttujaa, on lähtökohtana niiden yhteisjakauma Satunnaismuuttujien välillä voi olla riippuvuuksia! Reunajakaumien perusteella voidaan määrätä yhteisjakauma vain kun komponentit ovat toisistaan riippumattomia satunnaismuuttujia Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 126 Lineaarinen riippuvuus Satunnaismuuttujien X ja Y lineaarisen riippuvuuden mittana käytetään niiden välistä kovarianssia cov(x,y) = E[(X-E(X))(Y-E(Y))] = E(XY)-E(X)E(Y) Kovarianssin arvo riippuu muuttujien mittaasteikosta eikä sen vaihteluväli ole rajoitettu
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 127 Korrelaatio Satunnaismuuttujien X ja Y välinen korrelaatio on niitä vastaavien standardoitujen satunnaismuuttujien tulon odotusarvo: cor(x,y) = E([(X-E(X))/std(X)][(Y-E(Y))/std(Y)]) = cov(x,y)/[std(x)std(y)] korrelaatio(kerroin) rajoitettu välille [-1,1] riippumattomuudesta seuraa, että sekä kovarianssi että korrelaatio ovat nollia»ei päde yleisesti toisinpäin Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 128 Normaalijakauman yhteyksiä muihin jakaumiin χ 2 -jakauma Jos satunnaismuuttujat X 1, X 2,, X k noudattavat standardoitua normaalijakaumaa ja ovat keskenään korreloimattomia, noudattaa niiden neliösumma U = X 1 2 + X 2 2 + + X k 2 χ 2 -jakaumaa vapausastein k: U χ 2 (k) t-jakauma Olkoon satunnaismuuttujan X jakauma standardoitu normaalijakauma N(0,1) ja satunnaismuuttujan U jakauma χ 2 (k). Oletetaan lisäksi, että ne ovat stokastisesti riippumattomia. Silloin satunnaismuuttuja X t = U / k noudattaa t-jakaumaa vapausastein k: t t(k) F-jakauma Olkoot satunnaismuuttujat U χ 2 (k) ja V χ 2 (m) riippumattomia. Silloin satunnaismuuttuja U / k F = V / m noudattaa F-jakaumaa vapausastein k ja m: F F(k, m)
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 129 Multinormaalijakauma Mustonen, S. (1995): Tilastolliset monimuuttujamenetelmät. Survo Systems. Helsinki. ss.15-16. Olkoot Z 1, Z 2,, Z p riippumattomia, standardoitua normaalijakaumaa N(0,1) noudattavia muuttujia. Muodostetaan uudet muuttujat X 1, X 2,, X p Z-muuttujien lineaarisina yhdistelminä X 1 =c 11 Z 1 +c 12 Z 2,+ +c 1p Z p + µ 1 X 2 =c 21 Z 1 +c 22 Z 2,+ +c 2p Z p + µ 2... X p =c p1 Z 1 +c p2 Z 2,+ +c pp Z p + µ p eli matriisimuodossa X = CZ + µ ( = UDZ + µ ) Muuttujien X 1, X 2,, X n yhteisjakaumaa sanotaan multinormaalijakaumaksi ja sen määrittelevät täydellisesti parametrit µ ja C. Itse asiassa jakauman määrittelemiseksi riittää tuntea odotusarvovektorin µ ohella kovarianssimatriisi Σ = CC Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 130 Multinormaalijakauman synty? Multinormaalijakauman voi aina ajatella syntyvän (0,1)- normaalisista muuttujista kolmessa vaiheessa. Ensin tehdään muuttujittain venytyksiä ja kutistuksia (DZ), sitten kierretään koordinaatistoa (UDZ) ja lopuksi siirretään jakauman keskipiste pois origosta (lisätään µ) Z DZ UDZ UDZ+µ
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 131 Muita yleistyksiä? Havainnot (havaintovektorit) eivät ole välttämättä toisistaan riippumattomia Toistomittaukset (repeated measurements) Aikasarja-analyysi (time series analysis) Alueellinen analyysi (spatial data analysis) Monitasomallit (multilevel models) Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 132 Lisää yleistyksiä Puuttuvan tiedon ongelmat Tapahtumahistoria-analyysi (event history analysis) Vastauskato (nonresponse) Laskennalliset hankaluudet EM (expectation maximization), MCMC (Markov Chain Monte Carlo) jne.
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 133 Otannasta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2003 Reijo Sund Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus Kesä 2003 Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 134 Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio, joka on mittauksen avulla muutettavissa numeeriseen muotoon Aineiston hankinta vaatii yleensä runsaasti käytännön työtä Huonosti toteutettu aineiston keruu estää johtopäätösten teon
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 135 Aineistotyyppejä Poikkileikkausaineisto Tietoja yhdeltä ajanhetkeltä tai aikaväliltä Paneeliaineisto Tietoja useilta ajanhetkiltä Tapahtumahistoria-aineisto Tietoja tapahtumahetkiltä Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 136 Otantatutkimus Otantatutkimuksissa otos valitaan siitä populaatiosta, josta halutaan saada tietoja Perusoletuksena on otoksen yleistettävyys koko populaatioon Tilastollisen mallin parametrit estimoidaan käytettävissä olevan aineiston (otoksen) perusteella
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 137 Otanta-asetelmia Otos voidaan valita populaatiosta usealla eri tavalla Yksinkertainen satunnaisotanta Jokaisella tietyn kokoisella otoksella sama mahdollisuus tulla valituksi Ositettu otanta Populaatio jaetaan homogeenisiin ositteisiin, joista jokaisesta sitten poimitaan erillinen otos Moniasteinen otanta Hyödynnetään populaation hierarkkista jakoa Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 138 Ongelmia otannassa (1/2) Poimintaharha otos ei edusta populaatiota Vaarana varsinkin silloin, kun otokseen tulleet populaation alkiot ovat valikoituneet tai ovat itse valinneet itsensä otokseen Vajaapeittävyys Populaation alkioista ei ole välttämättä täydellistä luetteloa
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 139 Ongelmia otannassa (2/2) Vastauskato Tutkimuksen kohteita ei tavoiteta tai he kieltäytyvät vastaamasta Vastausharha Kysymykset voivat olla huonosti muotoiltuja tai vastaajat voivat antaa vääriä tietoja Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 140 Survey sosiaalitutkimuksessa Yksi mahdollisuus monien joukossa Etukäteen strukturoitua aineiston keruuta kysely- ja haastattelulomakkeiden avulla Kokonainen tutkimustapa Aineistoihin liittyy aina virheen riski Paras keino saada luotettavaa aineistoa on aineiston keruun hyvä etukäteissuunnittelu ja kunnollinen toteutus
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 141 Surveyn laadun osatekijät Seppo Laaksonen Käsitteiden ja määrittelyjen relevanssi Otantavirheet Vastauskato, käsittely- ja mittausvirheet Ajankohtaisuus ja täsmällisyys Saatavuus ja selkeys Vertailtavuus Koherenssi / yhteensopivuus Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 142 Mittaamisesta Tilastotieteellinen tutkimus perustuu aina mitattaviin ilmiöihin Ominaisuuden mittaaminen liittää jonkin luvun mittauksen kohteen kyseessä olevaan ominaisuuteen Käsitteenmäärittely tärkeää! Mittaus tuottaa tuloksenaan aina jonkin (mitta)luvun
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 143 Mittaluku Mittaluku on satunnaismuuttujan havaittu arvo satunnaismuuttujalla on tulosvaihtoehdot Ilmiön luonteesta riippuen voidaan tulosvaihtoehdoille käyttää erilaisia mittaasteikkoja Vaikka mitattava ilmiö ei olisikaan numeerinen, se voidaan aina koodata sellaiseksi Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 144 Mitta-asteikot Laatueroasteikko mihin luokkaan kohde kuuluu mitattavan ominaisuuden perusteella Järjestysasteikko Onko mittauksen kohteella enemmän mitattavaa ominaisuutta kuin jollakin toisella kohteella Väli- ja suhdeasteikko Kuinka paljon kahden mittauksen kohteen ominaisuudet eroavat toisistaan
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 145 Mittaaminen vaatii mittauksen kohteen Mittari? kohteen hyvin määritellyn ominaisuuden, jota halutaan mitata mittarin, joka liittää mielekkäät lukuarvot mitattavaan ominaisuuteen Erilaiset mittarit heijastavat ilmiön ominaisuuksia eri tavoin ja eri tarkkuudella Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 146 Mittausmalli Mittauksiin voi sisältyä mittausvirhettä Kaikki satunnaisvaihtelu ei ole peräisin otannasta Mittausmalli oleellinen Latentteja tekijöitä mitataan kysymyksillä, joihin liittyy mittausvirhettä Kysymysten lineaarikombinaatioina muodostetaan asteikko, joka kuvaa mahdollisimman hyvin latentteja tekijöitä
Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 147 Mittausmalli Kimmo Vehkalahti ( http://ethesis.helsinki.fi/julkaisut/val/tilas/vk/vehkalahti/ ) Tiedosta hyvinvointia Reijo Sund - Tilastotiede käytännön tutkimuksessa 148 Faktorianalyysi Faktorianalyysissa pyritään löytämään muuttujien korrelaatioiden avulla niiden taustalla piilevä vähäulotteinen rakenne Muuttujien kokonaisvaihtelu jaetaan kahteen osaan: yhteisvaihteluun ja ominaisvaihteluun ( mittausvirhe mittausmallissa)