Mikä on tärkeää tilastotieteessä?

Samankaltaiset tiedostot
Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

OPETUSSUUNNITELMALOMAKE

OPETUSSUUNNITELMALOMAKE

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

tilastotieteen kertaus

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Testit laatueroasteikollisille muuttujille

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Yhteistyöaineiden edustajan puheenvuoro

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

pisteet Frekvenssi frekvenssi Yhteensä

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tutkimustiedonhallinnan peruskurssi

Sovellettu todennäköisyyslaskenta B

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Mitä tilastotiede on?

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Otannasta ja mittaamisesta

Matemaatikot ja tilastotieteilijät

Harjoitus 7: NCSS - Tilastollinen analyysi

Mittariston laatiminen laatutyöhön

Testit järjestysasteikollisille muuttujille

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Sovellettu todennäköisyyslaskenta B

Tilastotiede ottaa aivoon

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Teema 8: Parametrien estimointi ja luottamusvälit

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen

Akateemisen ajattelun alkeiskurssi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Normaalijakaumasta johdettuja jakaumia

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Testejä suhdeasteikollisille muuttujille

Tilastotiede ottaa aivoon

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

T Luonnollisten kielten tilastollinen käsittely

Regressioanalyysi. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

INTERVALLIPÄÄTÖSPUUT JANNE GUSTAFSSON 45433E. Mat Optimointiopin seminaari Referaatti

Laadullinen tutkimus. KTT Riku Oksman

Tilastotieteen aihehakemisto

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tilastollinen malli??

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Verkko-oppiminen: Teoriasta malleihin ja hyviin käytäntöihin. Marleena Ahonen. TieVie-koulutus Jyväskylän lähiseminaari

Kvantitatiivisen aineiston analyysi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Sovellettu todennäköisyyslaskenta B

5.6.3 Matematiikan lyhyt oppimäärä

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSOTTEITA TIEDONINTRESSIN NÄKÖKULMA

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

Mitä on laadullinen tutkimus? Pertti Alasuutari Tampereen yliopisto

Väliestimointi (jatkoa) Heliövaara 1

Tutkimusyksikön johtajan/tutkinto-ohjelman vastuunhenkilön hyväksyntä

pitkittäisaineistoissa

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Pisan 2012 tulokset ja johtopäätökset

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

SP 11: METODOLOGIAN TYÖPAJA Kevät Yliopistonlehtori, dosentti Inga Jasinskaja-Lahti

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Joustavuus ja eettisyys: Opiskelija osaa tehdä päätöksiä ja toimia itsenäisesti terveystieteiden eettisten perusteiden mukaisesti

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Matematiikka ja tilastotiede

Tilastollisia peruskäsitteitä ja Monte Carlo

Kandidaatintutkielman aineistonhankinta ja analyysi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Parametrin estimointi ja bootstrap-otanta

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kuluttajien tutkiminen 23C580 Kuluttajan käyttäytyminen Emma Mäenpää

Koulutusohjelman vastuunhenkilön hyväksyntä nimen selvennys, virka-asema / arvo

OPS-MUUTOSINFO

Transkriptio:

Mikä on tärkeää tilastotieteessä? Reijo Sund Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskus PL 220, 00531 Helsinki reijo.sund@stakes.fi Johdanto Yhden määritelmän mukaan tilastotieteen alaan kuuluvaksi tulkitaan ongelmanasettelut, joissa ainakin yksi tilastotieteen menetelmä näyttelee merkittävää osaa. Ilkka Mellinin mukaan saadakseen selville mitä tilastotiede on, pitää opiskella tilastotiedettä ja sen käyttöä (Mellin, Ilkka: Johdatus Tilastotieteeseen, 1.kirja, Tilastotieteen johdantokurssi, Tilastotieteen laitos, Helsingin yliopisto, 1996, s.2). Mellin on itse valinnut tilastotieteen johdantokurssitason oppikirjassaan esitettäväksi asioita, jotka on sisällysluettelossa luokiteltu seuraavin pääotsikoin: 1. Tilastollisen tutkimusaineiston kerääminen 2. Aineiston kuvaaminen 3. Riippuvuuksien kuvaaminen 4. Satunnaisuus ja todennäköisyys 5. ja perusjoukon parametrien estimointi 6. Tilastolliset testit Koska yliopiston tilastotieteen johdantokurssi on monelle tutkijalle ensimmäinen varsinainen kosketus tilastotieteeseen, määrittää tämä "työkalupaketti" sovellusalan perinteiden lisäksi minkälaiset eväät tilastotieteen keinoja hyödyntävään ongelmanratkaisuun aloittelevalla tutkijalla on lähtökohtaisesti tarjolla. Valitettavasti pelkän johdantokurssin tietojen perusteella tilastotieteen luonne ja siihen liittyvien asioiden suhteet toisiinsa jäävät usein varsin epämääräisiksi.

Yksi tapa pohtia omaa käsitystään tilastotieteestä on yrittää laittaa johdantokurssilla esitetyt asiat tärkeysjärjestykseen. On ilmeistä, ettei yhtä asiaa ole olemassa ilman toista ja ettei yksiselitteistä tärkeysjärjestystä ole olemassa. Juuri tämä moniselitteisyys pakottaa valitsemaan jonkun näkökulman, jonka mukaan asioita alkaa järjestämään. Jos tätä näkökulmaa ei etukäteen määrätä, vaan pyydetään vähintään johdantokurssin käyneitä antamaan oma käsityksensä tärkeysjärjestyksestä, päästään käsiksi "käytännössä ilmeneviin" käsityksiin tilastotieteen luonteesta. Kokemuksen luoma kuva Saadakseni tilastotieteen luonteelle jonkinlaista kokemuksen luomaa kuvaa, pyysin arvioita johdantokurssin asioiden tärkeysjärjestyksestä useilta kokeneilta tilastotieteilijöiltä. Vastausten määrä jäi ensi yrittämällä valitettavan vähäiseksi ja yritin "karhuta" mielipiteitä esittämällä "oman tärkeysjärjestykseni". Loppujen lopuksi sain jonkinmoisia kommentteja Juha Alholta, Elja Arjakselta, Antti Kannolta, Seppo Mustoselta, Gunnar Rosenqvistiltä ja Kimmo Vehkalahdelta. Konsensusta tärkeysjärjestyksestä ei luonnollisestikaan syntynyt, kun kaikki johdantokurssilla esitetyt asiat ovat tunnetusti "välttämättömiä" tilastotieteen luonteen ymmärtämiseksi ja asioiden todelliseen tärkeysjärjestykseen laittaminen on yleisestä näkökulmasta lähtien mahdotonta, sillä yhden ajatuskulun voi helposti kaataa toisella vähintään yhtä hyvällä. Voidaan myös ajatella, ettei minkäänlaisen tärkeysjärjestyslistan laatiminen ole edes järkevää "tilastotieteen näkökulmasta" tai että järjestäminen on vähintäänkin keinotekoista, sillä loppujen lopuksi tärkeys määräytyy tutkimusongelman ja substanssin tarpeiden mukaisesti eikä menetelmiä näin ollen voida arvioida irrallaan kontekstista. Esitän kuitenkin seuraavassa "oman tärkeysjärjestykseni" sitoen perusteluihin myös muilta saamiani kommentteja asioiden tärkeydestä. On siis muistettava, että tämä on vain yksi mielipide, jossa näkökulmana on: Tilastotiede käytännön tutkimuksessa (yhteiskuntatieteellisin painotuksin) - Data are not collected, but produced; research results are not findings, but creations.

1. Satunnaisuus ja todennäköisyys Käsitteiden tasolla ehdottomasti tärkein. Nämä luovat perustan tilastolliselle ajattelulle, systemaattisuuden ja satunnaisuuden ymmärtämiselle sekä epävarmuuden hallinnalle. Varsinainen matemaattinen todennäköisyyslaskenta kaikkine mittateoreettisine temppuineen ei kuitenkaan ole sovellustilanteissa keskeistä, vaan olennaista on osata hyödyntää näiden tarjoamaa tapaa hahmottaa maailmaa. Toisaalta kysymystä satunnaisuudesta tai todennäköisyydestä ei pysty tarkastelemaan hyödyllisellä tavalla, ellei ole ensiksi suhteellisen selvää käsitystä siitä mitkä ovat tutkimusongelman kannalta keskeisiä asioita. 2. Tilastollisen tutkimusaineiston kerääminen Tämä sisältää otannan ja mittaamisen. Omissa käytännön sovelluksissani otanta on ollut toisarvoisessa asemassa (aineistoa voi silti käsitellä järkevästi tilastollisilla menetelmillä), mutta ajatellen aineiston tuottamista lähtien käsitteiden määrittelystä, mittaamisesta ja tutkimusongelman operationalisoimisesta sellaisella tavalla, että teorian tasolta pystytään siirtymään empirian tasolle nousee tämä kohta erittäin oleelliseksi. Joissain tapauksissa tilastollinen päättely kuitenkin perustuu puhtaasti siihen, että otos on edustava ja tällöin tarkoituksenmukaisella aineiston keräämisellä on erittäin keskeinen rooli. 3. Aineiston kuvaaminen Operationalisoinnin toinen vaihe, jossa luodaan ymmärrystä ilmiöön, ongelmaan, ja aineistoon. Tätä vaihetta harvemmin raportoidaan, vaikka se luo pohjan tutkimuksen vakuuttavuudelle. Tämä sisältää myös aineiston esikäsittelyn ja muokkaamisen analysointikuntoon, joka on käytännössä erittäin työläs - eikä erityisen hehkeä - vaihe, mutta jota ilman ei yksinkertaisesti pääse eteenpäin. 4. Riippuvuuksien kuvaaminen Rinnastaisin tämän tilastollisen mallin spesifioimiseen. Tämä vaihe on keskeisessä asemassa tilastollisessa ajattelussa: Substanssitiedon herättämän ongelman hahmottaminen tilastotieteen keinoja hyödyntäen siten, että parhaassa tapauksessa saadaan myös lisää substanssitietoa. Oleellista on, että empirian tasolta voidaan periaatteessa nousta takaisin teorian tasolle.

5. ja perusjoukon parametrien estimointi Yksi (eikä suinkaan ainoa) tapa suorittaa (tilastollista) päättelyä. Toisaalta tilastollisessa tutkimuksessa on monissa tapauksissa ensiarvoisen tärkeää pystyä esittämään (tulkinnan omaaville) parametreille estimaatteja sekä arvioita niiden luotettavuudesta. 6. Tilastolliset testit Tekninen testi ei kerro mitään. Vasta testien tulkitseminen ongelmanratkaisun tukena voi olla hyödyllistä. Tutkimuksen vakuuttavuus syntyy mielestäni aivan jostain muusta kuin mahdollisimman merkitsevistä p-arvoista. Valitettavasti tämä näkemys ei saa kovinkaan usein tukea tutkimusten julkaisukriteereissä. Toisaalta joissain ongelmanasetteluissa päämääränä voi tietysti olla nimenomaan jonkun asian testaaminen. "Kokemattomien" kuva Pyysin myös "Tilastotiede käytännön tutkimuksessa" -kurssin osallistujia antamaan oman arvionsa johdantokurssin asioiden tärkeysjärjestyksestä. Tämän vapaaehtoisen kurssin esitietovaatimuksina on johdantokurssi, joten periaatteessa kaikkien oli mahdollista suorittaa arviointi. Edellytin, että asioiden tärkeyksiä ei saa pitää tasaveroisina ja että annettu järjestys on perusteltava. Määräaikaan mennessä sain vastaukset 35:ltä opiskelijalta. Suurin osa järjestysten perusteluista oli järkeviä (eli ei selvästi virheellisiä), joten annettujen järjestysten voidaan ajatella kuvastavan perusteltuja käsityksiä tilastotieteeseen liittyvien asioiden suhteista. Kurssilaiset ovat erittäin heterogeeninen ryhmä niin taustatietojen kuin pääaineidenkin suhteen. Arvioiden antajat kuitenkin edustanevat varsin hyvin niitä käsityksiä, joita tilastotieteestä kiinnostuneilla, appro-kurssille osallistuvilla opiskelijoilla tilastotieteestä on. "Yksiulotteisia" tuloksia "Oikean" tärkeysjärjestyksen antamisen vaikeutta kuvastaa se, että 35:ssä vastauksessa oli 29 erilaista järjestystä. Ainoastaan Mellinin alkuperäinen järjestys keräsi kolme "ääntä" ja vain kolme muuta järjestystä ylsi "tuplaääneen". Kuten seuraavista suorista jakaumista nähdään, järjestykset eivät kuitenkaan olleet mielivaltaisia.

Tilastollisen tutkimusaineiston kerääminen keskiarvo= 84/35=2.40 mediaani=2 moodi=1 1 16 45.7 **************** 2 7 20.0 ******* 3 2 5.7 ** 4 5 14.3 ***** 5 2 5.7 ** 6 3 8.6 *** Satunnaisuus ja todennäköisyys keskiarvo=119/35=3.4 mediaani=4 moodi=1 1 9 25.7 ********* 2 5 14.3 ***** 3 2 5.7 ** 4 6 17.1 ****** 5 8 22.9 ******** 6 5 14.3 ***** Aineiston kuvaaminen keskiarvo=115/35=3.26 mediaani=3 moodi=3 1 7 20.0 ******* 2 6 17.1 ****** 3 8 22.9 ******** 4 4 11.4 **** 5 5 14.3 ***** 6 5 14.3 ***** ja estimointi keskiarvo=148/35=4.23 mediaani=4 moodi=5 1 0 0.0 2 3 8.6 *** 3 7 20.0 ******* 4 9 25.7 ********* 5 11 31.4 *********** 6 5 14.3 ***** Riippuvuuksien kuvaaminen keskiarvo=121/35=3.46 mediaani=3 moodi=3 1 1 2.9 * 2 9 25.7 ********* 3 10 28.6 ********** 4 6 17.1 ****** 5 6 17.1 ****** 6 3 8.6 *** Tilastolliset testit keskiarvo=149/35=4.26 mediaani=4 moodi=6 1 2 5.7 ** 2 5 14.3 ***** 3 6 17.1 ****** 4 5 14.3 ***** 5 3 8.6 *** 6 14 40.0 ************** Esimerkiksi ylivoimaisesti eniten (46 %) ykkössijoja sai 'aineiston kerääminen', kun taas 'otosjakaumat' eivät saaneet yhtään ykköspaikkaa. Vähiten tärkeimpänä pidettiin kuitenkin 'tilastollisia testejä' (40 %); haluttomimmin jumbosijoja jaettiin 'aineiston keräämiselle' sekä 'riippuvuuksien kuvaamiselle' (molemmilla 9 %).

Myös muuttujien tyyppiarvojen ja mediaanien perusteella 'aineiston kerääminen' koetaan tärkeimmäksi ja 'otosjakaumat' sekä 'testaaminen' vähiten tärkeiksi. Muut asiat näyttävätkin sitten vaikeammin luokiteltavilta ja hajottavat mielipiteitä. Jos asiat järjestetään keskiarvon (tai sijalukujen summan) mukaan, vain 'riippuvuudet' ja 'todennäköisyys' vaihtavat paikkaa suhteessa Mellinin alkuperäiseen järjestykseen. "Moniulotteisia" tuloksia On selvää, että asioiden riippuvuuksista saadaan monipuolisempaa tietoa tarkastelemalla yhtäaikaisesti useampia asioita ja sijalukuja. Voidaan ajatella, että jokainen johdantokurssin asia sijaitsee "vastaajien mielipideavaruuden" pisteessä, jonka koordinaatit määräytyvät kyseisen asian tärkeyden sijalukujen perusteella. Laskemalla näiden "mielipideavaruuden" koordinaattien etäisyyksiä toisiinsa nähden saadaan mitattua, kuinka "läheisiä" tai "kaukaisia" asiat ovat. Yksinkertainen, mutta käyttökelpoinen etäisyysmitta on tässäkin tapauksessa normaali euklidinen etäisyys. Valitettavasti tulokseksi saatava etäisyysmatriisi ei ole kovin havainnollinen suoraan matriisimuodossa tarkasteltuna. Suorittamalla etäisyysmatriisin perusteella hierarkkista ryhmittelyanalyysia päästään paljon helpommin tulkittaviin lopputuloksiin. Seuraavissa kuvissa on kahteen eri menetelmään perustuvien ryhmittelyanalyysien tulokset. Nämä valittiin raportoitavaksi yksinkertaisesti siitä syystä, että ne johtivat "parhaisiin" tulkintoihin. "Todellisessa" tilanteessa niin euklidisen etäisyysmitan käytölle kuin ryhmittelymenetelmien valinnalle pitäisi antaa vakuuttavampi perustelu (miksi niitä käyttämällä saadaan "hyviä" tuloksia).

Group average clustering <- Distance Ensimmäisen dendrogrammille voidaan antaa seuraava tulkinta: Aineiston tuottaminen on keskeistä eikä liity ainoastaan tilastotieteeseen. Jos asioita aletaan ajattelemaan todennäköisyyksien kautta päästään kiinni tilastotieteeseen, joka jakautuu edelleen "konfirmatoriseksi" (otosjakaumat ja testit) sekä "eksploratiiviseksi" (kuvaaminen ja riippuvuudet). Minimum variance (Wards method) clustering <- Distance Toisessa dendrogrammissa taas tilastotiede jakautuu ensin "teoreettiseen" ja "soveltavaan" tilastotieteeseen. Teoreettisessa puoliskossa todennäköisyyslaskennan keinoilla päästään kiinni otosjakaumiin ja testeihin. Soveltavalla puolella taas aineiston keruun jälkeen sitä voidaan kuvailla tai tutkia siinä ilmeneviä riippuvuuksia.

Yksi tapa kuvata etäisyysmatriisin sisältämää informaatiota on moniulotteinen skaalaus. Suorittamalla pienimmän neliösumman skaalaus saadaan helposti visualisoitua asioiden sijoittuminen toisiinsa nähden kahdella ensimmäisellä ulottuvuudella. Moniulotteisen skaalauksen tulokset on esitetty seuraavassa kuvassa. 15 DIM2 10 Teoria 5 0-5 -10 Käytäntö -15-15 -10-5 0 5 10 15 DIM1 Kuten kuvasta nähdään, ensimmäisen ulottuvuuden ääripäissä ovat keruu ja testit, kun taas toinen ulottuvuus on kuvaamisesta todennäköisyyteen. Tarkastelemalla myös muiden asioiden sijoittumista saadaan taas tehtyä jako teoria- ja käytäntöpainotteiseen tilastotieteeseen. Nyt riippuvuudet sijoittuvat teorian ja käytännön "välimaastoon" yhdistäväksi linkiksi. Kuvasta voidaan myös erottaa "alku-loppu" suunta sekä käytännön että teorian puolella. Nämä suunnat on merkitty kuvaan katkoviivallisilla nuolilla keruusta kuvaamiseen ja todennäköisyyksistä otosjakaumien kautta testaamiseen. jäävät taas omaksi kokonaisuudekseen, joskin ne sijoittuvat "loppupuolelle" lähelle kuvaamista ja testejä. Hypoteesien testaamiseen painottuvan tilastotieteen voi ajatella etenevän aineiston keruusta testaamiseen (yhtenäinen viiva), jolloin siis keruu ja testaaminen olisivat tilastotieteen tärkeimpiä osa-alueita. Muiden asioiden tärkeyden voi ajatella etäisyytenä keruu-testaaminen viivaan: kolmoseksi siis otosjakaumat, neloseksi riippuvuudet ja vähiten tärkeiksi todennäköisyys sekä kuvaaminen.

Jos moniulotteisen skaalauksen tuloksia peilataan suhteessa Mellinin alkuperäiseen järjestykseen tai "omaan tärkeysjärjestykseeni" nähdään molempien tulkintojen toimivan varsin hyvin. Mellinin S- kirjaimen muodostava järjestys lähtee keruusta ja seuraava asia on aina lähimpänä oleva, paitsi kun riippuvuuksista hypätään seuraavan kokonaisuuden aloittavaan todennäköisyyteen. Oma G- järjestykseni lähtee todennäköisyydestä, käy hakemassa mukaan aineiston, kuvaa sen ja hakee riippuvuuksia, jonka jälkeen "todentaa" niiden olemassaolon estimoimalla ja testaamalla. 15 DIM2 15 DIM2 10 10 5 5 0 0-5 -10-5 -10-15 -15-10 -5 0 5 10 15-15 -15-10 -5 0 5 10 15 DIM1 DIM1 Johtopäätökset On yllättävää, kuinka paljon tilastotieteen olemuksesta irtoaa jo vähäisestä määrästä "kokemattomien" opiskelijoiden antamia yksinkertaisia asioiden tärkeysjärjestysarvioita. Vaikka esitettyjen tuotosten perusteella ei edelleenkään voi mennä sanomaan mikä on tärkeintä tilastotieteessä, niin siitä huolimatta asioiden suhteista on saatu irrotettua paljon kiinnostavaa tietoa. Koska liikkeelle lähdettiin todellisesta aineistosta, voinee tätä "raporttia" pitää esimerkkinä siitä, kuinka tilastotieteen keinoja on mahdollista enemmän tai vähemmän luovasti käyttää oman ajattelun tukena.