TILASTOTIEDE KÄYTÄNNÖN TUTKIMUKSESSA

Samankaltaiset tiedostot
MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Matemaatikot ja tilastotieteilijät

Matematiikka tai tilastotiede sivuaineena

Yhteistyöaineiden edustajan puheenvuoro

Matematiikka ja tilastotiede. Orientoivat opinnot /

Tilastotiede ottaa aivoon

Matematiikka ja tilastotiede. Orientoivat opinnot /

Tilastotiede ottaa aivoon

HOPS Henkilökohtainen opintosuunnitelma LuK -tutkintoon

Tilastollisen tutkimuksen vaiheet

Luento-osuusosuus. tilasto-ohjelmistoaohjelmistoa

Sovellettu todennäköisyyslaskenta B

Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Mitä tilastotiede on?

Mitä on laadullinen tutkimus? Pertti Alasuutari Tampereen yliopisto

1. Tilastollinen malli??

HAVAINTO LÄhde: Vilkka 2006, Tutki ja havainnoi. Helsinki: Tammi.

SP 11: METODOLOGIAN TYÖPAJA Kevät Yliopistonlehtori, dosentti Inga Jasinskaja-Lahti

OPS-MUUTOSINFO

Fysiikan laitos Jyväskylän yliopisto.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

OPETUSSUUNNITELMALOMAKE

OPETUSSUUNNITELMALOMAKE

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Matematiikka. Orientoivat opinnot /

Matematiikka ja tilastotiede

Kvantitatiivisen aineiston analyysi

Tilastollinen päättely II (MAT22003), kevät 2018

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

ENG3043.Kand Kandidaatintyö ja seminaari aloitusluento Tutkimussuunnitelman laatiminen

Myös opettajaksi aikova voi suorittaa LuK-tutkinnon, mutta sillä ei saa opettajan kelpoisuutta.

Psykologia tieteenä. tieteiden jaottelu: TIETEET. EMPIIRISET TIETEET tieteellisyys on havaintojen (kr. empeiria) tekemistä ja niiden koettelua

Tarkastelen suomalaisen taloustieteen tutkimuksen tilaa erilaisten julkaisutietokantojen avulla. Käytän myös kerättyjä tietoja yliopistojen

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Pro gradu -tutkielmien arvostelu maantieteessä

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Matematiikan olemus Juha Oikkonen

Ruokavalion henkilökohtaiset vaikutukset esiin data-analytiikalla

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Otannasta ja mittaamisesta

MONISTE 2 Kirjoittanut Elina Katainen

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisten aineistojen kerääminen ja mittaaminen

Lataa Matemaattinen mallinnus. Lataa

Juha Merikoski. Jyväskylän yliopiston Fysiikan laitos Kevät 2009

Kandidaatin tutkinnon ohjeellinen suorittamisjärjestys sosiaalipolitiikassa

Laskennallisten tieteiden tutkimusohjelma. Jaakko Astola

Tilastotiede tieteenalana. Tilastotiede tieteenalana. Tilastotiede tieteenalana. Tilastotiede tieteenalana: Mitä opimme? Mitä tilastotiede on?

Tilanne sekä MS-A0003/4* Matriisilaskenta 5 op

Analyysi: päättely ja tulkinta. Hyvän tulkinnan piirteitä. Hyvän analyysin tulee olla. Miten analysoida laadullista aineistoa

Harjoituspaketti helmikuuta 2008

Akateemiset taidot. Tapaaminen 13 Matematiikan kirjoittaminen

Finanssitekninen opetustarjonta Turussa

Laskut käyvät hermoille

CHERMUG-pelien käyttö opiskelijoiden keskuudessa vaihtoehtoisen tutkimustavan oppimiseksi

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

TN-IIa (MAT22001), syksy 2017

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

Matematiikan osaaminen ja osaamattomuus

F901-P Perusopinnot P (80 op) op opetusperiodi

Johdantoa. Jokaisen matemaatikon olisi syytä osata edes alkeet jostakin perusohjelmistosta, Java MAPLE. Pascal MathCad

Laadullisen tutkimuksen luonne ja tehtävät. Pertti Alasuutari professori, Laitoksen johtaja Yhteiskuntatieteiden tutkimuslaitos

How to Support Decision Analysis with Software Case Förbifart Stockholm

Lapset ja nuoret tietoarkistossa Tampereen yliopisto helena.laaksonen (at) uta.fi

Seurantojen otoskoon arviointi RKTL:ssä

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

TIETOINEN HAVAINTO, TIETOINEN HAVAINNOINTI JA TULKINTA SEKÄ HAVAINNOLLISTAMINEN

arvioinnin kohde

Mustat joutsenet pörssikaupassa

pitkittäisaineistoissa

Miten tutkimuksen tietovarannot liittyvät etiikkaan ja viestintään? Tutkimusaineiston elinkaari

Mikä on tärkeää tilastotieteessä?

Useiden top-viittausindeksien tarkastelu tieteenalaryhmittäin Suomessa ja valituissa verrokkimaissa

hyvä osaaminen

Rakennusalan tarjouskilpailujen toteutus tasapuoliseksi: kokonaistaloudellisuuden arviointi hinta-laatu -menetelmällä.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti

Oulun yliopisto. Luonnontieteellinen koulutusala. Fysiikan tutkinto-ohjelma. Fysiikka, filosofian maisteri, 120 op. 1 of

BIOS 1 ja OPS 2016 OPS Biologian opetussuunnitelma Opetuksen tavoitteet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

arvioinnin kohde

hyvä osaaminen. osaamisensa tunnistamista kuvaamaan omaa osaamistaan

LASKENTATOIMEN PRO GRADU INFO

Reserviläisjohtajana sodassa

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Kandiaikataulu ja -ohjeita

1. periodi 2. periodi 3. periodi 4. periodi P1a Sosiaalipolitiikan. P4 Sosiaalipolitiikka eri peruskurssi (alkaa) 2 op

Politiikka-asiakirjojen retoriikan ja diskurssien analyysi

SOSIAALITYÖKOULUTUKSEN VALTAKUNNALLISET OSAAMISTAVOITTEET

Osaamistavoitteiden asettaminen omalle opintojaksolle - Flipparit

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

pitkittäisaineistoissa

OPINTOJAKSOJA KOSKEVAT MUUTOKSET/MATEMATIIKAN JA FYSIIKAN LAITOS/ LUKUVUOSI

Transkriptio:

TILASTOTIEDE KÄYTÄNNÖN TUTKIMUKSESSA Pekka Pere Matematiikan ja tilastotieteen laitos Helsingin yliopisto Syyslukukausi 2009 OPISKELIJA JA TILASTOTIEDE Alta opimme, että tilastotiede on maailman hauskin oppiaine. Se on myös erittäin hyödyllinen sivuaine. Numeroiden tulkinnassa tilastotiede on keskeisessä asemassa ja monissa opinnäytteissä välttämätön työkalu. Yksi opiskelijan elämän säännönmukaisuuksia on katumus pro gradu vaiheessa, että tilastotiedettä ei tullut opiskeltua enempää tai perusteellisemmin. Eräs yhteiskuntatieteiden professori muotoili tilastotieteen tarpeen opiskelijalle näin: Gradussa tulee olla muitakin numeroita kuin sivunumerot. Toinen niin, että hän kuvitteli monimuuttujamenetelmien hallinnan riittävän alallaan, mutta nykypäivänä se ei enää riitä. Opiskeluasenteeksi ei sovi kiire. Luetun sivumäärän päivää kohden ei ole suotavaa olla kovin suuri. Tilastotieteen pidemmälle menevässä opiskelussa tarvitaan kynää ja paperia eli sitä ei voi oppia vain "lukemalla". Tilastotieteen peruskurssit ovat mahdollisesti pisimmälle kantavat kurssit opiskelijan elämässä. 1 Oman alansa tehtäviin sijoittuva tuore maisteri hyödyntää uransa alkuvaiheessa pääaineensa erityistietämystä ja mahdollisesti tilastotiedettä. Työelämässä edetessään hän tyypillisesti erkaantuu oman alansa erikoistehtävistä ja siirtyy johtajuutta vaativiin tehtäviin. Edelleen ellei jopa enenevässä määrin hän kuitenkin tekee päätöksiä tilasto- tai yleisemmin kvantitatiiviseen tietoon perustuen. Tilastotieteen opiskelun tavoite on, että maisteri pystyy ymmärtämään ja lukemaan kriittisesti muiden tekemiä empiirisiä tilastotieteellisiä tutkimuksia sekä tekemään itse pienimuotoisia sellaisia. Zacharias Topelius (1905, s. 448): MITÄ TILASTOTIEDE ON? Määritelmiä ja käsitteitä Kuinka maamme edistyy varallisuudessa uuden ajan elähyttävien voimien kautta, sen näemme silmäimme edessä, ja siitä kertoo nykyinen tilastotiede eli valtiotiede. Samoin kuin historia meille kuvaa menneen, jo päättyneen ajan, samoin tilastotiede merkitsee nykyajan olot, jotka vielä ovat tekeillä, ja vertaa niitä toisiinsa tai entisiin aikoihin. Tämä on opettavaista. Se osoittaa meille selvillä numeroilla, edistyykö vai taantuuko maa varallisuudessa, väkiluvussa, hyvissä tavoissa, 1 David Hand (2009): Modern Statistics: The Myth and the Magic (RSS Presidential Address). Journal of the Royal Statistical Society, Series A, 172, 287-306.

2 tiedossa ja monessa muussa. Vuodesta 1865 on Helsingissä tilastollinen virkakunta, joka vuosittain ikäänkuin vaa alla punnitsee minkä arvoinen maa on. 2 Alla on Wikipedian kuvausta tilastotieteestä 3 : Tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii tilastollisten aineistojen keräämistä, käsittelyä ja tältä pohjalta tehtävää päättelyä. Kun tilastotieteen menetelmiä käytetään aineiston esittämiseen, on kyse lähinnä kuvailevasta tilastotieteestä. Kun kuvailusta siirrytään aineiston tarkasteluun tai mallinnukseen siten, että aineiston epävarmuus ja havaintojen satunnaisuus otetaan huomioon, puhutaan tilastollisesta päättelystä. Näissä molemmissa tapauksissa on kyse soveltavasta tilastotieteestä. Matemaattinen tilastotiede keskittyy puolestaan tarkastelemaan tilastotieteen teoreettista perustaa. -- Tilastotieteen soveltaminen tarkasteltavaan tieteelliseen, teolliseen tai yhteiskunnalliseen ongelmaan alkaa populaation määrittelyllä. Kyseessä voi olla jonkin maan väestö tai tehtaan valmistamat tuotteet. Aineistoa on tavallisesti mahdollista kerätä vain populaation osajoukosta, jolloin tutkimuksen kohteena on otos. Otoksesta voidaan kerätä aineistoa joko havainnoiden tai kokeellisessa asetelmassa. Kun aineisto on kerätty, siitä tehtävä analyysi voidaan jakaa kuvailuun ja päättelyyn, jotka tosin liittyvät usein toisiinsa läheisesti: * Kuvaileva tilastollinen analyysi on aineiston esittämistä joko numeerisesti tai graafisesti. * Tilastollinen päättely on aineiston mallintamista, satunnaisuuden huomioon ottamista sekä aineistosta saatujen tuloksien yleistämistä populaatioon. Jos tarkasteltava otos on edustava eli kuvaa populaatiota, voidaan tilastollinen päättely laajentaa otoksesta koko populaatioon. Keskeinen ongelma on se, missä määrin otos on edustava. Tilastotieteen menetelmät mahdollistavat satunnaisvaihtelun huomioimisen, joka syntyy otoksen keräämisestä eli otannasta. Englanninkielinen Wikipedia ehdottaa 4 : Statistics is a mathematical science pertaining to the collection, analysis, interpretation or explanation, and presentation of data. Tilastotiede muutoksessa Iso-Britannian kuninkaallisen tilastotieteellisen seuran presidentti David Handin (Imperial College - yliopisto) mielestä tilastotieteen käsitettä tulisi laajentaa. Alla oleva perustuu hänen artikkeliinsa. 5 2 Maamme kirja. Kymmenennen tekijän kuoleman jälkeen (1898) korjatun painoksen mukaan suomentanut P. Cajander. Edlund, Helsinki. 3 http://fi.wikipedia.org/wiki/tilastotiede. Tämä ja WWW-viittaukset alla on tehty syksyllä 2009. 4 http://en.wikipedia.org/wiki/statistics. 5 Modern statistics: The Myth and the Magic (RSS Presidential Address). Journal of the Royal Statistical Society, Series A, 172, 287-306. Samoja pohdintoja löytyy David Handin kirjasta (2009): Statistics: A Very Short Introduction. Oxford University Press. Tämä ja kaksi seuraavaa jaksoa noudattelevat pitkälti Handin artikkelia.

Ei ole olemassa elämän aluetta, jota tilastotiede ei koskettaisi. Esimerkkejä asioista, joissa tilastotiede on keskeisessä roolissa: - tilastokeskus (ilmeinen ja kattava) - ilmastonmuutos (analyysi, ennustaminen, riskien arviointi jne.) - bioinformatiikka (biologisten mekanismien päättely, geenien rakenne ja toiminta jne.) - vähittäiskauppojen valtavat tietovarannot ja yleisemminkin nykyiset valtavat tietovarannot esimerkiksi Internetissä. John Tukey: Parasta tilastotieteilijän ammatissa on, että pääsee leikkimään jokaisen takapihalle. Tilastotiede on kaikista oppialoista jännittävin! Tilastotiede on nykyään yhtälailla laskennallinen kuin matemaattinen tiede. Tietokone on mullistanut tilastotieteen luonteen ja käytön. J. M. Chambers (2003): "Suurempi tilastotiede" (greater statistics). Kaikki mikä liittyy aineistosta oppimiseen. "Vähäisempi tilastotiede" (lesser statistics). Tilastotieteilijöiden kehittämä metodologinen ydin eli se tilastotiede, joka julkaistaan alan aikakauskirjoissa, josta tehdään väitöskirjat jne. Handin mukaan moderni tilastotiede tulisi määritellä "suuremman tilastotieteen" tapaan. Uudet sovellusalueet ovat perinteisesti vieneet tilastotiedettä eteenpäin: Maanviljelyskokeet inspiroivat kokeensuunnittelun teorian. Lääketieteen kysymykset veivät elinaika-analyysiin (survival analysis). Käyttäytymistieteiden ongelmat johtivat faktorianalyysiin. Yhteiskuntatieteelliset teemat tuottivat survey-tutkimusten teorian jne. Näin on edelleen. Esimerkiksi Internetin valtaisat tietomäärät ovat johtaneet uusiin menetelmiin valtavien ja muuttuvien tietomäärien hallintaan. Tietokone on muuttanut tilastotieteen luonnetta siten, että tilastotieteilijät sekä sen soveltajat voivat keskittyä entistä enemmän ymmärtämiseen laskennan sijaan. Mallit voidaan jakaa ikonisiin ja empirisiin: Ikonisissa malleissa teoriaa oleellisesti määrää mallin (esim. fysiikan lakien määräämä yhtälö). Empiirisiset mallit summeeravat aineiston "sopivasti". Teoria ei esimerkiksi kerro selkeästi, miten ja mitkä muuttujat kuuluvat malliin. Yhteiskuntatieteiden, bioinformatiikan, rahoituksen jne. piirissä rakennettavat mallit ovat tyypillisesti tällaisia. Äärimmäisiä esimerkkejä empiirisistä malleista ovat mallit, jotka on löydetty kalastuksella (data mining). Tällöin suuresta aineistosta haetaan pitkälti ilman sovellusalan teorian tukea mahdollisesti monimutkainen malli, joka näyttää sopivan aineistoon hyvin. Yhä suuremmat aineistot ja laskuvoimaisemmat tietokoneet mahdollistavat yhä perinpohjaisemman kalastuksen ja yhä pienempien aineiston piirteiden huomioinnin. 3

4 Tilastotieteen fragmentoituminen Hand pahoittelee, että monet tilastotieteen erityisalueen taitajat eivät pidä itseään tilastotieteilijöinä vaan esimerkiksi ekonometrikkoina, kemometrikkoina tai ympäristömetrikkoina (econometrics, chemometrics, environmetrics). Tilannetta voidaan verrata monien tieteenalojen matematisoitumiseen (vrt. McCloskey (2000) 6 ). Tilastotiede ylösalaisin Perinteisesti tilastotiede on mielletty pitkälti yleisten lakien hauksi empiirisistä aineistoista. Esimerkiksi kun Statistical Section of the British Association perustettiin 1832, todettiin sen intressinä olevan tosiasiat, jotka liittyvät ihmisiin ja ovat ilmaistavissa numeroilla ja joista vaikuttaa voitavan päätellä yleisiä lakeja. Viimeaikoina yleistynyt piirre tilastotieteessä on mahdollisuus tai periaatteellinen mahdollisuus päinvastaiseen päättelyyn eli yleisistä säännönmukaisuuksista yksilöä koskevaan johtopäätösten tekoon. Esimerkkejä: Kuinka lääke toimii yksilön kohdalla (riippuen yksilön geeniperimästä, muista ominaisuuksista jne.). Yksilöön liittyvän riskin arviointi: * Minkälainen riski koituu pankille yksittäisestä lainanhakijasta? * Minkälainen riski liittyy vakuutuksenottajaan?: ** Kuinka paljon tupakointi lisää kuolleisuutta seuraavien vuosien aikana (henkivakuutuksen hinta)? ** Kuinka paljon sukupuoli ja ikä vaikuttavat vaaraan joutua liikenneonnettomuuteen (liikennevakuutuksen hinta)? Mitä tuotteita kannattaa mainostaa tuotteen X ostaneelle kuluttajalle? (Esim. nettikirjakauppojen ehdotukset kirjoista, joista kaupassakävijä voisi olla myös kiinnostunut.) Mitä asioita poliitikon kannattaa ajaa? (Kyselytutkimusten tiedot, mitä äänestäjät haluavat.) Rikollisen profilointi. Nyky-yhteiskunnassa tilastollinen päättely kohdistuu myös yksilöön! Huom! Joissain esimerkeissä edellä tällainen tilastollinen päättely johtaa selkeästi hyvään (esim. sopivan lääkkeen tai lääkeannoksen osoittaminen) mutta osaa esimerkeistä voi joku pitää eettisesti arveluttavana (onko oikein hinnoitella vakuutusta sukupuolen mukaan?!). Yksilöistä kerättäviin valtaviin tietomääriin liittyy yleisempikin eettinen ongelma yksityisyydensuojasta. 6 Deirdre N. McCloskey (2000): How to be Human though an Economist. University of Michigan Press.

5 Havaintotiede Palataan tilastotieteestä esitettyihin presidentti Handin artikkelia edeltäviin määritelmiin. Alla oleva määritelmä löytyy Matematiikan ja tilastotieteen laitoksen kotisivuilta (lehtori Juha Purasen johdolla laadittu Tilastosanasto) 7 : Tilastotiede on tieteenala, joka tutkii miten havaintoihin perustuva tieteellinen tutkimus pitää suorittaa. Professori Ole Barndorff-Nielsenin (Århusin yliopisto) mukaan tilastotieteen tärkein käsite onkin havainto. Olisiko havaintotiede tilastotiedettä osuvampi nimitys?! Tulevaisuus Peter Phillips (Yale in yliopisto) visioi 8, että tulevaisuudessa tilastollisen mallin valinnan ja sovittamisen voi "koneistaa" ja "ulkoistaa". Hänen ajatuksensa on, että aineistot ympäri maailmaa lähetetään Internetin välityksellä tietokoneelle, jonka automaattinen mallin valinta ja sovitus -ohjelmisto putkauttaa vastauksena valitsemansa ja estimoimansa mallin. Käyttäjän kannalta kyseessä olisi pitkälti "musta laatikko", joka toimii "nappia painamalla". Se mahdollistaisi nykyistä laajemman tilastotieteen käyttäjäkunnan ja soveltamisen. En ole vakuuttunut, onko näin äärimmäinen "käyttäjäystävällisyys" hyvä asia. Kyky tulkita tuloksia on mielestäni keskeisintä tilastotieteessä. 7 http://mathstat.helsinki.fi/tilastosanasto/sanasto/tilastotiede. 8 Laws and Limits of Econometrics. The Economic Journal, 113, C26 C52.