Matemaatikot ja tilastotieteilijät



Samankaltaiset tiedostot
Tilastollinen aineisto Luottamusväli

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Harjoitus 7: NCSS - Tilastollinen analyysi

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Luottamusvälit. Normaalijakauma johnkin kohtaan

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

tilastotieteen kertaus

1. Tilastollinen malli??

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Sovellettu todennäköisyyslaskenta B

dx=5&uilang=fi&lang=fi&lvv=2014

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Estimointi. Vilkkumaa / Kuusinen 1

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

&idx=2&uilang=fi&lang=fi&lvv=2015

Sovellettu todennäköisyyslaskenta B

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

riippumattomia ja noudattavat samaa jakaumaa.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Väliestimointi (jatkoa) Heliövaara 1

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Tilastotiede ottaa aivoon

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Mat Tilastollisen analyysin perusteet, kevät 2007

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

&idx=2&uilang=fi&lang=fi&lvv=2015

pitkittäisaineistoissa

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Matematiikka ja tilastotiede

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

pisteet Frekvenssi frekvenssi Yhteensä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

,ܾ jaü on annettu niin voidaan hakea funktion

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

pitkittäisaineistoissa

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Tutkimustiedonhallinnan peruskurssi

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Sovellettu todennäköisyyslaskenta B

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Sovellettu todennäköisyyslaskenta B

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Otoskoko 107 kpl. a) 27 b) 2654

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2. TILASTOLLINEN TESTAAMINEN...

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Tilastollisen tutkimuksen vaiheet

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testejä suhdeasteikollisille muuttujille

Parametrin estimointi ja bootstrap-otanta

Tilastotieteen jatkokurssi syksy 2003 Välikoe

dx=2&uilang=fi&lang=fi&lvv=2015

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastotiede ottaa aivoon

6. laskuharjoitusten vastaukset (viikot 10 11)

Epävarmuuden hallinta bootstrap-menetelmillä

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Harjoitus 2: Matlab - Statistical Toolbox

Mat Tilastollisen analyysin perusteet, kevät 2007

Transkriptio:

Matemaatikot ja tilastotieteilijät

Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat kehittävät uusia teorioita ja kaavoja Molempia opiskellaan yliopistolla

Matematiikka/tilastotiede ammattina Jos opiskelee matematiikkaa tai tilastotiedettä, voi ammatikseen Opettaa Työskennellä esimerkiksi eri tutkimusaloilla, kuten lääketeollisuus, kemian teollisuus vakuutusalalla, kaupan alalla, ohjelmoijana, tietojärjestelmien parissa, Koneoppiminen bioinformatiikka (geeni ym valtavat datamassat) Hyvä työllisyys ja vaihteleva työ

Mitä on tilastollinen päättely?

Esimerkkejä Lääketehdas haluaa todistaa, että heidän astmalääkkeensä A on tehokkaampi kuin lääke B Tutkitaan voidaanko todistaa, että yskänlääke vähentää kurkkukivun oireita Imeytyykö uusi lääke nopeammin kuin vanha lääke? Halutaan tutkia, kumpi leikkaustapa A vai B on parempi potilaan toipumisen kannalta Voiko liikunnan lisääminen estää lonkkamurtumia? Löytääkö uusi allergiatesti luotettavammin allergiat kuin entinen?

Mikä on yhteistä tutkimuksille? Halutaan todistaa jotakin Tämä tehdään matemaattisella mallilla = tilastollinen analyysi Täytyy tietää, millä paremmuutta/paranemista ym voidaan mitata esimerkiksi lonkkamurtuma, kurkkukipu, pitoisuus veressä (=muuttuja) Täytyy arvella, mikä muu voi vaikuttaa asiaan esimerkiksi lonkkamurtumissa ravinto, geeniperimä (=vaikuttavat taustatekijät)

Tutkimuksista yleensä Suunnitellaan mitä tehdään mikä on tavoite, mitä mitataan, millä mitataan, milloin mitataan => kirjoitetaan tästä suunnitelma Tutkimukselle anotaan lupa (mikäli tutkimus liittyy ihmisten tai eläinten terveyteen) Suoritetaan tutkimus, tehdään mittaukset ja seurannat Kerätään ja tallennetaan data Tehdään matemaattiset mallit = tilastolliset analyysit Tehdään päätelmät tuloksista Kirjoitetaan raportti tai julkaisu

Otos -> päätelmät Tutkimuksissa käytännössä aina on otos, mittauksia tehdään vähintään muutamasta ihmisestä tai korkeintaan muutamasta tuhannesta Kuitenkin halutaan todistaa, että päätelmät voidaan yleistää kaikille eli koko populaatioon esimerkiksi kaikkiin suomalaisiin, kaikkiin maailman astmapotilaisiinn

Mitä tunnusluvut ja tilastotiede ylipäätänsä on?

Oikea arvo ja Otos Totuus on se Oikea arvo, jota ei ikinä tiedetä Esim suomalaisten miesten keskipituus, pituuden keskihajonta Otoksella pyritään saamaan tietoa Oikeasta arvosta Mitä Parempi Otos, sen parempi käsitys Oikeasta arvosta tulee

Hyvä Otos Onko Otos Hyvä vai onko se Huono? Otoksen koko (ja sen suhde hajontaan) mitä suurempi Otos, sitä parempi käsitys Oikeasta arvosta = pienempi epävarmuus Esimerkiksi saadaanko arvio, että Oikea arvo on välillä 10-1000 vai 510-520 Otoksen edustavuus Esimerkiksi jos halutaan arvio suomalaisten keskipituudesta, ei voida mitata pelkästään miehiä

Esimerkki Ollaan kiinnostuneita veren hemoglobiinista Hemoglobiini on numeerinen muuttuja Kun halutaan kuvailla dataa, lasketaan tunnuslukuja Numeerisesta datasta usein lasketaan keskiarvo ja keskihajonta (oletetaan normaalijakauma datalle) Ne kertovat missä datan arvot ovat keskimäärin ja kuinka paljon ne keskimäärin vaihtelevat

Aritmeettinen keskiarvo Jos on data, jossa luvut 121,125,133,134,145,146 Aritmeettinen keskiarvo kertoo mitä suuruusluokkaa yleensä ovat, havaintojen keskimääräisestä sijainnista keskiarvo 121 125 133 134 6 145 146 134

Keskihajonta Keskihajonta kertoo kuinka paljon keskimäärin jokainen luku poikkeaa keskiarvosta Keskihajonta kuvaa vaihtelun suuruutta keskihajonta (121 134) 2 (125 134) 6 1 2 (146 134) 2 10.2

Luottamusväli Jos halutaan päätellä enemmän hemoglobiinin keskiarvosta populaatiossa datan perusteella, lasketaan luottamusväli Siihen laskuun vaikuttavat otoskoko, keskiarvo ja keskihajonta Jos saadaan keskiarvon 95% luottamusväliksi 115-145. Voidaan sanoa, että havaitun datan perusteella, oikea keskiarvo on 95% todennäköisyydellä 115 ja 145 välillä Tämä on jo tilastollista päättelyä!

Data analyysi esimerkki miten todistaminen tehdään? Olkoon meillä tutkimus, jossa lumelääke (=Placebo) ja testattava lääke (=Treatment) Halutaan todistaa, että testattavalla lääkkeellä saadaan korkeampi hemoglobiinin keskiarvo

Mitä tehdään? Arvotaan puolet henkilöistä lumelääkkeelle ja puolet testattavalle lääkkeelle (=randomisointi, satunnaistaminen) Tehdään kaikille samannäköiset pillerit (=sokkoutus) Henkilöt syövät pillereitä viikon ajan Mitataan hemoglobiini ennen tutkimusta mitataan myös, mutta sitä ei näytetä nyt tässä Tutkitaan kolmen erilaisen datan kautta miten päättelyä voi tehdä

Koko data kuvassa: DATA 1

Alustavaa tutkailua Kuvasta päättelemme, että lääke vaikuttaa Lasketaan tunnuslukuja havaintojen määrä, keskiarvo, mediaani, keskihajonta, luottamusväli, minimi ja maksimi RYHMÄ N Keskiarvo Keskihajonta Median Min Max Luottamusvälin alaraja Luottamusvälin yläraja Placebo 30 120.5 2.1 120.6 117.3 124.7 119.8 121.3 Treatment 30 130.0 1.9 130.1 125.6 134.0 129.3 130.7 Myös luottamusvälien perusteella näyttää siltä, että keskiarvot eroavat

Lopullinen testi Lopulta voimme tehdä tilastollisen testin Otetaan huomioon vähintään ryhmien keskiarvot, ryhmien keskihajonnat ja ryhmien koot Vaikeammissa tapauksissa tehdään paljon vaikeampaa mallinnusta Tutkitaan, kuinka todennäköistä on, että keskiarvot eroavat näin paljon tässä otoksessa vain sattumalta, jos keskiarvot olisivat oikeasti yhtä suuret Jos saamme todennäköisyydeksi 0.0001, uskotko silti että keskiarvot olisivat oikeasti yhtäsuuret? Et, eikä, usko sitä enää muutkaan ja näin olet todistanut eron!

Koko data kuvassa: Data 2

Alustavaa tarkastelua Kuvan perusteella eroa ei tunnu olevan Tunnusluvut RYHMÄ N Keskiarvo Keskihajonta Median Min Max Luottamusvälin alaraja Luottamusvälin yläraja Placebo 30 121.0 23.4 118.9 74.5 167.4 112.3 129.8 Treatment 30 129.7 23.9 129.2 84.9 175.4 120.7 138.6 Keskiarvot ovat melkein samat kuin viimeksi, mutta hajonta on paljon suurempaa kuin aiemmassa datassa! Luottamusvälitkin menevät päällekkäin. Pahalta näyttää.

Lopullinen testi Lasketaan todennäköisyys sille, että keskiarvot eroavat tämän verran vain sattumalta, jos ne ei oikeasti eroa Todennäköisyydeksi saadaan 0.16 Se on kohtuullisen suuri eli ei voida päätellä, että lääkkeellä olisi vaikutusta hemoglobinin keskimääräiseen tasoon Tämä päättelyiden ero johtui siis siitä, että hajonta oli nyt niin suurta! Jos hajonta on suuri, tarvitaan isompi otos osoittamaan lääkkeen teho

Koko data kuvassa: Data 3

Kuvan perusteella jotain vaikutusta on, mutta riittääkö se todistamaan lääkkeen tehon? Tunnusluvut RYHMÄ N Keskiarvo Keskihajonta Median Min Max Luottamusvälin alaraja Luottamusvälin yläraja Placebo 30 121.3 7.1 121.2 105.6 135.3 118.6 124.0 Treatment 30 129.8 6.7 130.6 114.1 144.1 127.3 132.3 Taas samat keskiarvot, mutta hillitympi hajonta Tehdään testi ja todennäköisyys, että keskiarvot olisivat samat, on 0.0001 Voidaan päätellä, että lääke tehoaa keskimäärin

Lääke tehoaa keskimäärin Mitä se tarkoittaa? Koska kuvissa havainnot menivät päällekkäin? Lääke siis nostaa keskiarvoja katsottaessa (=keskimäärin) hemoglobiinitasoa, mutta ei se tarkoita välttämättä, että kaikilla on korkeampi hemoglobiini. Populaatiotasolla keskiarvo on korkeampi! Kuvan perusteella ei voi tehdä päätelmiä vaan tarvitaan matemaattista mallinnusta!

Lopuksi... Tässä oli esimerkkejä hyvin yksinkertaisesta mallinnuksesta, mutta silti nähtiin, että pitää ottaa huomioon monta asiaa yhtä aikaa (datan määrä, keskiarvot, hajonta, tutkimuksen väite..datan jakauma, riippuvuus), jotta voi tehdä kunnollisia päätelmiä kerätystä datasta. Päätelmien perusteella voimme muuttaa käsityksiä tutkimusaiheesta esimerkiksi parempia syöpähoitoja, uusia lääkkeitä