BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 2) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

Koko: px
Aloita esitys sivulta:

Download "BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 2) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos"

Transkriptio

1 BIOSTATISTIIKKAA ESIMERKKIEN AVULLA Kurssimoniste (luku 2) Janne Pitkäniemi Helsingin Yliopisto Kansanterveystieteen laitos Helsinki, 2005 Biostatistiikkaa esimerkkien avulla 1 Janne Pitkäniemi, syksy 2005

2 Tilastollisten testien valinta ja toteuttaminen...3 Hypoteesien testaaminen... 3 Testisuureiden jakaumia...6 Normaalijakauma... 6 Studentin t jakauma... 7 Khii toiseen (χ 2 ) jakauma... 9 Monivertailut P arvon käyttöön liittyviä rajoitteita ja ongelmia...11 Tilastollisten testien valintaperusteet...12 Normaalisuuden testaaminen...13 Varianssien homogeenisuustestit.16 Riippumattomien ryhmien t testi...17 Parittainen t testi...21 Luottamusväliestimointi...24 Yleistä Normaalijakaumaan perustuvat luottamusvälit Keskiarvon luottamusväli Biostatistiikkaa esimerkkien avulla 2 Janne Pitkäniemi, syksy 2005

3 Tilastollisten testien valinta ja toteuttaminen Hypoteesien testaaminen Tilastollisten testien avulla voidaan tutkia perusjoukkoa koskevien väittämien eli hypoteesien paikkansapitävyyttä perustuen poimittuun otokseen. Tehtävät johtopäätökset perustuvat aina siis siihen informaatioon, jonka poimittu otos perusjoukosta antaa. Koska päätökset perustuvat otokseen, täyttä varmuutta ei koskaan saada. Tilastollisten testien avulla on kuitenkin mahdollista arvioida riskiä sille, että otoksen perusteella tehty perusjoukkoa koskeva johtopäätös olisi virheellinen. Virhelähteenä on siis otoksesta johtuva satunnaisuus. Klassisen tilastollisen testauksen vaiheet voidaan jaotella seuraavasti: 1. Muodostetaan hypoteesi (ennen otoksen poimintaa) 2. Poimitaan otos ja lasketaan tarvittavat otostunnusluvut (estimointi) 3. Lasketaan testisuureen arvo otoksen perusteella 4. Testisuureen jakauman perusteella lasketaan todennäköisyys sille, että olisi saatu poikkeavampi testisuureen arvo kuin kohdassa 3 laskettu (näin saadaan p arvo) 5. Tehdään johtopäätös eli nollahypoteesi joko hylätään tai ei hylätä Hypoteesien muodostamien Otoksen poiminta Testisuureen laskenta p arvon laskenta Johtopäätösen tekeminen Hypoteesien testaamisessa voidaan erottaa kaksi perustyyppiä: yksi testattava suure monta samanaikaisesti testattavaa suuretta Hypoteesien testauksessa on kyse valinnasta kahden toisensa poissulkevan hypoteesin välillä: nollahypoteesi (H 0, null hypothesis ) vaihtoehtoinen hypoteesi (H A, alternative hypothesis ) Nollahypoteesi (H 0 ) null hypothesis on ennalta määritelty perusväittämä, jonka hyväksymiseen tai kumoamiseen tutkimuksessa pyritään. Esim., että vertailtavien lääkehoitojen A ja B tehojen välillä ei ole eroa. Vaihtoehtoinen hypoteesi (H A ) alternative hypothesis on ennalta määritelty vaihtoehtoinen väittämä nollahypoteesille. Esim., että lääkehoitojen teholla on eroa, mutta ei määritellä suuntaa (kaksisuuntainen hypoteesi) tai että hoito A on tehokkaampi kuin hoito B (yksisuuntainen hypoteesi). Tavallisimmin tutkimuksissa käytetään kaksisuuntaista hypoteesia, koska etukäteen ei yleensä voida olla täysin varmoja tuloksen suunnasta. Biostatistiikkaa esimerkkien avulla 3 Janne Pitkäniemi, syksy 2005

4 Esimerkki 1: Oletetaan että olemme kiinnostuneet suomalaisten keskimääräisestä kolesteroliarvosta, jota emme kuitenkaan voi suoraan havaita. Noudatetaan edellä kuvattuja tilastollisen testauksen vaiheita: 1. Tutkija muotoilee seuraavat väittämät: H 0 : perusjoukon kolesteroli keskiarvo on 7.0 mmol/l H A : perusjoukon kolesteroli keskiarvo on jotain muuta 2. Tehdään otos (7.5, 4.8, 6.3, 5.4, 2.0) ja poimitun otoksen perusteella laskimme aikaisemmin seuraavat otossuureet x = 5.2 mmol/l, n = 5, sd(x) = mmol/l (jatkamme esimerkkiä s. 4) Testaukseen liittyvä päättelyprosessi päätyy ratkaisuun, joka on kaksiarvoinen: a) joko siten, että katsotaan tutkimuksen antavan näyttöä hoitoeroista, jolloin päätetään hyväksyä vaihtoehtoinen hypoteesi eli nollahypoteesi hylätään tai b) siten, että tutkimuksen perusteella ei saada riittävää näyttöä hoitoeroista, eli nollahypoteesi jää voimaan (ei hylätä). H 0 :a ei voida koskaan tilastollisin keinoin todistaa oikeaksi. Oikea johtopäätös päädyttäessä siihen, että H 0 jää voimaan, on esimerkiksi "tutkimuksessa ei voitu osoittaa hoitojen A ja B välille tilastollisesti merkitsevää eroa." Vaihtoehtoinen hypoteesi H A voi olla joko kaksi tai yksisuuntainen; on eroa tai on ero johonkin tiettyyn suuntaan. Valtaosassa kliinisiä vertailevia tutkimuksia vaihtoehtoinen H A on kaksisuuntainen, koska etukäteen ei voida olla täysin varmoja, ettei jokin tietty hoito voisi olla esim. lumehoitoa haitallisempikin, ainakin jossakin tutkimuksen kohteeksi valitussa potilasjoukossa. Yksisuuntaista testausta voidaan käyttää silloin, kun hypoteesin toinen suunta ei ole mielekäs tai testauksen kannalta relevantti. Esim. aiheuttaako runsas kännykän käyttö aivotoiminnan häiriöitä? Joskus yksisuuntaista testausta näkee selvästi käytettävän siitä syystä, että kaksisuuntainen testi ei ole antanut tilastollisesti merkitsevää tulosta (P < 0,05). Tämä menettely on luonnollisesti vastoin tieteen sääntöjä. Yksinkertaista ja yleispätevää ohjetta yksi tai kaksisuuntaisen testin käytöstä ei kuitenkaan voi antaa. Taloudelliset syyt saattavat puoltaa yksisuuntaisen testin käyttöä, koska silloin selvitään paljon pienemmällä potilasmäärällä. Biostatistiikkaa esimerkkien avulla 4 Janne Pitkäniemi, syksy 2005

5 Käytännössä tilastollinen testaus ei anna koskaan täysin varmaa päätöstä kumpaankaan suuntaan, vaan päätöksiin sisältyy virhemahdollisuus. Edellä esitetyssä hoitokoe esimerkissä päätöksentekoon liittyvät virheet voidaan esittää seuraavanlaisena nelikenttänä: Päätös tutkimuksen/ otoksen perusteella H 0 hylätään (hoitoeroa on) H 0 :aa ei hylätä (ei hoitoeroa) Todellinen tilanne Hoitoero Kyllä Ei Voima 1 I lajin virhe II lajin virhe 1 Otoksen perusteella tehtävään päätökseen liittyviä virheitä on siis kahta tyyppiä: virhe, hylkäämisvirhe, eli I lajin virhe: H 0 hylätään, vaikka se todellisuudessa pitää paikkansa. Esim. tehdään johtopäätös, että eri hoitojen välillä on eroa, vaikka sitä todellisuudessa ei ole. Syynä voi olla esimerkiksi sattuma tai väärä testi. virhe, hyväksymisvirhe, eli II lajin virhe: H 0 jää voimaan, vaikka se onkin väärä ja pitäisi siten hylätä. Esim. tehdään johtopäätös, että eri hoitojen välillä ei ole eroa, vaikka sitä todellisuudessa on. Syynä voi olla riittämätön aineistokoko tai väärä testi. virhe on sama kuin tilastollinen merkitsevyystaso ( statistical significance level ). virhe voi olla yksi tai kaksisuuntainen. Aineistokoolla ei ole vaikutusta virheen esiintymismahdollisuuteen. Testin voimakkuus on virheen funktio 1. Se arvioidaan ensisijaisesti tutkimuksen suunnitteluvaiheessa tai toissijaisesti tutkimustulosten luotettavuutta tarkasteltaessa. virhe on aina yksisuuntainen. Kun testattavassa suureessa, esimerkiksi kliinisten vertailtavien tutkimusten lopputulosmuuttujassa, todetaan ero, se voi johtua satunnaisvaihtelusta, satunnaisvaihtelusta ja hoitoerosta, tai satunnaisvaihtelusta ja harhasta Tilastollisessa tutkimuksessa pyritään tutkimaan voiko todettu ero selittyä satunnaisvaihtelulla. Harhan mahdollisuuksia pyritään välttämään mm. valitsemalla vertailuryhmä oikein. Esimerkki 1: (jatkuu sivulta 2) Biostatistiikkaa esimerkkien avulla 5 Janne Pitkäniemi, syksy 2005

6 3. Lasketaan havaittu testisuureen arvo poimimamme otoksen perusteella, yleensä tietokonetta ja valittua tilasto ohjelmaa apuna käyttäen. Testisuureen laskentakaava saadaan tilastotieteellisestä kirjallisuudesta ja sitä ei soveltavan tutkijan tarvitse itse päätellä. Meidän esimerkki tapauksessa se on muotoa ( x µ 0) t = = = sd( x) / n 2.058/ 5 4. Verrataan testisuureen teoreettiseen jakaumaan joka on tässä tapauksessa t jakauma ja saadaan p arvo= Tehdään johtopäätös: H0:aa ei hylätä, joten poimimamme otos on voinut tulla perusjoukosta, jonka kolesteroli keskiarvo on 7.0 mmol/l. Testisuureiden jakaumia Tavallisimmat testisuureiden jakaumat jotka tutkimusta tehdessä tutkija kohtaa ovat 1) normaalijakauma, 2) Studentin t jakauma ja 3) khii toiseen (χ 2 ) jakauma. Näitä jakaumia tarvitsemme tämän kurssin kuluessa ja siksi tarkastelemme niitä seuraavassa hieman tarkemmin. Tilastollisten jakaumat ovat keskeisessä osassa tilastollisessa testauksessa, koska jokaisella testisuureella on ns teoreettinen jakauma jonka perusteella p arvo lasketaan. Normaalijakauma Esimerkiksi on luonnollista olettaa että jatkuva satunnaismuuttuja kuten ihmisten kolesteroliarvo noudattaa normaalijakaumaa. Normaalijakauman tiheysfunktiota merkitään yleisesti: N ( µ, σ ). Tässä µ on normaalijakauman odotusarvo ja σ keskihajonta. Usein tarvitaan normaalijakaumaa jonka odotusarvo on 0 ja hajonta 1 ja sen tiheysfunktio on seuraavan näköinen: Biostatistiikkaa esimerkkien avulla 6 Janne Pitkäniemi, syksy 2005

7 Normaalijakauma (0,1) dnorm(x, 0, 1) x Tämä on ns. standardoitu normaalijakauma. Useat testit olettavat muuttujan arvojen otoksessamme noudattavan normaalijakaumaa ja tällöin testataan havaintojen yhteensopivuutta normaalijakauman kanssa. Studentin t jakauma Testisuure t, johon tutustuimme ensimmäisenä esimerkki 1:ssä oli t jakautunut. t jakauma lähestyy em. standardoitua normaalijakaumaa kun otoskoko kasvaa. Sitä tarvitaan koska käytännössä lähes aina joudumme laskemaan otoksestamme (estimoimaan) kiinnostavan muuttujan otoskeskihajonnan, koska sitä ei yleensä tunneta etukäteen. t jakaumaan liittyy vapaus asteen käsite. t jakauman muoto riippuu otoskoosta ja alle onkin piirretty t jakauman tiheysfunktioita otoskoon arvoilla 3 ja 10. t jakauma t distribution on yksi yleisimmin käytetyistä todennäköisyysjakaumista Normaalijakauman ohella. Jakauman muotoa säätelee parametri nimeltä vapausaste, jonka laskentakaava riippuu tutkimusaineiston koosta ja jakauman käyttötarkoituksesta. Jakaumasta käytetään myös nimitystä Studentin t jakauma. Se on Normaalijakaumaa litteämpi ja pitkähäntäisempi. Biostatistiikkaa esimerkkien avulla 7 Janne Pitkäniemi, syksy 2005

8 Normaalijakauman N(0.1) and t jakauma 3 ja 10 vapausastetta tiheysfunktiot dnorm(x, 0, 1) N(0,1) t(3) t(10) x Esimerkki 1 : Seuraava kuva havainnollistaa tilastolliseen testaamiseen liittyvää p arvon laskentaa. Olemme ensin laskeneet edellä kuvatulla tavalla testisuureen arvon aineistoomme perusteella ja saaneet vastauksen t= Tarkastelemme seuraavaksi testisuureen jakaumaa. Koska olimme kiinnostuneet perusjoukon kolesteroli keskiarvon poikkeamisesta alas tai ylöspäin on kyseessä kaksisuuntainen testaus. Etsimme todennäköisyyttä millä testisuure voisi poiketa vielä enemmän kuin mitä havaitsimme. Tätä havainnollistaa seuraava kuva. Biostatistiikkaa esimerkkien avulla 8 Janne Pitkäniemi, syksy 2005

9 t jakauma 4 vapausastetta tiheysfunktio dt(x, 4) t(4) laskettu t= pinta ala p arvo=jakauman häntien pinta ala laskettu t=1.956 pinta ala t Khii toiseen (χ 2 ) jakauma χ 2 jakaumaa (chi squared distribution) tarvitaan kun testataan lukumäärien/prosenttiosuuksien eroja tai yhteensopivuuksia jonkin teoreettisen jakauman kanssa. Sen tiheysfunktio on positiivinen, vino ja sen jakauman muoto (ja siis täten myös p arvo riippuu) vapausasteista, kuten t jakaumallakin. Alla on muutamia khiitoiseen jakaumia esimerkin omaisesti, mutta ne tulevat tutuiksi jatkossa. Biostatistiikkaa esimerkkien avulla 9 Janne Pitkäniemi, syksy 2005

10 Khii toiseen jakauma 3,5, 10 ja 20 vapausastetta tiheysfunktiot dchisq(x, 3) X2(3) x2(5) X2(10) X2(20) x Monivertailut Monivertailutestaustilanne syntyy silloin, kun a) päälopputulosmuuttujan ohella vertaillaan useita muita lopputulosmuuttujia (jotka on valittu joko ad hoc tai post hoc), joiden testaamiseen ei voimalaskelmissa ole varauduttu b) kun vertaillaan pareittain tuloksia useina ajankohtina tai samana ajankohtana useiden ryhmien välillä c) tehdään osaryhmäanalyysejä d) tehdään välianalyysejä. Monivertailutestaustilanne kasvattaa virheen mahdollisuutta ja siksi monivertailutesteissä ( multiple comparison test ) suoritetaankin virheen korjaus.. Bonferroni korjaus Bonferroni correction on monivertailujen yhteydessä käytetty P arvojen korjausmenettely, jonka tavoitteena on säilyttää alkuperäinen tilastollinen merkitsevyystaso ( virhe) alun perin suunnitellun suuruisena monivertailuista huolimatta. Tavallisimmin käytetty taso on 0,05 (5 %). Bonferronikorjauksella korjattu P arvo saadaan kertomalla testin antama P arvo vertailujen lukumäärällä. Tällä korjauksella on taipumus ylikorjata, koska se olettaa monivertailut toisistaan riippumattomiksi, mitä ne eivät yleensä käytännössä ole. Ainoa oikea tapa käsitellä monivertailuongelmaa on käyttää sellaisia tilastollisia menetelmiä ja testejä, jotka on suunniteltu tähän tarkoitukseen: toistomittausten ANOVA, Friedmanin testi, Cochranin Q testi, erilaiset monivertailutestit. Biostatistiikkaa esimerkkien avulla 10 Janne Pitkäniemi, syksy 2005

11 Kliinisten tutkimusten suunnitelmissa tulisi ilmoittaa mahdollisimman tarkasti, mitä hypoteeseja on tarkoitus testata ja kuinka testit tai erilaiset vertailut tullaan suorittamaan (suunnitellut vertailut, ad hoc comparisons ). Usein varsinaisten hypoteesien lisäksi tutkimusprosessin analyysivaiheessa kehitellään lisähypoteeseja, valitaan niihin soveltuvat testit ja vertailutavat (jälkikäteisvertailut, post hoc comparisons ). Nämä testaukset tulkitaan kuitenkin suoritetun tutkimuksen kannalta toisarvoisiksi. Lähinnä niillä on merkitystä jatkotutkimusten kehittelyn kannalta. P arvon käyttöön liittyviä rajoitteita ja ongelmia P arvon määrittely edellyttää käsitteiden testisuure ja sen otosjakauma määrittelyä. Testisuureella tarkoitetaan mitä tahansa nollahypoteesin testaamiseen käytettyä otossuuretta, otoksen havaintoarvojen funktiota. Testisuureen otosjakauma on kaikkien mahdollisten testisuureen saamien arvojen muodostama jakauma. P arvo määritellään seuraavasti: P arvo P value on havaintoaineiston ja käytetyn testisuureen otosjakauman perusteella laskettu todennäköisyys saada lopputulos, joka on vähintään yhtä epätodennäköinen (harvinainen) kuin tutkimuksessa todettu lopputulos edellyttäen, että todellisuudessa nollahypoteesi (H 0 ) olisi tosi. P arvo liittyy ainoastaan H 0 :n testaamiseen, eikä kerro esimerkiksi hoitoerosta mitään, toisin kuin luottamusväli. Jonkin todetun eron biologinen tai lääketieteellinen merkitsevyys on eri asia kuin tilastollinen merkitsevyys. Tästä syystä artikkeleissa kannattaa käyttää jälkimmäisestä termiä statistically significant. Kliinisen merkitsevyyden arviointia helpottaa, kun ei tyydytä pelkkään P arvoon, vaan keskeisimmille lopputulosmuuttujille lasketaan myös luottamusvälit. Vaikka P arvo ei antaisikaan esim. ryhmien välille tilastollisesti merkitsevää hoitoeroa, niin luottamusväli voi paljastaa, että käytännön kannalta eroa saattaisi olla, mikä näkyy esim. välin kapeutena ja selvänä epäsymmetrisyytenä nollan suhteen. Isoilla aineistoilla kliinisesti merkityksettömätkin erot saattavat tulla tilastollisesti erittäin merkitseviksi, esim. P< 0,0001. Vakiintunut käytäntö vetää tilastollisesti merkitsevän ja ei merkitsevän ( non significant ) tuloksen raja tasolle 0.05 ei perustu mihinkään matemaattiseen tosiseikkaan. Se on täysin keinotekoinen valinta ja aiheuttaa paljon harhakäsityksiä. Esim. tutkija saattaa raportoida P arvoon 0,051 päätyneen tuloksen tilastollisesti eimerkitsevänä, kun taas joku toinen tutkija samankaltaisesta tutkimuksesta saamansa Biostatistiikkaa esimerkkien avulla 11 Janne Pitkäniemi, syksy 2005

12 tuloksen P = 0,049 tilastollisesti merkitseväksi. Jos tutkijat eivät ilmoita P arvoa, niin lukijalla ei ole mahdollista arvioida tulosten merkitystä. Koko tilastollisen testauksen periaatteet on täysin väärin ymmärretty, mikäli näillä kahdella tuloksella katsottaisiin olevan jotain eroa käytännön kannalta. On syytä muistaa, että eri ohjelmienkin tuottamat P arvot samasta testistä voivat vaihdella jonkin verran, ja joskus jopa paljon, riippuen siitä, minkälaista laskenta algoritmia mikäkin ohjelma käyttää. Käsitteitä melkein merkitsevä ( almost significant ), merkitsevä ( significant ) ja erittäin merkitsevä ( highly significant ) ei nykysuositusten mukaan tulisi käyttää. Ne ovat peräisin taulukoiden laadinnasta ja antavat P arvon luonteesta väärän kuvan. Useimmissa tilanteissa P arvo kannattaa antaa ns. tarkkana, siten että siinä on korkeintaan neljä desimaalia ja kaksi merkitsevää numeroa, esim. P = 0,0032, P = 0,0002 tai P < 0,0001. Tätä pienemmät P arvot eivät ole mielekkäitä, koska P arvo liittyy vain virheeseen. Jonkin geneettisen ominaisuuden esiintymistodennäköisyys voisi olla 3,2*10 6 (eli 3,2/ ). P arvon kohdalla näin pieni arvo ei anna enempää varmuutta H 0 :n oikeellisuudesta kuin mitä arvo 0,0001 antaisi. Tilastollisten testien valintaperusteet Tilastollisten testien valintapäätös on yleensä melko monitahoinen asia. Testi tulisi valita siten, että se on riittävän herkkä toteamaan eroja jos niitä on olemassa, mutta toisaalta se ei saisi olla myöskään liian optimistinen. Ainakin alla esitettyihin asioihin pitää ottaa kantaa sopivaa testiä mietittäessä: Aineiston rakenne / testausasetelma Riippumattomat independent otokset/ryhmät Riippuvat related, dependent otokset/ryhmät Kaltaistetut matched otokset/ryhmät Mitta asteikko Välimatka/suhdeasteikko Järjestysasteikko Laatueroasteikko Binomiaalinen asteikko (kaksiluokkainen) Otosten/ryhmien lukumäärä Yksi Kaksi Yli kaksi Testauksen tarkoitus Heterogeenisuus Trendi Assosiaatio Biostatistiikkaa esimerkkien avulla 12 Janne Pitkäniemi, syksy 2005

13 Aineiston koko Kohtalainen (yli 30 ryhmää kohden) Pienehkö (10 30 ryhmää kohden) Pieni (alle 10 ryhmää kohden) Jakauma Normaali / Log normaali Binomi Poisson Monissa tilastopaketeissa on sisäänrakennettuna ohjelmamoduuleja statistical adviser, statistical navigator, tutor, guide, wizard, jotka avustavat tutkijaa testitai menetelmävalinnoissa. Nämä ohjelmien valikot tai niiden esittämät kysymykset perustuvat mm. yllä esitettyihin valintaperusteisiin. Lisäksi usein niissä kerrotaan testien ja menetelmien käyttöedellytyksistä. Normaalisuuden testaaminen Monissa lääketieteellisissä aineistoissa muuttujien jakauman normaalisuuden tarkistaminen on aiheellista, koska hyvin usein normaalisuusoletus ei ole voimassa. Tällöin on syytä välttää sellaisia menetelmiä ja testejä, jotka voimakkaasti perustuvat normaalisuuteen. Esimerkiksi paljon käytettyä t testiä luonnehditaan yleensä melko robustiksi testiksi, mikä tarkoittaa, ettei se ole kovin herkkä poikkeamille niistä oletuksista, joihin testi perustuu. Poikkeavat havaintoarvot aiheuttavat kuitenkin herkästi t testin nimittäjässä olevan keskivirheen kasvamisen, jolloin testistä tulee konservatiivinen, ylivarovainen. Kaksi tavallisimmin käytettyä testiä normaalisuuden tarkistamiseen ovat Shapiro Wilkin W ja Kolmogorov Smirnovin testit. Esim. Tietokanta datasetb. Ongelma: Onko muuttujan weigth jakauma normaalinen? SPSS ohjelmalla saadaan seuraavat tulokset: Normaalijakauman referenssikäyrä histogrammiin saadaan valikoista Graphs Histogram, kun klikataan lokero Display normal curve Biostatistiikkaa esimerkkien avulla 13 Janne Pitkäniemi, syksy 2005

14 25 20 Frequency ,00 60,00 70,00 80,00 90,00 100,00 110,00 weigth (kg) Mean = 76,2376 Std. Dev. = 12,08334 N = 200 Normaalisuustestit löytyvät valikoista: Analyze Descriptive Statistics Explore. Kohtaan Dependent list viedään tutkittava muuttuja weight. Kohdasta Plots klikataan lokerot Normality plots with tests ja Histogram. Tulos: Tests of Normality Kolmogorov Smirnov a Shapiro Wilk Statistic df Sig. Statistic df Sig. weigth (kg), ,033, ,012 a. Lilliefors Significance Correction Tulkinta: Molemmat testit antavat tuloksen P<0,05, joten muuttujan weight jakauma poikkeaa Normaalijakaumasta, tosin ei kovin dramaattisesti kuten histogrammi osoittaa. Histogrammin perusteella weight:n jakauma muistuttaa Lognormaalia jakaumaa. Tehdään Transform kohdassa muunnos Lnweight=LN(weight). Tulos: Biostatistiikkaa esimerkkien avulla 14 Janne Pitkäniemi, syksy 2005

15 Tests of Normality Kolmogorov Smirnov a Shapiro Wilk Statistic df Sig. Statistic df Sig. lweight, ,079, ,319 a. Lilliefors Significance Correction Tulkinta: Koska molemmissa testeissä P>0,05, niin todetaan, että logaritmimuunnos korjasi muuttujan weight vinouden, joten muuttujalle Lnweight Normaalisuusoletus on voimassa. Normal Q Q Plot of weigth (kg) 3 2 Expected Normal Observed Value Yllä olevalla kuviolla on monta englanninkielistä nimeä: Normal probability plot, Quantile quantile eli Q Q plot tai probit plot. Kuviossa x akselilla on havaitut arvot ja y akselilla normaalijakaumaan perustuvat odotusarvot. Mikäli jakauma noudattaisi täysin normaalijakaumaa, niin pisteet sijoittuisivat kuviossa olevalle suoralle viivalle. Kuvioista saadaan kuitenkin vain visuaalinen käsitys siitä, missä määrin ja miltä osin jakauma poikkeaa normaalijakaumasta. Tulkinta: Tässä tapauksessa muuttujan weight perusteella saatu käyrä on muodoltaan lievästi kupera, mikä viittaa siihen, että jakaumassa on pidempi häntä oikealle, eli jakauman sanotaan olevan positiivisesti vino (oikealle vino). Tämän tyyppinen jakauma korjaantuu usein normaaliseksi log muunnoksella (lognormaalinen jakauma), kuten edellä todettiinkin. Mikäli pisteistön muodostama kuvio olisi kovera, niin kyseessä olisi negatiivisesti (vasemmalle vino) jakauma. Tällöin exp(x) muunnosta Biostatistiikkaa esimerkkien avulla 15 Janne Pitkäniemi, syksy 2005

16 kannattaa kokeilla jakauman normalisoimiseksi. Mikäli pisteistä muodostuva kuvio olisi S:n muotoinen, niin jakaumalla olisi normaalijakaumaa pidemmät hännät molempiin suuntiin. Tällöin kannattaisi kokeilla käänteismuunnosta 1/x normaalisuuden saavuttamiseksi. Varianssien homogeenisuustestit Joissakin testeissä edellytetään vertailtavien ryhmien varianssien homogeenisuutta. Tämän tutkimiseksi käytämme testiä, jonka saamme kätevästi SPSS:llä jossa nollahypoteesi on siis että tutkittavan muuttujan varianssit ovat samat eri ryhmissä. Esim. Tietokanta datasetb. Ongelma: Onko muuttujan weight varianssi sama sekä korkean ja matalan sosioekonomisen asemassa olevilla (sesdic 1=korkea SES, 0=keski tai matala SES)? SPSS:llä varianssien homogeenisuus voidaan testata Levenen testillä valikoista: Analyze Compare means Independent Samples t test asettamalla testattava muuttuja weight kohtaan test variable ja kohtaan grouping variable ryhmämuuttuja sesdic. Lisäksi määrittelemme ryhmä muuttujat arvot kohdasta define groups group1 : 0 ja group2 : 1 Tulos: Independent Samples Test Levene's Test for Equality of Variances weigth (kg) Equal variances assumed F Sig.,314,576 Tulkinta: Koska tämä arvo on selvästi suurempi kuin yleisesti kriittisenä arvona pidetty 0,05, niin varianssien homogeenisuusoletus jää voimaan. Biostatistiikkaa esimerkkien avulla 16 Janne Pitkäniemi, syksy 2005

17 Riippumattomien ryhmien t testi Käyttötilanne: Halutaan verrata kahden toisistaan riippumattoman ryhmän (esimerkiksi kahden hoitoryhmän) keskiarvoja toisiinsa t testillä. t testi on moniin eri testaustilanteisiin soveltuva parametrinen testi, joka perustuu t jakaumaan. Testistä on olemassa monia eri versioita. Testin perusmuoto on: t = [(otossuure) (hypoteettinen arvo)] / (otossuureen keskivirhe). Testistä on olemassa monia eri versioita riippuen siitä, kuinka nimittäjässä olevan keskivirhe arviointi ja vapausasteiden laskentatavasta. Riippumattomien ryhmien t testi independent sample t test on erityismuoto t testistä. Sitä käytetään kahden toisistaan riippumattoman ryhmän, keskiarvojen vertailuun. Testattavan suureen oletetaan noudattavan normaalijakaumaa. Testistä on olemassa kaksi perusmuotoa, riippuen siitä ovatko vertailtavien ryhmien varianssit homogeeniset vai heterogeeniset. Jälkimmäiseen tapaukseen tilastopaketeista löytyy monia testin modifikaatioita. Ne perustuvat erilaisiin vapausasteiden muuntamistapoihin, joilla testisuure saadaan noudattamaan normaalijakaumaa. Käyttötilanne: Halutaan verrata keskiarvoja kahden toisistaan riippumattoman ryhmän, esim. hoito ja kontrolliryhmän välillä. Riippumattomuus tarkoittaa, että vertailtavissa ryhmissä ei saa olla esim. samoja koehenkilöitä. Oletetaan, että (x 1,, x n1 ) ja (x 1,, x n2 ) ovat havaintoarvoja jatkuvasta muuttujasta x kahdessa toisistaan riippumattomassa ryhmässä 1 ja 2. Lasketaan ryhmien keskiarvot x1ja x 2 ja keskihajonnat SD 1 ja SD 2 sekä otoskoot n 1 ja n 2 Studentin t testi lasketaan kaavoilla: Biostatistiikkaa esimerkkien avulla 17 Janne Pitkäniemi, syksy 2005

18 t = x1 x2, SE(x x ) 1 SE( x1 x2 SD p = (n 1 2 ) = SD p 1 + n 1 1 n 2 1) SD1 + (n2 1) SD n + n 2 SD p on ryhmien 1 ja 2 yhdistetty hajonta. Olettamukset t testin käytölle: Muuttujan x jakauma tulee likimain normaalinen 2. Havaintoarvojen vertailtavien ryhmien sisällä tulee olla toisistaan riippumattomia. 3. Varianssit ovat homogeeniset Olettamus kaksi on testin kannalta olennainen. Testi ei sovellu toisistaan riippuville havaintoarvoille. Riippuvuus voisi syntyä esim. siten, että vertailtavissa ryhmissä on samoja henkilöitä tai vertailtavien ryhmien sisällä on toistomittauksia samoista henkilöistä. Toistomittausten huomioon ottaminen edellyttää erityismenetelmiä. Varianssien homogeenisuus voidaan testata Levenen testillä. Mikäli testin antama P arvo on alle 0,05, homogeenisuusoletus hylätään. Tähän tilanteeseen on olemassa useita t testin modifikaatioita, jotka tavallisimmat tilastopaketit laskevat. Usein tässä tilanteessa kannattaa kuitenkin käyttää Mann Whitneyn U testiä. 2 2 Esim. Tiedosto: datasetb.sav. Ongelma: Halutaan testata onko korkean js matalan SES ryhmien (sesdic=1 jos SES on 1 tai 2 eli korkeimmat ryhmät, 0 muuten SES 3,4 tai 5) välillä eroa muutosmuuttujan vuoden 1950 painon keskiarvoissa. SPSS:llä tehtävä suoritetaan valikoista: Analyze Compare means Independent Samples t test asettamalla Test variable =weight1950 ja Grouping variable =sesdic. Tulos: Group Statistics weigth (kg) Sosio economic status (1=low (SES 1,2) 0= 0 1 Std. Error N Mean Std. Deviation Mean , , , , , ,59401 Biostatistiikkaa esimerkkien avulla 18 Janne Pitkäniemi, syksy 2005

19 Independent Samples Test t test for Equality of Means t df Sig. (2 tailed) Mean Difference Std. Error Difference weigth (kg) Equal variances Equal variances assumed not assumed,483, ,863,629,629,91636, , , % Confidence Interval of the Difference Lower Upper 2, , , ,66359 Sosio economic status (1=low (SES 1,2) 0=: Frequency ,00 70,00 80,00 90,00 100,00 110,00 weigth (kg) Mean = 76,4988 Std. Dev. = 12,13502 N = 143 Biostatistiikkaa esimerkkien avulla 19 Janne Pitkäniemi, syksy 2005

20 Sosio economic status (1=low (SES 1,2) 0=: Frequency ,00 60,00 70,00 80,00 90,00 100,00 110,00 weigth (kg) Mean = 75,5825 Std. Dev. = 12,03452 N = 57 Tulkinta: Koska Levenen testiin liittyvä F testi antaa tulokseksi P>0,05, niin oletusta varianssien yhtä suuruudesta ei hylätä ja tuloksia pitää tarkastella kohdasta Equal variances assumed. Keskiarvoeroksi tulee 0.92 ja P arvoksi 0,62, joka on täsmälleen sama kuin mitä yleisesti pidetään tilastollisen merkitsevyyden rajana. Tarkastelemalla ryhmien korkea ja matala sosioekonominen painon jakaumia todetaan että t testin käytön kannalta ei ole ongelma. Biostatistiikkaa esimerkkien avulla 20 Janne Pitkäniemi, syksy 2005

21 Parittainen t testi (ylimääräinen luku, ei pakollinen) Parittainen t testi Paired t test/mached pair t test on erityismuoto t testistä ja sitä käytetään kahden parittaisen ryhmän, esim. kaltaistettujen parien tai samojen henkilöiden toistomittausparien muodostaman erotusmuuttujan testaamiseen. Käyttötilanne: Halutaan verrata keskiarvoja kahdessa toisistaan riippuvassa ryhmässä Oletetaan, että (x 1i, x 2i ), i = 1,..., n ovat pareittaisia havaintoarvoja muuttujasta x joko a) parikaltaistetuissa ryhmissä 1 ja 2 tai b) saman ryhmän toistettuja mittausarvoja, esimerkiksi kahtena ajankohtana. Lasketaan erotukset d i = x 2i x 1i, i = 1,..., n ja erotusmuuttujan d keskiarvo d, keskihajonta SD d ja keskivirhe SE d = SD / n. Laskentakaava: d / SE d Tämä suure noudattaa Studentin t jakaumaa vapausastein df = n 1. Studentin t jakauma on muodoltaan hivenen litteämpi kuin normaalijakauma, ts. sillä on pidemmät hännät sekä vasemmalle että oikealle. Jakauman litteyden määrää vapausaste df. Kun df kasvaa t jakauma lähestyy normaalijakaumaa. Kun n on suuruusluokkaa 30, jakaumat ovat lähes yhtenevät. Olettamukset parittaisen t testin käytölle: 1. Differenssimuuttujan d jakauma tulee olla likimain normaalinen 2. Havaintoarvojen ryhmän/toiston sisällä tulee olla toisistaan riippumattomia. Huom. Olettamus 1 ei tarkoita, että muuttujan x jakauman tarvitsisi olla normaalinen ryhmissä 1 ja 2. Riittää, kun d noudattaa likimain normaalijakaumaa. t testi ei ole kovin herkkä poikkeamalle normaalisuudesta, eli testi on tässä suhteessa ns. robustinen. Kovin pienillä aineistoilla (alle 10) poikkeavilla havaintoarvoilla voi olla suuri vaikutus t testin tulokseen ja t testistä tulee konservatiivinen (varovainen), koska testisuureen nimittäjässä oleva keskivirhe kasvaa. Lisäksi normaalisuudesta on vaikea varmistua ja silloin kannattaa käyttää t testin parametritonta vaihtoehtoa, Wilcoxonin parittaista testiä. Olettamus kaksi on testin kannalta olennainen. Testi ei sovellu toisistaan riippuville havaintoarvoille. Riippuvuus voisi syntyä esim. seuraavasti: 30 henkilöltä on mitattu verenpaine kolme kertaa ja t testi lasketaan ikään kuin havaintoja olisi 90. Toistomittausten huomioon ottaminen edellyttää erityismenetelmiä. Esimerkki Halutaan tietään onko kolesteroliarvot muuttuneet esimerkki aineistossamme (datasetb) vuodesta 1950 vuoteen 1962 tilastollisesti merkitsevästi? Biostatistiikkaa esimerkkien avulla 21 Janne Pitkäniemi, syksy 2005

22 Asetelma: mittaus 1950 mittaus 1962 datasetb.sav kolesteroli muuttuja ja niiden erotus: id chol1950 chol1962 erotus (d i ) 5 13,50 14,50 1, ,67 13,61 1, ,17 15,28 3, ,28 15,06 3, ,28 13,39 3, ,44 18,11 3, ,67 13,11 2, ,22 16,67 1, ,56 17,28 4, ,17 15,33 4,84 Testataan aluksi differenssimuuttujan d i normaalisuusoletuksen paikkansapitävyys. SPSS:llä normaalisuustestit löytyvät valikoista: Analyze Descriptive Statistics Explore. Kohtaan Dependent list viedään tutkittava muuttuja choldiff. Kohdasta Options klikataan lokerot Normality plots with tests ja Histogram Tulos: Tests of Normality(b) Kolmogorov Smirnov(a) Shapiro Wilk Statistic df Sig. Statistic df Sig. choldiff, ,015, ,039 a Lilliefors Significance Correction b Sosio economic status (1=low (SES 1,2) 0= = 0 Tulkinta: Molemmilla testeillä P<0,05, joten normaalisuusoletus hylätään. Biostatistiikkaa esimerkkien avulla 22 Janne Pitkäniemi, syksy 2005

23 Kokeillaan muuttuja muunnosta eli otetaan logaritmit kummastakin muuttujasta ja testataan logaritmoitujen muuttujien erotusta. Tests of Normality b Kolmogorov Smirnov a Shapiro Wilk Statistic df Sig. Statistic df Sig. lcholdiff, ,049, ,065 a. Lilliefors Significance Correction b. Sosio economic status (1=low (SES 1,2) 0= = 0 Tulkinta: Vieläkään ei saavutettu erinomaista normaalisuutta mutta 5% merkitsevyystasolla normaalisuus oletusta ei hylätä. Huom. Näin pienellä aineistokoolla differenssimuuttujan normaalisuusoletuksen varmistaminen voi olla ongelmallista. Yksikin poikkeava havaintoarvo saattaa kasvattaa keskivirhettä ja tehdä t testistä konservatiivisen, eli antaa liian suuren P arvon. SPSS: Parittainen t testi löytyy valikoista: Analyze Compare means Paired Samples t test viemällä lokeroon Paired variables muuttujat lchol1950 ja lchol1960. Tulos: Paired Samples Statistics Pair 1 lchol1950 lchol1962 Std. Error Mean N Std. Deviation Mean 2, ,21042, , ,18847,01333 Biostatistiikkaa esimerkkien avulla 23 Janne Pitkäniemi, syksy 2005

24 Paired Differences Paired Samples Test Mean Std. Deviation Std. Error Mean Pair 1 lchol1950 lchol1962,01093,20349,01439 t df Sig. (2 tailed) 95% Confidence Interval of the Difference Lower Upper,01744,03930, ,448 Tulkinta: Koska P>0,05 (p=0.448) niin kolesteroliarvoissa ei ole tapahtunut tilastollisesti merkitsevää muutosta. Luottamusväliestimointi Yleistä Kaikille tärkeimmille tutkimustuloksille tulisi aina laskea luottamusvälit. Ne antavat käsityksen tulosten varmuudesta, ts. kuinka paljon ilmoitetut tulokset voisivat vaihdella otantavaihtelusta johtuen. Luottamusvälien laskenta on osa estimointia. Estimoinnilla estimation tarkoitetaan tutkittavan ilmiön kuvaamiseen käytetyn mallin tai jakauman sisältämien tuntemattomien suureiden, parametrien, arviointia tutkimusaineiston (otoksen/otosten) perusteella. Estimointitapoja on kahta päätyyppiä: piste estimointia ( point estimation ) ja luottamusväliestimointia ( confidence interval estimation ) Piste estimointi on tuntemattoman suureen, eli parametrin, (esim. jonkin taudin yleisyys) arviointi yhdellä lukuarvolla (estimaatilla), joka on laskettu havaintoaineistosta. Otossuure sample statistic on otoksen havaintoarvojen perusteella laskettu suure, havaintoarvojen funktio. Estimaattori sample statistic on otossuure, jolla tuntematonta parametria arvioidaan. Parametri parameter on tuntematon suure, joka säätelee tutkittavan ilmiön Biostatistiikkaa esimerkkien avulla 24 Janne Pitkäniemi, syksy 2005

25 kuvaamisessa käytettyä mallia, esim. jotain teoreettista jakaumaa. Arvioidaan tutkimusaineiston perusteella. Normaalijakaumaan perustuvat luottamusvälit Monet likimääräisistä luottamusväleistä perustuvat normaalijakaumaan. Luottamusvälien laskentakaava on muotoa: Alaraja : ˆ z /2 SE( ˆ), Yläraja : ˆ + z1 /2 1 SE( ˆ), Kaavassa ˆ on tarkasteltavan suureen piste estimaatti, SE( ˆ) sen keskivirhe ja z 1 /2 standardin normaalijakauman (keskiarvo 0, hajonta 1) prosenttipiste, joka on 95% luottamusvälille 1.96 eli noin 2. Keskiarvon luottamusväli Tärkeimmille tutkimustuloksille, lopputulosmuuttujille, on tapana ilmoittaa pisteestimaatin ohella myös luottamusväli. Mikäli kyseessä on jatkuva muuttuja ja sen aritmeettinen keskiarvo, niin 100(1 α) %:n luottamusväli lasketaan kaavalla: Alaraja : x t 1) SD/ n, Yläraja : x + t 1) 1 /2 (n 1 /2 (n SD/ n Kaavassa t 1 /2 (n 1) on Studentin t jakauman prosenttipiste vapausastein n 1, x on aineistosta (x 1, x 2,, x n ) laskettu aritmeettinen keskiarvo ja SD / n on keskiarvon keskivirheen arvio. Esim. Tietokanta datasetb. Muuttuja: dias1950 SPSS: Valikot: Analyze Descriptive Statistics Explore. Tulos: Descriptives Diastolic blood pressure (mmhg) Mean 95% Confidence Interval for Mean Lower Bound Upper Bound Statistic 83, , ,0971 Biostatistiikkaa esimerkkien avulla 25 Janne Pitkäniemi, syksy 2005

26 Esim. Ajatellaan esimerkkiämme kolesteroliarvoja koskevasta otoksestamme. Jos tietäisimme että todellinen suomalaisten kolesteroli keskiarvo olisi 5.0 mmol/l ja jos poimisimme suomalaisista 10 kappaletta 5 sekä 50 hengen otoksia ja laskisimme 95% ja 99% keskiarvon luottamusvälit tulokset voisivat näyttää seuraavilta. 95% luottamusväli otoskoko 5 95% luottamusväli otoskoko 50 otoksen numero kol (mmol/l) 99% luottamusväli otoskoko 5 otoksen numero otoksen numero kol (mmol/l) 99% luottamusväli otoskoko 50 otoksen numero kol (mmol/l) kol (mmol/l) Kuten kuvista huomaamme luottamusvälin pituus kasvaa kun haluamme olla varmempia että todellinen (5.0 mmol/l) perusjoukon keskiarvo kuuluu välille. Toisaalta luottamusväli kapenee kun otoskoko kasvaa eli keskiarvon keskivirhe pienenee. Biostatistiikkaa esimerkkien avulla 26 Janne Pitkäniemi, syksy 2005

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1 Estimointi - tehdään päätelmiä perusjoukon ominaisuuksista (keskiarvo, riskisuhde jne.) otoksen perusteella - mitä suurempi otos, sitä tarkemmat estimaatit Otokseen perustuen määritellään otantajakaumalta

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3 OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Estimointi. Otantajakauma

Estimointi. Otantajakauma Otantajakauma Otantajakauma kuvaa jonkin parametrin arvojen (esim. keskiarvon) jakauman kaikille tietyn kokoisille otoksille. jotka perusjoukosta voidaan muodostaa Histogrammissa otantajakauman parametrin

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Teema 9: Tilastollinen merkitsevyystestaus

Teema 9: Tilastollinen merkitsevyystestaus Teema 9: Tilastollinen merkitsevyystestaus Tärkeä päättelyn osa-alue on tilastollinen merkitsevyystestaus, johon päästään luontevasti edellisen teeman aiheista: voidaan kysyä, menevätkö kahden vertailtavan

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

Perusnäkymä yksisuuntaiseen ANOVAaan

Perusnäkymä yksisuuntaiseen ANOVAaan Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Altisteiden ja sairauksien mittaaminen. Biostatistiikan näkökulmasta EPIDEMIOLOGIAN JA BIOSTATISTIIKAN PERUSTEET. L2 kevät 2007

Altisteiden ja sairauksien mittaaminen. Biostatistiikan näkökulmasta EPIDEMIOLOGIAN JA BIOSTATISTIIKAN PERUSTEET. L2 kevät 2007 EPIDEMIOLOGIAN JA BIOSTATISTIIKAN PERUSTEET L2 kevät 2007 mittaaminen Biostatistiikan näkökulmasta Janne Pitkäniemi VTM, MSc (biometry) HY, Kansanterveystieteen laitos 1 Perusjoukon ja otoksen käsitteet

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Otoskoon arviointi. Tero Vahlberg

Otoskoon arviointi. Tero Vahlberg Otoskoon arviointi Tero Vahlberg Otoskoon arviointi Otoskoon arviointi (sample size calculation) ja tutkimuksen voima-analyysi (power analysis) ovat tilastollisen tutkimuksen suunnittelussa keskeisiä kysymyksiä

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5 MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %? [TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Kliininen arviointi ja kliininen tieto mikä riittää?

Kliininen arviointi ja kliininen tieto mikä riittää? Kliininen arviointi ja kliininen tieto mikä riittää? Riittävä tutkimuksen otoskoko ja tulos Timo Partonen LT, psykiatrian dosentti, Helsingin yliopisto Ylilääkäri, Terveyden ja hyvinvoinnin laitos Tutkimuksen

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Aki Taanila VARIANSSIANALYYSI

Aki Taanila VARIANSSIANALYYSI Aki Taanila VARIANSSIANALYYSI 18.5.2007 VARIANSSIANALYYSI 1 JOHDANTO...2 VARIANSSIANALYYSI...3 Yksisuuntainen varianssianalyysi...3 Kaksisuuntainen varianssianalyysi ilman toistoja...6 Kaksisuuntainen

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

2. TILASTOLLINEN TESTAAMINEN...

2. TILASTOLLINEN TESTAAMINEN... !" # 1. 1. JOHDANTO... 3 2. 2. TILASTOLLINEN TESTAAMINEN... 4 2.1. T-TESTI... 4 2.2. RANDOMISAATIOTESTI... 5 3. SIMULOINTI... 6 3.1. OTOSTEN POIMINTA... 6 3.2. TESTAUS... 7 3.3. TESTIEN TULOSTEN VERTAILU...

Lisätiedot

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi Tilastollinen testaaminen tai Tilastollinen päättely Geneettinen analyysi Tilastollisen testaamisen tarkoitus Tilastollisten testien avulla voidaan tutkia otantapopulaatiota (perusjoukkoa) koskevien väittämien

Lisätiedot

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Mat Sovellettu todennäköisyyslasku A

Mat Sovellettu todennäköisyyslasku A TKK / Systeemianalyysin laboratorio Mat-.090 Sovellettu todennäköisyyslasku A Harjoitus 11 (vko 48/003) (Aihe: Tilastollisia testejä, Laininen luvut 4.9, 15.1-15.4, 15.7) Nordlund 1. Kemiallisen prosessin

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

10. laskuharjoituskierros, vko 14, ratkaisut

10. laskuharjoituskierros, vko 14, ratkaisut 10. laskuharjoituskierros, vko 14, ratkaisut D1. Eräässä kokeessa verrattiin kahta sademäärän mittaukseen käytettävää laitetta. Kummallakin laitteella mitattiin sademäärät 10 sadepäivän aikana. Mittaustulokset

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastolliset testit TKK (c) Ilkka Mellin (2005) 1 Tilastolliset testit Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet testauksessa

Lisätiedot

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) MTTTP5, luento 7.12.2017 7.12.2017/1 6.1.3 Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) y = lepopulssi x = sukupuoli y = musikaalisuus x = sukupuoli

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5 TKK (c) Ilkka Mellin (4) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (4) : Mitä opimme? 1/5 Tilastollisessa tutkimuksessa tutkimuksen kohteena olevasta perusjoukosta esitetään tavallisesti väitteitä

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

2. Aineiston kuvailua

2. Aineiston kuvailua 2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien

Lisätiedot

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisia peruskäsitteitä ja Monte Carlo Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia

Lisätiedot

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset. Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2015/1 MTTTP1, luento 6.10.2015 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

Aineistokoko ja voima-analyysi

Aineistokoko ja voima-analyysi TUTKIMUSOPAS Aineistokoko ja voima-analyysi Johdanto Aineisto- eli otoskoon arviointi ja tutkimuksen voima-analyysi ovat tilastollisen tutkimuksen suunnittelussa keskeisimpiä asioita. Otoskoon arvioinnilla

Lisätiedot

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen) 1 MTTTP3 Luento 29.1.2015 Luku 6 Hypoteesien testaus Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? H 0 : µ = µ 0 H 1 : µ < µ 0 Nollahypoteesi Vaihtoehtoinen hypoteesi

Lisätiedot

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10 SISÄLTÖ 1 TILASTOJEN KÄYTTÖ 7 Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10 Tilastoaineisto 11 Peruskäsitteitä 11 Tilastoaineiston luonne 13 Mittaaminen

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista. Mat-2.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit järjestysasteikollisille muuttujille Testit laatueroasteikollisille muuttujille Hypoteesi, Mannin ja Whitneyn testi (Wilcoxonin

Lisätiedot

Aki Taanila TILASTOLLINEN PÄÄTTELY

Aki Taanila TILASTOLLINEN PÄÄTTELY Aki Taanila TILASTOLLINEN PÄÄTTELY 17.6.2010 SISÄLLYS 0 JOHDANTO... 1 1 TILASTOLLINEN PÄÄTTELY... 2 2 YHTÄ MUUTTUJAA KOSKEVA PÄÄTTELY... 7 2.1 Normaalijakautuneisuuden testaaminen... 7 2.2 Keskiarvon luottamusväli...

Lisätiedot

KAHDEN RYHMÄN VERTAILU

KAHDEN RYHMÄN VERTAILU 10.3.2015 KAHDEN RYHMÄN VERTAILU Jouko Miettunen Center for Life-Course and Systems Epidemiology jouko.miettunen@oulu.fi Luennon sisältö Luokitellut muuttujat Ristiintaulukko, prosentit Khiin neliötesti

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen Tilastollisen analyysin perusteet Luento 5: Sisältö Tilastotieteessä tehdään usein oletuksia havaintojen jakaumasta. Useat tilastolliset menetelmät toimivat tehottomasti tai jopa virheellisesti, jos jakaumaoletukset

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 5

031021P Tilastomatematiikka (5 op) viikko 5 031021P Tilastomatematiikka (5 op) viikko 5 Jukka Kemppainen Mathematics Division Hypoteesin testauksesta Tilastollisessa testauksessa on kyse havainnoista tapahtuvasta päätöksenteosta. Kokeellisen tutkimuksen

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2

Lisätiedot

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

SPSS-perusteet. Sisältö

SPSS-perusteet. Sisältö SPSS-perusteet Sisältö Ikkunat 3 Päävalikot 5 Valikot 6 Aineiston käsittely 6 Muuttujamuunnokset 7 Aineistojen kuvailu analyysit 8 Havaintomatriisin luominen ja käsittely 10 Muulla sovelluksella tehdyn

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu

Lisätiedot