806354A/806629S Otantamenetelmät (5 op)

Koko: px
Aloita esitys sivulta:

Download "806354A/806629S Otantamenetelmät (5 op)"

Transkriptio

1 806354A/806629S Otantamenetelmät (5 op) Esa Läärä Oulun yliopiston matemaattisten tieteiden tutkinto-ohjelma

2 Sisältö 1 Johdanto Otanta mitä ja miksi Otostutkimus ja survey Otantamenetelmien historiaa Kansallisia otostutkimuksia ja niiden toteuttajia Tilastollinen otantateoria Perusjoukot ja niiden rakenne Erilaiset perusjoukot Perusjoukon alkiot ja osajoukot Perusjoukon parametrit ja otostunnusluvut Otoksen poimintatavat ja niiden yhdistelmät Alkioittainen vai ryväsotanta Osittamaton vai ositettu otanta Poimintatodennäköisyys: sama vai vaihteleva Yksinkertainen satunnaisotanta ja systemaattinen otanta... 16

3 ii SISÄLTÖ 3.5 Otanta palauttamatta vai palauttaen Yksi- ja moniasteinen otanta Yksi- vai kaksivaiheinen otanta Otanta-asetelmien teoriaa Otanta-asetelma otosten jakaumana Otanta-asetelma otokseen sisältymisten yhteisjakaumana Palauttamatta-asetelmat WOR Palauttaen-asetelmat WR Asetelman momentit Kokonaismäärän ja keskiarvon estimointi Estimoinnin lähtökohdat Kokonaismäärän harhaton estimointi Estimointi palauttamatta-asetelmissa Varianssin estimointi kiinteällä otoskoolla Estimointi palauttaen-asetelmissa Suhdelukujen estimointi Suhde-estimaattorin lineaarinen approksimointi Lineaaristen estimaattorien kovarianssi Estimointi osajoukoissa 43 8 Yksinkertainen satunnaisotanta 47

4 SISÄLTÖ iii 8.1 Kokonaismäärän ja keskiarvon estimointi Lineaaristen estimaattorien kovarianssi Suhdeluvun estimointi SAS-koodi kokonaismäärien ja suhteen estimointiin Estimointi osajoukossa Ositettu otanta Ositetun otannan motivointi Ositteittaiset parametrit ja niiden estimointi Perusjoukon kokonaismäärä ja keskiarvo Ositteissa yksinkertainen satunnaisotanta Ositetun otannan tehokkuus ja asetelmakerroin Ositekohtaisten aliotosten optimaalinen kiintiöinti Kiintiöinnit samoilla yksikkökustannuksilla Ryväsotanta Ryväsotannan motivointi Ryväsotannan asetelma Kokonaismäärän ja keskiarvon estimointi Yksinkertainen satunnaisotanta rypäistä Ryväsotannan tehokkuus ja asetelmakerroin Systemaattinen otanta ryväsotanta, jossa m = 1! Kaksiasteinen otanta

5 Luku 1 Johdanto 1.1 Otanta mitä ja miksi Useiden tutkimuslaitosten sekä julkisen hallinnon, yksityisen elinkeinoelämän ja ns. kolmannen sektorin piirissä toimivien organisaatioiden monia tiedollisia tarpeita voidaan yleiseltä kannalta luonnehtia seuraavasti. Kiinnostus koskee tiettyjen muuttujien kokonaismääriä, keskimääräisiä arvoja, prosenttijakaumia, hajontaa, yhteisvaihtelua ym. tilastollisia ilmiöitä kuvaavia tunnuslukuja tai parametreja määrätyssä perusjoukossa (universe) tai populaatiossa (population). Tämä perusjoukko on tyypillisesti hyvin konkreettinen, alueellisesti ja ajallisesti rajattu ja kooltaan äärellinen mutta voi olla hyvinkin iso. Esimerkki. Niin polittiset puolueet kuin tiedotusvälineet ovat paitsi vaalien alla niin myös vaalittominakin vuosina kiinnostuneita siitä, millainen on puoluekannatuksen jakauma maan äänioikeutettujen kansalaisten joukossa. Kaikkien äänioikeutettujen perusjoukko on varsin iso; nykyisin N Koko perusjoukon kattava kokonaistutkimus (census) voi olla joko täysin mahdoton tai muuten vaikea toteuttaa, koska aineiston keruu olisi liian hidasta ja kallista. Monesti tutkimustarkoituksia varten valitaan koko perusjoukkoa edustamaan jollakin harkinnanvaraisella tai hyvinkin mielivaltaisella tavalla jokin sen osajoukko, joka on joko ns. mukavuusotos (convenience sample) tai muuten ei-satunnainen näyte (non-random sample). Näin valittuihin osajoukkoihin liittyy ensinnäkin iso systemaattisen virheen riski. Sen lisäksi on mahdotonta tuottaa järkeviä arvioita näytteestä laskettujen tunnuslukujen tilastolliselle

6 2 Johdanto virhemarginaalille. Esimerkki. Markkinatutkimuksissa perusjoukkoa edustamaan valitaan osajoukko tai näyte usein kiintiöpoimintaa (quota sampling) käyttäen. Väestötilaston perusteella määritellään näytteelle etukäteen perusjoukon jakaumia vastaavat sukupuoli-, ikä-, alue- ja/tai joidenkin muiden tekijäin mukaiset kiintiöt, joita haastattelijat noudattavat haastateltavien valinnassa. Kunhan annetut kiintiöt tulevat täytetyiksi, haastateltavat saa valita mistä ja miten hyvänsä. Tutkittavia voidaan tavoitella kotoaan puhelimitse, Rotuaarilla, kauppakeskuksissa, liikenneasemilla jne. Tästä seuraa yleensä se, että helpoimmin tavoitettavat ihmiset tulevat yliedustetuiksi. Yleisesti pätevämpi vaihtoehto kokonaistutkimukselle on toteuttaa aito otostutkimus (sample survey). Siinä valitaan pätevällä satunnaisotannalla (random sampling) perusjoukosta se osajoukko eli otos (sample, random sample), jonka tehtävänä on edustaa koko perusjoukkoa. Kiinnostavia muuttujia koskevat havainnot ja mittaukset tehdään vain otokseen poimituista alkioista eli alkeisyksiköistä (elementary unit) ja/tai otantayksiköistä (sampling unit). Esimerkki. Puoluekannatusta ja äänestyskäyttäytymistä koskevassa mielipidetiedustelussa äänioikeutettujen perusjoukosta poimitaan satunnaisotannan periaatteita noudattaen otos. Näissä tiedusteluissa otoskoot vaihtelevat tyypillisesti välillä , mikä on reilusti alle promillen osuutta perusjoukosta. Otosaineiston tilastollisen analyysin tulokset yleistetään koskemaan koko perusjoukkoa. Yleistäminen on pätevää vain tiettyjen, otoksen satunnaista valintatapaa koskevien vaatimusten vallitessa. Lisäksi yleistämiseen liittyy aina vähintään jonkinkokoinen satunnaisvirhe, jonka suuruudesta pitää antaa arvio tuloksia raportoidessa. 1.2 Otostutkimus ja survey Näissä yhteyksissä tiedonhankintaa kutsutaan usein myös survey-tutkimukseksi. Alun perin survey on tarkoittanut maanmittausta tai kartoitusta; mm. Maanmittauslaitos on englanniksi National Land Survey of Finland. Termin käyttöala kattaa nykyisin hyvin monenlaisia tilastollisia tutkimuksia, selvityksiä, kartoituksia, tiedusteluja tms.

7 1.3 Otantamenetelmien historiaa 3 Tilastokeskuksen sivuilta löytyvän määritelmän mukaan Survey-tutkimus on kysely- tai haastattelumenetelmällä toteutettu ei-kokeellinen tutkimus, joka kohdistuu suurehkoon määrään satunnaisotannalla valittuja tutkimuskohteita. ( Toisaalta Risto Lehtosen ja Kari Djerfin toimittamassa EU:n tilastoviraston Eurostatin julkaisussa Survey sampling reference guidelines v 2008 määritellään lakonisesti: A survey refers to any form of data collection ( Tässä luonnehdinnassa ei rajoituta pelkästään otostutkimuksiin, vaan survey voi joskus toteutua kokonaistutkimuksena, joka voi puhtaasti nojautua jo valmiiseen rekisteriaineistoon. Mutta kattaako survey todellakin kaikentyyppiset tutkimustarkoituksia varten toteutetut datankeruut? Ihmisiltä kerättävään dataan perustuvan tutkimuksen onnistuminen edellyttää huolellista suunnittelua. Pätevän otannan lisäksi haasteita asettavat mm. otosalkioiden tavoittaminen ja motivointi kuin myös tarpeeksi kattavien ja yksityiskohtaisten mutta samalla riittävän selkeiden ja helposti vastattavien kysymysten laatiminen. Erillisessä liitteessä, joka on peräisin prof. Risto Lehtosen Otantamenetelmät - kurssin (HY) materiaalista, on tyypitelty survey-tutkimuksia ja niiden datankeruutapoja. Tällä kurssilla pyrimme tulemaan toimeen ilman vieraskielistä termiä survey. 1.3 Otantamenetelmien historiaa Lyhyitä suomenkielisiä johdatuksia otostutkimusten ja otantamenetelmien historiaan löytyy mm. seuraavista lähteistä Tilastokeskuksen verkkokoulun kurssin Johdatus tilastotieteeseen (ks. luku 2 Vesa Kuuselan artikkelit TK:n verkkolehdessä Hyvinvointikatsaus 4/2008 ja 1-2/

8 4 Johdanto Muutamia henkilöitä ja vuosilukuja Anders Kiaer (Norja) 1895, edustavan otoksen idea ja Arthur Bowley (Britannia) 1906, yksinkertainen satunnaisotanta, Jerzy Neyman (Puola, USA) 1933, satunnaisotannan teoria, otostunnuslukujen tilastolliset ominaisuudet, ryväsotanta. Emil Hurja (USA) 1930-luvun alku, mielipidetiedustelujen (opinion poll) uranuurtaja George Gallup (USA) 1936, ennusti verraten pienellä mutta satunnaisesti poimitulla otoksella presidentinvaalien lopputuloksen oikein; kiintiöpoiminnan suurhyödyntäjä ja liikemies. Hänen nimeään kantava yritys Suomen Gallup perustettiin Suomeen 1940-luvulla (Artturi Raula); nykyisin TNS Gallup. Morris Hansen (USA) ym. 30-luku, työvoimatutkimusten uranuurtaja; suunnitteli ensimmäisen kattavan kaksiasteisen ryväsotantaan perustuvan surveyn, kirjoitti otantamenetelmien klassisen oppikirjan Hurwitzin kanssa 1953 W. Edwards Deming (USA), , alun perin otantamenetelmien kehittäjä, mm. ensimmäiset kalibroinnit, myöhemmin suuri laatuguru (Japanin autoteollisuuden menestystarina), Leslie Kish (Unkari, USA), ansiokas todennäköisyysotannan sovellus USA:n v 1948 presidentinvaalien voittajan ennustamiseen, myöhemmin mm. DEFF, paneelitutkimustavan kehittäminen, oppikirja 1965, D.G. Horvitz, D.G. ja D.J. Thompson (USA) 1952, poimintatodennäköisyyksien avulla painotettujen estimaattorien perusominaisuudet. William Cochran (Skotlanti, USA), lukuisia ansioita tilastotieteessä, monia otantateorian kehitelmiä ja oppikirja 1977, Donald Rubin (USA) 1976, kehitti moni-imputoinnin idean puuttuvien havaintojen paikkaamiseksi, Carl-Erik Särndal (Ruotsi, Kanada), malliavusteisen otantateorian kehittäjä, oppikirja 1992, yhdessä Swenssonin ja Wretmanin kanssa, J.N.K. Rao (Intia, Kanada), mm. jackknife- ja muita varianssiestimaattoreita sekä pienalue-estimoinnin oppikirja Jean-Claude Deville (Ranska), kehittänyt kalibrointimenetelmiä ym. Pohjoismaissa ja Baltian maissa otantateorian ja -menetelmien tutkimustoiminta on hyvin aktiivista; ks.

9 1.4 Kansallisia otostutkimuksia ja niiden toteuttajia Kansallisia otostutkimuksia ja niiden toteuttajia Puoluekannatusarviot (mm. Taloustutkimus ja TNS Gallup), Työvoimatutkimus (Tilastokeskus, TK), Kulutustutkimus (TK), Terveys 2000 ja Terveys 2011 (Terveyden ja hyvinvoinnin laitos THL), PISA-tutkimus (OECD; Suomessa Koulutuksen tutkimuslaitos, Jyväskylän yliopisto), Nuorten päihteiden käyttö (THL), Suomalainen seksi 1971 ja 1992 (Helsingin yliopisto), Valtakunnallinen asuntojen radonpitoisuuden otantatutkimus VARO (Säteilyturvakeskus), Valtakunnan metsien inventointi VMI (Metsäntutkimuslaitos Metla). 1.5 Tilastollinen otantateoria Tilastollinen yleistäminen otoksesta perusjoukkoon eli tilastollinen päättely tarkoittaa myös äärellisissä perusjoukoissa sitä, että perusjoukon kutakin kiinnostavaa suuretta eli parametria estimoidaan vastaavalla otoksesta laskettavalla tunnusluvulla eli estimaattorilla. Estimointiin liittyvää satunnaisvirhettä arvioidaan estimaattorin keskivirheellä. Toisinaan raportoidaan parametrille myös luottamusväli annetulla luottamustasolla. Tilastollisessa otantateoriassa kuitenkin oletetaan, että tarkasteltavat perusjoukot ovat äärellisiä ja niiden alkiot yksilöittäin identifioitavissa. Tavanomaisessa tilastollisen päättelyn teoriassa (vrt Uskottavuuspäättely, Estimointi- ja testiteoria) perusjoukkojen ajatellaan olevan äärettömiä superpopulaatioita. Toinen otantateorian erityispiirre on se, että päättely nojautuu keskeisesti otanta-asetelmaan, kun taas tavanomainen tilastollinen päättely perustuu tarkasteltaville muuttujille oletettuun tilastolliseen malliin, jonka ajatellaan kuvaavan muuttujien jakaumia äärettömissä superpopulaatioissa.

10 6 Johdanto

11 Luku 2 Perusjoukot ja niiden rakenne 2.1 Erilaiset perusjoukot Perusjoukko voi olla matemaattiselta luonteeltaan diskreetti tai jatkuva. Diskreetti perusjoukko koostuu toisistaan selvästi erotettavissa olevista yksilöistä eli alkioista, joita on äärellinen lukumäärä: N kpl (N N). Esim. Tällaisia perusjoukkoja Suomessa ovat mm. maassa asuva väestö: N = vuoden 2015 lopussa ( lukiot: N = 397 ( ks. myös esim. ja arvioi lukiovertailua kriittisesti!, kunnat: N = 313 v 2016 alussa ( maatalous- ja puutarhayritykset: N = v 2015 ( Jatkuva perusjoukko on mahtavuudeltaan ylinumeroituva, eikä sitä ole mahdollista jakaa yksikäsitteisesti toisistaan selvärajaisesti erottuviin yksilöihin. Esim. Jatkuvia perusjoukkoja ovat mm. koko valtakunnan maa-alue (mm. metsäinventoinnissa), jokin pitkähkö aikaväli (esim. liikennemäärien arviointi määrätyssä risteyksessä)

12 8 Perusjoukot ja niiden rakenne Diskreetissä perusjoukossa otanta voidaan usein toteuttaa käyttäen otantayksikkönä (sampling unit) yksittäistä alkiota. Toisinaan on käytännöllisempää käyttää otantayksikkönä toisilleen jossakin mielessä läheisten alkioiden muodostamaa osajoukkoa eli ryvästä (cluster). Jatkuvassa perusjoukossa otantayksikkönä ei useinkaan ole nollamittainen alkio vaan tyypillisemmin pienehkö, yhtenäinen ja ei-nollamittainen osajoukko. Kun perusjoukkona on esim. suuri maantieteellinen alue, niin tällaisia otantayksiköitä kutsutaan havainto- tai näytealaksi mm. ekologisissa tutkimuksissa ja koealaksi metsäinventoinnissa (vaikka kyse ei olekaan kokeellisesta tutkimuksesta). Perusjoukko ei useinkaan ole yksikäsitteisesti ja ongelmattomasti määriteltävissä. Seppo Laaksonen erottelee viisi erilaista perusjoukon käsitettä. kiinnostusperusjoukko, joka on karkea hahmotus tutkijan mielessä alkuvaiheessa olevasta perusjoukosta, tavoiteperusjoukko t. kohdeperusjoukko, joka on jo tarkasti määritelty, paikkaan ja aikaan sidottu sekä realistinen, kehikkoperusjoukko t. otantakehikko, josta tutkimuksen otos poimitaan, päivitetty kehikkoperusjoukko, joka toivottaisiin olevan käytettävissä otosta poimittaessa, tutkimusperusjoukko, jota lopulta mukaan saatujen alkioiden tai otantayksiköiden joukko mm. vastauskadon jälkeen parhaiten edustaa. Ihannetilanteessa lopullinen tutkimusperusjoukko ei poikkea käytettävissä olevasta otantakehikosta, joka puolestaan on mielellään sama kuin tavoiteperusjoukko. Ylipeitto (undercoverage) tarkoittaa otantakehikkoon sisältyviä alkioita, jotka eivät kuulu kohdejoukkoon (esim. kuolleet ja maasta muuttaneet). Tällaisia tapauksia esiintyy miltei aina, koska otantakehikkona käytettävät rekisterit eivät ole täysin ajantasaisia. Alipeitto (undercoverage) tarkoittaa, että käytettävissä olevasta kehikosta puuttuu osa tutkimuksen kohdejoukon alkioista (esim. puhelittomat puhelinhaastattelun kehikosta). Yksikkökato (unit non-response), joka johtuu joko tavoittamattomuudesta tai osallistumattomuudesta, puolestaan vaikuttaa siihen, kuinka hyvin tutkimusperusjoukko lopulta edustaa kohdejoukkoa.

13 2.2 Perusjoukon alkiot ja osajoukot 9 Eräkato (item non-response), havaintojen puuttuminen yksittäisistä muuttujista tutkimukseen lopulta osallistuneiden joukossa. 2.2 Perusjoukon alkiot ja osajoukot u tai u i tai i = alkio eli alkeisyksikkö, U = {u u U} = perusjoukko, U = {u 1,..., u N }, kun U on diskreetti, jossa N = perusjoukon koko, y = kohdemuuttuja, joka on välimatka-asteikollinen (ääripäässä 2-arvoinen indikaattorimuuttuja), ja y i sen arvo alkiolla u i, θ = kiinnostava parametri, muuttujan y perusjoukossa vallitsevan jakauman jokin tunnusluku, x = jokin apumuuttuja, ja x i on x:n arvo alkiolla u i. L h = perusjoukon osite (stratum, monikossa strata)), joka on perusjoukon tietyin kriteerein (kuten sukupuoli, ikä, kieliryhmä, koulutustaso, jne.) rajattu osajoukko, L h U, h = 1,..., H. Ositteet ovat erillisiä ja niiden unioni kattaa U:n. Ositteita käytetään hyväksi ositetussa otannassa. K c = perusjoukon ryväs (cluster, taipuu rypään, jne.) on perusjoukon osajoukko, joka koostuu toisilleen tietyllä tavalla läheisistä alkioista (esim. koululuokka, saman kunnan asukkaat, jne.) Rypäät K c U, c = 1,..., M ovat erillisiä ja niiden unioni kattaa U:n. Rypäitä käytetään hyväksi ryväsotannassa. U d = perusjoukon kiinnostava muu osajoukko U d U (domain), d = 1,..., D, joka ei ole minkään sellaisen tekijän luokka, jota olisi käytetty osituksen tai ryvästyksen perusteena otosta valittaessa. 2.3 Perusjoukon parametrit ja otostunnusluvut Olkoon kohdeperusjoukkomme U = {1,..., N} ja kiinnostava muuttuja y, jonka arvot U:n alkioilla ovat Y = {y 1,..., y N }. Mielenkiinnon kohteina

14 10 Perusjoukot ja niiden rakenne olevia perusjoukon parametreja ovat mm. T = N y i, kokonaismäärä tai summa, i=1 Ȳ = 1 N N y i = T N, keskiarvo, i=1 S 2 = 1 N 1 N (y i Ȳ )2, varianssi, i=1 Q p = p-kvantiili eli -fraktiili; ts. sellainen y:n arvo, jolle pätee: #{i U y i Q p } N = p. Useimmat kiinnostavat parametrit ovat kokonaismäärien T funktioita, kuten kahden eri muuttujan x ja y kokonaismäärien osamäärä R = T y /T x. Olkoon myös esim. z kiinnostavaan osajoukkoon U d sisältymisen 0/1-arvoinen indikaattorimuuttuja. Tällöin osajoukon alkioiden lukumäärä N d = U z i = T z on siis z:n kokonaismäärä, ja osajoukon suhteellinen osuus on P d = Z = T z /N, jossa N on vakioarvoisen muuttujan v i = 1 kokonaismäärä. Olkoon A U mikä tahansa perusjoukon osajoukko. Summia yli A:n alkioiden merkitään jatkossa myös tyyliin y i, tai y i, jolloin esim. T = U y i. i A Kun perusjoukosta valitaan kokoa n oleva otos s = {i i,..., i n } U, niin perusjoukon em. parametreja vastaavia otostunnuslukuja merkitään pienillä kirjaimilla, esim. n t = y ij = y i = y i, otossumma j=1 i s s ȳ = 1 y i = t n n, otoskeskiarvo s s 2 = 1 n 1 (y i ȳ) 2, otosvarianssi Huomaa kirjaimen s käyttö kahdessa roolissa! s A

15 Luku 3 Otoksen poimintatavat ja niiden yhdistelmät Seppo Laaksonen toteaa Surveymetodiikka -kurssin luentomateriaalissaan (ks /SMT+2009+_+Seppo.pdf): Otannan päämenetelmät eivät ole seuraavat: satunnaisotanta, systemaattinen otanta, ryväsotanta ja ositettu otanta, mikä on päinvastoin kuin tilastotieteen peruskursseilla ja -oppikirjoissa yleensä annetaan ymmärtää. Nämä eivät nimittäin ole toisiaan poissulkevia vaihtoehtoja, joista valittaisiin yksi, otoksen valintatavan tyhjentävästi määräävä menetelmä. Monesti tutkimusotoksen poiminnassa sovelletaan samalla kertaa useita ellei kaikkia edellä nimettyjä valintaperiaatteita. Ne edustavat toisiaan täydentäviä mahdollisuuksia, joiden yhdistelmästä lopullinen otantasuunnitelma muotoutuu. Oletetamme tästä eteenpäin vallitsevan sellaisen ihannetilan, jossa kohdejoukko kuvautuu bijektiivisesti otantakehikkoon niin, ettei jälkimmäisessä ole yhtään ali- eikä ylipeittoa. 3.1 Alkioittainen vai ryväsotanta Periaatteessa luontevin tapa hankkia otos kiinnostavasta perusjoukosta U on toteuttaa alkioittainen otanta (elementwise sampling) eli käyttää otantatai poimintayksikkönä perusjoukon alkiota (element). Esimerkki. Alkioittaista otantaa sovelletaan mm. puoluekannatusmittauksissa ja TK:n työvoimatutkimuksessa kuin myös useissa muissakin sellaisissa

16 12 Otoksen poimintatavat ja niiden yhdistelmät otostutkimuksissa, jossa otokseen valittavat henkilöt alkiot haastatellaan puhelimitse tai heille postitetaan kotiin kyselylomake. On kuitenkin tilanteita, joissa alkioittaista poimintaa tarkoituksenmukaisempaa on lähteä poimimaan otosta perusjoukosta rypäittäin. Otantayksikkönä on tällöin toisilleen alueellisesti tai organisatorisesti läheisten alkioiden muodostama osajoukko eli ryväs (cluster, gen. rypään ; ei siis rypäs, ryppään ). Voi nimittäin olla, että koko perusjoukon ja sen alkiot kattavaa keskitettyä ja ajantasaista otantakehikkoa ei ole edes olemassa, mutta pätevä kehikko rypäiden joukosta on käytettävissä, ja kunkin rypään sisällä on muodostettavissa rypään kaikki alkiot kattava kehikko. Tämän teknisen rajoitteen lisäksi datankeruuta koskevat vaatimukset saattavat tehdä alkioittaisen poiminnan liian hitaaksi ja kalliiksi, jos otokseen valittavat alkiot sijaitsevat hyvin hajallaan. Esimerkki. Koululaisiin kohdistuvissa tutkimuksissa luontevia rypäitä ovat koulut ja koululuokat. Näissä yhteyksissä rypäittäistä otantaa puoltaa ainakin ajantasaisen valtakunnallisen oppilasrekisterin puuttuminen. Sen sijaan kaikista maan kouluista on olemassa kattava otantakehikko. Edelleen, kullakin koululla voi olettaa olevan ajantasainen rekisteri oppilaistaan. Esimerkki. Jos tutkimus vaatii tutkittavien henkilökohtaista haastattelua, terveystarkastuksia ym., niin alkiotason otanta koko maan asuttamasta perusjoukosta johtaa isoihin logistisiin ongelmiin. Kustannustehokkaampi lähestymistapa on pyrkiä keskittämään datankeruu kaikkien mahdollisten asuinkuntien joukon huomattavasti suppeampaan osajoukkoon, joka kuitenkin valitaan satunnaisesti. Yksittäisen rypään muodostavat silloin saman kunnan asukkaat. Olkoon K c U yksittäinen ryväs, jossa on N c alkiota; c = 1,..., M. Kaikki M ryvästä muodostavat yhdessä perusjoukon tyhjentävän jaon: U = K 1 K M s.e. K c K c =, kun c c. Yksiasteisessa ryväsotannassa (cluster sampling, CLU) poimitaan kaikki rypäät käsittävästä otantakehikosta {K 1, K 2,..., K M } jollakin satunnaisotantamenetelmällä m ryvästä {K c 1,..., Kc m }, ja lopulliseen otokseen s tulevat kaikki valittujen rypäiden sisältämät alkiot, yhteensä n = N c 1 + +N c m kpl. On huomattava, että rypäiden koot N c eivät useinkaan ole tunnettuja ennen poimintaa. Yksiasteinen ryväsotanta toimii sellaisenaan hyvin, jos rypäät ovat verrattain pieniä (esim. koululuokat). Jos taas rypäät ovat kovin suuria (esim. asuinkunnat), niin ei kannata ottaa tutkimukseen mukaan koko ryvästä. Sen asemesta sovelletaankin kaksiasteista otantaa (two-stage sampling): Kunkin

17 3.2 Osittamaton vai ositettu otanta 13 valitun rypään K c j (j = 1,..., m) kaikkien N c j alkion joukosta poimitaan n c j alkion otos. Tämä poiminta voidaan tehdä osittamatta tai ositetusti (ks. alaluku 3.2) ja täysin satunnaisesti tai systemaattisesti (alaluku 3.4). Tässä otantatavassa ensisijainen poimintayksikkö (primary sampling unit, psu) on ryväs, toissijainen poimintayksikkö (secondary sampling unit, ssu) on alkio rypään sisällä. 3.2 Osittamaton vai ositettu otanta Jos halutaan otoksen kokonaisuutena edustavan perusjoukkoa, ja ollaan kiinnostuneita ensisijaisesti kohdemuuttujan y reunajakauman parametreista koko perusjoukossa, niin otos voidaan aivan hyvin poimia osittamatta; ts. ilman että perusjoukkoa jaettaisiin ennen poimintaa alaryhmiin tai osajoukkoihin minkään tunnetun, otantakehikossa rekisteröidyn tekijän mukaan. Monissa tutkimuksissa taas halutaan tilastollisesti mahdollisimman tarkkoja estimaatteja y:n kokonaismäärästä, summasta, ym. parametreista paitsi koko perusjoukossa niin erityisesti sen tietyissä alaryhmissä. Tällöin on toivottavaa, että otokseen tulee riittävä edustus perusjoukon kiinnostavista erityisryhmistä, vähemmistöistä ym. Olkoon L h U perusjoukon U osite (stratum, mon. strata), joka koostuu määrättyjen tekijäin (yksi tai useampia) suhteen homogeenisista alkioista. Ositteen sisältämien alkioiden lukumäärä on N h. Kaikki ositteet muodostavat perusjoukon tyhjentävän jaon tai osituksen: U = L 1 L H s.e. L h L h =, kun h h, ja N = N N H. Merkitään muuttujan y ositekohtaisia keskiarvoja ja variansseja Ȳ h = 1 N h L h y i, S 2 h = 1 (y i N h 1 Ȳh) 2. L h Ositetussa otannassa (stratified sampling, STR) poimitaan kustakin ositteesta L h erikseen kokoa n h oleva aliotos s h, joiden unioni muodostaa koko otoksen: s = s 1 s H. Aliotosten otoskokojen summa on koko otoksen koko n = n n H.

18 14 Otoksen poimintatavat ja niiden yhdistelmät Osittamista voi motivoida seuraavasti. Oletetaan, että kustakin ositteesta L h poimitaan yksinkertainen satunnaisotos (ks. alaluku 3.4) kooltaan n h alkiota. Näille tehtyjen mittausten jälkeen havaitaan ao. aliotoksessa muuttujan y arvojen otoskeskiarvo ȳ h. Äärellisten perusjoukkojen asetelmissa pätee nimittäin myös, että otoskeskiarvon varianssi riippuu suoraan y:n varianssista perusjoukossa ja kääntäen otoskoosta; ts. var(ȳ h ) S 2 h /n h. Niinpä suuremman tarkkuuden saavuttamiseksi ositteittaisen keskiarvon Ȳh estimoinnissa pienten erityisryhmien ositteista on usein tarpeen ottaa suurempi otos kuin ao. ositteen suhteellinen osuus koko perusjoukosta edellyttäisi. Ositteittaiset otoskoot n h (h = 1,..., H) voidaan määrätä esim. seuraavilla periaatteilla. tasainen kiintiöinti (equal allocation): n h = n/h, suhteellinen kiintiöinti (proportional allocation): n h = n(n h /N), optimaalinen kiintiöinti (optimal allocation): otoskoko n h on suoraan verrannollinen kohdemuuttujan y keskihajontaan S h ja ositekokoon N h kussakin ositteessa, kustannusoptimaalinen kiintiöinti (cost-optimal allocation): ositekohtaisen varianssin lisäksi otoskokoon vaikuttaa yksittäisen alkion tutkimisen vaatimat kustannukset c h, jotka voivat vaihdella ositteiden välillä. Näistä kiintiöinnin ideaalityyppejä noudatetaan sellaisenaan hyvin harvoin käytännössä. Varsinkaan optimaalinen kiintiöinti ei onnistu sellaisenaan, koska sitä varten pitäisi tietää tutkimuksen kohteena olevan muuttujan y keskihajonnan arvot kussakin ositteessa. Periaatetta voidaan silti soveltaa siten, että y:n keskihajonnan asemesta otoskokoja optimoidaan jonkin y:n kanssa voimakkaasti korreloivan ja koko perusjoukossa arvoiltaan tunnetun apumuuttujan (auxiliary variable) z ositekohtaisilla keskihajonnoilla. Huomautus. Perusjoukon jakaminen ositteisiin perustuu erilaatuisiin tekijöihin kuin jako rypäisiin. Samaan ositteeseen kuuluvat alkiot voivat samanlaisuudestaan huolimatta olla varsin kaukanakin toisistaan, ja heitä koskevien havaintojen voi odottaa olevan hyvin vähän toisistaan tilastollisesti riippuvia. Sen sijaan rypään sisällä alkioiden kesken voi olettaa olevan korrelaatiota kiinnostavien muuttujien arvoissa. Otantaa määräävässä osituksessa ositteiden lukumäärä ei myöskään ole kovin suuri, kun taas rypäitä voi olla hyvinkin huomattava määrä. Ositetta ei myöskään koskaan pidetä otantayksikkönä kuten ryvästä.

19 3.3 Poimintatodennäköisyys: sama vai vaihteleva 15 Kun (ensisijaisena) otantayksikkönä on ryväs, on mahdollista, että rypäät jaetaan ennen otantaa ositteisiin, jotka perustuvat ryväskohtaisiin piirteisiin. Jos esimerkisi rypäänä on kunta, niin rypäät voidaan etukäteen osittaa vaikkapa kaupunki-maalaiskunta-akselilla ja/tai kunnan kokoluokan mukaan muutamaan ositteeseen. Voi esim. olla tarpeen sisällyttää erityisesti Helsinki 1. asteen otokseen. Jos taas rypäät ovat kouluja, niin yhtenä mahdollisena osituskriteerinä voisi olla esim. opetuskieli. Jos sitten edetään 2. asteen poimintaan rypäiden sisällä, niin voi olla tarkoituksenmukaista osittaa otanta oppilaista joidenkin yksilöllisten piirteiden mukaan. 3.3 Poimintatodennäköisyys: sama vai vaihteleva Yksinkertaisimmissa asetelmissa yksittäisen perusjoukon U alkion todennäköisyys π i tulla poimituksi otokseen on π = n/n, joka on sama kaikille alkioille. Suuretta f = n/n kutsutaan otantasuhteeksi (sampling fraction). Ositetussa otannassa mikä tahansa muu kiintiöintitapa kuin suhteellinen kiintiöinti tuottaa kuitenkin erilaiset ositekohtaiset otantasuhteet f h = n h /N h, joten eri ositteihin kuuluvien alkioiden poimintatodennäköisyydet ovat lähtökohtaisesti vaihtelevat. On muitakin tilanteita, joissa ei ole tarpeen kohdella kaikkia alkiota tasaarvoisesti otosta poimittaessa, vaan on perusteltua määrätä kullekin perusjoukon alkiolle i yksilöllinen poimintatodennäköisyys π i ]0, 1[. Tämän arvo riippuu yleensä suoraan alkion kokoa tai suuruutta kuvaavan apumuuttujan z arvosta z i, joka on tiedossa etukäteen ja jonka voi olettaa vahvasti korreloivan kiinnostavan muuttujan y arvojen kanssa. Näissä tapauksissa toteutettavan poimintamenetelmän nimi on PPS-otanta eli otanta, jossa poimintatodennäköisyys on suhteessa yksikön kokoon (selection with probability proportional to size, PPS). Esimerkki. Olkoon perusjoukkona U määrätyllä toimialalla Suomessa toimivat yritykset, joita on N kpl, ja halutaan poimia otos kooltaan n alkiota. Joissakin tutkimuskysymyksissä on tilastollisesti tehokasta poimia otos niin, että kunkin yrityksen i poimintatodennäköisyys on suoraan verrannollinen joko sen liikevaihtoon tai henkilöstömäärään z i (i = 1,..., N): π i = n z i T z, jossa T z = U z i

20 16 Otoksen poimintatavat ja niiden yhdistelmät Esimerkki. Tilastokeskuksen muutaman vuoden välein toteuttamassa kulutustutkimuksessa perusjoukko koostuu kotitalouksista, joiden lukumäärä Suomessa on N Tästä perusjoukosta ei kuitenkaan ole olemassa erillistä otantakehikkoa. Otoksen hankinnassa käytetäänkin hyväksi väestörekisteriä, josta poimitaan läänin ja kuntatyypin mukaan systemaattisella otannalla halutun kokoinen otos maassa asuvien 15 v täyttäneiden henkilöiden joukosta. Varsinainen tutkimusotos (n 8000 v 2016) muodostuu niistä kotitalouksista, jonka jäseniä edellä valitut henkilöt ovat. Näin ollen kunkin alkion poimintatodennäköisyys on verrannollinen kotitalouden 15 vuotta täyttäneiden jäsenten määrään. Huomattakoon kuitenkin, että siihen eivät vaikuta alle 15-vuotiaat lapset, joten jos kotitalouden kokoa mitataan henkilömäärällä, niin poimintatodennäköisyys ei ole suorassa suhteessa alkion todelliseen kokoon. On selvää, että PPS-otanta suosii kooltaan suuria alkioita. Toisaalta tämä on usein hyvin perusteltua tilanteessa, jossa kiinnostuksen kohteena olevan muuttujan y vaihtelu on erittäin suurta perusjoukon alkioiden välillä, ja halutaan erityisesti saada hyvä estimaatti y:n kokonaismäärästä T. Tällöin informatiivisimpia ovat kooltaan suuret alkiot. 3.4 Yksinkertainen satunnaisotanta ja systemaattinen otanta Lähdemme aluksi siitä perustilanteesta, että kaikki perusjoukon alkiot on rekisteröity otantakehikkoon jossakin järjestyksessä niin, että kullekin alkiolle voidaan antaa oma järjestysnumero joukosta {1,..., N}. Otanta suoritetaan lisäksi alkioittain ja osittamatta. Kun halutaan poimia n alkion satunnaisotos, niin otantasuhde on f = n/n ja sen käänteisluku q = N/n on poimintaväli (sampling interval). Jos alkioittaisen sisältymistodennäköisyyden halutaan olevan sama eli π i = n/n, niin otoksen poimintatavan päävaihtoehdot ovat yksinkertainen satunnaisotanta ja systemaattinen otanta. Yksinkertainen satunnaisotanta (simple random sampling, SRS) toteutetaan niin, että jollakin pätevällä satunnaislukugeneraattorilla simuloidaan n kpl satunnaislukuja diskreetistä tasajakaumasta arvojoukossa {1, 2,..., N}, ja näiden satunnaislukujen mukaiset alkiot valitaan otokseen. Satunnaistus voidaan hoitaa myös niin, että poimitaan kullekin perusjoukon alkiolle satunnaisluku E i yksikkövälin tasaisesta jakaumasta; ts. E i Tas(0, 1). Kun

21 3.4 Yksinkertainen satunnaisotanta ja systemaattinen otanta 17 poimitut satunnaisluvut asetetaan suuruusjärjestykseen: E (1) < E (1) < < E (n 1) < E (n) < E (n+1) <... E (N 1) < E (N), niin otoksen muodostavat järjestyksessä n pienintä lukua saaneet alkiot: s = {i U E i E [n] }. Systemaattinen otanta (systematic sampling, SYS) poimintaväliä q = N/n käyttäen toteutetaan seuraavasti: (i) poimitaan tasajakaumaoletuksella yksi satunnaisluku joukosta {1,..., q}; olkoon tämä luku r, (ii) valitaan järjestysnumeroa r kantava alkio otokseen, (iii) valitaan edelleen r:nnestä alkiosta lähtien joka qs alkio otokseen; ts. alkiot, joiden järjestysluvut ovat r + q, r + 2q,... ja r + (n 1)q. Jos voidaan olettaa, että alkioiden numerointi otantakehikossa ei ole missään yhteydessä tutkittaviin muuttujiin tai niitä selittäviin tekijöihin, niin systemaattisen otannan voidaan odottaa tuottavan yhtä satunnaisen lopputuloksen kuin yksinkertainen eli täysin satunnainen otanta. Jos kuitenkin perusjoukko on järjestetty niin, että se on ikään kuin implisiittisesti ositettu yhden tai useamman relevantin ositustekijäin suhteen, niin systemaattisella otannalla saavutetaan periaatteessa samanarvoinen otos kuin ositetulla otannalla käyttäen suhteellista kiintiöintiä. Toisissa tapauksissa perusjoukko taas voi olla implisiittisesti järjestetty alueittain siten, että nämä alueet muodostavat mielekkään ryvästyksen. Tällöin systemaattisella otannalla voidaan päätyä samanlaiseen otokseen kuin kaksiasteisella otannalla, jossa rypäistä poimittaisiin PPS-otos, ja rypäiden sisältä poimittaisiin alkioittain yksinkertainen tai ositettu otos. Systemaattisessa otannassa perusjoukon alkioiden järjestyksen osalta on tärkeää, että kohdemuuttujan y arvot eivät noudata tämän järjestyksen suhteen jotain jaksollista systemaattista vaihtelua, jonka aallonpituus tai aallonpituuden monikerta olisi sama kuin poimintaväli q. Systemaattista otantaa sovellettaessa perusjoukosta poimittavissa olevien eri otosten kokonaismäärä on vain q = N/n kpl, koska ensiksi poimittu alkio virittää koko otoksen eli määrää kaikki muut siihen tulevat alkiot. Sen sijaan täysin satunnaista poimintaa käytettäessä mahdollisten otosten lukumäärä on ( N n) kpl.

22 18 Otoksen poimintatavat ja niiden yhdistelmät Valintamahdollisuus yksinkertaisen satunnaisotannan ja systemaattisen otannan välillä on olemassa usein silloinkin, kun ensisijaisena otantayksikkönä on alkioiden muodostama ryväs, ja rypäät on järjestetty otantakehikkoon niin, että ne ovat numeroitavissa järjestysluvuin 1,..., M. Samalla tavoin ositetussa otannassa aliotos kunkin ositteen sisältä voidaan poimia joko yksinkertaista satunnaisotantaa tai systemaattista poimintaa käyttäen. 3.5 Otanta palauttamatta vai palauttaen Niin alkioittaisessa kuin rypäittäisessäkin poiminnassa on tavanomaista, että kukin otantayksikkö/alkio voi tulla valituksi otokseen korkeintaan yhden kerran. Otanta toteutetaan siis palauttamatta (ilman takaisinpanoa, without replacement, WOR); ts. jo otokseen valittua alkiota ei viedä takaisin otantakehikkoon niin, että se olisi mahdollista valita otokseen toistamiseen. Vaihtoehtoisesti voidaan ajatella, että otokseen poimitaan alkioita palauttaen (takaisinpanolla, with replacement, WR), eli otokseen jo valitulle alkiolle annetaan mahdollisuus tulla uudelleen poimituksi. Kun tällainen valinta toteutetaan n kertaa, niin mahdollisia otoksia on yhteensä N n kpl. Huomattava osa niistä on sellaisia, joissa vähintään yksi alkio esiintyy useammin kuin kerran. Tällaisen otoksen tehollinen otoskoko n, joka sisältää kunkin otosalkion vain kerran, on silloin pienempi kuin n, eikä n :n suuruutta edes tunneta etukäteen. Otantaa palauttaen käytetään otostutkimuksissa sangen harvoin varsinaisen otoksen valinnalla. Tällä periaatteella on lähinnä teoreettista merkitystä erilaisten otanta-asetelmien tehokkuuden vertailun viiteasetelmana. Otantaa palauttaen sovelletaan kylläkin bootstrap-nimellä tunnetun uudelleenotantamenetelmän (resampling method) yhteydessä. Sitä käytetään haluttaessa laskea otosaineiston pohjalta mm. luottamusvälejä kiinnostaville parametreille ilman voimakkaita oletuksia tutkittavan muuttujan jakaumamallista perusjoukossa. Bootstrap-menetelmän periaate lyhyesti kuvaten on seuraava. Lähdetään liikkeelle kohdemuuttujasta y tehdyistä havainnoista n alkion otoksessa: {y 1,..., y n }. Tästä perusjoukosta aletaan nyt poimia bootstrap-otoksia palauttaen s.e. kunkin bootstrap-otoksen koko on sama kuin alkuperäinen otoskoko n. Olkoon kiinnostavana parametrina varsinaisen perusjoukon U keskiarvo Ȳ. Itse kustakin palauttaen poimitusta bootstrap-otoksesta s b, b = 1,..., B,

23 3.6 Yksi- ja moniasteinen otanta 19 lasketaan siihen sisältyneiden y-arvojen keskiarvo ȳ b, johon sisältyvät sellaisenaan myös alkuperäisen otoksen kunkin havainnon y j mahdolliset toistot. Keskiarvon Ȳ 95% luottamusväliä approksimoidaan nyt bootstrap-otoskeskiarvojen 2.5 % ja 97.5 % fraktiileilla ȳ [B/40] ja ȳ [39B/40], jossa ȳ [1] ȳ [2] ȳ [B] muodostaa näiden keskiarvojen järjestetyn jonon. 3.6 Yksi- ja moniasteinen otanta Kun otos poimitaan alun perin alkioittain eli ensisijaisena poimintayksikkönä on alkio eikä näiden muodostama ryväs, on otanta aina yksiasteinen (one-stage sampling). Rypäittäinen otanta voi myös jäädä yksiasteiseksi, jos yhdenkään rypään sisällä ei enää poimita otosta vaan rypään kaikki alkiot tutkitaan. Kuten aiemmin jo todettiin, rypään ollessa ensisijainen eli 1. asteen poimintayksikkö (1st stage sampling unit), edetään usein kaksiasteiseen otantaan (two-stage sampling). Siinä kunkin otokseen valitun rypään sisältä poimitaan sen alkioiden, jotka nyt ovat 2. asteen poimintayksiköitä (2nd stage sampling unit), joukosta osittamaton tai ositettu otos joko yksinkertaisella satunnaisotannalla tai systemaattisella otannalla. Esimerkki. Jos tutkimuksen perusjoukkona ovat kaikki maan lukiolaiset, niin ensisijaisena poimintayksikkönä on käytännöllisintä pitää lukiota. Kaikki maan lukiot (M = 397) kattavasta kehikosta tai rekisteristä valitaan joko täysin satunnaisella tai systemaattisella poiminnalla tietty määrä lukioita 1. asteen otokseksi. On myös mahdollista, että lukiot on ennen sitä jaettu muutamaan ositteeseen mm. opetuskielen ja/tai AVI-alueen mukaan, ja/tai että ositteen sisällä kunkin lukion poimintatodennäköisyys on verrannollinen oppilasmäärän suuruuteen. Kullakin lukiolla puolestaan on ajantasainen kehikko 2. asteen otantayksiköistä eli omista oppilaistaan. Heidän joukostaan poimitaan lopulliseen otokseen s haluttu määrä oppilaita sopivalla menetelmällä, kenties osittaen sukupuolen ja/tai opiskeluvuoden mukaan. Kaksiasteisen otannan yleistys on moniasteinen otanta (multi-stage sampling). Siinä perusjoukko jaetaan hierarkkisesti eriasteisiin rypäisiin ja otos poimitaan asteittain lähtien liikkeelle korkeimman asteen rypäistä edeten aina alimman asteen rypäisiin, joiden sisältä lopulta saatetaan vielä poimia alkioittainen otos. Kolme- tai useampiasteista otantaa käytetään erityisesti suurissa ja väkirikkaissa maissa, joissa on monitasoinen aluehallinnollinen rakenne.

24 20 Otoksen poimintatavat ja niiden yhdistelmät Esimerkki. PISA-tutkimus 2012: In all but one country, the Russian Federation, the sampling design used for the PISA assessment was a two-stage stratified sample design. The first-stage sampling units consisted of individual schools having 15-year-old students. Schools were sampled systematically from a comprehensive national list of all PISA-eligible schools, known as the school sampling frame, with probabilities that were proportional to a measure of size. The measure of size was a function of the estimated number of PISA-eligible 15-year-old students enrolled in the school. This is referred to as systematic Probability Proportional to Size (PPS) sampling. Prior to sampling, schools in the sampling frame were assigned to mutually exclusive groups based on school characteristics called explicit strata, formed in particular to improve the precision of sample-based estimates. The second-stage sampling units in countries using the two-stage design were students within sampled schools. Once schools were selected to be in the sample, a complete list of each sampled school s 15-year-old students was prepared. For each country a Target Cluster Size (TCS) was set, this value was typically 35 students although with agreement countries could use alternative values. From each list of students that contained more than the TCS, a sample of typically 35 students were selected with equal probability and for lists of fewer than the TCS, all students on the list were selected. In the Russian Federation, a three-stage design was used. In this case, geographical areas were sampled first (first-stage units) using PPS sampling, and then schools (second-stage units) were selected within sampled geographical areas. Students were the third-stage sampling units in this three-stage designs and were sampled from the selected schools. ( pisaproducts/pisa%202012%20technical%20report_chapter%204.pdf). 3.7 Yksi- vai kaksivaiheinen otanta Useimmat otantatutkimukset suoritetaan yhdellä kertaa siten, että kun kenties moniasteisenkin otannan kautta lopullinen otos on hankittu ja kiinnostavat muuttujat y on mitattu sen alkioista samaa instrumenttia käyttäen, niin sen jälkeen ei saadusta otoksesta lähdetä poimimaan uutta otosta eikä tekemään jatkotutkimuksia, vaan saadut tulokset analysoidaan ja raportoidaan. Tällöin otanta on ollut yksivaiheinen (one-phase sampling). Joissakin tutkimuksissa kiinnostuksen kohteena oleva(i)n muuttuja(i)n y mittaaminen on erityisen työlästä ja kallista. Se voi vaatia joko aikavievän henkilökohtaisen haastattelun ja/tai terveystarkastuksen tms., jota ei ole varaa suorittaa kovin suurelle joukolle alkioita. Jos kuitenkin on olemassa sellainen

25 3.7 Yksi- vai kaksivaiheinen otanta 21 muuttuja z, joka korreloi suhteellisen voimakkaasti y:n kanssa ja on mitattavissa sangen yksinkertaisella ja halvalla menetelmällä (puhelinhaastattelu, postikysely tms.), niin voidaan harkita kaksivaiheisen otannan (two-phase sampling) toteuttamista seuraavasti. 1. vaiheessa poimitaan perusjoukosta suurehko otos alkioita korkeintaan hyvin yleisin osituksin. Otokseen valituille alkioille suoritetaan datankeruu nopealla ja halvalla menetelmällä, joka sisältää apumuuttujan z mittauksen. Apumuuttujasta saatuja arvoja z i käytetään kooltaan pienemmän 2. vaiheen otoksen suunnittelussa niin, että sen avulla muuttujan y jakauman parametrien estimoinnista tulisi mahdollisimman tehokasta. Tämän vaiheen otos voidaan esimerkiksi poimia ositettuna z:n arvojen suhteen painottamalla kiintiöinnissä erityisesti joitakin pieniä mutta tärkeitä ja informatiivisia osajoukkoja. Toisaalta 1. vaiheen otoksessa mitattuja z:n arvoja voidaan käyttää y:n jakauman parametrien estimoinnin tehostamiseen mm. regressioestimointia käyttäen, kun tuloksia analysoidaan. Huomautus. Monissa suomenkielisissä esityksissä kaksiasteista otantaa kutsutaan harhaanjohtavasti kaksivaiheiseksi otannaksi, kun taas oikeasti kaksivaiheista otantaa kuulee harvemmin nimitettävän kaksiasteiseksi. Enlanninkielisessä terminologiassa puolestaan termiä two-stage sampling näkee käytettävän usein silloin, kun kyseessä onkin two-phase sampling. Kaksivaiheisessa otannassa otantayksiköt eivät suinkaan ole eriasteisia kuten kaksiasteisessa otannassa, vaan 2. vaiheen otoksen alkiot sisältyvät sellaisinaan jo 1. vaiheen otokseen.

26 22 Otoksen poimintatavat ja niiden yhdistelmät

27 Luku 4 Otanta-asetelmien teoriaa Edellisessä luvussa esiteltiin erilaisia konkreettisia tapoja, joita noudattaen otoksia käytännössä poimitaan perusjoukosta ja joiden sopivasta yhdistelmästä yksittäisen otostutkimuksen lopullinen otantasuunnitelma muodostuu. Tässä luvussa tarkastelemme abstraktimmalla tasolla eri poimintatapoihin ja niiden yhdistelmiin liittyviä todennäköisyysjakaumia ja -mekanismeja. Otanta-asetelma (sampling design) kuvaa tiettyä otantasuunnitelmaa noudattavan poiminnan lopputulosten eli mahdollisten otosten todennäköisyysjakaumaa. Tämän ja myöhempienkin lukujen esitys pohjautuu paljolti seuraavaan opetusmonisteeseen: Traat, I. (2007). Advanced Survey Sampling Statistical methods for sample surveys. Lecture Materials, University of Tartu, ( Sampling/Lectures_2007.pdf); ks. myös sen uudistettu vironkielinen versio Lepik, N., Traat, I. (2013) Valikuuringute teooria I, Tartu Ülikool ( handle/10062/30680/valiuuri.pdf) 4.1 Otanta-asetelma otosten jakaumana Olkoon kiinnostava perusjoukko jälleen U = {1, 2,..., N}, joka kenties on sopivasti ryvästetty ja/tai ositettu ja josta lopullisen otoksen poiminta voi toteutua moniasteisen prosessin kautta. Olkoon S = {s U s on kelpoinen otos} P(U) kaikkien niiden U:n osajoukkojen joukko, jotka voisivat tulla otokseksi määrättyä otantasuunnitelmaa noudattaen. Jos esimerkiksi päätetään, että otos-

28 24 Otanta-asetelmien teoriaa koko on kiinteä luku n < N, niin joukkoon S eivät kelpaa mitkään muut U:n osajoukot kuin ne, joissa on täsmälleen n alkiota. Asetelmapohjaisessa otantateoriassa otanta-asetelmia tarkastellaan perinteisesti sellaiseen todennäköisyysmalliin nojautuen, jossa postuloidaan todennäköisyysjakauma satunnaissuureelle S, jonka arvojoukko on mahdollisten otosten joukko S ja jonka pistetodennäköisyysfunktiota merkitään p S (s): p S (s) = P{S = s}, s S Esimerkki. Yksiasteisessa alkioittaisessa yksinkertaisessa satunnaisotannassa kiinteällä otoskoolla n ilman ositusta otosten joukko on S = {s U s on kooltaan n kpl} Tämän otantatavan mukaisen otanta-asetelman p S (s) pistetodennäköisyydet ovat ( ) 1 N p S (s) =, s S n ja muilla s P(U) on p S (s) = 0. Olkoon Y = {y 1,..., y N } kohdemuuttujan y alkioittaisten arvojen joukko perusjoukossa. Kun halutaan estimoida jotakin perusjoukon parametria θ = θ(y ) satunnaisotokseen s sisältyvien alkioiden y-arvojen pohjalta, niin merkitään vastaavaa estimaattia (estimate) θ = θ(s). Vastaavan estimaattorin, (estimator), jota on loogista merkitä satunnaisjoukon S funktiona θ(s), otantajakauma (sampling distribution) kuvaa estimaattorin θ(s) mahdollisten arvojen θ(s) todennäköisyysjakaumaa yli mahdollisten otosten joukon S. Otantajakauman määräävät yhtäältä y:n kiinteiden mutta tuntemattomien arvojen joukko Y ja toisaalta otanta-asetelman pistetodennäköisyydet p S (s). Niinpä estimaattorin odotusarvo ja varianssi määritellään E( θ) = s S p S (s) θ(s), var( θ) = s S p S (s)[ θ(s) µ] Otanta-asetelma otokseen sisältymisten yhteisjakaumana Joukkoarvoisen satunnaissuureen S ja sen jakauman matemaattinen käsittely on hankalampaa kuin on tässä alaluvussa esiteltävä tapa kuvata otantaasetelmia ja niiden ominaisuuksia

29 4.3 Palauttamatta-asetelmat WOR 25 Olkoon I = (I 1, I 2,..., I N ) satunnaisvektori, jossa kukin koordinaattimuuttuja I i kuvaa alkion i U poimituksi tulemisten lukumäärää otosta valittaessa. Sanomme, että I on asetelmavektori (design vector) tai poimintavektori (sampling vector). Satunnaisvektorin I mahdollisia ja realisoituneita arvoja merkitsemme k = (k 1, k 2,..., k N ), jolloin esim. tapahtuma {I i = k i } tarkoittaa: alkio i on poimittu k i kertaa, ja erityisesti {I i = 0} tarkoittaa, että alkio i ei tullut poimituksi lainkaan. Voimme hyvin perustein nimittää vektorin I mahdollista ja sallittua realisaatiota k otokseksi. Yleisessä tapauksessa I:n arvojoukko K on joukon N N osajoukko. Esimerkki. Olkoon U = (1, 2, 3, 4, 5), jossa on siis N = 5 alkiota. Asetelmavektori on I = (I 1, I 2, I 3, I 4, I 5 ). Yksi mahdollinen realisaatio on k = (0, 1, 0, 2, 0), jolloin ao. otokseen on poimittu alkio 2 kerran ja alkio 4 kahdesti. Poimintavektorin I todennäköisyysjakauma on nimeltään otanta-asetelma (sampling design). Se on jokin diskreetti moniulotteinen jakauma, joka kuvaa U:sta tehtävissä olevien satunnaisten poimintojen yhteisjakaumaa. Merkitään tämän jakauman yhteispistetodennäköisyysfunktiota (ytnf) p(k): p(k) = P{I = k}, k K, p(k) = 1. Olkoon n(i) satunnainen otoskoko ja n(k) realisoitunut otoskoko: N N n(i) = I i, n(k) = i=1 Otanta-asetelma on kiinteän otoskoon asetelma otoskokona n, jos P{n(I) = n} = 1. Tällöin otantavektorin I sellaisten arvojen k, joilla n(k) n, todennäköisyys on p(k) = 0. Otanta-asetelma on palauttamatta-asetelma (without replacement sampling design, WOR), jos kukin U:n alkio voi tulla poimituksi otokseen korkeintaan kerran. Jos taas P{I i > 1} joillekin i U, niin otanta-asetelma on palauttaen-asetelma (with replacement design, WR). k K i=1 k i 4.3 Palauttamatta-asetelmat WOR Palauttamatta- eli WOR-asetelmissa kunkin alkion i oma poimintamuuttuja I i on Bernoulli-jakautunut: I i Bin(1, π i ), jossa π i = P{I i = 1} > 0. Tämän

30 26 Otanta-asetelmien teoriaa pistetodennäköisyysfunktio on siten p(k i ) = P{I i = k i } = π k i i (1 π i) 1 k i, k i {0, 1}. (4.1) Koko otantavektorin I = (I 1,..., I N ) yhteisjakauma on moniulotteinen Bernoullin jakauma, jonka pistetodennäköisyyksille P{I = k} ei voida esittää yleispätevää funktiomuotoa. Kuitenkin tavallisimpien WOR-asetelmien yhteisjakaumat ovat hyvin hallittavissa. Seuraavassa joitakin WOR-asetelmien erikoistapauksia Poisson-asetelma: Vektorin I = (I 1,..., I N ) koordinaattorimuuttujat ovat riippumattomat: I i I j, i j ja I i Bin(1, π i ), i = 1,..., N. Tästä seuraa, että I:n yhteisjakauman piste-tn:t noudattavat kaavaa: p(k) = P{I = k} = N i=1 π k i i (1 π i) 1 k i, k K, muuten p(k) = 0, jossa K = {0, 1} N. Tätä asetelmaa noudattaen kooltaan satunnainen otos voidaan poimia esim. seuraavalla algoritmilla: Jokaiselle alkiolle i = 1,..., N generoidaan satunnaisluku E i jakaumasta Tas(0,1). Jos E i < π i niin I i = 1, eli alkio i poimitaan otokseen, muutoin I i = 0, jolloin i jätetään valitsematta. Ehdollinen Poisson-asetelma: on Poisson-asetelma annetulla kiinteällä otoskoolla n. Asetelman pistetodennäköisyydet noudattavat kaavaa N i=1 πk i i (1 π i) 1 k i p(k) = P{I = k n(i) = n} =, kun n(k) = n, P{n(I) = n} 0 kun n(k) n. Tarvittavat satunnaisluvut voidaan generoida hylkäysmenetelmällä: Generoidaan ensin Poisson-asetelman mukainen satunnaislukujen jono. Jos tästä saadaan tulokseksi k i = n(k) n, niin jono hylätään. Poisson-jonoja generoidaan niin kauan, kunnes saadaan jono, joka antaa otoskooksi täsmälleen n. Bernoullin asetelma on erikoistapaus Poisson-asetelmasta, jossa poimintatodennäköisyys on kaikille sama: π i = π, i = 1,..., N. Asetelman yhteisjakaumalle pätee: ja otoskoko on satunnainen. p(k) = π n(k) (1 π) N n(k), k K, Yksinkertaisen satunnaisotannan asetelma SRS-WOR on puolestaan ehdollinen Bernoullin asetelma, jossa otoskoko on kiinteä kokonaisluku

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta... JHS 160 Paikkatiedon laadunhallinta Liite III: Otanta-asetelmat Sisällysluettelo 1. Johdanto... 2 2. Todennäköisyysotanta... 2 2.1 Yksinkertainen satunnaisotanta... 3 2.2 Ositettu otanta... 3 2.3 Systemaattinen

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2007) 1 ja mittaaminen >> Tilastollisten aineistojen kerääminen Mittaaminen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT SPSS-ohjelmiston Complex Samples- toiminto otoksen poiminnassa ja estimaattien laskennassa Mauno Keto, lehtori Mikkelin AMK / Liiketalouden laitos

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi Helsingin yliopisto Otanta-aineistojen analyysi Kevät 2010 Periodi III Risto Lehtonen Teema 2 Estimaattoreiden varianssien estimointi Survey-analyysin lähestymistavat Kuvaileva survey Descriptive survey

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Johdatus tilastotieteeseen ja mittaaminen TKK (c) Ilkka Mellin (2004) 2 ja mittaaminen: Mitä opimme? 1/3 Tilastollisen tutkimuksen kaikki mahdolliset kohteet

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Harjoitus 2, viikko 38, syksy 2012 1. Tutustu liitteen 1 kuvaukseen Suuresta bränditutkimuksesta v. 2009. Mikä tämän kuvauksen perusteella on ko.

Lisätiedot

Batch means -menetelmä

Batch means -menetelmä S-38.148 Tietoverkkojen simulointi / Tulosten keruu ja analyysi 1(9) Batch means -menetelmä Batch means -menetelmää käytetään hyvin yleisesti Simulointi suoritetaan tässä yhtenä pitkänä ajona olkoon simuloinnin

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: 4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia. 806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 11.3.2011 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025 26.3.2019/1 MTTTP1, luento 26.3.2019 7.4 Normaalijakauma (kertausta ja täydennystä) Z ~ N(0, 1), tiheysfunktion kuvaaja 0,5 0,4 0,3 0,2 0,1 Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96)

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014 1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Epävarmuuden hallinta bootstrap-menetelmillä

Epävarmuuden hallinta bootstrap-menetelmillä 1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 2 Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden

Lisätiedot

riippumattomia ja noudattavat samaa jakaumaa.

riippumattomia ja noudattavat samaa jakaumaa. 12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2 Otantamenetelmät (78143) Syksy 2009 TEEMAT 3 & 4 Risto Lehtonen risto.lehtonen@helsinki.fi Teema 3 ERITYISKYSYMYKSIÄ Risto Lehtonen 2 1 Otannan erityiskysymyksiä Ryväsotanta Survey sampling reference guidelines

Lisätiedot

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 3: Todennäköisyysjakaumia. Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 3: Todennäköisyysjakaumia. Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Diskreettejä jakaumia TKK (c) Ilkka Mellin (2007) 1 Diskreettejä jakaumia >> Diskreetti tasainen jakauma Bernoulli-jakauma Binomijakauma

Lisätiedot

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden 1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2

Lisätiedot

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 1 Risto Lehtonen risto.lehtonen@helsinki.fi Otanta-aineistojen analyysi Laajuus 6/8 op. Tyyppi 78136 Otanta-aineistojen analyysi (aineopintojen

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

4. laskuharjoituskierros, vko 7, ratkaisut

4. laskuharjoituskierros, vko 7, ratkaisut 4. laskuharjoituskierros, vko 7, ratkaisut D1. Kone valmistaa kuulalaakerin kuulia, joiden halkaisija vaihtelee satunnaisesti. Halkaisijan on oltava tiettyjen rajojen sisällä, jotta kuula olisi käyttökelpoinen.

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita risto.lehtonen@helsinki.fi OHC Survey Tilastollinen analyysi Kysymys: Millä

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 20. syyskuuta 2007 Antti Rasila () TodB 20. syyskuuta 2007 1 / 17 1 Kolmogorovin aksioomat σ-algebra Tapahtuman todennäköisyys 2 Satunnaismuuttujat Todennäköisyysjakauma

Lisätiedot

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Matemaattinen tilastotiede Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Alkusanat Tämä moniste perustuu vuosina 2002-2004 pitämiini matemaattisen tilastotieteen luentoihin

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

D ( ) Var( ) ( ) E( ) [E( )]

D ( ) Var( ) ( ) E( ) [E( )] Mat-.2620 Sovellettu todennäköisyyslaskenta B / Ratkaisut Aiheet: Diskreettejä jakaumia Avainsanat: Binomijakauma, Diskreetti tasainen jakauma, Eksponenttijakauma, Geometrinen jakauma, Hypergeometrinen

Lisätiedot

Johdatus todennäköisyyslaskentaan Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Diskreettejä jakaumia TKK (c) Ilkka Mellin (2005) 1 Diskreettejä jakaumia Diskreetti tasainen jakauma Bernoulli-jakauma Binomijakauma Geometrinen jakauma Negatiivinen

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Todennäköisyysjakaumia

Todennäköisyysjakaumia 8.9.26 Kimmo Vattulainen Todennäköisyysjakaumia Seuraavassa esitellään kurssilla MAT-25 Todennäköisyyslaskenta esille tulleita diskreettejä todennäköisyysjakaumia Diskreetti tasajakauma Bernoullijakauma

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot