Otantamenetelmät SurveyMetodiikka 2009 Seppo

Koko: px
Aloita esitys sivulta:

Download "Otantamenetelmät SurveyMetodiikka 2009 Seppo"

Transkriptio

1 Otantamenetelmät Hieman historiaa Anders Kiaer (norjalainen) 1895, edustava otos Arthur Bowley (britti) 1906, yksinkertainen satunnaisotanta Jerzy Neyman (puolalainen l alun perin) 1934, ryväsotanta t Edward Hurja (suomalaisjuuria) 30-luvun alku, opinion polls:ien uranuurtaja, George Gallup (usalainen), 1940: kiintiöpoiminnan suurhyödyntäjä ja businessmies jonka nimeä kantava firma Suomeen 1940-luvulla (Artturi Raula). Morris Hansen (usalainen) ym. 30-luku, ensimmäinen kattava kaksiasteinen ryväsotantaan perustuva survey, mm. kirjan Hurwitzin kanssa 1953 Fredericks Deming (usalainen), , alun perin otantaa ml. ensimmäiset kalibroinnit, i it myöhemmin suuri laatuguru (ml. Japanin autoteollisuuden t nostaja) Leslie Kish (unkarilaistausta), ansiokas todennäköisyysotannan sovellus presidentin vaalien voittajan ennustamiseen 1948, myöhemmin mm. DEFF, panelisurveyden kehittäminen, oppikirja 1965 William Cochran (skottitausta), monia kehitelmiä ja kirja 1977 Carl-Erik Särndal (ruotsalais-kanadalainen), model assisted survey sampling, kirja 1992 yhdessä Swenssonin ja Wretmanin kanssa; JNK J.N.K. Rao (intialais-kanadalainen), i l i mm. Jackknife ja muita varianssiestimaattoreita i tt it sekä small area estimation -kirja Jean-Claude Deville (ranskalainen), kalibrointimenetelmiä ym; Sharon Lohr (usalainen): Perusoppikirja otannasta SurveyMetodiikka 2009 Seppo 57

2 Otantamenetelmien kompakti k ikuvaus 1 Jos kehikosta poimitaan harkinnalla tai epäselvin periaattein osajoukko, sitä on tapana kutsua näytteeksi. Jos poiminnalle kyetään asettamaan todennäköisyysperiaatteisiin nojautuvat täsmälliset säännöt, voidaan käyttää nimikkeitä otos ja otanta. Tästä käytetään nimeä (a) Todennäköisyysotanta, jonka luonnollinen vastapooli on (b) Ei-Todennäköisyysotanta. Vaihtoehto (a) siis vain voi tuottaa aidon otoksen. Mutta on myös niin, että harvoin otanta on puhtaasti (b):n mukainen, vaan tällöinkin osin käytetään (a):n oppeja. Puhdas (b) olisi harkintaotanta jolloin tutkija valitsee aineistoonsa sellaisia yksiköitä jotka ovat joltakin kannalta käyttökelpoisia, esimerkiksi että tulos saadaan sopivaksi tai että työ on helppo toteuttaa. Sellaiseen ei kunnon tutkija alennu. Tavallisin osin molempia vaihtoehtoja hyödyntävä poimintamenetelmä on ns. kiintiöpoiminta (quota sampling), joka on yleinen markkinatutkimuksissa. Tämä menetelmä sinänsä ei ole ongelmallinen, vaan se, että kiintiöt täytetään korvaamalla kieltäytyjät ja kohtaamattomat toisilla samaan kiintiöön kuuluvilla. On myös muita ei-todennäköisyysotantoja joita käytetään kun parempia vaihtoehtoja ei yksinkertaisesti ole mahdollista käyttää kohtuullisen ajan puitteissa. Tällaisia ovat mm. - adaptiivinen otanta lumipallo-otanta ll t - verkosto-otanta ja - vastaajapohjainen otanta. Huomaa että näillä kaikilla on yhtymäkohtia; nimierot johtuvat osin siitä että eri kehittäjät ovat antaneet ratkaisulleen oman nimen SurveyMetodiikka 2009 Seppo 58

3 Otantamenetelmien kompakti k ikuvaus 2 Muutama käsite seuraavan osan paremmin ymmärtämiseksi: Ryväs = laajempi tai suppeampi joukko yksiköitä Esim.: koulu jossa oppilaita, pienalue jossa asukkaita, kotitalous jossa sen jäseniä, osoite jossa asujia, yritys jossa työntekijöitä Ensisijainen poimintayksikkö (primary sampling unit = psu): todennäköisyysperiaatteilla poimittava ensimmäinen asteen yksikkö kuten tutkimusyksikkö itse tai vaikkapa ryväs. Vastaavasti toissijainen poimintayksikkö jos on toisessa asteessa tai vaiheessa todennäköisyyspoiminta. Sisältymistodennäköisyys: todennäköisyys jolla poimittava otosyksikkö sisältyy otokseen, on poimintatodennäköisyyden ja otoskoon tulo. Apumuuttuja: otannan toteuttamisessa käytettävät muuttujat (psu tai muu alue, sukupuoli, ikäryhmä, toimiala, oppilaitostyyppi, ), sekä myöhemmin estimointia edistävät lisämuuttujat (edellisten lisäksi rekistereistä, muista tutkimuksista, tilastoista jne saatavat tiedot). Muistanet nämä edeltäkin. Seuraavaksi esitettävä otantamenetelmien kuvaus kumoaa sellaisten oppikirjojen tai vastaavien sanoman, joita minullekin tyrkytettiin tettiin tilastotieteen peruskurssilla eli otannan päämenetelmät eivät ole seuraavat: Satunnaisotanta, Systemaattinen otanta, Ryväsotanta ja Ositettu otanta SurveyMetodiikka 2009 Seppo 59

4 Ryppäistä lisää mutta asiaan palataan vielä Ryväs voi siis olla erikokoinen jäsenten määrällä mitattuna. Toki jopa yhden jäsenen ryhmää voi kutsu ryppääksi yhtä hyvin kuin yhden hengen perhettä perheeksi (jotkut eivät hyväksi tätä kuten perhetilasto joka edellyttää vähintään kahden hengen ryhmää). Otannassa on selvä että yhden hengen talous tai yritys y on tärkeä jos nämä kuuluvat tavoiteperusjoukkoon. Muuten nämä jäisivät alipeittoon. Sekä otannan että tutkimuksen kannalta on hyvä ottaa huomioon ryppäiden samanlaisuus vs. erilaisuus eli kuinka homogeenisia ryppäät ovat sisäisesti. Tätä mitataan tavallisesti ns. sisäkorrelaatiolla rho, mikä yleisellä tasolla tarkoittaa suhdetta rho= ryppäiden_ välinen_ varianssi kokonais_ varianssi On hyvä huomata että kokonaisvarianssi on sisäisen ja välisen varianssin summa SurveyMetodiikka 2009 Seppo 60

5 Ryppäitä konkreettisessa muodossa. Selvitä itsellesi mitä ryppäitä tässä on ja minkälaisia eli mitä muuttujia tästää löytyy sekä tietysti myös kuinka homogeenisia nämää ovat muuttujiesi näkökulmasta. Voit jakaa ryppäitä ositteisiin jolloin homogeenisuus voi noustakin SurveyMetodiikka 2009 Seppo 61

6 Otantamenetelmien kompakti kuvaus 3 Todennäköisyysotannan perussäännöt esitetään soveltaen luovasti Kishin taksonomiaa, jonka periaatteet ilmenevät oheisesta taulukosta. Käytän tästä kokonaisuudesta nimikettä OTANTA- ASETELMA (sampling design). Yleensä tämä käsite esitetään suppeampana. Idea on, että otantasuunnitelman laatijan tehtävänä on valita kustakin kohdasta jokin (mieluiten paras) vaihtoehto. Otanta-asetelman osatekijä Vaihtoehtoja A. Kehikon luonne Kehikosta löytyy eksplisiittisesti jokin tutkimusyksikkö tai vaihtoehtoisesti se löydetään implisiittisesti B. Poimintayksikön (otosyksikön) luonne Poimittu yksikkö on suoraan keskeinen tutkimusyksikkö, tai poimitun yksikön kautta löydetään tutkimusyksikkö. Tässä on kaksi päävaihtoehtoa: poimitaan ryväs mutta tutkimusyksikkö on ryppään jäsen tai poimitaan ryppään jäsen mutta tutkimusyksikkö tki k ikkö on ryväs. C. Asteisuus (stage) Kuvastaa hierarkiatasoja, joilla asteittain lähestytään varsinaisten tutkimusyksiköiden valintaa. Asteita voi olla useita, ehkä maksimissaan neljä. D. Vaiheisuus (phase) Poimittu otos käytetään sellaisenaan (yksivaiheinen survey) tai tästä poimitaan uusi otos (kaksivaiheinen survey). Puhutaan myös osaotoksesta. Harvemmin useampia kuin kaksi vaihetta. Paneli on erikoistapaus tästä SurveyMetodiikka 2009 Seppo 62

7 Otantamenetelmien kompakti kuvaus 4 E. Osittaminen (stratification) Otos poimitaan suoraan koko kehikosta tai sen kustakin osajoukosta riippumattomasti. Osajoukkoja kutsutaan ositteiksi. FO F. Otoksen allokointi llki ieli likiintiöintiiöi i Miten otos jaetaan eli kiintiöidään iöidää eli allokoidaan ositteisiin. Ennen tätä on kokonaisotos määritelty. G. Paneli vs. poikkileikkaustutkimus Ajallisesti peräkkäiset otokset voivat olla otosyksiköiden osalta enemmän tai vähemmän päällekkäisiä (overlapping rate), siis johtaa rotatointiin. ii H. Poiminta-menetelmä Tapa miten tutkimusyksiköt lopulta valitaan. Perusvaihtoehdot ovat: - poimintatodennäköisyys on sama kaikille - poimintatodennäköisyys vaihtelee, mutta riippuu joistakin tunnetuista tekijöistä (muuttujista) I. Vastauskadon ja muun puuttuneisuuden ennakointi Kun edellä olevat periaatteet on määritelty, mukaan lukien otoskokotavoite (sekä netto-otoskoko että efektiivinen otoskoko), on vielä selvitettävä, miten realistinen tämä on. Aina aineistoa jää puuttumaan mutta sen määrä voidaan ennakoida aikaisemman kokemuksen mukaan. Vastaavasti edetään tavoiteotoskoosta bruttootoskokoon, joka määritellään sekä koko aineistolle että sen osajoukoille SurveyMetodiikka 2009 Seppo 63

8 Otantamenetelmät - Tekniikkaa 1 Otanta-aineistosta siis aina pyritään tuottamaan sekä piste-estimaatti että väliestimaatti (tästä käytetään termejä: varianssiestimaatti, keskivirhe, luottamusväli ja virhemarginaali) mahdollisimman harhattomasti. Tässä vaiheessa meillä ei ole aineistossa puuttuvuutta vaan kaikki otokseen valitut saadaan estimointiin mukaan. Tällöin voisi i uskoa että harhattomuuskin h on helpompi saavuttaa, ja näinhän asianlaita onkin, edellyttäen että löytää harhattoman estimaattorin laskemista auttamaan. Unohdan hetkeksi myös kokonaan osituksen eli tarkastelemme asioita joko osittamattomassa aineistossa tai kussakin ositteessa itsenäisesti. Ositetusta aineistostahan piste-estimaatit tuotetaan samoin kuin muustakin mutta varianssiestimaatti ositteiden varianssien summana (keskivirhe on varianssiestimaatin neliöjuuri), mikä ei ole hetkessä tehty itse ohjelmoimalla. Onneksi sekä SAS:ssa että SPSS:ssä että Statassa on tällainen optio valmiina perustilanteisiin SurveyMetodiikka 2009 Seppo 64

9 Otantamenetelmät - Tekniikkaa 2 Jos lisäksi siirrymme katsomaan tilannetta joltakin asteelta tai vaiheesta, niin otanta on teknisesti hyvin yksinkertaista. Tarvitsemme kaksi asiaa: - poimintatodennäköisyyden p k, mikä määräytyy valitusta poimintamenetelmästä - halutun otoskoon n. Näiden pohjalta voimme muodostaa -ensimmäisen kertaluvun (yhden yksikön) sisältymistodennäköisyys π k = n p k Tämä tarkoittaa todennäköisyyttä että tutkimusyksikkö k sisältyy otokseen. Jokaisen tavoiteperusjoukon jäsenelle olisi hyvä päteä: π k >0. (mutta päteekö tämä käytännössä?) Väli- eli varianssiestimointia varten tarvitsemme lisäksi todennäköisyyden d että kaksi k tutkimusyksikköä tki k ikköä k ja l yhtäaikaisesti i ti sisältyvät otokseen. On helppo nähdä, että jälkimmäinen on pienempi kuin edellinen. Tätä kutsutaan toisen kertaluvun (kahden yksikön) sisältymistodennäköisyydeksi SurveyMetodiikka 2009 Seppo 65

10 Otantamenetelmät - Tekniikkaa 3 Jos otanta-asetelmassa on useita asteita tai vaiheita, on kussakin niistä omat sisältymistodennäköisyydet ja kokonaissisältymistodennäköisyys saadaan näiden agregaattina mikä monessa asetelmassa on ensimmäisen kertaluvun osalta eri sisältymistodennäköisyyksien tulo (eli jos eri todennäköisyydet d ovat riippumattomia). i Kun ensimmäisen kertaluvun sisältymistodennäköisyys on saatu aikaan, niin on yksinkertaista tuottaa seuraava keskeinen käsite kussakin ositteessa eli Asetelmapaino a k = 1/ π k (design weight) eli kyseessä on sisältymistodennäköisyyden yy käänteisluku. Tämä taas tarkoittaa kuinka montaa yksikköä otostutkimusyksikkö k edustaa tutkimusperusjoukossa ja samalla tavoiteperusjoukossa (koska datassa ei oleteta olevan puutteita), käytännössä tämä koskee bruttotason perusjoukkoa SurveyMetodiikka 2009 Seppo 66

11 Otantamenetelmät - Tekniikkaa 4 Näin ollen aineiston käsittelijällä on käytössä otospaino jota voi käyttää painona analyysissä. Asetelmapainojen summa on tavoiteperusjoukon koko (tutkimusyksiköiden määrä), mikä on luonteeltaan estimaatti. Usein muodostetaan myös toisenlainen paino, jota Suomessa kutsutaan analyysipainoksi, jolloin kukin asetelmapaino jaetaan kaikkien painojen keskiarvolla, jolloin siis keskipaino = 1. Niiden summa on siis brutto-otoskoko. t k ESS-datassa on juuri tämä paino, ei edellä esitettyä asetelmapainoa, mutta nimike on silti DWEIGHT (design weight), mutta periaatteessa ne ovat samat. Analyysipainot on kivempia aineiston tavallisessa käsittelyssä, kuten huomaamme myöhemmin. Huomaa että analyysipaino on hyvä muodostaa kaikille myöhemmin esille tuleville paremmille painoille myös ja ihan samalla tavalla. Niinpä jos se lasketaan netolle, niiden summa on vastaajien määrä SurveyMetodiikka 2009 Seppo 67

12 Otantamenetelmät - Tekniikkaa 5 Tyypillisiä esimerkkejä ensimmäisen kertaluvun sisältymistodennäköisyyksistä eri poimintamenetelmillä (siis jossakin asteessa tai vaiheessa tai ositteessa): 1. Satunnaispoiminta N N π n 1 k = = n 2. Yksinkertainen tasavälipoiminta π k = 1 l Jolloin l = poimintaväli, mikä johtaa samannäköiseen laskulausekkeeseen kuin satunnaispoiminnalla, mutta symboli on eri. 3. Satunnaispoiminta siten että tutkimusyksikkö on ryväs ja poimintayksikkö (kehikkoyksikkö) n m ryppään jäsen. π = k k N Nyt m k tarkoittaa otosyksikön k ympärille muodostuneen ryppään kokoa sillä tavalla kuin tämä informaatio löytyy kehikosta SurveyMetodiikka 2009 Seppo 68

13 Otantamenetelmät - Tekniikkaa 6 Edellisen sivun kaavassa kaikkien ryppäiden (niille voidaan asettaa kaavaan oma alaindeksikin) jäsenten yhteismäärä = N. Kussakin ryppäässä voi olla hyvinkin erilainen määrä jäseniä. Suomen kotitaloustiedusteluissa tämä poiminta on ositteiden sisällä yleinen koska jäsen on helppo poimia väestörekisteristä ja tämän jälkeen katsoa muiden tietojen perusteella keitä muita asuu samassa osoitteessa ja missä suhteessa nämä ovat poimitun jäsenen kanssa. Tosiasiassa kaikki rekisterin mukaiset jäsenet eivät enää asu samassa paikassa ja siksi vastaajien osalta tehdään tarpeellinen korjaus. Vastaamattomien osalta tämä on vaikeampi tehdä. Kiinnostava kysymys tässä ratkaisussa on myös se, että poimituksi voi tulla useampikin jäsen samasta ryppäästä (taloudesta) jollei käytetä aidosti otantaa ilman takaisinpainoa eli tavallaan sama ryväs tulisi tutkimukseen useamman kerran. Tästä seuraa pientä harhaa kun ryväs otetaan mukaan vain kerran. Uhritutkimuksessa tuli otokseen muutamia otoshenkilöitä samasta taloudesta. Tilastokeskuksen linjana oli hyväksyä vain yksi heistä puhelintiedustelussa (netissä otettiin kaikki mukaan); siksi kahdesta avioparista yksi jäsen poistettiin satunnaisesti SurveyMetodiikka 2009 Seppo 69

14 Otantamenetelmät - Tekniikkaa 6 4. Satunnaispoiminta siten että poimintayksikkö on ryväs ja tutkimusyksikkö on ryppään jäsen. π k = n m N Tämä ä on päinvastainen i edelliseen nähden. Pienemmän ryppään jäsen tulee suuremmalla todennäköisyydellä tutkimusyksiköksi kuin suuremman ryppään jäsen. Monessa käytännön tilanteessa tämä poiminta ei tapahdu yhdessä asteessa vaan ensin on yksinkertainen satunnaispoiminta eli n/n ja sitten jäsenen poiminta ryppään sisältä. Tästä on ESS-esimerkki pian. k SurveyMetodiikka 2009 Seppo 70

15 Otantamenetelmät - Tekniikkaa 6 5. Pps takaisinpanolla i π k = nxk x U k Tässä x k viittaa kokomuuttujaan (voi koostua useiden muuttujien koonnelmasta). Sen olisi hyvä olla korreloitunut tärkeimpien y- muuttujien kanssa. Summa nimittäjässä lasketaan koko perusjoukon U yli. Käytännössä perusjoukkona on luonnollisestikin viimeisin kehikko yksilötasolla. Tämän voi tulkita myös yleistykseksi kahdesta edellisestä kaavasta mutta niissä on kuitenkin perustavoitteena ollut otanta ilman takaisinpanoa mutta tässä siis takaisinpainolla. Katso lisää seuraavalta sivulta SurveyMetodiikka 2009 Seppo 71

16 Otantamenetelmät - Tekniikkaa 7 Ammattilaiset kutsuvat pps:ää ilman takaisinpanoa πps :ksi (lausutaan suomeksi pii-pee-es) p Tämä on teknisesti hankalampi toteuttaa koska edellisen sivun kaava tehdään aina uudelleen kunkin poiminnan jälkeen. Tavallinen pps, siis takaisinpanolla, on helppo toteuttaa esimerkiksi asettamalla kehikon jäsenet suuruusjärjestykseen [0,1] janalle tai vastaavalle prosenttijanalle siten että kunkin kehikkoyksikön osuus janalla on koon mukainen. Nyt voidaan soveltaa tasavälipoimintaa aloittamalla sopivasta satunnaiskohdasta janalla ja käymällä koko jana läpi. Jos kehikkoyksikön k ikö koko k on riittävän ä suuri (tutki tki miten suuri?), niin sen sisältymistodennäköisyys on suurempi kuin yksi ja yksikkö voi tulla valituksi kaksikin kertaa otokseen. Miten selvittäisit tällaisen ongelman jollet siirry ilman takaisinpanoa - menetelmään? SurveyMetodiikka 2009 Seppo 72

17 Otantamenetelmät - Tekniikkaa 8 Kuten todettu, kaikkiin kaavoihin voidaan lisätä osite h = 1,, H jossa H on ositteiden määrä. Tee tällainen lisäys johonkin kaavaan. Toisaalta useampiasteisessa ja vaiheisessa otannassa sisältymistodennäköisyyksiä on peräkkäin useampi, jotka riippumattomassa tilan- teessa kerrotaan keskenään jotta saataisiin ensimmäisen kertaluvun kokonaissisältymistodennäköisyys. Esimerkki: 1. aste pps tkii takaisinpanolla, jlli jolloin valitaan ensisijaisia iijii poiminta- i yksiköitä psu riittävä määrä n 1. Jos merkitään j:llä psu-ita, niin saadaan (summa nimittäjässä yli kaikkien kehikon psu:uiden): π 1 = n 1 x U j x j SurveyMetodiikka 2009 Seppo 73

18 Otantamenetelmät - Tekniikkaa 9 ESS:ssä ensimmäisen asteen ryppäät (ositteiden sisällä) ovat ovat usein pienalueita, joita pitäisi olla ainakin 100. PISA:ssa psu on koulu, joita edellytetään olevan minimissään 150, ehdoton vaatimus). Kokomuuttujan x kuuluu olla yhteydessä tavoiteperusjoukon kokoon, mieluiten koskea sen jäseniä kussakin ki psu:ssa. Pieniä iä vaikeuksia k i on käytännössä ä ä koska k vastaavaa tilastotietoa ei aina luotettavana saada. Niinpä ESS:ssä psu-tason kokotiedot (15+ -ikäisten määrät) voivat olla hieman vanhoja ja joskus koskevat hieman eri ikäluokkia kuten ikäisiä. PISA:ssakin on varmasti hieman karkeata tietoa monissa maissa PISA-ikäisten koululaisten määristä. Koska nyt valitaan vasta psu:t, ei pieni karkeustaso ole ratkaisevaa kokonaislaadun kannalta. Psu-koot voivat vaihdella surveystä toiseen, joskus liikaakin mikä haittaa otannan hyvää poimintaa. Huono esimerkki ESS:ssä on ollut Saksa jossa isoimmissa psu:issa on ollut pari miljoonaa, pienimmissä muutama sata 15+ -ikäistä. Tällöin pps ei toimi kunnnolla SurveyMetodiikka 2009 Seppo 74

19 Otantamenetelmät - Tekniikkaa 10 Historiatutkimuksessa psu:t ovat suoraan tutkimusyksiköitä eli vuotiaita. Tässä tutkimuksessa muodostettiin neljä ositetta siten että muuttujina olivat suomenkieliset = Fi ja ruotsinkieliset = Se sekä alle 25 vuotiaat = Young ja sen iän täyttäneet. Ohessa Excel-tiedosto josta ilmenevät perustiedot. Selvitä iämitä iämikin tarkoittaa ja mieti imikä voisi iiolla ollut tavoitteena otoksen allokoinnissa = kiintiöinnissä eli sovitun kokonaisotoskoon =3430 jakamisessa ositteisiin. Historiatietoisuus Suomessa, brutto-otos Väestö Väestö Suhteellinen Osite määrä suhteet otoskoko Brutto- otoskoko Suhteessa Fi_Other ,2 2682, , Fi_Young ,35 560, , Se_Other ,49 154, , Se_Young ,9 30, , SurveyMetodiikka 2009 Seppo 75

20 Otantamenetelmät - Tekniikkaa 11 Tässä on tämänhetkisen otantatiedoston osa. Jatkossahan otantatiedosto laajenee kun tiedetään ketä vastaavat, ketkä ovat ylipeittoa ym. Myös uusia X-muuttujia lisätään. Ehdota mitä voisi? SurveyMetodiikka 2009 Seppo 76

21 Otantamenetelmät - Tekniikkaa 12 Uhritutkimukseen laitoin tarkoituksella ryppäitä psu:iksi jotta samalla voitaisiin tutkia sitä onko uhriksi joutumisessa lähialuepiirteitä eli kasautuuko uhriutuminen. Psu:ita kehitin kuntien ja postinumeroiden avulla noin 450 joista pps:llä poimin tasan sata otokseen (mukava luku). Psu:iden minimikooksi asetin noin 1000 ja suurimmat olivat noin Näillä ehdoilla ei mikään psu tullut kahta kertaa otokseen (aluksi minulla oli liian suuria eikä SAS suostunut tekemään poimintaa, koska sisältymistodennäköisyyden täytyy olla loogisestikin alle yksi). Seuraavalla sivulla tilannetta valaisevia tuloksia. Tässä SAS-ohjelma jossa ositteet ovat neljä aluetta. proc sort data=psu2; by strata2; proc surveyselect data= psu2 out=otos_psu seed=5191 method=pps sampsize=( ); size Popu_psu; where strata2 ne ' '; by strata2; run; SurveyMetodiikka 2009 Seppo 77

22 Tässä on huvin vuoksi tehty edellisen sivun ohjelman dataan yksi osite lisää. Katsopa virheilmoituksia ja opi niistä. ERROR: The sample size, 19, is larger than the number of sampling units, 1. NOTE: The above message was for the following stratum: strata2= Koe '. ERROR: For METHOD=PPS, the relative size of each sampling unit must not exceed (1/SAMPSIZE). NOTE: The above message was for the following stratum: strata2=kauppo. ERROR: The number of values listed for SAMPSIZE= must equal the number of strata. There are more strata than SAMPSIZE= values. NOTE: The SAS System stopped processing this step because of errors. WARNING: The data set WORK.OTOS_PSU may be incomplete. When this step was stopped there were 36 observations and 6 variables. WARNING: Data set WORK.OTOS_PSU was not replaced because this step was stopped SurveyMetodiikka 2009 Seppo 78

23 Uhritutkimuksen 2009 ensimmäisen asteen sisältymisto- i dennäköisyyksien jakauma SurveyMetodiikka 2009 Seppo 79

24 Otantamenetelmät - Tekniikkaa aste Satunnaispoiminta siten että poimintayksikkö on suoraan tai epäsuorasti poimittu haluttu tutkimusyksikkö. π = n 2 2 N 2 Tässä n 2 on tässä vaiheessa sopivaksi määritelty otoskoko. N 2 on siis psu:n kiinnostuksen alaisten tutkimusyksiköiden lukumäärä. PISA:ssa tässä asteessa valitaan siis itse oppilaat (joskus voi olla vielä jokin muu valinta ensin jos koulu on iso ja hajallaan). Heitä poimitaan maksimissaan 35. Tämän kokoisista ja pienemmistä i kouluista siis valitaan kaikki. ESS:ssä on muutamissa maissa suoraan psu:n sisältä 15+ -ikäisen henkilön poiminta satunnaisesti, mutta monissa muissa valitaan ensin kotitalous tai osoite ja sitten sovelias tutkimushenkilö (esim. viimeisimmäksi syntymäpäivää viettänyt) SurveyMetodiikka 2009 Seppo 80

25 Otantamenetelmät - Tekniikkaa aste Jos molempien asteiden sisältymistodennäköisyys otetaan huomioon saadaan siis kummankin ki tulo. Laske itse mitä tulee ja erityisesti i ti selvitä itsellesi mikä on lopputulos, jos N 2 on sama kuin 1. asteessa esillä ollut kokomuuttuja siinä tapauksesssa että n 2 on vakio, kuten on hyvin usein tapana tehdä. Näet kiintoisasti että sisältymistodennäköisyys on vakio kussakin ositteessa ja voi olla kaikissakin ositteissa jos niissä on kaikissa samat poimintasuhteet ja muut poimintaehdot. Tästä siis seuraa että asetelmapainot ovat yhtä suuria, siis brutto-otokselle. Vastauskato toki käytännössä muuttaa tilannetta. Uhritutkimuksessakin tähtäsin siihen että tuo etu säilyisi mahdollisimman pitkälle eli kustakin alueryppäästä valittiin lähes sama määrä henkilöitä (keskimäärin 78). Kuitenkin otin hieman enemmän alueilta joissa on odotettavissa suurempi vastauskato ja vastaavasti vähensin muista. Saa nähdä kuinka lähellä toisiaan ovat netto-otoskoot otoskoot ryppäissä SurveyMetodiikka 2009 Seppo 81

26 Otantamenetelmät - Tekniikkaa 13 Jos 2. asteessa valitaan kotitaloudet ja ne ovat myös tutkimusyksiköitä, edellisellä llä sivulla oleva tilanne (yhtä suuret sisältymistodennäköisyydet i äköi d ja asetelmapainot) ei päde, ellei 1. asteessa painomuuttujana ole myös kotitalouksien määrä. Mieti tilannetta Irakin kuolleiuustutkimuksen kannalta jossa oli sellainen tilanne. Usein tarvitaan siis 3. aste jossa satunnaispoiminta toteutetaan edellisen asteen yksikön sisällä. Jos valitaan vain yksi kuten ESS:ssä, niin saadaan (m k = kehikkoon kuuluvien tavoiteperusjoukon jäsenten määrä 2. asteen otokseen tulleessa yksikössä) 1 Tyypillinen tilanne ESS:ssä on että 2. asteessa on poimittu otokseen osoite tai kotitalous jossa on m k 15+ -vuotiasta (huom. ei siis talouden jäsentä). Koska vain yksi heistä otetaan haastateltavaksi, suoritetaan satunnaispoiminta SurveyMetodiikka 2009 Seppo 82 π 3 = m k

27 Otantamenetelmät - Tekniikkaa 14 Edellä esitetyt kaavat ovat siis brutto-otokselle jota olen koko otostasolla merkinnyt n:llä, vastaavasti vaikka ositteissa n h :lla. Kun kaikki eivät vastaa, niin tämä määrä pienenee. Olen merkinnyt vastanneiden määriä r:llä, koskien siis yksikkötason vastanneita (kuten kerroin ESS4:ssa Norjan arkisto joka tarkistaa saamiaan datoja, oli siirtänyt muutamia vastaajia vastaamattomien ryhmään koska vastausten laatutaso oli huono; näin voidaan tehdä). Jatkan samalla linjalla. On tarpeen muodostaa edellä esitetyt kaavat tältä pohjalta uudelleen koskemaan vastaajia. Tee tämänmukaiset muunnokset kaavoihin. Älä kuitenkaan ihan suoraviivaisesti vaan mieti missä se on tarpeen, missä taas ei välttämättä. Tuloksena sinulla on myös uusi otospaino jota kutsun peruspainoksi. Sen idea on sama kuin asetelmapainon siten vastaajat eivät poikkea vastaamattomista eli vastaamattomuus on satunnaista ja että otoskoko on pienempi. Myöhemmin teemme parempia painoja SurveyMetodiikka 2009 Seppo 83

28 Otantamenetelmät - Täydennystä y 1 Jo edeltä on käynyt ilmi että ositus ja psu voivat sotkeutua mielissä. Molemmathan kattavat (tai niiden tulisi kattaa) koko tavoiteperusjoukon (tietysti kehikon kautta). Ero näissä on siinä, että ositteet valitaan otokseen 100%:sti eli ositteet jakavat perusjoukon osiin, joiden sisältä siis poimitaan otosyksiköt. Psu:ita sen sijaan valitaan alle 100%:sti, mutta siis yli 0%:sti. Jos psu valitaan 100%:sti, kyse on siis myös ositteesta. Käytännön ratkaisu tilanteessa jolloin sisältymistodennäköisyys psu:lle on 100% tai yli, on joko -pienentää tällaisen psu:n kokoa sopivalla jaolla tai -muodostaa tästä psu:sta osite SurveyMetodiikka 2009 Seppo 84

29 Otantamenetelmät - Täydennystä y 2 Osittaminen on hyvin yleinen tapa otannassa ja on myös hyödyllinen hyvin toteutettuna. Itse olen jopa sitä mieltä, että aina jokin ositus on tarpeen. Tässä mielessä olen vastustanut ainakin Suomen, Ruotsin, Viron, Tanskan ja Norjan ESS:ssä käyttämää yksinkertaista satunnaisotantaa mikä ei useimmissa maissa olisi mahdollistakaan. Rekisterien avulla tehtävä onnistuu teknisesti toki. Tässä strategiassa ei ajatella kenttätyön jälkeiseen aikaan asti sillä vastaaminen vaihtelee tosiasiassa huomattavasti kaikissa näissä maissa, ja sitä voidaan myös tutkia taustamuuttujittain. Jos taustamuuttuja voidaan asettaa ositteeksi, voidaan brutto-otoskokoa allokoida myös odotettavissa olevan vastaamisen mukaan. Siis ottaa suhteellisesti isompi otos ositteesta jossa odotetaan isompaa vastauskatoa. Tämä on ollut yksi tekijä uhri- ja historiatutkimuksen allokoinnissa, i muttei ainoa eli toinen tekijä on liittynyt tutkimustavoitteisiin SurveyMetodiikka 2009 Seppo 85

30 Otantamenetelmät - Täydennystä y 3 Otannan suunnitteluvaiheessa ryvästyminen otetaan huomioon ryvästymisestä y johtuvalla otanta-asetelmakertoimella jonka Leslie Kish kehitti 1960-luvulla: DEFFc = 1+ (b-1)rho jossa b = keskimääräinen nettoryväskoko. Jos sisäkorrelaatio on nolla, kerroin =1 mutta mitä isompi se on eli mitä homogeenisempia ryppäät eli psu:t ovat, sitä isompi on DEFFc. Toisaalta havaitset että jos DEFFc pienee keskiryväskoon pienetessä. ESS:ssä nämä vaihtelevat at melko paljon, bruttotasolla noin 6:sta 25:een. Jos ja kun psu-ryväs on pienalue, on käyntihaastattelu halvahkoa tehdä tällä tasolla. PISA:ssa ei kovin pieniä ryppäitä haluttu, koska k tentit ja haastattelut olisivat i hyvin kalliita pienissä i ryhmissä. Tämä toisaalta siis nostaa DEFFc:n arvoa SurveyMetodiikka 2009 Seppo 86

31 Syrjähyppy: yppy Edellisen sivun kaavan kanssa samanhenkinen kaava saadaan haastattelijavaikutuksen mittaamiseen: DEFF(haast) = 1+ (b-1)rho Tässä ä b = keskimääräinen ki äi haastattelujen määrä ä per haastattelija ja rho analogisesti kuten edellä eli rho= haastattel tt ijoiden id _ välinen _ var ianssii kokonais_ varianssi Tietysti i tämäkin äki on muuttujakohtainen eli vaihtelee kysymyksestä toiseen. Aihe on kiinnostava jatkotutkittavaksi. Huomaa että haastattelija käyntihaastatteluissa toimii usein saman psu:n alueella joten ei ole suoraan eroteltavissa, onko kyseessä alueellinen vai haastattelijasta johtuva vaikutus SurveyMetodiikka 2009 Seppo 87

32 Otantamenetelmät - Täydennystä 4 Toinen tekijä joka vaikuttaa otoskokoon ovat otospainot. Ohessa on kaava jonka Kish esitti ja jota ESS:n otantaryhmä on käyttänyt arvioidessaan painojen vaihtelun vaikutusta tarvittavaan otoskokoon. k Näet että tämä ä vaatii arvion siitä moniko vastaa sekä arvioidun laskelman painoista w k (tuossa kaavamuodossa painot on skaalattu siten että keskiarvo = 1). Tätä sovelletaan tavallisimman edellä esitetyssä asteessa 3 jolloin kotitalouden tai osoitteen sisältä valitaan yksi vastaajakandidaatti ja on selvä että vastaava paino vaihtelee sen mukaan montako 15+ -ikäistä on koska sisältymis-todennäköisyys vaihtelee 1:stä (yksi henkilö 2 ryppäässä), 0,50:een (kaksi henkilöä), jne. r k w k Minkä luulet olevan maksimin? k DEFFp = r Kaavan karkeampi ja helpommin ( r wk laskettava versio on seuraava: k DEFFp = 1 + cv(w) 2 missä cv(w) = painon vaihtelukerroin Tässä paino voi olla skaalattu tai skaalaamaton kuten tiedät. Esimerkiksi Portugalin ESS2:ssa 3. asteessa = jäsentä valittaessa DEFFp = k ) SurveyMetodiikka 2009 Seppo 88

33 Otantamenetelmät - Täydennystä 5 KokonaisDEFF = DEFFc*DEFFp Tässä on taulukko ESS:n eräistä maista: Table 2: Estimation of design effects for countries participating in both rounds Country DEFFc DEFFp DEFF AT BE CH CZ DE ES FR GB HU NL NO PL PT SI SurveyMetodiikka 2009 Seppo 89

34 Otantamenetelmät - Täydennystä 6 DEFF- kertoimella on suora yhteys tarvittavaan otoskokoon sillä kertoimen taustalla on ajatus verrata tätä varianssiestimaattia yksinkertaisella satunnaispoiminnalla saatuun vastaavaan varianssiestimaattiin missä ei siis ole ryppäitä eli DEFFc = 1 = DEFFp. Toisaalta varianssit i ovat suorassa suhteessa vastaaviin bruttootoskoihin (jonka opit varmemmin vaikkapa otantakurssilla). Eli tämä kerroin auttaa sopivan brutto-otoskoon määrittelyssä. Siksi DEFF:n hyvä etukäteisarvio helpottaa oikean otoskoon määrittelyssä. On syytä huomauttaa, että tämä on muuttujakohtainen. ESS:ssä on otantaryhmä tuottanut edellisiltä kierroksilta laskelmia runsaasta kymmenestä muuttujasta joiden mediaania on pidetty lähtökohtana seuraavan kierroksen otannassa. Kun aineisto on siis valmis, lasketaan myös DEFF-kertoimia. Ne havainnollistavat otanta-asetelman monimutkaisuuden vaikutusta SurveyMetodiikka 2009 Seppo 90

35 Otantamenetelmät - Täydennystä 7 Yhteenvetona brutto-otoskoon otoskoon määräämisestä saamme seuraavan taulukon tilanteessa jossa tavoitteellinen efektiivinen otoskoko on määritelty kuten ESS:ssä. Tämä on koko joka vastaa yksinkertaisen satunnaispoiminnan otoskokoa (mitä metodia ei sinänsä kannata käyttää mutta se on hyvä vertailuun). Toiminto Esimerkkilaskelma 1. Efektiivisen otoskoon tavoite (neff) Odotettu puuttuneisuus johtuen vastauskadosta 30% eli 1500/.7 = Odotettu puuttuneisuus johtuen ylipeitosta 5% eli 2143/.95 = Odotettu ryväsvaikutus sisältäen ennusteen sisä- DEFF c = 1+(5.3-1)*.025 = 1.11 korrelaatiosta t ja odotetusta t t vastanneiden määrästä ä 2256*1.11= ryppäässä 5. Odotettu asetelmavaikutus johtuen eri suurista DEFF p = 1.25 lopullisista sisältymistodennäköisyyksistä 2498*125= Riskitekijöiden huomioon otto > brutto-otos 3200 Odotettu netto-otoskoko 2128 Laske ryppään bruttokoko SurveyMetodiikka 2009 Seppo 91

36 Otantamenetelmät - Täydennystä 8 Edellisessä tilanteessa oli siis jo määritelty efektiivisen otoskoon tavoite mutta aina ei ole näin. Silloin on muuta kautta mietittävä mikä olisi i tämä ä tavoitteellinen koko. k Kun tähän lisää DEFFtekijät ja puuttuneisuusarviot saadaan brutto-koko. Seuraavaksi esitän muutamia näkökohtia otoskoon määrittämiseksi: (i) Tavoiteperusjoukon suuruus: pienemmässä riittää pienempi otoskoko saman tarkkuustavoitteen saavuttamiseen. Tämä on yhteydessä ns. äärellisen perusjoukon korjaustekijään, mikä on muotoa f = (N-n)/N. Tätä tutkimalla havaitset että kun tavoiteperusjoukko kasvaa riittävän isoksi, sanotaan vaikkapa sadoiksi tuhansiksi, ei tällä ole varsinaista merkitystä. Niinpä Kiinan ja Suomen väestölle samansuuruinen otoskoko kelpaa saman tarkkuuden saavuttamiseksi edellyttäen että kaikki muut tekijät ovat pätevät eli lopullinen otos on aidosti todennäköisyysperiaatteisiin pohjautuva. Otanta-asetelman ei tarvitse olla sama. (ii) Tarkkuustavoite mikä mainittiin jo edellisessä kohdassa. Tämä on helppo, jos surveyssä on yksi mittauskohde eli parametri. Tällöin siis jos asiakas tietää kuinka tarkasti hänen tulisi estimaattinsa saada, niin otannan asiantuntija voi laskea hänelle oikean otoskoon. Näin ei juuri koskaan ole vaan surveyssä on iso määrä estimoitavia parametrejä (kysymyksiä lomakkeessa) ja estimointien tarkkuus mitä todennäköisimmin vaihtelee, jopa selvästi. Tilanne on helpompi, jos asiakkaalla olisi jokin päämuuttuja ja -estimaatti josta on kiinnostunut, kuten on melko usein yrityssurveyssä, mutta ei henkilösurveyssä Kyselytutkimuksen Metodiikkaa 2009 Seppo 92

37 Otantamenetelmät - Täydennystä 9 (iii) Budjetti on usein määräävä tekijä. Tavoite on tällöin toimia sen puitteissa mahdollisimman hyvin. Näin finanssikriisin aikaan esitetään vaatimuksia kulujen säästämiseksi i ja otoskoon (efektiivisen) i pienentäminen i on yksi keino. On myös hyvä huomata että hyvän aputiedon hyvällä käytöllä voidaan otoskokoa laskea saman tarkkuuden saavuttamiseksi. Harva tutkija tämän noteeraa. On hyvä huomata, että jos budjetti on liian pieni riittävän tarkkuuden saavuttamiseksi, on turha kuluttaa rahaa huonon tutkimuksen tekoon ollenkaan. (iv) Aikataulut on myös otettava huomioon. Jos tulos halutaan nopeasti, ei voitane päästä samaan tarkkuuteen kuin tilanteissa joissa kenttätyöhön on aikaa runsaasti (ESS:ssä pääsääntöisesti 3 kk). Pikatutkimuksissa, joita mediassa usein esitetään, harha voi olla huomattavakin vaikka toiminnot olisikin tehty huolella. Sen suuruuden arviointi on myös hankala Kyselytutkimuksen Metodiikkaa 2009 Seppo 93

38 Otantamenetelmät - Täydennystä 10 (v) Minimiotoskoosta: moni kyselijä haluaa tietää mikä olisi minimiotoskoko. Tämä on ymmärrettävää. Kuten edeltä käy ilmi yksiselitteinen vastaus on mahdoton antaa mutta aikaisempien surveyden kokemusta voi toki ja pitää hyödyntää. y Jos löytyy yy samantapainen toinen survey, on mahdollista arvioida tarkkuudet yms. ja antaa kyselijälle vastaus tyyliin: - Jos haluat pääpiirteittäisiä tuloksia, ehkäpä vastaajaa voisi riittää olettaen että teet kaiken mitä mainioimmin eikä vastauskato ole suuri tai ei ainakaan tuloksia harhauttava. Kun sinulla on aineisto mutta estimaattiesi tarkkuus ei riitä, voithan jatkaa otosta. Tällainen otos on paras poimia heti alussa varastoon ja satunnaisjärjestykseen ettei synny jotain systemaattista harhaa. - Jos ajattelet tutkimustasi pilottina, myös tuollainen riittää moneen tarkoitukseen eli saat alustavia tuloksia ja oppia kunnon surveyn tekemiseksi ml. otannan toteuttamiseksi. (vi) Eräs käytännön strategia: t Aineiston i käyttäjällä on mielessä paitsi i koko k tavoiteperusjoukkoon myös sen osiin liittyviä tarpeita (ihmistiedusteluissa koskien väestöryhmiä kuten ikäryhmittäin ja sukupuolittain, yritystiedusteluissa toimialoittain ja kokoryhmittäin). Koska kustakin osaryhmästä olisi hyvä saada riittävän suuri otos eli riittävä tarkkuus, niin kuhunkin liittyy minimiotos. Jos vaikkapa ehdoton vastanneiden määrä pitäisi olla 30 (bruttona vaikkapa 45), niin 5 ikäryhmän tulosten estimointiin riittäisi 150 vastaajaa (bruttona 225), jos kaikista ikäryhmistä olisi samansuuruinen otos. Käytännössä näin ei ole ellei ole hyvä ositus. Vastaavasti muissa yksiulotteisissa tulostustarpeissa pärjättäisiin kohtuudella, myös sukupuolittain. MUTTA: kaksiulotteisiin, kuten sukupuolen ja ikäryhmän mukaan, tämä ei riitä. Otoskokoa pitäisi kasvattaa. Useampiulotteissa, monimuuttuja- analyyseissä, aineisto loppuu vielä helpommin. Otoskokoa täytyisi siis kasvattaa. ESS:n efektiivisen otoskoon määrittelyssä on haluttu mikroaineisto josta voi kohtuullisella tarkkuudella saada myös pienemmistä osajoukoista estimaatteja maatasolla. On selvää, että aineistosta ei kaikkien kiinnostavien taustatekijöiden mukaan voi estimoida hyviä tuloksia silti maatasolla. Osassa tapauksista luotettavuus saadaan paremmaksi maaryhmätasolla Kyselytutkimuksen Metodiikkaa 2009 Seppo 94

39 Esimerkki yksinkertaisesta otanta-asetelmasta ESS 4 Target Population, All persons aged 15 and over living in Norway (Norwegian citizens who are Population coverage not registered living in another country and non-norwegian citizens who are registered living in Norway excluding students) Sampling frame The BEBAS Population Register which is a working copy of the National Population Register from 1 st January This will be updated monthly. For the ESS, the latest updating will be available from July Sampling design A one-stage systematic random sampling (= simple random sample). Design effects DEFF = 1 Target response rate 70% Remark A bit unrealistic based on R3 Sample size Gross sample = In-eligibles = 70 Target net sample = Anticipated net sample = 1686 (based on R3) Minimum net sample = Special Features of the design There will be provided adjusted weights for post-stratification for the variables region, age and gender SurveyMetodiikka 2009 Seppo 95

40 Esimer rkki monim mutkaisemmasta otanta a-asetelmasta, ESS SurveyMetodiikka 2009 Seppo 96

41 Esimer rkki monim mutkaisemmasta otanta a-asetelmasta, ESS 4 _ Jatkuu SurveyMetodiikka 2009 Seppo 97

42 Harjoitusosio Päätehtävä on muodostaa Irakin kuolleisuustutkimuksen aineistoon otospaino; aivan ihanteellista ei ehkä saa mutta sellainen joka tuottaa uskottavia estimaatteja. Ohessa on tieto t joka on alkuperäisessä ä artikkelissa Burnham, G., R. Lafta, S. Doocy and L. Roberts (2006). Mortality after the 2003 invasion of Iraq: a cross-sectional cluster sample survey. The Lancet 368, Table 1: Province populations and cluster allocation Baghdad Ninewa Basrah Sulamaniyah Thi-Qar Babylon Erbil Diyala Anbar Salah al-din Najaf Wassit Qadissiya Tameem Missan Kerbala Muthanna Dahuk Total Yritetään yhdessä keskustellen ja sitten laskutoimitukset it k t ohjelmoiden tuottaatt jotkin painot dataan. Lisätehtävänä keskustelua kurssimonisteen kohdista joissa on esitetty kysymyksiä. Etsi niitä SurveyMetodiikka 2009 Seppo 98

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi Helsingin yliopisto Otanta-aineistojen analyysi Kevät 2010 Periodi III Risto Lehtonen Teema 2 Estimaattoreiden varianssien estimointi Survey-analyysin lähestymistavat Kuvaileva survey Descriptive survey

Lisätiedot

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta... JHS 160 Paikkatiedon laadunhallinta Liite III: Otanta-asetelmat Sisällysluettelo 1. Johdanto... 2 2. Todennäköisyysotanta... 2 2.1 Yksinkertainen satunnaisotanta... 3 2.2 Ositettu otanta... 3 2.3 Systemaattinen

Lisätiedot

Tiedonkeruu ja lomakesuunnittelu

Tiedonkeruu ja lomakesuunnittelu Tiedonkeruu ja lomakesuunnittelu Tämä vaihe on ratkaisevan tärkeä sekä validiteetin että reliabiliteetin kannalta. Kerättävän tiedon tulisi siis mitata oikein haluttua asiaa (validiteetti) ja toisaalta

Lisätiedot

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien

Lisätiedot

Surveymetodiikka Helsingin yliopisto, Syksy 2011 Seppo Laaksonen

Surveymetodiikka Helsingin yliopisto, Syksy 2011 Seppo Laaksonen Surveymetodiikka Helsingin yliopisto, Syksy 2011 Seppo Laaksonen Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen). Laajempi

Lisätiedot

Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen

Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen Luennot ja harjoitukset kolmena peräkkäisenä keskiviikkona klo 16-19 alkaen 28.1.2009. Monina välipäivinä

Lisätiedot

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT SPSS-ohjelmiston Complex Samples- toiminto otoksen poiminnassa ja estimaattien laskennassa Mauno Keto, lehtori Mikkelin AMK / Liiketalouden laitos

Lisätiedot

Helsingin yliopisto Sosiaalitieteiden laitos Seppo Tammikuu 2013 Surveymetodiikan koe

Helsingin yliopisto Sosiaalitieteiden laitos Seppo Tammikuu 2013 Surveymetodiikan koe Helsingin yliopisto Sosiaalitieteiden laitos Seppo Tammikuu 2013 Surveymetodiikan koe Päätä viimeistään silloin kun jätät vastauksesi, kuinka moneen opintopisteeseen pyrit. Jos haluat saavuttaa perusmäärän,

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2 Otantamenetelmät (78143) Syksy 2009 TEEMAT 3 & 4 Risto Lehtonen risto.lehtonen@helsinki.fi Teema 3 ERITYISKYSYMYKSIÄ Risto Lehtonen 2 1 Otannan erityiskysymyksiä Ryväsotanta Survey sampling reference guidelines

Lisätiedot

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 1 Risto Lehtonen risto.lehtonen@helsinki.fi Otanta-aineistojen analyysi Laajuus 6/8 op. Tyyppi 78136 Otanta-aineistojen analyysi (aineopintojen

Lisätiedot

Tiedonkeruu- ja painotusmenetelmien vaikutukset tutkimusaineiston laatuun ja estimaatteihin

Tiedonkeruu- ja painotusmenetelmien vaikutukset tutkimusaineiston laatuun ja estimaatteihin Tiedonkeruu- ja painotusmenetelmien vaikutukset tutkimusaineiston laatuun ja estimaatteihin EU-rikosuhritutkimuksen aineistojen tarkastelu vastauskadon näkökulmasta Jenni Elina Nikula Helsingin yliopisto

Lisätiedot

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula 24.2.2010

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula 24.2.2010 (Turvallisuus Suomessa) - pilottitutkimus Vastauskato ja painotus Jenni Nikula 24.2.2010 Tutkimuksen tausta Eurostatin / Euroopan komission rahoittama hanke, jossa eurooppalaisten asiantuntijoiden yhdessä

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Monitasomallit koulututkimuksessa

Monitasomallit koulututkimuksessa Metodifestivaali 9.5.009 Monitasomallit koulututkimuksessa Mitä ihmettä? Antero Malin Koulutuksen tutkimuslaitos Jyväskylän yliopisto 009 1 Tilastollisten analyysien lähtökohta: Perusjoukolla on luonnollinen

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita risto.lehtonen@helsinki.fi OHC Survey Tilastollinen analyysi Kysymys: Millä

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

Luottamusvälit. Normaalijakauma johnkin kohtaan

Luottamusvälit. Normaalijakauma johnkin kohtaan Luottamusvälit Normaalijakauma johnkin kohtaan Perusjoukko ja otanta Jos halutaan tutkia esimerkiksi Suomessa elävien naarashirvien painoa, se voidaan (periaatteessa) tehdä kahdella tavalla: 1. tutkimalla

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2007) 1 ja mittaaminen >> Tilastollisten aineistojen kerääminen Mittaaminen

Lisätiedot

Yksinkertaista estimointia 1

Yksinkertaista estimointia 1 Yksinkertaista estimointia 1 Asetelmapainoa ja myöhemmin aivan vastaavalla tavalla muita otospainoja voidaan käyttää otosaineiston estimoinnissa. Tämä on periaatteessa varsin yksinkertaista jos kyse on

Lisätiedot

Painotusmenetelmät survey aineiston muuttujien estimoimiseen

Painotusmenetelmät survey aineiston muuttujien estimoimiseen Painotusmenetelmät survey aineiston muuttujien estimoimiseen Ville Veikko Helminen Helsingin yliopisto Valtiotieteellinen tiedekunta Tilastotiede Pro gradu -tutkielma Toukokuu 2017 HELSINGIN YLIOPISTO

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden 1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Harjoitus 2, viikko 38, syksy 2012 1. Tutustu liitteen 1 kuvaukseen Suuresta bränditutkimuksesta v. 2009. Mikä tämän kuvauksen perusteella on ko.

Lisätiedot

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

806354A/806629S Otantamenetelmät (5 op)

806354A/806629S Otantamenetelmät (5 op) 806354A/806629S Otantamenetelmät (5 op) Esa Läärä Oulun yliopiston matemaattisten tieteiden tutkinto-ohjelma 24.8.2016 Sisältö 1 Johdanto 1 1.1 Otanta mitä ja miksi..................... 1 1.2 Otostutkimus

Lisätiedot

Imputoi puuttuvat kohdat

Imputoi puuttuvat kohdat Imputoi puuttuvat kohdat Imputointi tarkoittaa tai määritellyn tiedon paikkaamista sellaisella korvikearvolla joka estimaatin laatua verrattuna siihen mikä saataisiin ilman eli jättämällä tuo tieto käsittelystä

Lisätiedot

Luento 9. June 2, Luento 9

Luento 9. June 2, Luento 9 June 2, 2016 Otetaan lähtökohdaksi, että sopimuksilla ei voida kattaa kaikkia kontingensseja/maailmantiloja. Yksi kiinnostava tapaus on sellainen, että jotkut kontingenssit ovat havaittavissa sopimusosapuolille,

Lisätiedot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä

Lisätiedot

Epävarmuuden hallinta bootstrap-menetelmillä

Epävarmuuden hallinta bootstrap-menetelmillä 1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Helsingin yliopisto, Syksy 2009 Seppo Laaksonen

Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen): Laaksonen,

Lisätiedot

ATH-koulutus THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1

ATH-koulutus THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 ATH-koulutus THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelma Ositus ja 75 vuotta täyttäneiden ylipoiminta Painokertoimet Tulosten esittäminen: mallivakiointi Esimerkit

Lisätiedot

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta Tuloperiaate Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta ja 1. vaiheessa valinta voidaan tehdä n 1 tavalla,. vaiheessa valinta voidaan tehdä n tavalla,

Lisätiedot

Talonrakennusalan yritysten korjausrakentamisen urakoista kertyi 7,6 miljardia euroa vuonna 2016

Talonrakennusalan yritysten korjausrakentamisen urakoista kertyi 7,6 miljardia euroa vuonna 2016 Rakentaminen 2017 Korjausrakentaminen Rakennusyritysten korjaukset 2016 Talonrakennusalan yritysten korjausrakentamisen urakoista kertyi 7,6 miljardia euroa vuonna 2016 Tilastokeskuksen mukaan vähintään

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Johdatus tilastotieteeseen ja mittaaminen TKK (c) Ilkka Mellin (2004) 2 ja mittaaminen: Mitä opimme? 1/3 Tilastollisen tutkimuksen kaikki mahdolliset kohteet

Lisätiedot

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset Todennäköisyyslaskenta IIa, syyslokakuu 019 / Hytönen. laskuharjoitus, ratkaisuehdotukset 1. Kurssilla on 0 opiskelijaa, näiden joukossa Jutta, Jyrki, Ilkka ja Alex. Opettaja aikoo valita umpimähkään opiskelijan

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2010 Seppo Laaksonen

Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2010 Seppo Laaksonen Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2010 Seppo Laaksonen Luennot ja harjoitukset neljänä keskiviikkona klo 16-19 alkaen 20.1.2009. Muut kolme kertaa ovat 27.1., 17.2.

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( )

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( ) Königsbergin sillat 1700-luvun Königsbergin (nykyisen Kaliningradin) läpi virtasi joki, jonka ylitti seitsemän siltaa. Sanotaan, että kaupungin asukkaat yrittivät löytää reittiä, joka lähtisi heidän kotoaan,

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805306A JOHDATUS MONIMUUTTUJAMENETELMIIN, sl 2017 (Jari Päkkilä) Harjoitus 3, viikko 47 (19.20.11.): kotitehtävät Ratkaisuja 1. Floridan

Lisätiedot

kaupungit <- read.table("http://users.jyu.fi/~nataanko/kaupunkidata.txt", header=true)

kaupungit <- read.table(http://users.jyu.fi/~nataanko/kaupunkidata.txt, header=true) TILP260 8. demot kevät 2012 Tehtävä 6. PISA-tutkimuksen monivaiheinen otanta Ositettu otanta Ositteina Ahvenanmaa, Uusimaa, Etelä-, Väli-, Itä- ja Pohjois-Suomi. Ositetun otannan avulla varmistetaan, että

Lisätiedot

Sosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen

Sosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen Sosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen SOTU TIME 2012 Surveymetodiikka _ Seppo 1 Jakso 2. Surveymetodiikkaa aineiston keruusta sen puhdistamiseen Otsakkeessa

Lisätiedot

Mielipidemittaus maailman muutoksen kuvaajana

Mielipidemittaus maailman muutoksen kuvaajana Mielipidemittaus maailman muutoksen kuvaajana Maanpuolustustiedotuksen suunnittelukunnan tutkimusseminaari 8..017 Hanna Wass akatemiatutkija, yliopistonlehtori hanna.wass@helsinki.fi @hanna_wass Esityksen

Lisätiedot

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025 26.3.2019/1 MTTTP1, luento 26.3.2019 7.4 Normaalijakauma (kertausta ja täydennystä) Z ~ N(0, 1), tiheysfunktion kuvaaja 0,5 0,4 0,3 0,2 0,1 Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96)

Lisätiedot

4. laskuharjoituskierros, vko 7, ratkaisut

4. laskuharjoituskierros, vko 7, ratkaisut 4. laskuharjoituskierros, vko 7, ratkaisut D1. Kone valmistaa kuulalaakerin kuulia, joiden halkaisija vaihtelee satunnaisesti. Halkaisijan on oltava tiettyjen rajojen sisällä, jotta kuula olisi käyttökelpoinen.

Lisätiedot

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Esimerkki otteluvoiton todennäköisyys A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Yksittäisessä pelissä A voittaa todennäköisyydellä p ja B todennäköisyydellä q =

Lisätiedot

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Ka6710000 TILASTOLLISEN ANALYYSIN PERUSTEET 2. VÄLIKOE 9.5.2007 / Anssi Tarkiainen Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1. a) Gallupissa

Lisätiedot

Kaupan alueellinen määrävuosiselvitys 2009

Kaupan alueellinen määrävuosiselvitys 2009 Kauppa 2011 Kaupan alueellinen määrävuosiselvitys 2009 Liikevaihto suhteessa myyntipinta-alaan nousi noin 26 prosenttia vuodesta 2004 Suomen vähittäiskauppojen myyntipinta-ala oli yhteensä noin 9,6 miljoonaa

Lisätiedot

Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen

Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen). Laajempi

Lisätiedot

Sosiaalisten verkostojen data

Sosiaalisten verkostojen data Sosiaalisten verkostojen data Hypermedian jatko-opintoseminaari 2008-09 2. luento - 17.10.2008 Antti Kortemaa, TTY/Hlab Wasserman, S. & Faust, K.: Social Network Analysis. Methods and Applications. 1 Mitä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

Otoskoon arviointi. Tero Vahlberg

Otoskoon arviointi. Tero Vahlberg Otoskoon arviointi Tero Vahlberg Otoskoon arviointi Otoskoon arviointi (sample size calculation) ja tutkimuksen voima-analyysi (power analysis) ovat tilastollisen tutkimuksen suunnittelussa keskeisiä kysymyksiä

Lisätiedot

YLEISKUVA - Kysymykset

YLEISKUVA - Kysymykset INSIGHT Käyttöopas YLEISKUVA - Kysymykset 1. Insight - analysointityökalun käytön mahdollistamiseksi täytyy kyselyn raportti avata Beta - raportointityökalulla 1. Klikkaa Insight välilehteä raportilla

Lisätiedot

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1 2 k -faktorikokeet Vilkkumaa / Kuusinen 1 Motivointi 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

D ( ) E( ) E( ) 2.917

D ( ) E( ) E( ) 2.917 Mat-2.091 Sovellettu todennäköisyyslasku 4. harjoitukset/ratkaisut Aiheet: Diskreetit jakaumat Avainsanat: Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen jakauma, Kertymäfunktio,

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi

Lisätiedot

riippumattomia ja noudattavat samaa jakaumaa.

riippumattomia ja noudattavat samaa jakaumaa. 12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta

Lisätiedot

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly Bayesin pelit Kalle Siukola MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016 Toistetun pelin esittäminen automaatin avulla Ekstensiivisen muodon puu on tehoton esitystapa, jos peliä

Lisätiedot

3.11.2006. ,ܾ jaü on annettu niin voidaan hakea funktion 0.1 0.2 0.3 0.4

3.11.2006. ,ܾ jaü on annettu niin voidaan hakea funktion 0.1 0.2 0.3 0.4 Ü µ ½ ¾Ü¾µ Ü¾Ê 3.11.2006 1. Satunnaismuuttujan tiheysfunktio on ¼ ļ ܽ ܾ ÜÒµ Ä Ü½ ÜÒµ Ò Ä Ü½ ܾ ÜÒµ ܽ µ ܾ µ ÜÒ µ Ò missä tietenkin vaaditaan, että ¼. Muodosta :n ¾Ä ܽ ÜÒµ Ò ½¾ ܾ Ò ½ ¾Ü¾½µ ½ ¾Ü¾Òµ

Lisätiedot

Paneurooppalainen työterveyttä ja -hyvinvointia koskeva mielipidekysely

Paneurooppalainen työterveyttä ja -hyvinvointia koskeva mielipidekysely Paneurooppalainen työterveyttä ja -hyvinvointia koskeva mielipidekysely Edustavat tulokset Euroopan unionin jäsenmaasta Paketti sisältää Suomen ja EUjäsenvaltion tulokset Mielipidekyselyn muotoilu Paneurooppalainen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

KOTITALOUKSIEN SÄÄSTÄMISTUTKIMUS 2006. Kotitalouksien säästämistutkimus 2006 1

KOTITALOUKSIEN SÄÄSTÄMISTUTKIMUS 2006. Kotitalouksien säästämistutkimus 2006 1 KOTITALOUKSIEN SÄÄSTÄMISTUTKIMUS 2006 Kotitalouksien säästämistutkimus 2006 1 Arvopaperien omistaminen 2006 ( suomalaisista talouksista) (kohderyhmä 18-69 vuotiaat yks.hlöt) (n=1002) Omistaa arvopapereita

Lisätiedot

1 Määrittelyjä ja aputuloksia

1 Määrittelyjä ja aputuloksia 1 Määrittelyjä ja aputuloksia 1.1 Supremum ja infimum Aluksi kerrataan pienimmän ylärajan (supremum) ja suurimman alarajan (infimum) perusominaisuuksia ja esitetään muutamia myöhemmissä todistuksissa tarvittavia

Lisätiedot

Otanta ilman takaisinpanoa

Otanta ilman takaisinpanoa Otanta ilman takaisinpanoa Populaatio, jossa N alkiota (palloa, ihmistä tms.), kahdenlaisia ( valkoinen, musta ) Poimitaan umpimähkään (= symmetrisesti) n-osajoukko eli otos Merkitään tapahtuma A k = otoksessa

Lisätiedot