Kertauskaavio Imputointitoiminto

Koko: px
Aloita esitys sivulta:

Download "Kertauskaavio Imputointitoiminto"

Transkriptio

1 Kertauskaavio Imputointitoiminto Imputointimallin ja toiminnon paketille on tosiasiassa vain kolme vaihtoehtoa: Mallin selitettävä (a) Malliluovuttaja (b) Vastaajaluovuttaja (i) Muuttuja jota imputoidaan Kyllä Kyllä (ii) Imputoitavan muuttujan puuttuneisuusindikaattori Ei Kyllä Imputointi 2013_Jatko-osio2, 1

2 Muuttujan muunnos imputointimallissa Jatkuvaa muuttujaa ei ole aina järkevää käyttää sellaisenaan. Esimerkiksi jos kuten meillä on imputoitavana muuttujana tulot, niin sen logaritmointia voi miettiä. Jos otetaan siitä logaritmi (eikä 0-arvoja ole), niin imputointimalli voidaan tehdä ihan samalla tavalla kuin lineaarisella oletuksella eli Data alku2; set alku; log_tulo=log(tulo); Proc glm data=alku; class x1 x2; Model log_tulo=x1 x2 x3/solution; output out=tulos p=pred; run; Ja itse imputointi determinisellä malliluovuttajamenetelmällä: Data tulo2; set tulos; if tulo ne. then imp_tulo=tulo; else imp_tulo=exp(pred); Tämä ei anna negatiivisia arvoja kuten lineaarinen vaihtoehto voi antaa, mutta kannattaa katsoa onko tulos muuten hyvä. 2

3 Kategorisen muuttujan imputointi Nyt siis kategorioita voi olla kaksi tai useampia. Sekä malliluovuttajamenetelmä että vastaajaluovuttajamenetelmä sopivat tilanteeseen, joskin joskus voi vaikeuksia ilmaantua ainakin malliluovuttajamenetelmän kanssa. Aluksi esitän ratkaisun joka kuitenkin usein toimii kohtuullisesti, ainakin jos imputoitujen arvojen jakauma on tärkeä, kuten usein on. Meidän kurssiharjoituksessamme kukin saa muodostaa sopivan binäärisen muuttujan tyyliin (vastaava tehtävä myös oikean tiedon muuttujalle income ja happy): data uusi; set alku; if response=0 then koyha2=.; else if income2<15000 then koyha2=1; else koyha2=0; Run; Tai data onni; set alku; if response=0 then onnellinen2=.; else if happy2>=8 then onnellinen2=1; else onnellinen2=0; Imputointimallin selittäjiä ei kannata muuttaa, niin saat vertailut samalta pohjalta. 3

4 Vaihtoehtoja malliluovuttaja -menetelmälle binäärisen kategorisen muuttujan tapauksessa 1 Jos ennustettu arvo on todennäköisyys koskien y-muuttujan tilaa (tyypillisesti merkitään että y = 1 tai = 0 missä y=1 voi merkitä esim. että y>0 tai y=työtön) vaikkapa p k, siis intervallilla (0, 1), niin on kolme vaihtoehtoa imputoidun arvon määrittelemiseksi eli siis onko se = 1 tai = 0: (a) luo tasaisesti jakautunut satunnaismuuttuja välille (0, 1), olkoon se vaikkapa u k, ja anna imputoiduksi arvoksi = 1 jos p k > u k, ja = 0 muussa tapauksessa. proc genmod data=alku descending; class x1 x2; model y1=x1 x2 x3/link=probit dist=bin type1; output out=uusi p=pred; run; Ohessa luku 8 on siemenluku jonka voit valita vapaasti. data uusi2; set uusi; u_k=ranuni(8); if pred>u_k then y_imp=1; else y_imp=0; run; Kutsun tätä tilastotieteelliseksi pyöristykseksi (vrt. matemaattinen seur. sivu) 4

5 Vaihtoehtoja malliluovuttaja -menetelmälle binäärisen kategorisen muuttujan tapauksessa 2 (hyvä tehdä imputointisoluttain) (b) käytä ulkopuolista informaatiota siitä minkä suuruinen ennustetun todennäköisyyden tulisi olla jotta imputoitu arvo olisi = 0 tai =1. Tämä tieto voi tulla myös ns. koulutusaineistosta jossa tätä rajatasoa on testattu. Joskus voi olla yksinkertaista soveltaa periaatetta, että jos todennäköisyys on pienempi kuin 0,5 niin imputoitu arvo = 0 ja vaihtoehtoisessa tapauksessa = 1; tämä vastaa matemaattista pyöristystä lähimpään kokonaislukuun: Parempi olisi löytää empiriaperäinen kriteeri, kuten kohta (c). (c) Kohdan (b) koulutusaineisto voi olla sama data mutta tuo tieto on otettu vastaajilta. Tällöin siis imputoinnissa oletetaan että sama jakauma pätee vastaamattomille. Siis jos esimerkiksi vastaajista on työttömiä 10% ja muita siis 90%, niin toimitaan SAS-koodein näin; katso miten eroaa (a):sta? data uusi2; set vanha; u_k=ranuni(8); if u_k<=0.1 then y_imp=0; else y_imp=1; run; 5

6 Vaihtoehtoja malliluovuttaja -menetelmälle binäärisen kategorisen muuttujan tapauksessa 3 Kun nuo imputoinnit on tehty, molemmillakin menetelmillä, on tietysti kiva katsoa miten se onnistui. Vertailun voi tehdä frekvensseillä, mutta koska kyseessä on kaksiarvoinen muuttuja [0 ja 1] niin keskiarvon käyttö on helpompaa mutta on turha ottaa mukaan prosenttipisteitä koska ne ovat melko samoja. Katso alta: Data uusi2; set uusi; mae_koyha=abs(koyha_imp-koyha); Mae_onnellinen=abs(onnellinen_imp-onnellinen); proc means data=uusi2 n mean; where response=0; var koyha koyha_imp onnellinen onnellinen_imp; run; 6

7 Vaihtoehtoja malliluovuttaja -menetelmälle kategorisen muuttujan tapauksessa 4 Varmaan havainnoit että vaihtoehto (a) stokastinen, vaihtoehto (b) deterministinen ja vaihtoehto (c ) myös stokastinen. Vaihtoehto (c) voidaan laajentaa moniluokkaiselle kategoriselle muuttujalle. Valitettavasti en keksinyt miten sen voisi kätevästi tehdä SAS:lla. Ohesssa on epäkätevä versio, jonka voit kokeilla mutta emme sitä laajamittaisesti tee ellemme keksi kätevämpää tapaa. Onhan niin että tämäkin olisi paras tehdä imputointisoluittain jolloin oheisella tavalla työ on isohko. Huomaa että tämäkin imputointi voi olla kätevämpi tehdä vastaaluovuttajamenetelmällä ja tuloskin voi olla parempi eli emme menetä tässä mitään. On hyvä tuo metodi kuitenkin tuntea. Opin sen oltuani WESTAT:ssa Marylandissa 1997 vierailulla. WESTAT on yksityinen surveyinstituutti joka tekee suuren osan hommistaan USA:n julkisille viranomaisille. 7

8 Vaihtoehtoja malliluovuttaja -menetelmälle kategorisen muuttujan tapauksessa SAS esimerkkki libname a 'z:\kurssi2013'; proc freq data=a.tulo; tables happy2 / outcum out =test ; run; /* Tuottaa kumulatiiviset prosentuaaliset frekvenssit*/ data test2; set test; if CUM_PCT ne.; proc print; run; /*Tästä otin tulokset kopioimalla seuraavaan eli paljon manuaalista*/ data tulo; set a.tulo; if response=0; rr=ranuni(19)*100; /*tasaisesti jakautunut satunnaismuuttuja*/ if rr< then happy_imp=0; else if rr< then happy_imp=1; /* Tässä siis asetetaan kumulatiivisen*/ else if rr< then happy_imp=2; /*frekvenssin mukaan rajat.*/ else if rr< then happy_imp=3; /* Satunnaisluvun siemenlukua voi vaihtaa*/ else if rr< then happy_imp=4; /*ja katsoa miten tulos muuttuu.*/ else if rr< then happy_imp=5; /* Olisi pohja moni-imputoinnille*/ else if rr< then happy_imp=6; /*ei-bayesiläisessä mielessä.*/ else if rr< then happy_imp=7; else if rr< then happy_imp=8; else if rr< then happy_imp=9; else if rr< then happy_imp=10; proc freq; where response=0;tables happy happy_imp;run; 8

9 Vaihtoehtoja malliluovuttaja -menetelmälle binäärisen kategorisen muuttujan tapauksessa 4 Tietystikin edellinen imputointitoiminto (a) olisi hyvä tehdä fiksuille imputointisoluille jolloin ollaan lähempänä todellista tilannetta. Stokastinen elementti edellisen Esimerkin imputoinnissa on erityisesti tarpeellinen, jotta muuttujan jakauma olisi todellisuutta paremmin vastaava. Eli jos jakauman hyvyys on olennainen imputoinnissa. Näin ei aina ole. Ilman stokastista elementtiä jakauma helposti siirtyy kohti keskiarvoa tai vastaavaa yleistä linjaa ja siis myös muuttujan varianssi pienenee. Tämän lienet jo havainnut aineistomme avulla. 9

10 Vaihtoehtoja malliluovuttaja menetelmälle Huomaa, että vastaajaluovuttajamenetelmä on usein (ei aina) parempi jakauman estimoinnissa. Malliluovuttajamenetelmässä stokastinen elementti voidaan lisätä lineaarisen mallin tai linearisoidun mallin tapauksessa seuraavasti: (i) Estimoidaan mallin keskineliövirhe (mean square error). (ii) Oletetaan, että imputoidut arvot noudattavat normaalijakaumaa ennustearvon ympärillä siten että poikkeamien keskiarvo = 0 ja varianssi = keskineliövirhe. (iii) Suoritetaan tarvittaessa robustointi jotteivät imputoidut arvot tule epärealistisen suuriksi tai pieniksi (kohta (ii):ssa katkaistu normaalijakauma). Perustelu: regressiomallin osuvuus (fit) mitataan selitysasteella, selittämätön osa taas mitataan residuaaleilla ja keskineliövirheellä jos yhtä mittaria halutaan käyttää. Siis jos tuo epäosuvuus lisätään deterministisesti imputoituun arvoon, pitäisi olla tuloksena järkevien imputoitujen arvojen kokonaisuus. 10

11 Vaihtoehtoja malliluovuttaja menetelmälle Ainoa ongelma tässä voi liittyä siihen miten tuo keskineliövirhe asetetaan imputointitoimintoon mukaan. Takana on väistämättä oltava jokin oletus sen osan jakaumasta. Varmaan kaikkein yleisin oletus on että jakauma on normaalinen mutta voihan se olla vaikkapa log-normaalinen. Kun sitten itse arvoja tuotetaan, niin otetaan niitä, joko tuolla tavalla jakautuneista satunnaisluvuista tai empiirisestä aineistosta eli residuaaleista. Satunnaislukujen kiusallinen puoli on, että mukana voi olla hyvin pieniä tai hyvin isoja arvoja joita ei empiriassa ole. Siksi olen maininnut tuon rajoittamisen, jolloin kaikki jäisivät keskihajonnan etäisyydelle. Esimerkki (jatkoa): SAS-koodina aikaisempi tilanne laajenisi näin: proc glm data=alku; class x1 x2; model y1=x1 x2 x3/solution; output out=uusi p=pred r=res;/*ehkä weight w*/; quit; 11

12 Vaihtoehtoja malliluovuttaja -menetelmälle /*Tekninen osite stratum mutta voisi olla oikeakin osite, jos sellainen on datassa.*/ data uusi2; set uusi; stratum=1; r=rannor(99); /*normaalisesti jakautuneen satunnaismuuttujan luonti; luku 99=siemenluku*/ if r<-1 then r=-1; if r>1 then r=1; /* Tuo on karkea robustointi mutta parempi olisi sellainen joka sopii aineistoon hyvin eli pitäisi tutkia erikseen, yhdessä arvon rmse*r kanssa.*/ if y1 ne. then y1_imp=y1; else y1_imp=pred+rmse*r; run; /*rmse = root mean square error otetaan manuaalisesti tulosteesta eli kopioidaan oheen tai tuotetaan eri proseduurilla laskennallisesti esim. residuaalien kautta. empiirinen rmse= neliönjuuri residuaalien varianssista; tästä esimerkki seuraavalla sivulla.*/ 12

13 Vaihtoehtoja malliluovuttaja -menetelmälle Esimerkki (jatkoa): /*rmse = root mean square error tuotetaan eri proseduurilla laskennallisesti residuaalien kautta; empiirinen rmse= neliönjuuri residuaalien varianssista*/ proc summary data=uusi2 nway; class stratum; var res; output out=apu var(res)=var_res; data apu2; set apu; rmse=sqrt(var_res); drop _type freq_; proc sort data=apu2; by stratum; proc sort data=uusi2; by stratum; run; data uusi3; merge uusi2 apu2; by stratum; if y1 ne. then y1_imp=y1; else y1_imp=pred+rmse*r; run; 13

14 Vaihtoehtoja malliluovuttaja -menetelmälle Esimerkki (jatkoa): Jos edellisen haluaa tehdä logaritmisena, niin mekanismi voisi olla seuraava: proc glm data=uusi; class agee business unemploy; model log_income2=agee business unemploy/solution ; output out=uusi2 p=pred r=res; quit; Jatka seuraavalta sivulta jossa siis stratum voi olla imputointisolu valinnan mukaan eli kukin jatkotemppu tulisi siis erikseen kullekin imputointisolulle. 14

15 Vaihtoehtoja malliluovuttaja -menetelmälle proc summary data=uusi2 nway; class stratum; var res; output out=apu var(res)=var_res; data apu2; set apu; rmse=sqrt(var_res); drop _type freq_; proc sort data=apu2; by stratum; proc sort data=uusi2; by stratum; run; data uusi3; merge uusi2 apu2; by stratum; /*Loglineaarinen malli plus stokastinen elementti.*/ if income2 ne. then income2_imp=income2; else income2_imp=exp(pred+rmse*r); run; proc means n mean min p5 p25 p75 p90 max cv; where response=0; var income2_imp income; run; 15

16 Stokastinen elementti muuten Moni-imputointimaailmassa (ks. myös Rubinin kirja 1987) esitetään stokastinen elementti siten että kullakin regressiokertoimella on (yleensä) normaalijakaumaan perustuva epävarmuus eli kukin niistä vaihtelee sen mukaan kuinka suuri on keskivirhe tai sen varianssi 2 eli N(, 2 ). Tämä on ihan hyvä yhden selittäjän tapauksessa, mutta useamman selittäjän tapauksessa ongelma on minusta se, miten kyetään muuttujien välinen riippuvuus hyvin ottamaan huomioon. En ole löytänyt tästä kunnon selostusta. Sen sijaan jos lisätään ennustettuun arvoon hyvin jakautuneita satunnaislukuja, ongelmaa ei ole paitsi että yksilötason osuvuus on tuuristakin kiinni, mutta siihen ei pidä uskoakaan liiaksi. 16

17 Yhteenveto: Imputointimalli plus Imputointitoiminto Malliluovuttaja Vastaajaluovuttaja Deterministinen Yksikertainen Esim. selitetään y:tä regressiomallilla, ja otetaan ennustetut arvot läheisyysmitaksi joiden avulla lainataan vastaajalta arvo. Esim. selitetään y:tä regressiomallilla, ja otetaan ennustetut arvot imputoiduiksi arvoiksi. Tee toinenkin esimerkki! Stokastinen Yksikertainen Monikertainen Esim. selitetään y:tä regressiomallilla, ja otetaan ennustetut arvot plus normaalijakautunut rmse läheisyysmitaksi. Voidaan monentaa satunnaisluvuilla. Esim. selitetään y:tä regressiomallilla, ja otetaan ennustetut arvot plus normaalijakautunut rmse imputoiduksi arvoksi. Voidaan monentaa satunnaisluvuilla. 17

18 Imputointimalli plus Imputointitoiminto mallittamisen kannalta 1 Imputointimalli on luonteeltaan ennustemalli, ei varsinaisesti selitysmalli, vaikka hyvän ennustemallin taustalla on yleensä riittävä selityskyky ja ymmärrys siitä miksi ja miten tietyt selittäjät vaikuttavat selitettävään muuttujaan. Tulkinta on erilainen, jos kyse on imputoitavan muuttujan selittämisestä vs. vastausindikaattorista. On hyvä huomata myös että imputointimalli estimaatteineen voi olla eri aineistosta kuin imputoitavasta aineistosta. Toki homma ei toimi edes teknisesti elleivät muuttujat ole samoja. Erästäkin imputointimalliani käytettiin muutamana seuraavana vuonna uuden aineiston imputointiin (samalla tavalla aina). Uskottiin että ilmiön rakenteet eivät olleet muuttuneet liikaa. Toisaalta säästettiin aikaa = rahaa; aikasarjankin uskottiin näin olevan paremman. AutImp-projektin ohjelma oli rakennettu siten, että imputointimalli voitiin valita riippumattomasti imputointiaineistosta. Näin ei käsittääkseni yleisesti ole. 18

19 Imputointimalli ja Imputointitoiminto mallittamisen kannalta 2 Imputointimallin ennustekyky on erityisen tärkeä malliluovuttajamenetelmässä. Ennusteen tulisi osua (tarvittaessa satunnaistermilisällä) hyvin aineistoon koko arvoalueella, ei vain keskimäärin. Olen kohdannut usein tilanteita joissa mallia ei onnistu tekemään hyväksi kaikkialla tai malli toimii jossakin kohdassa hyvin, toisessa huonosti, vaihtoehtoinen malli ehkä päinvastoin. Tällöin on päätettävä mikä osa on tärkein ja käytettävä tätä mallia. Vastaajaluovuttajavaihtoehto toimii parhaimmillaan hyvin kaikkien vastaajien arvoalueella, vaikka malli ei olisikaan valtaisan hyvin ennustava. Mutta sillä ei ole mitään mahdollisuuksia onnistua tämän arvoalueen ulkopuolella eli malliluovuttajavaihtoehto on ainoa mahdollisuus vaikka voikin olla vaikea, erityisesti jos vastaajat ovat myös rakenteellisesti (sekä y- että x-muuttujien kautta katsottuna) selvästi erilaisia kuin vastaamattomat. Yritysaineistoissa tämän kohtaa useammin kuin kotitalousaineistossa koska esimerkiksi isot ja innovatiiviset sekä nopeassa kehitys- tai laskuvaiheessa olevat yritykset ovat omanlaisiaan mutta x-muuttujia ei näiden kaikkien tekijöiden mallittamiseen ole. 19

20 Imputointimalli plus Imputointitoiminto mallittamisen kannalta 3 Imputointimallin rakentamiseksi ja hyvän ennustekyvyn vahvistamiseksi kannattaa kokeilla malliin sijoitettavaksi mahdollisimman paljon x-muuttujia, myös niiden eri muodoissa kuten neliöitynä, logaritmoituna ja interaktioina. Outlierit voivat sotkea tilannetta, joskus ne on syytä poistaa mallittamisesta, ainakin jos voidaan ajatella että tämänkaltaisia yksiköitä ei esiinny imputoitavassa joukossa. Kiinnostava kysymys on, onko syytä käyttää malleissa otos- tai muita painoja. En anna tähän tyhjentävää vastausta, koska sellaista ei liene. Joihinkin imputointeihin paino kuuluu, jos takana on tietty oletus (esim. keskiarvo voi olla hyvä laskea painotettuna jos uskotaan, että se painolla tuotettuna sopii vastaamattomiin; mutta mistä sen varmasti tietää?), mutta pääneuvoni on, että jos painotus parantaa imputointimallin ennustekykyä, niin käytä painoja. Huomaa, että painoissa olevaa tietoa, vaikkapa ositemuuttuja, voidaan sisällyttää myös imputointimallin selittäjäksi. 20

21 Erityisnäkökohtia vastaajaluovuttaja -menetelmästä Mallia siis myös käytetään jotta löydettäisiin sopiva luovuttaja, jolta arvot puuttuvaan kohtaan lainataan (siis sama arvo tulee ainakin kahdelle yksikölle aineistossa). Tähän on toki olemassa iso määrä vaihtoehtoja. Varsin luonnollista on, että imputoitava arvo otetaan jostain tämän yksikön läheisyydestä, naapurustosta, jolloin oletetaan että naapurustossa on samanlaisia tai ainakin samankaltaisia yksiköitä. Nyt on ongelmana löytää tämä naapurusto eli samankaltaiset yksiköt. Väistämättä joudutaan etsimään sopivia metriikkoja hyvän naapuruston löytämiseksi. Tämä on siten avainkysymys vastaajaluovuttajamenetelmille. Yksinkertaisin ratkaisu, joka toteutetaan usein hyvän imputointisolun sisällä, on olettaa että kaikki ovat yhtä lähellä toisiaan, jolloin luovuttaja valitaan satunnaisesti, joko siten että sama yksikkö voi luovuttaa vain kerran tai ei aseteta mitään rajoja. Muutoin on käytössä euklidista etäisyyttä, mallin antamia ennustearvoja ja monimutkaisia muita etäisyysmittoja, myös maksimi useista mitoista. Kurssillamme taas ovat olleet mallin ennustearvot. 21

22 Erityisnäkökohtia vastaajaluovuttaja menetelmästä 2 Termi hot deck tai hot decking on paljon käytetty erityisesti menneisyydessä osittain synonyymina vastaajaluovuttajamenetelmälle. Alun perin tämä kylmällä kannella tehty luovuttajan valinta tapahtui imputointisoluttain satunnaisesti (random hot deck ) eli kuka tahansa samalta kannelta saattoi tulla valituksi. Myöhemmin on kehitetty sen lähimenetelmiä, kuten esimerkiksi tapaa jolla joukko on järjestetty fiksuun läheisyysjärjestykseen ja sitten poimittu sieltä lähin tai läheinen. Meidän datallamme toivon kokeiltavan tätä satunnaisen luovuttajan valintaa. SAS-teknisesti se voisi tapahtua esimerkiksi siten että asetetaan aineisto satunnaiseen järjestykseen ja molemmilta puolin puuttuvaa etsitään läheinen luovuttaja. Aikaisempi viivästeohjelma sopii tähän siten että imputointimallin ennusteen ( pred ) sijalle asetetaan tasaisesti jakautunut satunnaismuuttuja: Data uusi; set vanha; Random=ranuni(66); _random=-random; Proc sort; by random; lag1=lag1(y1);. 22

23 Monikertainen imputointi 1 Katsomme vielä monikertaista imputointia soveltaen SAS MI modulia ja myös SPSS:n vastaavaa modulia. Mutta jotta paremmin ymmärtäisimme sen ominaisuuksia, esitän lyhyesti moni-imputoinnin keskeiset periaatteet. Tavallisinta on siis imputoida puuttuvan arvon tilalle yksi arvo = yksikertainen imputointi tai yksittäisimputointi (SI = single imputation). Voi olla myös perusteltua imputoida useampi arvo puuttuvan paikalle jolloin puhutaan monikertaisesta tai moni-imputoinnista (MI = multiple imputation). Moni-imputoinnissa on kaksi strategiaa itse aineiston muodostamisen kannalta: 23

24 Monikertainen imputointi 2 (i) muodostetaan useita havaintoaineistoja joissa kussakin on siis omat imputoidut arvot, tai (ii) laajennetaan yhtä havaintoaineistoa siten, että siellä on siis samat tilastoyksiköt useampia kertoja imputoidun aineiston osalta. Tätä kutsutaan myös nimellä fractional imputation (Robert Fay). Itse sovelsin tätä moni-imputoinnin nimellä 1990-luvun alussa. Jälkimmäinen on hankala toteuttaa jos puuttuneisuusmekanismi on kirjava. Huomaa, että tässä jälkimmäisessä tapauksessa on imputoinnin kohteena olevan tilastoyksikön otospaino pidettävä samana. Se onnistuu yksinkertaisesti siten, että kukin alkuperäinen paino jaetaan imputointien määrällä. Strategia (i) on alkuperäinen moni-imputoinnin strategia, ja Rubinin jo 1970-luvulla esittämä. Strategia (ii) olisi kätevämpi jos siis toteutettavissa tavallisen survey-instituutin asiakkaalle, koska siinä voidaan toimia yhden aineiston kanssa. 24

25 Monikertainen imputointi Graafinen havainnollistus (i) (ii) Ei puuttuvuutta Ei puuttuvuutta Ei puuttuvuutta Ei puuttuvuutta Painot jaetaan imputointien määrällä Imputoitu Imputoitu Imputoitu Imputoitu Imputoitu Imputoitu Kustakin täydennetystä aineistosta estimoidaan tarvittavat tulokset ja sitten jatketaan loppuyhteenvetoon kuten esitetään jatkossa. 25

26 Monikertainen imputointi 2 Alkuperäisen moni-imputoinnin perusidea on seuraava: Olkoon L = imputointien u lukumäärä (number of imputations), = estimoitava parametri (parameter being estimated, and its pointestimate and variance estimate, respectively, see below), jonka estimaatti olkoon = Q ja vastaava varianssiestimaatti = B. Kumpikin näistä on laskettu kuten tavallinen estimaattori siten että aineistossa ovat mukana myös imputoidut arvot. Estimaatti voi siis olla mikä tahansa, vaikkapa keskiarvo, mediaani, totaali, desiilipiste tai logitestimaatti tai regressiokerroin tai suhde. 26

27 Monikertainen imputointi 3 Tällöin moni-imputoitu piste-estimaatti on yksinkertainen keskiarvo L Q u u QMI Vastaava varianssiestimaatti on hieman monimutkaisempi B MI B u u 2 L 1 1 ( 1 ) ( Q ) u u QMI L L 1 Tässä on siis kaksi komponenttia, eri imputoinneissa laskettujen varianssien keskiarvo (sisäinen varianssi) ja imputointien välinen varianssi (muistuttaa tavallista otosvarianssia). On syytä huomauttaa, että monikertainen imputointi ei ole erillinen menetelmä, vaan se koostuu useista yksikertaisista imputoinneista. Kaikessa kirjallisuudessa asia ei ole näin esitetty. Monentaminen vaatii välttämättä stokastisen elementin, mihin on sekä Bayesiläinen että epäbayesiläinen strategia. 27

28 Monikertainen imputointi 4 The initial multiple imputation was developed by Donald Rubin. It was based on the Bayesian theory. Some years ago this theory was criticized by the Norwegian Jan Björnstad. A reason was that Rubin s strategy is not well working in many practical situations. Hence he uses the term non-bayesian. Consequently he re-constructed the variance formula, not the pointestimate. His formula includes a correction coefficient k B MI B u u 1 1 ( JB) ( k ) ( Q u u QMI L L L 1 2 ) Usually k is not equal to 1 as in the Rubin s formula, but it is where f = the nonresponse rate. You see that the uncertainty of the estimate using partially imputed data increases while the nonresponse rate. This is logical. See his paper and the discussion about it. k 1 1 f 28

29 SPSS kokeilua Aloitukseksi voisi kannattaa katsoa miltä puuttuneisuus näyttää. Datamme osalta tiedätkin tilanteen mutta katso vielä. 29

30 SPSS kokeilua 2 Pian kuitenkin kannattaa lähteä imputointiin jolloin voisi olla hyvä katsoa aluksi puuttuneisuuden luonne vielä. En laittanut valikkoon mitään, mutta tee muutama kokeilu 30

31 SPSS kokeilua 3 Nyt voitkin sitten kokeilla monikertaista imputointia. Tämä tuottaa tuloksen. Jos laitan myös happy2 -muuttujan, se ei kykene tuottamaan tuloksia. Ehkä pelaamme ensin income2-imputoinnilla Ja yritämme saada mahdollisimman hyviä tuloksia aikaan. Huomaa että ellet muuta imputointien määrää, se antaa viisi täydennettyä aineistoa Ja tuloksia kullekin. 31

32 SPSS kokeilua 4 Koska imputoitu data tallennettiin, imputoituja arvoja tulee viisi, ohessa muutamia arvoja Imputonnista 1. Huomaat miten ne on liputettu eli merkattu (kutsun tätä paradataksi). 32

33 Monikertainen imputointi SAS:lla Now I give an example that is basically similar as used in our deterministic model-donor method, but now several imputed data sets can be performed. This means that the procedure MI uses a stochastic replication step to add some noise to the predicted values. It is expected that the variation of the imputed values will be increased from the deterministic method. I do not present in details how the Bayesian stochasticity for MI has been technically done. You can find details from the SAS Help and Documentation under the Proc MI. You see that there are several alternative approaches to MI but I only present this regression one. The SAS codes I copied from the Example 44.3: Regression Method But I do not present a second method under this example. Note that you can copy other methods from the same manual and try with other methods. For me, this program is problematic since I will receive some results like from a Black Box. I know that the SAS manual includes references but looking for these many details will not become clear still. Be careful and try to check the quality of the methodology. 33

34 Monikertainen imputointi SAS:lla 2 Proc MI codes continue The below SAS codes give the output file outex3 as in the example but you can change the name, of course. Seed = seed for random numbers that you can choose as you wish. Tässä tulee 10 imputoinnilla täydennettyä tiedostoa. proc mi data=alku round=.1 mu0= seed= out=outex3 nimpute=10; class x1 x2 ; monotone reg(y1/ details); var x1 x2 x3 y1; run; You see that the model statement is formed differently to the GLM and other models, e.g. the dependent variable should be last in the variable list. 34

35 Monotone and FCS Regression Methods Katso SAS Documentation. Alla ote itse imputoinnista The missing values are then replaced by where are the values of the covariates and * is a simulated normal deviate. 35

36 Monikertainen imputointi SAS:lla 3 Proc MI codes 2 Now I continue like earlier computing the successfulness indicators. There will be here 5 completed data sets as default but you can choose more or less. data imputed; set outex3; if y1_resp=0; /*this variable is good to create to the file in order to separate which values are imputed*/ indiv_error=abs(y1_imp-y1); /*See the output file how y1_imp will be coded*/ proc summary; class _imputation_; var y1_imp; output out=mi mean(y1_imp indiv_error)=mean_y1_imp mean_error cv(y1_imp)=cv min(y1_imp)=min p10(y1_imp)=p10 p25(y1_imp)=p25 p50(y1_imp)=p50 p75(y1_imp)=p75 p90(y1_imp)=p90 max(y1_imp)=max; run; The point estimates you will get automatically looking for _type_=0. 36

37 Monikertainen imputointi SAS:lla 4 Proc MI codes 2 How to see what will be the variance estimate when following either Rubin s or Björnstad s approach? In this case, we work for the full data sets, i.e. for outex3. proc summary data=outex3; class _imputation_; var y1; output out=mi2 mean(y1)=q stderr(y1)=stderr mean(y1_resp)=resp; /*Variable _imputation_ is created automatically.*/ data mi2b; set mi2; if _type_=1; /*we do not need this aggregate.*/ f=1-resp; b=stderr*stderr; run; 37

38 Monikertainen imputointi SAS:lla 5 Proc MI codes 3 And now we get the final estimates straightforwardly applying the above formulas: proc summary data=mi2b; var q b f; output out=mi_sum mean(f b q)=f b q var(q)=var_mean ; data mi_sum2; set mi_sum; k=1/(1-f); rubin=var_mean+(1+1/5)*b; bjornstad=var_mean+(k+1/5)*b; rubin_stderr=sqrt(rubin); bjornstad_stderr=sqrt(bjornstad); rubin_cv=rubin_stderr/q; bjornstad_cv=bjornstad_stderr/q; run; 38

39 Multiple imputation, Bayesian and non-bayesian We learned above the terms, Bayesian vs non-bayesian MI. It is not always clear how they differ, but there are some specific rules for the Bayesian presented e.g. in Rubin s book My above stochastic model-donor technique is not Bayesian but non-bayesian, thus when adding the noise to the predicted values. It is easy to continue from that to MI by changing a seed number for each imputation round. I here present the same for the Bayesian MI. (i) Draw a 2 r-1 random variable, say x i, and set (ii) 2 * (t) = MSE(t) (L-1)/ x i and 2 * (t+1) = MSE(t+1) (L-1)/ x i Draw n-r independent N(0,1) random numbers, say z i, and set replacement values for the missing y i in t (iii) y i (t)= predicted value + * (t) z i Repeat stage (ii) L times using different random numbers each case. This differs from my non-bayesian strategy basically from one additional stage, i.e., stage (i) is not in my non-bayesian strategy. I tested both approaches 20 years ago, but I did not find any dramatic difference in imputed results. 39

40 Real-donor methodology for the same case Tämä on periaatteessa ihan sama kuin jatkuvalle muuttujalle kun ennustemuuttujana on vastausindikaattori eikä ole mitään väliä sillä kuinka monikategorinen on imputointia vaativa muuttuja. Rakennetaan siis imputointimalli samalla tavalla kuin edellä ja viivästetään molempiin suuntiin ja ryhdytään korvaamaan puuttuvia arvoja läheisillä havaituilla arvoilla. This works exactly similarly as for the continuous variable presented before. So, you can specify and build the imputation model either for the response indicator or for the binary variable being imputed And next to search for a near neighbor and borrow the imputed values from this unit with an observed value. 40

41 Propensity scores and imputation cells Response indicator can be used also for constructing imputation cells (this is used in proc MI too) and imputing within such cells randomly. Thus, sort the predicted values and construct such cells as many as you think to be rational (e.g. 5-10% intervals). If you choose a donor randomly, you can also apply multiple imputation by changing a different seed number for each imputation. Robustointi havaituilla residuaaleilla Edellä malliluovuttajamenetelmässä esitin subjektiivisen robustoinnin katkaisemalla normaalijakauman keskihajonnan päähän keskiarvosta = 0. On myös mahdollisuus poimia residuaalit havaitusta joukosta ja lisätä näistä jokin ennustearvoon. Tämä voidaan tehdä: - täysin satunnaisesti koko aineistosta, - jakamalla aineisto imputointisoluihin jos epäillään että koko aineiston residuaalit eivät ole ideaaleja ja valitsemalla kussakin solussa yksi tai useampia residuaaleja. 41

42 Imputointimalli plus Imputointitoiminto mallittamisen kannalta Imputointimallin ennustekyky on erityisen tärkeä malliluovuttajamenetelmässä. Ennusteen tulisi osua (tarvittaessa satunnaistermilisällä) hyvin aineistoon koko arvoalueella, ei vain keskimäärin. Olen kohdannut usein tilanteita joissa mallia ei onnistu tekemään hyväksi kaikkialla tai malli toimii jossakin kohdassa hyvin, toisessa huonosti, vaihtoehtoinen malli ehkä päinvastoin. Tällöin on päätettävä mikä osa on tärkein ja käytettävä tätä mallia. Vastaajaluovuttajavaihtoehto toimii parhaimmillaan hyvin kaikkien vastaajien arvoalueella, vaikka malli ei olisikaan valtaisan hyvin ennustava. Mutta sillä ei ole mitään mahdollisuuksia onnistua tämän arvoalueen ulkopuolella eli malliluovuttajavaihtoehto on ainoa mahdollisuus vaikka voikin olla vaikea, erityisesti jos vastaajat ovat myös rakenteellisesti (sekä y- että x-muuttujien kautta katsottuna) selvästi erilaisia kuin vastaamattomat. Yritysaineistoissa tämän kohtaa useammin kuin kotitalousaineistossa koska esimerkiksi isot ja innovatiiviset sekä nopeassa kehitys- tai laskuvaiheessa olevat yritykset ovat omanlaisiaan mutta x-muuttujia ei näiden kaikkien tekijöiden mallittamiseen ole. 42

43 Imputointimalli plus Imputointitoiminto mallittamisen kannalta 2 Imputointimallin rakentamiseksi ja hyvän ennustekyvyn vahvistamiseksi kannattaa kokeilla malliin sijoitettavaksi mahdollisimman paljon x-muuttujia, myös niiden eri muodoissa kuten neliöitynä, logaritmoituna ja interaktioina. Outlierit voivat sotkea tilannetta, joskus ne on syytä poistaa mallittamisesta, ainakin jos voidaan ajatella että tämänkaltaisia yksiköitä ei esiinny imputoitavassa joukossa. Kiinnostava kysymys on, onko syytä käyttää malleissa otos- tai muita painoja. En anna tähän tyhjentävää vastausta, koska sellaista ei liene. Joihinkin imputointeihin paino kuuluu, jos takana on tietty oletus (esim. keskiarvo voi olla hyvä laskea painotettuna jos uskotaan, että se painolla tuotettuna sopii vastaamattomiin; mutta mistä sen varmasti tietää?), mutta pääneuvoni on, että jos painotus parantaa imputointimallin ennustekykyä, niin käytä painoja. Huomaa, että painoissa olevaa tietoa, vaikkapa ositemuuttuja, voidaan sisällyttää myös imputointimallin selittäjäksi. 43

44 Estimointi imputoidusta datasta Edellä olemme keskittyneet piste-estimointiin ja siinä harhaan. Se ei kuitenkaan ole riittävä vaan tarvitaan väliestimointia eli varianssiestimointia mikä johtaa keskivirheeseen ja luottamusväliin. Yleisin tapa lienee edelleen, että osin imputoidun aineiston keskivirheet lasketaan ihan kuin mitään imputointia ei olisi tehty. Tämä on toki epäkelpo strategia, sillä imputointiin liittyy epävarmuus mistä syystä keskivirheet ovat liian pieniä. Itse estimaatti on samaan aikaan toivon mukaan vähemmän harhainen eli voidaan pohtia sitä, mikä on tulosten kokonaishyvyys. Imputoinnin huomioimattoman keskivirheen harhaisuuden suuruus riippuu mm. - siitä paljonko imputoidaan; pieni imputoinnin määrä (oletan että hyvä imputointi) ei keskivirhettä aliestimoi merkittävästi -käytetystä imputointimenetelmästä; jos imputointimenetelmä säilyttää jakauman hyvin, harha myös aggregaattien keskivirheissä on pienempi - hyvä stokastinen komponentti imputoinnissa edistää asiaa. 44

45 Estimointi imputoidusta datasta 2 Perusideat koskien piste-estimaatteja ovat yksinkertaiset: - Tuota estimaatit - olkoot summia, keskilukuja, mallitulosteita tai mitä tahansa - ihan samalla tavalla kuin muutenkin. - Jos haluat piste-estimaatit moni-imputoinnin kautta, tuota useita piste-estimaatteja imputoimalla täydennetyistä havaintoaineistoista ja laske näiden keskiarvo (vertaa edeltä Yksikertainen ja monikertainen imputointi). Tämä edellyttää siis hyvän stokastisen elementin mukana oloa monentamisessa. Ja tämän tulee perustua kunnollisuuden periaatteen toteutumiselle (engl. proper imputation ). 45

46 Estimointi imputoidusta datasta 3 Piste-estimointi ei kuitenkaan ole riittävä vaan tarvitaan väliestimointia eli varianssiestimointia mikä johtaa keskivirheeseen ja luottamusväliin. Imputoinnin huomioimattoman keskivirheen harhaisuuden suuruus riippuu mm. - siitä paljonko imputoidaan; pieni imputoinnin määrä (oletan että hyvä imputointi) ei keskivirhettä aliestimoi merkittävästi - käytetystä imputointimenetelmästä; tähän liittyy monia näkökohtia joita voimme tutkia harjoituksissa kuten: jos imputointimenetelmä säilyttää jakauman hyvin, harha myös aggregaattien keskivirheissä on pienempi hyvä stokastinen komponentti imputoinnissa edistää asiaa. 46

47 Estimointi imputoidusta datasta 4 Jos ja kun analysoija haluaa tehdä varianssiestimointinsa kunnolla, on olemassa kaksi päävaihtoehtoa: (i) analyyttinen (kaavoja hyödyntävä) lähestymistapa (ii) toistettuihin estimointeihin perustuva lähestymistapa (replication) Toki lisäksi voidaan soveltaa kummankin yhdistelmiä. Heti alkuun on syytä todeta, että kaikkiin tilanteisiin (erityisesti jos otanta on kompleksinen ja siihen liittyvä puuttuneisuus myös) ei ole olemassa hyvää ratkaisua. Alan tutkimus on ollut voimakasta ehkäpä 20 vuotta ja uusia ratkaisuja on saatu aikaan. On toisaalta olemassa erilaisia lähestymistapoja sekä teoreettisessa että käytännöllisessä mielessä eivätkä tulokset toki aina ole samoja. Eli epävarmuutta mittaava varianssiestimointi on myös usein epävarmaa. Tämän kurssin loppuosassa en pyri tyhjentävään aiheen esittämiseen. Se on myös vaikeata koska jotain on tapahtumassa koko ajan ja tieteellistä väittelyä käydään koko ajan. Tarkoitukseni onkin mielikuvan antamisen lisäksi konkretisoida asiaa muutaman yksinkertaisen esimerkin kautta. 47

48 Estimointi imputoidusta datasta 5 Edellisen sivun jälkimmäinen vaihtoehto on jo esitetty, jopa yleisen kaavan muodossa, tai oikeammin kahden kilpailevan kaavan muodossa, joista Björnstadin esittämä antaa isompia variansseja ja on konservatiivisempi. Molemmissa on kuitenkin ongelmana se, miten ensin yksikertainen imputointi ja sitten monikertainen saadaan toteutetuksi hyvällä tavalla (kunnollinen proper ). Monissa käytännön imputoinneissa se ei ole ehkäpä mahdollista ollenkaan. Hyvä puoli tässä MIpohjaisessa lähestymistavassa on, että jokin lisävarianssi aina saadaan imputointien epävarmuutta kuvaamaan. Se voi olla liian pieni kuten Björnstad ja muutkin ovat väittäneet, mutta ei kuitenkaan nolla kuten monessa perinteessä. Edellisen sivun ensimmäisen vaihtoehdon perinteessä käytetään termiä kokonaisvarianssi, mikä muodostuu - kaikkien prosessiin sisältyvien varianssien summasta mikäli eri komponenttien välillä ei ole riippuvuutta. - mutta jos riippuvuutta on, on otettava huomioon niiden väliset kovarianssit mitkä voivat lisätä tai vähentää kokonaisvarianssia. 48

49 Estimointi imputoidusta datasta 6 Survey-prosessissa eri komponentteja voi olla paljon koskien epävarmuutta otannassa, yksikkövastauskadossa, erävastauskadossa ja sen imputoinnissa, mittausvirheissä ja niissä tehdyissä korjauksissa (editointi). Ollessani Southamptonissa ranskalainen kollegani Pascal Riviere kehitteli yleistä kaavaa kaikelle tälle mutta empiiriseen testaukseen asti hän ei päässyt koska eri komponenttien estimointiin ei ollut dataa. On hyödyllistä kuitenkin miettiä näitä kysymyksiä ja siis oppia näkemään, mistä epävarmuudet estimaateissa johtuvat. Aihe on myös hyvä metodologiseen tutkimukseen. Tartu siihen! Seuraavaksi esitän kaksi lähestymistapaa jotka soveltuvat yksikertaiseen imputointiin koskien tyypillisen piste-estimaatin (kokonaissumma, keskiarvo) varianssia. 49

50 Estimointi imputoidusta datasta 7 Kaksi analyyttistä lähestymistapaa kokonaissumman ja keskiarvon varianssin estimointiin imputointitilanteessa: (1) Särndal, Rancourt ja Lee mm. ovat esittäneet seuraavan yleisen muodon ^ ^ ^ ^ V TOT V SAM V IMP V MIX missä kokonaisvarianssi on otantavarianssin ja imputointivarianssin sekä näiden kovarianssityyppisen (sekatermin) varianssin summa. Yleensä voidaan ajatella että viimeinen termi on lähellä nollaa, ainakin jos imputointi on riippumaton otannasta, joten kokonaisvarianssi on kahden tekijän summa. Tämä muistuttaa MI-varianssia sikäli että MI:ssä ensimmäinen termi on otantatyyppisten varianssien keskiarvo ja toinen kertoo nimenomaan imputointien epävarmuudesta. Kaavalle löytyy kirjallisuudesta useille eri tilanteille tarkempi kaava. Esimerkkinä esitän vain yhden mikä koskee keskiarvon estimointia keskiarvoimputoinnin tilanteessa yksinkertaisen satunnaisotannan tilanteessa. Ositettuun satunnaisotantaan tämä on helppo yleistää laskemalla sama lauseke kullekin ositteelle ja sen jälkeen varianssien summa. Sama periaate sopii jos imputointi on soluttainen. 50

51 Estimointi imputoidusta datasta 8 Esimerkki tilanteeseen (1): s 2 ( ^ _ 1 V ( y) ( r y r ) 1 ) s N 2 ( y missä = otosvarianssi joka on laskettu vastanneista muuttujalle y. Kuten tunnettua, tavallinen varianssi ilman imputoinnin huomioon ^ _ 1 2 ottamista on: V ( y) s ( ) n r ) y n N r Nr N r N Tässä otosvarianssi lasketaan siis täydennetystä datasta eli n:lle. Keskiarvoimputointi pienentää otosvarianssia koska imputoidut arvot ovat vastaajien arvojen keskiarvoja. Havainnollistaakseni kaavojen eroja lasken niiden suhteen edellinen per jälkimmäinen. 2 N r n s ( yr ) ( )( ) 2 r r s ( y ) Tästä nähdään selvästi miten edellinen eli oikea varianssi on suurempi. Huomaa siis, että tämä voidaan tehdä kullekin imputointisolulle erikseen, jos keskiarvoimputointi tehdään näin. Miten jatko? s 2 n ( y r ) s 2 ( y r r ) 51

52 Estimointi imputoidusta datasta 9 (2) Uusotannan lähestymistapa. Kaksi tekniikkaa on tähän esitetty, Jackknife ja Bootstrap. Jackknifelle on varmaankin eniten esittänyt tuloksia J.N.K. Rao. Periaatteena on poistaa analyysistä yksi (tai ryhmä=psu) havainto (tai ja) kerrallaan ja toteuttaa imputointi tälle supistetulle datalle menetelmällä joka on käytössä ollut. Havainnon poistaminen tietystikin perustuu satunnaisuuteen. Jos tätä operaatiota toistetaan j=1,, J kertaa ja kukin estimaatti merkitään vastaavasti, saadaan ˆ n 1 2 V ˆ JKNF ( j ˆ) n j missä ˆ on piste-estimaatti saatuna siis J toiston keskiarvona halutulle parametrille. Tämä menetelmä sopii useille otanta-asetelmille ja myös useille parametreille. Ei ole ihan helppo hyvin ohjelmoida. Parempi etsiä jonkun tekemä ohjelma käyttöön. 52

53 Estimointi imputoidusta datasta 10 Bootstrap-tekniikkaa voisi sanoa simulointipohjaiseksi sikäli, että siinä toteutetaan surveyn perusoperaatiot useita kertoja ottamalla ns. Bootstrap-otos ja hyväksyttävä siihen sisältyvä puuttuneisuus ja imputoimalla tämä. Tilanne on kullakin L:llä kierroksella satunnaisuudesta johtuen hieman erilainen ja vastaavasti sekä estimaatit että niiden varianssiestimaatit. Varianssi tuotetaan sitten melko yksinkertaisella tavalla, mikä muistuttaa edellistä. ˆ V BOOT 1 L ( ˆ ˆ) j j 2 Bootstrap-simuloinnin toteuttaminen hyvin ei kuitenkaan ole helppo paitsi yksinkertaisissa asetelmissa. 53

54 Vaihtoehtoja vastaajaluovuttaja -menetelmälle Mallia siis myös käytetään jotta löydettäisiin sopiva luovuttaja, jolta arvot puuttuvaan kohtaan lainataan (siis sama arvo tulee ainakin kahdelle yksikölle aineistossa). Tähän on toki olemassa iso määrä vaihtoehtoja. Varsin luonnollista on, että imputoitava arvo otetaan jostain tämän yksikön läheisyydestä, naapurustosta, jolloin oletetaan että naapurustossa on samanlaisia tai ainakin samankaltaisia yksiköitä. Nyt on ongelmana löytää tämä naapurusto eli samankaltaiset yksiköt. Väistämättä joudutaan etsimään sopivia metriikkoja hyvän naapuruston löytämiseksi. Tämä on siten avainkysymys vastaajaluovuttajamenetelmille. Yksinkertaisin ratkaisu, joka toteutetaan usein hyvän imputointisolun sisällä, on olettaa että kaikki ovat yhtä lähellä toisiaan, jolloin luovuttaja valitaan satunnaisesti, joko siten että sama yksikkö voi luovuttaa vain kerran tai ei aseteta mitään rajoja (tätä kutsutaan huonolla nimellä satunnainen hot deck). Muutoin on käytössä euklidista etäisyyttä, mallin antamia ennustearvoja ja monimutkaisia muita etäisyysmittoja, myös maksimi useista mitoista. 54

55 Vaihtoehtoja vastaajaluovuttaja -menetelmälle Esimerkki : Olkoon kiinnostuksen kohteena oleva muuttuja kaksiarvoinen (0 vs 1), kuten työllinen vs työtön tai terve vs. ei-terve. Osa havaintoarvoista puuttuu eikä tiedetä kumpaan ryhmään yksikkö kuuluu. Käytettävissä olevilla x-muuttujilla tuotetaan malli logistisesti tai probistisesti sekä lasketaan estimoidut todennäköisyydet (propensity scores kuten edellä). Huomaa, että tässä tapauksessa malli on y-muuttujan malli, mutta että samaan tarkoitukseen voi tähdätä vastausindikaattorimallilla (ks. imputointimalliosion aloituskohtaa). Estimoinnissa käytettävien aineistojen koot ovat erilaiset. MITEN?. 55

56 Vaihtoehtoja vastaajaluovuttaja -menetelmälle Esimerkki jatkuu: Itse imputointi vastaajaluovuttajamenetelmällä (vrt. aikaisempaa esimerkkiä malliluovuttajalla) voisi tapahtua kahdella eri lähestymistavalla: (i) deterministinen: järjestä skoorit järjestykseen ja etsi lähin vastaaja puuttuvalle havainnolle ja käytä tätä arvoa imputoituna arvona. Jos kaksi on yhtä lähellä, valitse satunnaisesti (tästä tulee lievä stokastisuus) (ii) stokastinen: muodosta järjestetyistä skooreista riittävä määrä imputointisoluja, ja valitse kunkin sisältä satunnaisesti vastaaja jolta otat imputoidun arvon (moni-imputoinnissa sama voidaan valita useamman kerran). 56

57 Vaihtoehtoja vastaajaluovuttaja -menetelmälle Esimerkki : Olkoon imputoitava muuttuja monikategorinen. Tässä voidaan menetellä samalla tavalla kuin edellä esimerkissä, mutta helpointa toiminto on selittämällä vastausindikaattoria mikä on kaksiarvoinen muuttuja. Nyt saadaan kuten edellä estimoidut vastaustodennäköisyydet (skoorit) ja itse imputointi voi tapahtua täsmälleen samoilla päävaihtoehdoilla kuin edellä. Toki nyt imputoitu arvo voi olla mikä tahansa kategoria, eli lähin (deterministinen) tai joku läheisistä eli samasta imputointisolusta (stokastinen). Stokastinen vaihtoehto voidaan monentaa. 57

58 Vaihtoehtoja vastaajaluovuttaja -menetelmälle Esimerkki: Olkoon imputoitava muuttuja jatkuva tai sellaiseksi määritelty (vähintään järjestysasteikollinen siis). Mallittamisessa on nyt kaksi vaihtoehtoa kuten yleensäkin imputoinnissa eli selittää itse y-muuttujaa tai sen kaksiarvoista vastausindikaattoria. Edellinen vaihtoehto voidaan toteuttaa sopivalla selitysmallilla (lineaarinen regressio on tavallisin mutta usein linearisoituna). Jatkoperiaate näyttää samalta kuin edellinen mutta sisältää lisäpiirteitä. Malli estimoidaan ja ennustearvot lasketaan. Stokastisessa vaihtoehdossa näihin lisätään keskineliövirheen pohjalta (normaalijakautunut) satunnaistermi, kuten edellä. 58

59 Vaihtoehtoja vastaajaluovuttaja -menetelmälle Esimerkki 3 jatkuu: Jatko on kuitenkin erilainen. Näitä ennustearvoja tai niiden satunnaislisäversioita käytetäänkin nyt läheisyysmetriikkana ml. imputointisolujen muodostamiseen. -Perusläheisyysmetriikassa siis etsitään lähin arvo. Tästä seuraa siis joko deterministinen (malli ilman satunnaistermiä) tai stokastinen vaihtoehto (malli lisättynä hyvin jakautuneella satunnaistermillä). Huomaa että läheisin voi olla kaukanakin jos lähellä on tyhjää. Huomaa myös että usealle yksikölle voi olla sama yksikkö läheisin. Mitä kiusaa tästä koituu? - Jos estimoituja tai niiden stokastisia versioita käytetään imputointisolujen muodostamiseen suorassa järjestyksessä - määrä voi olla suurikin - niin jatko-operaationa luonnollinen on stokastinen vaihtoehto vetämällä imputoitu arvo kunkin solun sisällä olevilta vastaajilta. 59

60 Vaihtoehtoja vastaajaluovuttaja - menetelmälle Esimerkki - Sekavaihtoehto: Imputointimenetelmä voi olla myös osin malliluovuttaja- ja osin vastaajaluovuttajaperusteinen. Tällainen ratkaisu on esimerkiksi malliluovuttajaesimerkin 4 täydennys vastaajaluovuttajavaihtoehdolla. Aikaisemmassa osiossa ensin suoritettiin regressioimputointi eli puhdas ennustearvoilla imputointi ja jatkossa lisättiin satunnaistermi sopivasti (normaalisti) jakautuneesta jakaumasta. Tämä lisäys voi johtaa ilman katkaisua outoihin arvoihin eikä menetelmä katkaistunakaan kaikkia tyydyttäne. 60

61 Vaihtoehtoja vastaajaluovuttaja - menetelmälle Esimerkki - Sekavaihtoehto: Vaihtoehto on ottaa satunnaistermi vastaajilta. Tämä merkitsee ensin residuaalien laskentaa vastaajille samasta imputointimallista. Jatkossa poimitaan residuaali tästä havaitusta joukosta ja lisätään ennustearvoon. Tämä voidaan tehdä: - täysin satunnaisesti koko aineistosta, - jakamalla aineisto imputointisoluihin jos epäillään että koko aineiston residuaalit eivät ole ideaaleja ja valitsemalla kussakin solussa yksi tai useampia residuaaleja - soveltamalla vaikkapa edellisen sivun mukaista läheisyysmittaa. En ole varma, onko tätä menetelmää paljoakaan käytetty. Kaunis minusta. 61

62 Kaksi ensimmäistä moni-imputointia. Kumpi oli ensin? Mikä on seuraava? 62

Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen

Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen Luennot ja harjoitukset tiistaisin klo 16-19 Tässä osassa tarkennetaan englanninkielistä kokonaisesitystä. Keskitymme muutamaan tärkeimpään

Lisätiedot

Capacity Utilization

Capacity Utilization Capacity Utilization Tim Schöneberg 28th November Agenda Introduction Fixed and variable input ressources Technical capacity utilization Price based capacity utilization measure Long run and short run

Lisätiedot

Imputoi puuttuvat kohdat

Imputoi puuttuvat kohdat Imputoi puuttuvat kohdat Imputointi tarkoittaa tai määritellyn tiedon paikkaamista sellaisella korvikearvolla joka estimaatin laatua verrattuna siihen mikä saataisiin ilman eli jättämällä tuo tieto käsittelystä

Lisätiedot

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL FinFamily PostgreSQL 1 Sisällys / Contents FinFamily PostgreSQL... 1 1. Asenna PostgreSQL tietokanta / Install PostgreSQL database... 3 1.1. PostgreSQL tietokannasta / About the PostgreSQL database...

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Efficiency change over time

Efficiency change over time Efficiency change over time Heikki Tikanmäki Optimointiopin seminaari 14.11.2007 Contents Introduction (11.1) Window analysis (11.2) Example, application, analysis Malmquist index (11.3) Dealing with panel

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) Juha Kahkonen Click here if your download doesn"t start automatically On instrument costs

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Choose Finland-Helsinki Valitse Finland-Helsinki

Choose Finland-Helsinki Valitse Finland-Helsinki Write down the Temporary Application ID. If you do not manage to complete the form you can continue where you stopped with this ID no. Muista Temporary Application ID. Jos et onnistu täyttää lomake loppuun

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

HARJOITUS- PAKETTI A

HARJOITUS- PAKETTI A Logistiikka A35A00310 Tuotantotalouden perusteet HARJOITUS- PAKETTI A (6 pistettä) TUTA 19 Luento 3.Ennustaminen County General 1 piste The number of heart surgeries performed at County General Hospital

Lisätiedot

1. Liikkuvat määreet

1. Liikkuvat määreet 1. Liikkuvat määreet Väitelauseen perussanajärjestys: SPOTPA (subj. + pred. + obj. + tapa + paikka + aika) Suora sanajärjestys = subjekti on ennen predikaattia tekijä tekeminen Alasääntö 1: Liikkuvat määreet

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien

Lisätiedot

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi Helsingin yliopisto Otanta-aineistojen analyysi Kevät 2010 Periodi III Risto Lehtonen Teema 2 Estimaattoreiden varianssien estimointi Survey-analyysin lähestymistavat Kuvaileva survey Descriptive survey

Lisätiedot

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) Juha Kahkonen Click here if your download doesn"t start automatically On instrument costs

Lisätiedot

Gap-filling methods for CH 4 data

Gap-filling methods for CH 4 data Gap-filling methods for CH 4 data Sigrid Dengel University of Helsinki Outline - Ecosystems known for CH 4 emissions; - Why is gap-filling of CH 4 data not as easy and straight forward as CO 2 ; - Gap-filling

Lisätiedot

C++11 seminaari, kevät Johannes Koskinen

C++11 seminaari, kevät Johannes Koskinen C++11 seminaari, kevät 2012 Johannes Koskinen Sisältö Mikä onkaan ongelma? Standardidraftin luku 29: Atomiset tyypit Muistimalli Rinnakkaisuus On multicore systems, when a thread writes a value to memory,

Lisätiedot

Other approaches to restrict multipliers

Other approaches to restrict multipliers Other approaches to restrict multipliers Heikki Tikanmäki Optimointiopin seminaari 10.10.2007 Contents Short revision (6.2) Another Assurance Region Model (6.3) Cone-Ratio Method (6.4) An Application of

Lisätiedot

Results on the new polydrug use questions in the Finnish TDI data

Results on the new polydrug use questions in the Finnish TDI data Results on the new polydrug use questions in the Finnish TDI data Multi-drug use, polydrug use and problematic polydrug use Martta Forsell, Finnish Focal Point 28/09/2015 Martta Forsell 1 28/09/2015 Esityksen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

make and make and make ThinkMath 2017

make and make and make ThinkMath 2017 Adding quantities Lukumäärienup yhdistäminen. Laske yhteensä?. Countkuinka howmonta manypalloja ballson there are altogether. and ja make and make and ja make on and ja make ThinkMath 7 on ja on on Vaihdannaisuus

Lisätiedot

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä OULUN YLIOPISTO Tietojenkäsittelytieteiden laitos Johdatus ohjelmointiin 81122P (4 ov.) 30.5.2005 Ohjelmointikieli on Java. Tentissä saa olla materiaali mukana. Tenttitulokset julkaistaan aikaisintaan

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition) Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition) Esko Jalkanen Click here if your download doesn"t start automatically Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition) Esko Jalkanen

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

812336A C++ -kielen perusteet, 21.8.2010

812336A C++ -kielen perusteet, 21.8.2010 812336A C++ -kielen perusteet, 21.8.2010 1. Vastaa lyhyesti seuraaviin kysymyksiin (1p kaikista): a) Mitä tarkoittaa funktion ylikuormittaminen (overloading)? b) Mitä tarkoittaa jäsenfunktion ylimääritys

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

The CCR Model and Production Correspondence

The CCR Model and Production Correspondence The CCR Model and Production Correspondence Tim Schöneberg The 19th of September Agenda Introduction Definitions Production Possiblity Set CCR Model and the Dual Problem Input excesses and output shortfalls

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0 T-61.5020 Statistical Natural Language Processing Answers 6 Collocations Version 1.0 1. Let s start by calculating the results for pair valkoinen, talo manually: Frequency: Bigrams valkoinen, talo occurred

Lisätiedot

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu Returns to Scale II Contents Most Productive Scale Size Further Considerations Relaxation of the Convexity Condition Useful Reminder Theorem 5.5 A DMU found to be efficient with a CCR model will also be

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Operatioanalyysi 2011, Harjoitus 3, viikko 39

Operatioanalyysi 2011, Harjoitus 3, viikko 39 Operatioanalyysi 2011, Harjoitus 3, viikko 39 H3t1, Exercise 3.1. H3t2, Exercise 3.2. H3t3, Exercise 3.3. H3t4, Exercise 3.4. H3t5 (Exercise 3.1.) 1 3.1. Find the (a) standard form, (b) slack form of the

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31) Juha Kahkonen Click here if your download doesn"t start automatically On instrument costs

Lisätiedot

anna minun kertoa let me tell you

anna minun kertoa let me tell you anna minun kertoa let me tell you anna minun kertoa I OSA 1. Anna minun kertoa sinulle mitä oli. Tiedän että osaan. Kykenen siihen. Teen nyt niin. Minulla on oikeus. Sanani voivat olla puutteellisia mutta

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed Online Meeting Guest Online Meeting for Guest Participant Lync Attendee Installation Online kokous vierailevalle osallistujalle Lync Attendee Asennus www.ruukki.com Overview Before you can join to Ruukki

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

16. Allocation Models

16. Allocation Models 16. Allocation Models Juha Saloheimo 17.1.27 S steemianalsin Optimointiopin seminaari - Sks 27 Content Introduction Overall Efficienc with common prices and costs Cost Efficienc S steemianalsin Revenue

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Salasanan vaihto uuteen / How to change password

Salasanan vaihto uuteen / How to change password Salasanan vaihto uuteen / How to change password Sisällys Salasanakäytäntö / Password policy... 2 Salasanan vaihto verkkosivulla / Change password on website... 3 Salasanan vaihto matkapuhelimella / Change

Lisätiedot

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä OULUN YLIOPISTO Tietojenkäsittelytieteiden laitos Johdatus ohjelmointiin 811122P (5 op.) 12.12.2005 Ohjelmointikieli on Java. Tentissä saa olla materiaali mukana. Tenttitulokset julkaistaan aikaisintaan

Lisätiedot

The Viking Battle - Part Version: Finnish

The Viking Battle - Part Version: Finnish The Viking Battle - Part 1 015 Version: Finnish Tehtävä 1 Olkoon kokonaisluku, ja olkoon A n joukko A n = { n k k Z, 0 k < n}. Selvitä suurin kokonaisluku M n, jota ei voi kirjoittaa yhden tai useamman

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011

Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011 Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011 Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Epävarmuuden hallinta bootstrap-menetelmillä

Epävarmuuden hallinta bootstrap-menetelmillä 1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Network to Get Work. Tehtäviä opiskelijoille Assignments for students. www.laurea.fi

Network to Get Work. Tehtäviä opiskelijoille Assignments for students. www.laurea.fi Network to Get Work Tehtäviä opiskelijoille Assignments for students www.laurea.fi Ohje henkilöstölle Instructions for Staff Seuraavassa on esitetty joukko tehtäviä, joista voit valita opiskelijaryhmällesi

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Rekisteröiminen - FAQ

Rekisteröiminen - FAQ Rekisteröiminen - FAQ Miten Akun/laturin rekisteröiminen tehdään Akun/laturin rekisteröiminen tapahtuu samalla tavalla kuin nykyinen takuurekisteröityminen koneille. Nykyistä tietokantaa on muokattu niin,

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana Taustaa KAO mukana FINECVET-hankeessa, jossa pilotoimme ECVETiä

Lisätiedot

Counting quantities 1-3

Counting quantities 1-3 Counting quantities 1-3 Lukumäärien 1 3 laskeminen 1. Rastita Tick (X) (X) the kummassa box that has laatikossa more on balls enemmän in it. palloja. X. Rastita Tick (X) (X) the kummassa box that has laatikossa

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward. START START SIT 1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward. This is a static exercise. SIT STAND 2. SIT STAND. The

Lisätiedot

Bounds on non-surjective cellular automata

Bounds on non-surjective cellular automata Bounds on non-surjective cellular automata Jarkko Kari Pascal Vanier Thomas Zeume University of Turku LIF Marseille Universität Hannover 27 august 2009 J. Kari, P. Vanier, T. Zeume (UTU) Bounds on non-surjective

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

A250A0050 Ekonometrian perusteet Tentti

A250A0050 Ekonometrian perusteet Tentti A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin

Lisätiedot

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking) 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

Vertaispalaute. Vertaispalaute, /9

Vertaispalaute. Vertaispalaute, /9 Vertaispalaute Vertaispalaute, 18.3.2014 1/9 Mistä on kyse? opiskelijat antavat palautetta toistensa töistä palaute ei vaikuta arvosanaan (palautteen antaminen voi vaikuttaa) opiskelija on työskennellyt

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Alternative DEA Models

Alternative DEA Models Mat-2.4142 Alternative DEA Models 19.9.2007 Table of Contents Banker-Charnes-Cooper Model Additive Model Example Data Home assignment BCC Model (Banker-Charnes-Cooper) production frontiers spanned by convex

Lisätiedot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä

Lisätiedot

7.4 Sormenjälkitekniikka

7.4 Sormenjälkitekniikka 7.4 Sormenjälkitekniikka Tarkastellaan ensimmäisenä esimerkkinä pitkien merkkijonojen vertailua. Ongelma: Ajatellaan, että kaksi n-bittistä (n 1) tiedostoa x ja y sijaitsee eri tietokoneilla. Halutaan

Lisätiedot

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) (www.childrens-books-bilingual.com) (Finnish Edition)

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) (www.childrens-books-bilingual.com) (Finnish Edition) Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) (www.childrens-books-bilingual.com) (Finnish Edition) Click here if your download doesn"t start automatically

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

SIMULINK S-funktiot. SIMULINK S-funktiot

SIMULINK S-funktiot. SIMULINK S-funktiot S-funktio on ohjelmointikielellä (Matlab, C, Fortran) laadittu oma algoritmi tai dynaamisen järjestelmän kuvaus, jota voidaan käyttää Simulink-malleissa kuin mitä tahansa valmista lohkoa. S-funktion rakenne

Lisätiedot

FinFamily Installation and importing data (11.1.2016) FinFamily Asennus / Installation

FinFamily Installation and importing data (11.1.2016) FinFamily Asennus / Installation FinFamily Asennus / Installation 1 Sisällys / Contents FinFamily Asennus / Installation... 1 1. Asennus ja tietojen tuonti / Installation and importing data... 4 1.1. Asenna Java / Install Java... 4 1.2.

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Batch means -menetelmä

Batch means -menetelmä S-38.148 Tietoverkkojen simulointi / Tulosten keruu ja analyysi 1(9) Batch means -menetelmä Batch means -menetelmää käytetään hyvin yleisesti Simulointi suoritetaan tässä yhtenä pitkänä ajona olkoon simuloinnin

Lisätiedot