Yksinkertaista estimointia 1
|
|
- Topi Jurkka
- 7 vuotta sitten
- Katselukertoja:
Transkriptio
1 Yksinkertaista estimointia 1 Asetelmapainoa ja myöhemmin aivan vastaavalla tavalla muita otospainoja voidaan käyttää otosaineiston estimoinnissa. Tämä on periaatteessa varsin yksinkertaista jos kyse on piste-estimaatista. Otossurveyden tyypillisiä kiinnostuksen kohteita ovat totaali eli kokonaissumma tai kokonaismäärä ja keskiarvo, mutta toki myös monet muut kuten mediaani ja muut kvantiilipisteet. Huomaa, että kenties kaikkein käytetyin tunnusluku suhteellinen frekvenssi on luonteeltaan keskiarvo (esim. jos koodattu 1=kiinnostuksena oleva kategoria, 0=muut). Niinpä totaalin τ estimaatti tulosmuuttujalle y on yksinkertaisesti asetelmapainoilla t a y painotettu summa yli otoksen s k k Kaikki ohjelmistot antavat oikean tuloksen, kun muistaa laittaa mukaan painomuuttujaksi oikean painon. Ohessa painoa on merkitty a:lla mikä aluksi on asetelmapaino mutta käytännössä eli vastaajien aineistossa sen suoraviivainen muunnelma eli peruspaino. Myöhemmin tarkastelemme parempia painoja. Laskentatapa on silti sama. 99 s
2 Yksinkertaista estimointia 2 Vastaavasti voidaan laskea keskiarvon estimaatti jakamalla totaali painojen summalla eli kyseessä on tavallinen painotettu keskiarvo. ak y s y Piste-estimaattien lisäksi on siis välttämätöntä tuottaa myös ak väliestimaatteja (en vaadi kokeessa näiden yksityiskohtia s mutta voit osoittaa pätevyytesi silti). Lähtökohtana on estimoida piste-estimaatille varianssi ja sen jälkeen ottamalla tästä neliönjuuri saadaan keskivirhe ja edelleen tästä voidaan edetä luottamusväleihin. Varianssiestimaatin peruskaava y:n totaalille voidaan esittää muun muassa seuraavassa muodossa: var( t) ( fns 2 ay) Tässä s 2 (ay) on tavallinen otosvarianssi sulkeissa olevalle muuttujalle (siis otospainon ja tulosmuuttujan tulomuuttujalle) laskettuna siis otoksesta, ja f on äärellisen perusjoukon korjauskerroin = (N-n)/N, joka voidaan isommissa perusjoukoissa jättää huomioimatta. Lisäksi keskivirheeseen vaikuttavat ryvästys ja ositus mutta niiden tekniikkaa en tarkemmin käsittele. Ohjelmat hoitavat soveltajalle asian. 100
3 Yksinkertaista estimointia 3 Jos otanta-asetelma perustuu ositteisiin, niin lauseke on muodostettava kullekin ositteelle erikseen, vaikkei niissä ole sovellettu erilaista asetelmaa. Tämä johtuu siitä että kussakin ositteessa otos poimitaan riippumattomasti toisen ositteen poiminnasta. Tämä riippumattomuus toisaalta helpottaa jatkoa sillä koko totaalin varianssi saadaan yksinkertaisena ositevarianssien summana. Sama ei päde keskiarvon varianssiestimaatille. Siis keskiarvon varianssiestimaatti ei ole ositteiden varianssiestimaattien summa. Jos tavoiteperusjoukon koko N on tunnettu, niin keskiarvon varianssiestimaattori ositetussa otannassa on ositteiden totaalien varianssien summa jaettuna N 2 :lla. 2 _ f Ja yleisenä kaavana: hnhsh ( ay) h var( y) 2 N [n korvataan r:llä vastanneiden datassa, myös edellä] Huomaa kuitenkin, että piste-estimaatti on suoraan tuotettavissa vaikka sisältymistodennäköisyys ja sitä kautta asetelmapaino perustuisi ositteisiin ja yhteen tai useampaan asteeseen tai vaiheeseen. Käyttäjä siis vain sisällyttää oikean painomuuttujan analyysiin eikä hänen siis tarvitse perusteellisesti tietää miten se on muodostettu. 101
4 Näkökohta joka unohtui edeltä: Käytetään myös termiä implisiittinen ositus, missä tapauksessa ei siis eksplisiittisesti määritellä ositteita ja poimita niiden sisältä otosta, kutakin riippumattomasti. Vaan implisiittisyys syntyy siitä, että aineisto on jossain järjestyksessä tunnettujen muuttujien mukaan, kuten ainakin alueen ja usein myös iän ja ehkä sukupuolen tai perheen=osoitteen. Jos poiminta on tasavälistä, syntyy otos jossa on melko tarkasti samoissa suhteissa havaintoja noiden implisiittisten ositusmuuttujien mukaan. Käytännössä siis sisältymistodennäköisyydet ovat lähes samoja. Tätä voi käyttää hyväksi myös estimoinnissa. Painot voisi hyvä heti peruspainovaiheessa laskea sopivasti muodostettujen explisiittisten ositteiden mukaan, siis käyttäen implisiittisen osituksen muuttujia tyyliin: w h = N h /r h missä h on esimerkiksi sopiva alue tai alueen ja ikäryhmän muodostama osite. 102
5 Otosaineiston estimointi käytännön kannalta Otanta on siis sitä yksinkertaisempi, mitä vähemmän asteita tai vaiheita siinä on. Ositus ei lisää piste-estimoinnin monimutkaisuutta mutta varianssiestimointiin se vaikuttaa. Osittamisesta voidaan tuottaa oma DEFF jos halutaan, jolloin nähdään pienentääkö se keskivirhettä vai suurentaako se sitä. Ihmissurveyssä osittamisen vaikutus ei yleensä ole suuri mutta yrityssurveyssä on, erityisesti jos ositus perustuu yrityksen kokoon kuten yleensä on asianlaita. Otosten poimintaa helpottavat ohjelmat, kuten SAS:n SurveySelect, hoitavat otannan tekniikan jos tietää mitä haluaa, mutta ei useampiasteisessa (- vaiheisessa) otannassa yhdellä kertaa, vaan on edettävä aste (vaihe) kerrallaan ja hoidettava näiden yhteenveto itse. Eli ei asia hoidu täysin automaattisesti. Vastaavasti analyysivaiheessa, johon on käytettävissä SAS:n SurveyMeans, SurveyFreq ja SurveyLogistic ja SPSS:n vastaavat modulit Complex Samples kohdasta, ohjelma ymmärtää hyvin yhden ryvästymisen muttei kahta, se on varianssiestimoinnin kannalta hoidettava itse. Piste-estimointihan hoituu oikeaa painoa käyttämällä. Yksi ositus ohjelmistoissa on onneksi mukana. Puuttuneisuuden erityispiirteitä nämä ohjelmat eivät hoida automaattisesti. 103
6 Perusestimointi 1 Mallivaihtoehtoja survey-datalla tai muilla datoilla on niin paljon, etten tässä yritäkään kattaa koko kirjoa. Siksipä havainnollistan kolmella erilaisella analyysitypillä (ml. mallityypillä) ja erikompleksisilla datoilla, miten survey ja nimenomaan otossurvey vaikuttaa analyysiin. Ensimmäinen analyysityyppi on perusestimointi, joka voi tuottaa piste- ja väliestimaatteja koko tutkimusperusjoukolle kerrallaan tai sen osajoukoille tai osaryhmille. Englanninkielessä osaryhmiä kutsutaan sanalla domain mikä on myös ohjelmistoissa usein käytetty (tämä vastaa mallissa selittäjää). Yleiset periaatteet, jotka sopivat myös muille malleille: - Otospainojen käyttämättömyys takaa, että piste- ja väliestimaatteihin tulee harhaa, mutta sen suuruus ei aina ole valtaisa. Otospainon tulee myös olla oikea eli kuhunkin tilanteeseen parhaiten soveltuva. Analyysipaino on usein kätevämpi jos estimoidaan suhteita ja muita rakenteita, muttei totaaleja (henkilömääriä, rahasummia tms.). - Muut otanta-asetelman ja sen jälkeen tehdyt toiminnot on syytä myös sisällyttää analyysiin (ositus, ryväs, ryväskoko, haastattelija), jos suinkin mahdollista eli jos on ohjelmisto tähän tarkoitukseen olemassa. Tämä takaa paremman onnistumisen väliestimoinnissa (keskivirheet, luottamusvälit, p- arvot, virhemarginaalit, varianssiestimaatit; suhteellisina tai absoluuttisina). 104
7 Perusestimointi 2 Aloitetaan esimerkeillä joissa ei ole ryväsvaikutusta ja käytännössä siis vain tilanteista joissa keskivirheestä ei erityisemmin huolehdita vaan pyritään siis piste-estimaatin hyvään tuottamiseen. Tämä siis vaatii vain sen, että ohjelmaan asetetaan (sopiva) painomuuttuja. ESS-datassa on siis painomuuttujana DWEIGHT jonka keskiarvo kussakin maassa on = 1. Suomen ja muutaman muun maan integroidussa datassa kaikki painot ovat valitettavasti = 1 eli painomuuttujalla ei ole vaikutusta suhteellisiin tuloksiin. Jos haluaa estimoida määriä, on muodostettava oma paino mutta en tässä niin tee. Tein ajon onnellisuus = happy-muuttujalle jolloin poistin puuttuvat tiedot ennen tätä SAS-ajoa (Valitsin muutaman maan): proc means n mean stderr; class cntry essround; var happy ; weight dweight; run; 105
8 Perusestimointi 3 The MEANS Procedure Analysis Variable : HAPPY How happy are you ESS Country round N Obs N Mean Std Error DK EE FI RU SPSS:n ohjelmissa paino asetetaan kohdasta weight cases ennen kuin mennään itse ohjelmaan. Osiossa Complex Samples on laajempia mahdollisuuksia. 106
9 Perusestimointi 4 Report SPSS:llä onnistuin saamaan seuraavan tuloksen käyttäen Compare means-osiota. Tässä on sukupuoli mukana, edellisessä ESS-kierros. Tulkitse tulokset ml. katsoen tilastollisesti merkitsevät erot. How happy are you Country Gender Mean N Std. Error of Mean DK 1 8, , , ,026 Total 8, ,018 EE 1 6, , , ,037 Total 6, ,028 FI 1 7, , , ,021 Total 8, ,016 RU 1 6, , , ,042 Total 6, ,032 Total 1 7, , , ,018 Total 7, ,013 Perusestimointiin otanta-asetelman puitteissa palataan puuttuneisuus- jakson jälkeen. 107
10 Puuttuneisuus 1 Tässä tunnettujen survey-tutkijoiden Bob Grovesin ja Mick Couperin kirjan pohjalta modifioimani kuvaus vastaamistilanteesta käyntihaastattelussa. Surveyn organisoijan kontrolloitavissa EI KYLLÄ Yhteiskunnallinen ja sosiaalinen ympäristö - Survey-ilma sto - Taloudellise t ehdot - Verkostoituminen Survey-asetelma - Aihe - Organisointi- ja hallinnointitapa - Tekniikka - Vastaajien valinta Vastaajakandidaatti - Rakenne (esim. kotitalous, yritys) - Sosio-demograafise t tekijät - Psykologinen asenne - Vastausrasite Haastattelija - Sosio-demograafise t tekijät - Kokemus/Osaaminen - Odotukset Haastateltavan ja haastattelijan vuorovaikutus ja keskinäinen luottamus Päätös osallistua tai kieltäytyä (osittain tai kokonaan) 108
11 Mitähän tästä puuttuu? Vastaus löytyy kun selailet eteenpäin. 109
12 Vastauskadon ja muun puuttuneisuuden syyt 1 Seuraavassa esitän eri lähteistä kokoamani luokittelun vastauskadon sekä muun puuttuneisuuden syille tai taustatekijöille. Luokittelun koodit ovat mahdollisimman pitkälle ongelman esiintymis- tai ilmaantumisjärjestyksen mukaisia. 0. Peittävyysongelmista johtuva puuttuneisuus: tämä on numeroitu 0:lla siksi, että se on hieman eri kategoriassa kuin tätä seuraavat syyt. Kysymys on alussa esitetyistä ylipeitosta ja alipeitosta, jotka on hyvä nähdä edelleen puuttuneisuuden lajeiksi. Ylipeitto on suhteellisen ongelmaton jos se havaitaan ja vastaavasti käsitellään oikein. Mutta alipeitto on oleva aina hyvin kiusallinen, erityisesti jos siihen ei saada otetta. Usein ylipeitto kertoo myös alipeitosta jotakin eli siis siitä, kuinka puutteellinen käytetty kehikko oli eli ali- ja ylipeiton suuruusluokka voi olla sama, mutta yleensä nämä kehikkovirheet kohdistuvat hyvin erilaisiin osaryhmiin (kuolleet vs. syntyneet; ulosmuuttaneet vs. sisäänmuuttaneet; exit vs. entry). 110
13 Vastauskadon ja muun puuttuneisuuden syyt 2 1. Osoite- tai muu yhteystieto ei ole oikea eikä vastaajaa tavoiteta missään tapauksessa. Yksikkövastauskato sattuu siis väistämättömästi. Tällöin ei ehkä tiedetä onko kohde enää tavoiteperusjoukon jäsen, joten kyse voi olla myös ylipeitosta. 2. Vastaajakandidaatti on väliaikaisesti tavoittamattomissa mutta häntä ei tavoiteta useista yrityksistä huolimatta tiedusteluun käytettävissä olevan ajan kuluessa. Ongelmat ovat suurin piirtein samat kuin edellisessä, mutta usein voidaan helpommin saada selville kuuluuko yksikkö vielä tavoiteperusjoukkoon. 3. Vastaajakandidaatti tavoitetaan mutta tämä on osittain tai kokonaan kykenemätön antamaan vastauksia tai ei halua niitä antaa. Syynä voi olla myös kieli- tai muu yhteydenpito-ongelma vastaajan tai haastattelijan välillä. Monet kyselyt, myös yrityskyselyt, ovat hyvin monimutkaisia, eivätkä kaikki kykene vaivattomasti antamaan oikeita tietoja. Seurauksena on täydellinen vastaamattomuus eli yksikkövastauskato, tai osittainen vastaamattomuus eli erävastauskato. Myös raportointivirheitä esiintyy mutta niihin on usein vaikea päästä kiinni. 111
14 Vastauskadon ja muun puuttuneisuuden syyt 3 4. Vastaajakandidaatti kieltäytyy osallistumasta tiedusteluun. Kieltäytyminen voi olla laadultaan tiukempi tai pehmeämpi. Syyt näihin voivat olla hyvin moninaiset mutta niihin ei tässä tarkemmin puututa. Tiukka kieltäytyjä ei tavallisesti vastaa mihinkään kysymykseen (yksikkövastauskato), mutta pehmeämpi antaa joitakin vastauksia tai kieltäytyy vain herkistä kysymyksistä (erävastauskato). Toisaalta herkät kysymykset voisi toteuttaa niinkin anonyymisti siten ettei edes haastattelija tiedä vastauksia. Tämä tapahtui ennen tietokoneaikaa tiputtamalla vastaukset vaaliuurnaan mutta nykyään voitaisiin ne näpytellä suoraan tietokoneelle. 5. Epäkelpo vastaus joko kokonaan tai osittain, mikä havaitaan jälkikäteisessä tarkastuksessa ja tapaus katsotaan parhaaksi sijoittaa vastauskadoksi. Tähän ryhmään voidaan sijoittaa myös muut edellä esiintymättömät tapaukset, kuten vastauksen katoaminen tai atkkäsittelyssä sattunut erehdys, joita ei toki saisi tulla. Myös tiedonkeruulaitteen rikkoutuminen voisi olla syy sisällyttää puuttuneisuus tähän ryhmään (esim. liikennevirtatutkimuksissa näin tapahtuu aika usein). 112
15 Vastauskadon ja muun puuttuneisuuden syyt 4 6. Yhteystieto vastaajasta taustatietoihin kadotetaan, johtuen vastaajan yksilöintitunnuksen katoamisesta jommallakummalla puolella (siis otoskehikkotiedostossa tai keruutiedostossa) tai että jommassakummassa on virhe eikä tietoja voida yhdistää. Tätä ongelmaa ei juuri voi olla käyntihaastatteluin tehdyissä tutkimuksissa mutta sen sijaan postitiedusteluissa on hyvinkin mahdollinen (ja usein tahallinen). Seurauksena on puutteellinen analyysi. 7. Epäselvät tapaukset, kuten epäselvyys siitä, onko kyseessä vastauskato vai ylipeitto. Vastaajan kykenemättömyys vastata (syy 3) tai pitkäaikainen poissaolo esimerkiksi ulkomailla voi oikeuttaa sijoittamaan tapauksen joko vastauskatoon tai ylipeittoon. Vastaavasti voidaan tarkentaa tavoiteperusjoukon ja sitä kautta tutkimusperusjoukon käsitettä. 113
16 Vastauskadon ja muun puuttuneisuuden syyt 5 8. Vastaus ei koske tutkimusyksikköä. Tämä ongelma on yleisempi yritystiedusteluissa kuin kotitaloustiedusteluissa, ja koskee lähinnä monitoimipaikkaisia kotimaisia ja vielä enemmän kansainvälisiä yrityksiä. Tässä on kaksi tyypillistä tilannetta: (i) saadut tiedot koskevat vain osaa toimipaikkoja, (ii) tiedot koskevat isompaa joukkoa, kuten toimipaikkakyselyssä koko yritystä tai yrityskyselyssä koko konsernia. Kummatkin ongelmat ovat erityishankalia eriteltäessä kansainvälisen yrityksen toimintaa tietyssä maassa. 9. Tarkoituksellinen puuttuneisuus. Aina ei ole järkevää kohdistaa tiettyjä tiedustelun osasia kaikille, vaan ottaa otos. Tilanne on tavallisin silloin, kun itse kysymyspatteristo on hankala mutta itse kysymysaihio ei ole kyselyn keskeisin. Osa-aineistosta tiedot saatetaan vastaavasti saada paremmin, koska tiedonkeruuoperaatiot voidaan resurssien puitteissa kohdistaa sinne paremmin. Myös voidaan osalle kohteista antaa suppeampi lomake jolloin tietty osa tiedoista jää puuttumaan. Yritystiedusteluissa pienille yrityksille annetaan monissa maissa suppeampi lomake kuin isoille (esim. tarkat kuluerittelyt kysytään vain isoilta). 114
17 Puuttuneisuuden mittaaminen 1 Kun aineisto koottu (tai myös jossain välivaiheessa), ja puuttuneisuus on koodattu siten, että kaikki erilaiset tapaukset (ks. edellinen luettelo, jolle voi tuottaa survey-spesifejä alajakoja) ovat eroteltavissa, niin on järkevää ryhtyä myös tuottamaan siitä lukuja sopivia mittareita käyttäen. Luvut ovat tässä vaiheessa laatumittareita, joita on kiintoisaa verrata aikaisempiin mahdollisiin saman alan surveyhin esimerkiksi. Kuten kaikkia lukuja, näitäkin voidaan tuottaa - absoluuttisina ja suhteellisina (rate, logit ym). En nyt käsittele tarkemmin absoluuttisia, koska oletan niiden olevan selviä kaikille. Suhteellisista luvuista yleensä, katso Liite 1. Ja tässä yhteydessä seuraavilta sivuilta jotka sisältävät puuttuneisuuden ydinmittarit. 115
18 Puuttuneisuuden mittaaminen 2 (1) Aloitan perussuhdeluvuista (rates), jolloin puuttuneisuus suhteutetaan riskijoukon määrään, mikä (i) yksinkertaisimmassa vaihtoehdossa toteutetaan ilman painoja - yksikkövastauskadon tapauksessa on tavoiteperusjoukkoon kuuluvien tutkimusyksiköiden määrä (merkitty havaintomatriisissa n:llä, siis ei ylipeittoa n(d) ) - erävastauskadon tapauksessa yksikkötason vastanneiden määrä ( r ). Näin ollen siis kokonaisvastausaste = r/n. Ylipeittoluku taas suhteutetaan n + n(d) -lukuun. Erävastausasteet ovat siis kullekin muuttujalle erikseen, nimittäjänä luku r. Kaikki luvut on hyvä tuottaa myös vastaamattomuuden syyn mukaan. Tavallisesti tällöin käytetään kolmea pääryhmää: tavoittamattomat, kieltäytyneet ja muut. Voidaan myös tuottaa kokonaisvastaamattomuuslukuja, jolloin muodostetaan yksikkövastauskadon ja erävastauskadon sopiva summa ja suhteutus n:ään. (ii) monimutkaisemmassa vaihtoehdossa painojen kanssa Samat luvut kuin edellä mutta painot ovat laskennassa mukana: - joko asetelmapainot tai asetelmapainojen ja jonkin yksikön tärkeyttä kuvaavan x-muuttujan yhdistelmä. Jälkimmäinen on hyödyllinen yrityssurveyssä, jolloin vastaamattomuus painotetaan yrityksen kokomuuttujalla. Silloin ilmenee puuttuneisuuden vaikuttavuus myös. 116
19 Puuttuneisuuden mittaaminen 3 (2) Perussuhdeluvut taustatekijöiden mukaan, jolloin edellä esitetyt luvut lasketaan erilaisissa taustaryhmissä. Yksikkövastauskadon tilanteessa nämä ovat x-muuttujia, mutta erävastauskadon tapauksessa myös sellaiset y-muuttujat joissa ei ole puuttuvuutta (tai on vähemmän puuttuvuutta) voivat tulla kyseeseen. Esimerkiksi - henkilösurveyssä sukupuoli, ikäryhmä, alue, koulutus, - yrityssurveyssä toimiala, yrityksen koko, alueellinen sijainti (rekisterin mukaan). (3) Monimuuttuja-analyysi jolloin vastausindikaattori (R=1 jos vastannut, =0 jollei) on selitettävänä muuttujana ja selittäjinä sellaisia joista kaikki tiedot ovat käytettävissä. Tähän tarkoitukseen sopivia malleja ovat erityisesti: - Logistinen (eli Logit-) regressio - Probit-regressio (katso myös Cloglog ja loglog Liitteestä). Monimuuttuja-analyysi on mitä hyödyllisin yksinkertaisten perustunnuslukujen laskemisen lisäksi. Pyri aina siihen, jos sinulla on useampia x-muuttujia käytettävissä. Huomaa, että oikeaoppisin tilanne on sellainen, jossa mallissa käytetään otospainoa (yksikkövastauskadon mallittamisessa asetelmapainoa, erävastauskadon mallittamissa peruspainoa). 117
20 Puuttuneisuuden mittaaminen 4 - Esimerkkejä 1a Ensin erävastauskato viiden muuttujan patterissa ESS-kierroksella 2. Vastaava harjoitus kierrokselta 4 luennolla demona käyttäen 5 opiskelijan valitsemia muuttujia. Tässä kullekin muuttujalle on tehty vastausindikaattori siten että jos muuttujan arvo on yli 10, niin arvo = 0, muuten = 1. Siis eri puuttuneisuuden ryhmät on yhdistetty. Analysoi ja Vertaa tuloksia tältä ja seuraavalta sivulta! Erävastauskato Suomessa ESS:n muutamassa muuttujassa kierroksella 2 23 Obs R happyres stfliferes stfecores stfgovres stfdemres COUNT PERCENT
21 Puuttuneisuuden mittaaminen 5 - Esimerkkejä 1b Erävastauskato ESS:n muutamassa muuttujassa kierroksella 2 25 Obs R happyres stfliferes stfecores stfgovres stfdemres COUNT PERCENT
22 Puuttuneisuuden mittaaminen 6 - Esimerkkejä 2a Koska ESS:stä ei ole yksikkövastauskatotietoja käytettävissä, teen monimuuttujamallin jossa selitettävänä on sellainen vastausindikaattori R, joka = 1 jos henkilö vastasi kaikkiin edellä esitettyihin viiteen kysymykseen ja = 0 jos johonkin vastausta ei tullut. Seuraavassa tulostusta logistisella regressiolla. Kokeile myös probitilla. Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq CNTRY AT <.0001 CNTRY BE <.0001 CNTRY CH <.0001 CNTRY CZ <.0001 CNTRY DE <.0001 CNTRY DK <.0001 CNTRY EE <.0001 CNTRY ES <.0001 CNTRY FI <.0001 CNTRY GB <.0001 CNTRY GR <.0001 CNTRY HU <.0001 CNTRY IE <.0001 CNTRY IS <.0001 CNTRY LU <.0001 CNTRY NL <.0001 CNTRY NO <.0001 CNTRY PL <.0001 CNTRY PT <.0001 CNTRY SE <.0001 CNTRY SI <.0001 CNTRY SK <.0001 CNTRY TR <.0001 CNTRY UA
23 Puuttuneisuuden mittaaminen 7 - Esimerkkejä 2b Jatkoa edelliseen (analysoi tulosta): Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq agegr agegr <.0001 agegr <.0001 agegr <.0001 agegr <.0001 agegr <.0001 agegr MARITAL MARITAL MARITAL MARITAL MARITAL MARITAL MARITAL MARITAL activity disabled activity education activity employed activity housework activity missing activity other activity retired activity unemployed activity unemployed
24 Puuttuneisuuskuvan vastaus löytyy täältä. Mitä siis puuttui? Kuva on Canberran survey-tutkimuslaitoksen läheltä 122
25 Puuttuneisuuden mekanismit 1 Surveyhin osallistuminen, mieluiten korkealla tasolla tai ainakin siten että osallistumattomuus olisi mahdollisimman harmitonta on luonnollisesti tavoitteena. Tästä ilmiöstä käytetään nimeä mekanismi (mechanism). Se voidaan käsitellä joko positiivisesta suunnasta tai negatiivisesta suunnasta, mitkä kumpikin johtavat käytännössä samaan tulokseen. Positiivisesti ajatellen puhutaan vastausmekanismista (response mechanism), kun taas toisin päin ajatellen joko puuttuneisuusmekanismista tai vastaamattomuusmekanismista. Mekanismin luonteen hahmottaminen on hyvin tärkeä tietää kun lähdetään imputointiin ja uudelleenpainotukseen. Jos ja kun sitä ei hyvin tiedetä, joudutaan tekemään mahdollisimman hyvät oletukset sen luonteesta. Seuraavassa esitetään tärkeimmät perinteiset käsitteet tältä alueelta. Esitän ne tässä ilman kaavoja. Jos kiinnostaa, löydät helposti vastaavat kaavoina. 123
26 Puuttuneisuuden mekanismit 2 Puuttuneisuus on täysin satunnaista, MCAR (Missing Completely At Random): Tällöin siis puuttuneisuus on täysin satunnaista tai ajatellaan sellaiseksi vaikka ei olisikaan. Puuttuneisuus ei siis riipu mistään muuttujista (xeikä y-) tilastollisesti merkitsevästi. Näin monissa survey-tutkimuksissa valitettavasti toimitaan. Puuttuneisuus satunnaista otanta-asetelman puitteissa, MARS (Missing At Random Under Sampling Design): Tällöin puuttuneisuus riippuu vain otanta-asetelman muuttujista. Tyypillisin tilanne lienee se, että oletetaan ositetun otannan tapauksessa että ositteiden sisällä puuttuneisuus on satunnaista muttei ositteiden välillä. Tämä on edellistä paljon järkevämpi oletus. Jos otannassa on hyvä ositus, myös riittävän laaja ja ottaa huomioon odotettavissa olevan puuttuneisuuden, niin tämä strategia voi olla oikeinkin hyvä. 124
27 Puuttuneisuuden mekanismit 3 Puuttuneisuus on satunnaista ehdollisesti MAR (Missing At Random) Huomaat että en ole kääntänyt MAR:ia suoraan vaan laittanut ehdollisuuden mukaan. Tämä on edellisen täydennys. Nyt oletetaan että puuttuneisuus riippuu (tai voi riippua) sekä otanta-asetelman muuttujista että muista mahdollisista saatavissa olevista apumuuttujista X. Tämä strategia tarkoittaa käytännössä sitä, että puuttuneisuus mallitetaan ja mallin tulosta käytetään hyväksi imputoinnissa ja uudelleenpainotuksessa. Puuttuneisuus ei ole satunnaista MNAR (Missing Not At Random) Käytännön elämässä ei voida kuvitella että kaikki puuttuneisuus voidaan selittää eli jäljelle jää epäsatunnaista puuttuneisuutta. Toki tämän osuuden soisi olevan mahdollisimman vähäistä ja näin onkin jos riittävä valikoima apumuuttujia löytyy puuttuneisuutta mallittamaan. Faktamuuttujien osalta mallittaminen on yleensä helpompaa kuin asennemuuttujien osalta. 125
28 Puuttuneisuuden mekanismit 4 Näitä käsitteitä esitetään myös muissa muodoissa kuin edellä, ja MARS puuttuu kokonaan, koska on oma täydennykseni. Tämän käsitteen tarpeellisuus on mielestäni ilmeinen, koska usein luonnostaan toimitaan niin, että puuttuneisuus voidaan hahmottaa otanta-asetelman sisäisenä asiana. Tyypillinen esimerkki on ositettu otanta, jolloin ensivaiheessa melkein automaattisesti oletetaan, että puuttuneisuus on satunnaista ositteiden sisällä, muttei välttämättä ositteiden välillä. Ensimmäinen puuttuvuuden laji MCAR on harvoin toteutuva mutta toki sen pohjalta on hyödyllistä tehdä esimerkiksi imputointeja, ainakin siksi, että saisi alustavan näkökulman tilanteeseen. Otanta-asetelmassa kannattaa huomioida puuttuneisuuden vaihtelu. Siis kannattaa allokoida brutto-otos eli alkuperäinen otos mieluiten ottaen huomioon odotettavissa oleva vastauskato ja muu puuttuneisuus. Jos tämä vielä realisoituu käytännössä, niin MARS on voimassa. Huom. Kaikki eivät käytä aktiivisti em. termejä. Sanat informatiivinen (eli sellainen jota voidaan selittää) vs. epäinformatiivinen ovat myös käytetyt. 126
Imputoi puuttuvat kohdat
Imputoi puuttuvat kohdat Imputointi tarkoittaa tai määritellyn tiedon paikkaamista sellaisella korvikearvolla joka estimaatin laatua verrattuna siihen mikä saataisiin ilman eli jättämällä tuo tieto käsittelystä
LisätiedotOtanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita risto.lehtonen@helsinki.fi OHC Survey Tilastollinen analyysi Kysymys: Millä
LisätiedotImputointi 2009, Seppo 1
Imputoinnin perusteet Helsingin yliopisto, kevät 2009 Seppo Laaksonen Luennot ja harjoitukset keskiviikkoisin klo 16-19: kaksi kertaa+ tauko+kaksi kertaa. Alussa pääosa ajasta luentoja, myöhemmin harjoitukset
LisätiedotEditointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011
Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011 Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten
LisätiedotPainotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen
Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen Luennot ja harjoitukset kolmena peräkkäisenä keskiviikkona klo 16-19 alkaen 28.1.2009. Monina välipäivinä
LisätiedotJY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT
JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT SPSS-ohjelmiston Complex Samples- toiminto otoksen poiminnassa ja estimaattien laskennassa Mauno Keto, lehtori Mikkelin AMK / Liiketalouden laitos
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotOtanta-aineistojen analyysi
Helsingin yliopisto Otanta-aineistojen analyysi Kevät 2010 Periodi III Risto Lehtonen Teema 2 Estimaattoreiden varianssien estimointi Survey-analyysin lähestymistavat Kuvaileva survey Descriptive survey
LisätiedotPerusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla
Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla proc surveymeans data=pisa.impuoecd; where cnt='fin' or cnt='deu' or
LisätiedotTilastollisten menetelmien käyttö Kelan tutkimustoiminnassa
Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien
LisätiedotTiedonkeruu- ja painotusmenetelmien vaikutukset tutkimusaineiston laatuun ja estimaatteihin
Tiedonkeruu- ja painotusmenetelmien vaikutukset tutkimusaineiston laatuun ja estimaatteihin EU-rikosuhritutkimuksen aineistojen tarkastelu vastauskadon näkökulmasta Jenni Elina Nikula Helsingin yliopisto
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotTommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.
Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi Taustaa Otoksen ositus kunnittain ja maahanmuuttajaryhmittäin Katso
LisätiedotPainotusmenetelmät survey aineiston muuttujien estimoimiseen
Painotusmenetelmät survey aineiston muuttujien estimoimiseen Ville Veikko Helminen Helsingin yliopisto Valtiotieteellinen tiedekunta Tilastotiede Pro gradu -tutkielma Toukokuu 2017 HELSINGIN YLIOPISTO
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Lisätiedot(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2
Otantamenetelmät (78143) Syksy 2009 TEEMAT 3 & 4 Risto Lehtonen risto.lehtonen@helsinki.fi Teema 3 ERITYISKYSYMYKSIÄ Risto Lehtonen 2 1 Otannan erityiskysymyksiä Ryväsotanta Survey sampling reference guidelines
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotLaskelmia puoluekannatuksesta Seppo
Laskelmia puoluekannatuksesta Seppo 19.10.2011 Taustalla on luonnollisesti surveyaineisto. Sen tavoiteperusjoukko on itse vaaleissa 18+ -vuotias suomalainen rekisterin mukaan. Ulkomaalaisillakin on tietyin
Lisätiedotvoidaan hylätä, pienempi vai suurempi kuin 1 %?
[TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine
LisätiedotEU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula 24.2.2010
(Turvallisuus Suomessa) - pilottitutkimus Vastauskato ja painotus Jenni Nikula 24.2.2010 Tutkimuksen tausta Eurostatin / Euroopan komission rahoittama hanke, jossa eurooppalaisten asiantuntijoiden yhdessä
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Lisätiedotvoidaan hylätä, pienempi vai suurempi kuin 1 %?
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 5 viikko 42 6.10.2017 klo 10:42:20 Ryhmät: ke 08.30 10.00 LS C6 Paajanen ke 10.15 11.45 LS
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotTA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET
TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen
Lisätiedot[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen
Lisätiedot54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
LisätiedotMTTTP5, luento Luottamusväli, määritelmä
23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
Lisätiedot7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)
7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten
LisätiedotOHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3
OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset
LisätiedotLisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?
MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo
Lisätiedotpisteet Frekvenssi frekvenssi Yhteensä
806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi
LisätiedotOletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen
Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä
Lisätiedot(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa
Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805306A JOHDATUS MONIMUUTTUJAMENETELMIIN, sl 2017 (Jari Päkkilä) Harjoitus 3, viikko 47 (19.20.11.): kotitehtävät Ratkaisuja 1. Floridan
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotMatematiikan tukikurssi, kurssikerta 2
Matematiikan tukikurssi kurssikerta 1 Relaatioista Oletetaan kaksi alkiota a ja b. Näistä kumpikin kuuluu johonkin tiettyyn joukkoon mahdollisesti ne kuuluvat eri joukkoihin; merkitään a A ja b B. Voidaan
LisätiedotTeema 8: Parametrien estimointi ja luottamusvälit
Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.
Lisätiedot1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...
JHS 160 Paikkatiedon laadunhallinta Liite III: Otanta-asetelmat Sisällysluettelo 1. Johdanto... 2 2. Todennäköisyysotanta... 2 2.1 Yksinkertainen satunnaisotanta... 3 2.2 Ositettu otanta... 3 2.3 Systemaattinen
LisätiedotPerusnäkymä yksisuuntaiseen ANOVAaan
Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja
Lisätiedot1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
LisätiedotHarjoitukset 2 : Monimuuttujaregressio (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 2 : Monimuuttujaregressio (Palautus 24.1.2017) Tämän harjoituskerran tarkoitus
Lisätiedot2 k -faktorikokeet. Vilkkumaa / Kuusinen 1
2 k -faktorikokeet Vilkkumaa / Kuusinen 1 Motivointi 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta
LisätiedotMONISTE 2 Kirjoittanut Elina Katainen
MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi
Lisätiedot¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.
10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
LisätiedotMatematiikan tukikurssi, kurssikerta 3
Matematiikan tukikurssi, kurssikerta 3 1 Epäyhtälöitä Aivan aluksi lienee syytä esittää luvun itseisarvon määritelmä: { x kun x 0 x = x kun x < 0 Siispä esimerkiksi 10 = 10 ja 10 = 10. Seuraavaksi listaus
LisätiedotSAS-ohjelmiston perusteet 2010
SAS-ohjelmiston perusteet 2010 Luentorunko/päiväkirja Ari Virtanen 11.1.10 päivitetään luentojen edetessä Ilmoitusasioita Opintojakso suoritustapana on aktiivinen osallistuminen harjoituksiin ja harjoitustehtävien
LisätiedotBatch means -menetelmä
S-38.148 Tietoverkkojen simulointi / Tulosten keruu ja analyysi 1(9) Batch means -menetelmä Batch means -menetelmää käytetään hyvin yleisesti Simulointi suoritetaan tässä yhtenä pitkänä ajona olkoon simuloinnin
LisätiedotTestit laatueroasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten
LisätiedotOtoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden
1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =
LisätiedotKönigsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( )
Königsbergin sillat 1700-luvun Königsbergin (nykyisen Kaliningradin) läpi virtasi joki, jonka ylitti seitsemän siltaa. Sanotaan, että kaupungin asukkaat yrittivät löytää reittiä, joka lähtisi heidän kotoaan,
LisätiedotParametrin estimointi ja bootstrap-otanta
Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista
LisätiedotOngelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?
Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus
LisätiedotATH-koulutus THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1
ATH-koulutus THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelma Ositus ja 75 vuotta täyttäneiden ylipoiminta Painokertoimet Tulosten esittäminen: mallivakiointi Esimerkit
LisätiedotFoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön
LisätiedotTeema 3: Tilastollisia kuvia ja tunnuslukuja
Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin
LisätiedotSosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen
Sosiaalitutkimuksen tilastolliset menetelmät, kevät 2012 Jakso 2: Päivä 1 Seppo Laaksonen SOTU TIME 2012 Surveymetodiikka _ Seppo 1 Jakso 2. Surveymetodiikkaa aineiston keruusta sen puhdistamiseen Otsakkeessa
LisätiedotTässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
LisätiedotMatematiikan peruskurssi 2
Matematiikan peruskurssi Tentti, 9..06 Tentin kesto: h. Sallitut apuvälineet: kaavakokoelma ja laskin, joka ei kykene graaseen/symboliseen laskentaan Vastaa seuraavista viidestä tehtävästä neljään. Saat
LisätiedotOtantamenetelmät SurveyMetodiikka 2009 Seppo
Otantamenetelmät Hieman historiaa Anders Kiaer (norjalainen) 1895, edustava otos Arthur Bowley (britti) 1906, yksinkertainen satunnaisotanta Jerzy Neyman (puolalainen l alun perin) 1934, ryväsotanta t
LisätiedotPoimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Harjoitus 2, viikko 38, syksy 2012 1. Tutustu liitteen 1 kuvaukseen Suuresta bränditutkimuksesta v. 2009. Mikä tämän kuvauksen perusteella on ko.
LisätiedotHealth 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages 17.6.2013. Esa Virtala. etunimi.sukunimi@thl.
Health 2000/2011 Surveys Statistical Analysis using SAS and SAS-Callable SUDAAN Packages 17.6.2013 Esa Virtala etunimi.sukunimi@thl.fi Terveyden ja hyvinvoinnin laitos (THL) PL 30 00271 Helsinki Puhelin:
LisätiedotMatematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 1 Määrittelyjoukoista Tarkastellaan funktiota, jonka määrittelevä yhtälö on f(x) = x. Jos funktion lähtöjoukoksi määrittelee vaikkapa suljetun välin [0, 1], on funktio
Lisätiedot30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
Lisätiedot2. Aineiston kuvailua
2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien
LisätiedotEpävarmuuden hallinta bootstrap-menetelmillä
1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotPaneurooppalainen työterveyttä ja -hyvinvointia koskeva mielipidekysely
Paneurooppalainen työterveyttä ja -hyvinvointia koskeva mielipidekysely Edustavat tulokset Euroopan unionin jäsenmaasta Paketti sisältää Suomen ja EUjäsenvaltion tulokset Mielipidekyselyn muotoilu Paneurooppalainen
LisätiedotLuottamusvälit. Normaalijakauma johnkin kohtaan
Luottamusvälit Normaalijakauma johnkin kohtaan Perusjoukko ja otanta Jos halutaan tutkia esimerkiksi Suomessa elävien naarashirvien painoa, se voidaan (periaatteessa) tehdä kahdella tavalla: 1. tutkimalla
LisätiedotOtanta-aineistojen analyysi
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 1 Risto Lehtonen risto.lehtonen@helsinki.fi Otanta-aineistojen analyysi Laajuus 6/8 op. Tyyppi 78136 Otanta-aineistojen analyysi (aineopintojen
LisätiedotSAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009
SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää
LisätiedotSPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö
SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin
LisätiedotJärvi 1 Valkjärvi. Järvi 2 Sysijärvi
Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää
LisätiedotJohdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava TKK (c) Ilkka Mellin (2005) 1 Kokonaistodennäköisyys ja Bayesin kaava Kokonaistodennäköisyys ja Bayesin kaava: Johdanto Kokonaistodennäköisyyden
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
LisätiedotTarkista vielä ennen analysoinnin aloittamista seuraavat seikat:
Yleistä Tilastoapu on Excelin sisällä toimiva apuohjelma, jonka avulla voit analysoida tilastoaineistoja. Tilastoapu toimii Excelin Windows-versioissa Excel 2007, Excel 2010 ja Excel 2013. Kun avaat Tilastoavun,
LisätiedotVarma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö
Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Unioni, Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Alkeistapahtuma, Ehdollinen todennäköisyys,
LisätiedotSurveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen
Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen). Laajempi
LisätiedotEsim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4
18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5
Lisätiedot1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
Lisätiedot806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ
LisätiedotJohdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle
LisätiedotTilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
LisätiedotKolmannen ja neljännen asteen yhtälöistä
Solmu /019 7 Kolmannen neljännen asteen yhtälöistä Esa V. Vesalainen Matematik och statistik, Åbo Akademi Tämän pienen artikkelin tarkoituksena on satuilla hieman algebrallisista yhtälöistä. Erityisesti
Lisätiedot2.1. Tehtävänä on osoittaa induktiolla, että kaikille n N pätee n = 1 n(n + 1). (1)
Approbatur 3, demo, ratkaisut Sovitaan, että 0 ei ole luonnollinen luku. Tällöin oletusta n 0 ei tarvitse toistaa alla olevissa ratkaisuissa. Se, pidetäänkö nollaa luonnollisena lukuna vai ei, vaihtelee
LisätiedotJos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan
17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten
Lisätiedot