Kausaalisuudesta tilastollisissa malleissa - Pearlin kausaaliteoria ja rakenneyhtälömallien teoria
|
|
- Riitta Hovinen
- 5 vuotta sitten
- Katselukertoja:
Transkriptio
1 Kausaalisuudesta tilastollisissa malleissa - Pearlin kausaaliteoria ja rakenneyhtälömallien teoria Pro gradu -tutkielma Taija Alatalo Helsingin yliopisto Matemaattis-luonnontieteellinen tiedekunta Matematiikan ja tilastotieteen osasto Tilastotiede Huhtikuu 2019
2 HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta Fakultet Faculty Osasto Avdelning Department Matemaattis-luonnontieteellinen Tekijä Författare Author Taija Alatalo Työn nimi Arbetets titel Title Matematiikan ja tilastotieteen osasto Kausaalisuudesta tilastollisissa malleissa: Pearlin kausaaliteoria ja rakenneyhtälömallien teoria Oppiaine Läroämne Subject Tilastotiede Työn laji Arbetets art Level Aika Datum Month and year Sivumäärä Sidoantal Number of pages Pro gradu -tutkielma Huhtikuu s. Tiivistelmä Referat Abstract Kausaalisuus eli syy-seuraussuhteet tarkoittavat tapahtumien välisiä yhteyksiä, joissa toiset tapahtumat aiheuttavat toisia tapahtumia. Tällaisten kausaalipäätelmien tekeminen on keskeistä soveltavassa tilastotieteessä, sillä monesti tutkimuksissa ei olla kiinnostuneita pelkästään muuttujien välisistä korrelaatioista vaan nimenomaan syy-seuraussuhteista. Tilastotieteen piiriin onkin kehittynyt useita, eri tieteenaloilla sovellettavia kausaalipäättelyn suuntauksia, jotka korostavat kausaalisuuden eri osa-alueita. Tässä tutkielmassa esitellään kausaalitutkimuksen suuntauksista Pearlin kausaaliteoriaa ja rakenneyhtälömallien teoriaa. Pearlin kausaaliteoria tarjoaa kattavan matemaattisen perustan kausaaliyhteyksien analysoinnille. Se pohjautuu graafiteoriaan, ja siinä keskeisessä osassa ovat suunnatut silmukattomat graafit, joiden avulla kausaalisuhteet esitetään. Keskeisenä mielenkiinnon kohteena on kausaalivaikutusten määrittäminen. Sen selvittämiseksi, onko kausaalivaikutus yksiselitteisesti määriteltävissä eli identifioituvissa, on olemassa käteviä graafisia menetelmiä, joita voidaan soveltaa suoraan kausaaligraafiin ilman aineistoa. Rakenneyhtälömallit on kokoelma tilastollisia menetelmiä, joilla voidaan tutkia monimutkaisia, useiden muuttujien välisiä kausaalirakenteita. Rakenneyhtälömalleissa kausaaliyhteydet kuvataan rakenneyhtälöinä, jotka voidaan esittää havainnollisesti polkukaavioiden avulla. Tässä tutkielmassa keskitytään yleiseen rakenneyhtälömalliin, joka voidaan jakaa mittaus- ja rakenneosaan. Mittausmalli määrittää havaittujen ja ei-havaittujen muuttujien väliset yhteydet, kun taas rakennemalli määrittelee ei-havaittujen muuttujien keskinäiset yhteydet. Rakenneyhtälömallien teoriaa havainnollistetaan empiirisellä esimerkillä, jossa tutkitaan kognitiivisten prosessien eli ajattelutapojen vaikutusta työtyytyväisyyteen. Pearlin kausaalimallit ovat tunnettuja ja paljon sovellettuja epidemiologian puolella, kun taas käyttäytymis- ja yhteiskuntatieteiden puolella rakenneyhtälömallit ovat hallinneet tutkimuskenttää. Rakenneyhtälömalleista on puuttunut matemaattinen kieli, jolla rakenneyhtälöissä esiintyvää kausaali-informaatiota voitaisiin käsitellä. Pearlin kausaaliteoria tarjoaa tämän kielen rakenneyhtälömallien kausaaliväittämien tueksi. Avainsanat Nyckelord Keywords kausaalisuus, Pearlin kausaaliteoria, rakenneyhtälömallit, kognitiiviset prosessit, työtyytyväisyys Säilytyspaikka Förvaringsställe Where deposited Kumpulan tiedekirjasto Muita tietoja Övriga uppgifter Additional information
3 Sisältö Johdanto 2 1 Todennäköisyysteorian ja graafiteorian perusteita Todennäköisyysteorian perusteita Graafiteorian perusteita Pearlin kausaaliteoriasta Historiaa Kausaalimalli Kausaalivaikutus Kausaalivaikutuksen graafinen identifiointi Takaovikriteeri Kausaalilaskenta Rakenneyhtälömallien teoriasta Historiaa Peruskäsitteitä Yleinen rakenneyhtälömalli Mallin identifioituvuus ja estimointi Mallin sopivuus Mallin muokkaaminen Empiirinen esimerkki Johdanto Malli matriisimerkinnöin Hypoteesit Mallin sovittaminen Johtopäätökset Yhteenveto 41 Lähdeluettelo 42 1
4 Johdanto Kausaalisuus eli syy-seuraussuhteet tarkoittavat tapahtumien välisiä yhteyksiä, joissa toiset tapahtumat (syyt) aiheuttavat toisia tapahtumia (seuraukset). Tällaisten kausaalipäätelmien tekeminen on keskeistä soveltavassa tilastotieteessä, sillä monesti tutkimuksissa ei olla kiinnostuneita ainoastaan ilmiöiden välisistä yhteyksistä eli korrelaatioista vaan nimenomaan syy-seuraussuhteista. Esimerkiksi voidaan haluta arvioida ylipainon vaikutusta sydän- ja verisuonitauteihin tai vaikkapa koulutuksen vaikutusta palkkoihin. Tilastotieteen piiriin onkin kehittynyt useita, eri tieteenaloilla sovellettavia kausaalipäättelyn suuntauksia, jotka korostavat kausaalisuuden eri osaalueita. Rakenneyhtälömallit (structural equation models, SEM) on kokoelma tilastollisia menetelmiä, joilla voidaan tutkia monimutkaisia, useiden muuttujien välisiä kausaalirakenteita. Rakenneyhtälömalleja onkin totuttu soveltamaan erityisesti käyttäytymis- ja yhteiskuntatieteiden puolella, sillä monesti näillä aloilla tutkittavat kausaaliyhteydet eivät ole yksinkertaisia. Rakenneyhtälömalleissa kausaaliyhteydet kuvataan rakenneyhtälöinä, jotka voidaan esittää havainnollisesti polkukaavioiden avulla. Rakenneyhtälömalleissa kausaalipäättely nojaa vahvaan substanssiteoriaan, joka on edellytys rakenneyhtälömallien laadinnassa. Näin ollen rakenneyhtälömalleja ei voida soveltaa aloilla, joilla teoria on epätarkkaa tai puutteellista. (Byrne 2012, 3; Kline 2015, 9; Pearl 2009, 133.) Potentiaalisten lopputulosten malli (potential outcomes model, POM) tai Neuman Rubin -malli perustuu havaittuun todellisuuteen nähden vaihtoehtoisten tilanteiden eli kontrafaktuaalien (counterfactuals) vertailuun. Kontrafaktuaali on hypoteettinen ehtolause, joka ilmaisee, mitä olisi tapahtunut tiettyjen ehtojen vallitessa, esimerkiksi en olisi myöhästynyt töistä, jos olisin muistanut asettaa herätyksen. Potentiaalisten lopputulosten mallia käytetään yleensä satunnaistetuissa kliinisissä tutkimuksissa. (Kline 2016, ) Judea Pearlin kausaalimallit (structural causal model, SCM) yhdistävät rakenneyhtälömallit ja potentiaalisten lopputulosten mallin yhdeksi kattavaksi kausaalipäättelyn säännöstöksi. Itse asiassa Galles ja Pearl (1998) ovat osoittaneet, että SEM ja POM ovat kausaalipäättelyn suhteen ekvivalentteja keskenään. Pearlin kausaaliteoriassa keskeisessä osassa ovat suunnatut graafit, joiden avulla kausaaliyhteydet esitetään. Toisin kuin rakenneyhtälömalleissa Pearlin kausaaliteoria mahdollistaa kausaaliyhteyksien identifioinnin suunnatuista graafeista ilman dataa. Näin ollen tutkija voi testata oletettua kausaalirakennetta jo ennen datan keräämistä. (Kline 2016, 19 20; Pearl 2
5 2009.) Pearlin kausaalimallit ovat tunnettuja ja paljon sovellettuja epidemiologian puolella, kun taas käyttäytymis- ja yhteiskuntatieteiden puolella rakenneyhtälömallit ovat hallinneet tutkimuskenttää. (Kline 2016, ; Pearl 2009, 133.) Pearlin mielestä käyttäytymis- ja yhteiskuntatieteissä on keskitytty liiaksi rakenneyhtälömallien sovittamiseen liittyviin kysymyksiin, ja näin on sivuutettu rakenneyhtälömallien potentiaali kausaalisen päättelyn osalta (Pearl 2009, 170). Hiljattain Pearlin ajatuksia on alettu tuomaan esille myös rakenneyhtälömallien piirissä, sillä Pearlin kausaaliteoria antaa tukea rakenneyhtälömallien kausaalihypoteeseihin (Hayduk, Cummings, Skratkotter, Nimmo, Grygoryev, Dosman, Gillespie, Pazderka-Robinson & Boadu 2003; Kline 2016). Esimerkiksi Kline (2016) on yksi ensimmäisistä, joka nostaa Pearlin kausaalimallit vahvasti esille käyttäytymis- ja yhteiskuntatieteilijöille suunnatussa, rakenneyhtälömalleja käsittelevässä kirjassaan. Tässä tutkielmassa esitellään kausaalimallinnuksen menetelmistä rakenneyhtälömalleja ja Pearlin kausaalimalleja. Pearlin kausaaliteoria pohjautuu todennäköisyys- ja graafiteoriaan, joten näiden perusteita käydään läpi ensimmäisessä luvussa. Toisessa luvussa päästään käsiksi Pearlin kausaaliteoriaan. Ensin tutustutaan Pearlin kausaaliteorian kehittymiseen vaikuttaneisiin seikkoihin. Sitten esitetään Pearlin määritelmä kausaalimallille. Tämän jälkeen tarkastellaan kausaalivaikutusta ja sen identifioituvuutta. Lopuksi kuvataan käteviä, graafisia menetelmiä kausaalivaikutuksen identifiointiin. Kolmannessa luvussa perehdytään rakenneyhtälömallien teoriaan yleisellä tasolla. Aluksi esitellään rakenneyhtälömallien kehitystä ja peruskäsitteitä. Seuraavaksi määritetään yleinen rakenneyhtälömalli käyttäen Jöreskogin luomia LISREL-notaatioita. Tästä siirrytään rakenneyhtälömallien sovittamiseen liittyviin teemoihin. Käydään läpi muun muassa estimointimenetelmiä, mallin sopivuuden arvioinnissa käytettäviä kriteereitä ja mahdollista mallin muokkausta. Neljännessä luvussa havainnollistetaan kolmannessa luvussa esiteltyjä aihealueita empiirisen esimerkin avulla. 3
6 1 Todennäköisyysteorian ja graafiteorian perusteita Tässä luvussa esitellään lyhyesti keskeisimpiä todennäköisyys- ja graafiteorian käsitteitä. Todennäköisyysteorian perusteiden ymmärtäminen on tärkeää kausaalipäättelyssä, sillä monet kausaaliväittämät ovat epävarmoja, ja todennäköisyyden käsite on tapa ilmaista epävarmoja väittämiä. Graafiteoria taas tarjoaa hyödyllisen matemaattisen kielen, jolla voidaan esittää kausalisuhteita. (Pearl, Glymour & Jewell 2016, 7 ja 24.) 1.1 Todennäköisyysteorian perusteita Kausaalipäättelyn kannalta keskeisiä käsitteitä ovat muun muassa ehdollinen todennäköisyys, kokonaistodennäköisyys sekä tapahtumien riippuvuus ja riippumattomuus. Aloitetaan todennäköisyyden määritelmällä. Määritelmä 1.1. Olkoon Ω perusjoukko ja A tapahtuma perusjoukossa. P on todennäköisyys tai todennäköisyysmitta, jos 1. P (A) 0 kaikille A Ω, 2. P ( ) = 0 ja P (Ω) = 1, ja 3. P ( j=1a j ) = j=1 P (A j ), kun A 1, A 2,... ovat erillisiä. Tätä kutsutaan additiivisuudeksi. (Koistinen 2013, 5.) Todennäköisyyden määritelmän kohdassa 3 annettiin tapahtuman A todennäköisyydelle laskukaava. Tapahtumaan A voi kuitenkin vaikuttaa toinen tapahtuma B, jolloin se tulee ottaa huomioon tapahtuman A todennäköisyyttä määritettäessä. Tätä kutsutaan ehdolliseksi todennäköisyydeksi. Määritelmä 1.2. Tapahtuman A ehdollinen todennäköisyys ehdolla B määritellään kaavalla P (A B) = P (A B), jossa P (B) > 0. P (B) Kääntämällä ehdollisen todennäköisyyden yhtälö saadaan erittäin hyödyllinen kaava nimeltään todennäköisyyksien kertolaskusääntö (Koistinen 2013, ) P (A B) = P (A B)P (B). (1.1) 4
7 Tapahtumat A ja B voivat olla keskenään joko riippuvia tai riippumattomia. Määritelmä 1.3. Tapahtumat A ja B ovat riippumattomia, jos P (A B) = P (A)P (B), ja siitä käytetään merkintää A B. Jos tämä yhtälö ei päde, niin muuttujat A ja B ovat riippuvia, ja sitä merkitään A B. (Koistinen 2013, 12.) Lause 1.4. Jos P (B) > 0, niin tapahtumat A ja B ovat riippumattomia, jos ja vain jos A:n ehdollinen todennäköisyys ehdolla B on A:n todennäköisyys, eli A B P (A B) = P (A). Toisin sanoen tieto B:n todennäköisyydestä ei vaikuta A:n todennäköisyyteen. (Koistinen 2013, 13.) Siirrytään seuraavaksi kokonaistodennäköisyyden käsitteen pariin. Tarkastellaan tapahtumaa A ja sen perusjoukon Ω ositusta B 1,..., B n. Ositukselle pätee kaksi ehtoa: ensinnäkin ositukset ovat erillisiä, eli B i B j =, kun i j, ja toiseksi ne peittävät kokonaan perusjoukkonsa, eli B 1 B n = Ω. Joukko A voidaan esittää leikkaamalla se kullakin ositteella B i, eli A = (A B 1 ) (A B n ). Joukon A ositteet (A B 1 ),..., (A B n ) ovat siis erillisiä, joten kertolakusäännön 1.1 ja additiivisuuden nojalla A:n todennäköisyys voidaan esittää kokonaistodennäköisyyden kaavalla n P (A) = P (A B i )P (B i ). i=1 Kokonaistodennäköisyyden kaavaa muokkaamalla saadaan sille yleinen muoto. (Koistinen 2013, 14.) Lause 1.5. A:n ehdollinen kokonaistodennäköisyys ehdolla K saadaan kaavalla n P (A K) = P (A B i, K)P (B i K) (1.2) (Pearl 2009, 5 6). i=1 5
8 1.2 Graafiteorian perusteita Graafit koostuvat solmuista ja niitä yhdistävistä särmistä. Särmät voivat olla joko suuntaamattomia tai suunnattuja. Suuntaamattomia särmiä merkitään suoralla ja suunnattuja särmiä nuolilla. Solmua, josta suunnattu särmä alkaa, kutsutaan vanhemmaksi ja solmua, johon suunnattu särmä päättyy, kutsutaan lapseksi. (Pearl ym. 2016, 25.) Polku on yhtenäinen reitti, joka kulkee graafin särmiä pitkin solmusta toiseen. Polkua kutsutaan suunnatuksi poluksi, jos sen kaikki särmät ovat suunnattuja. Jos kahta solmua yhdistää suunnattu polku, niin ensimmäinen solmu on kaikkien polun solmujen esivanhempi, ja kääntäen jokainen polun solmu on ensimmäisen solmun jälkeläinen. (Pearl ym. 2016, 25.) Graafia kutsutaan silmukalliseksi, kun suunnatussa graafissa solmu sisältää polun itseensä. Suunnattua graafia, joka ei sisällä yhtään silmukkaa, kutsutaan silmukattomaksi. Kausaalilaskennessa keskitytään yleensä suunnattuihin silmukattomiin graafeihin. (Pearl ym. 2016, ) Yksinkertaisimmillaan graafit koostuvat kuvan 1 kaltaisista kolmen muuttujan ketjuista, haarukoista tai törmäyksistä. Ketjuksi (chain) kutsutaan sellaista graafia, jonka särmistä toinen osoittaa keskimmäiseen solmuun ja toinen keskimmäisestä pois (X Z Y ). Haarukaksi (fork) kutsutaan graafia, jonka särmistä molemmat lähtevät keskimmäisestä solmusta (X Z Y ). Haarukassa keskimmäistä muuttujaa kutsutaan kahden muun muuttujan (ja niiden jälkeläisten) yhteiseksi syyksi. Törmäykseksi tai käänteiseksi haarukaksi (collider) kutsutaan graafia, jonka molemmat särmät osoittavat keskimmäiseen solmuun (X Z Y ). Keskimmäistä solmua voidaan kutsua törmäyssolmuksi, ja se on kahden muun muuttujan (ja niiden esivanhempien) yhteinen seuraus. (Pearl ym. 2016, ) Graafia katsomalla voidaan tehdä päätelmiä muuttujien riippumattomuudesta tai riippuvuudesta. Ketjuissa, haarukoissa ja törmäyksissä pätevät seuraavanlaiset ehdollisen riippumattomuuden säännöt. 1. Ehdollinen riippumattomuus ketjuissa: Kaksi muuttujaa X ja Y ovat ehdollisesti riippumattomia annetusta Z, jos muuttujien X ja Y välillä on täsmälleen yksi yhdensuuntainen polku, ja Z on mikä tahansa muuttujajoukko, joka leikkaa tämän polun. Tässä muuttujien X, Y ja Z virhetermit oletetaan toisistaan riippumattomiksi. 2. Ehdollinen riippumattomuus haarukoissa: Jos muuttuja Z on yhteinen syy muuttujille X ja Y sekä muuttujien X ja Y välillä on vain yksi polku, niin X ja Y ovat ehdollisesti riippumattomia ehdolla Z. 3. Ehdollinen todennäköisyys törmäyksissä: Jos muuttuja Z on muuttu- 6
9 (a) Ketju: X Y, X Y Z (b) Haarukka: X Y, X Y Z (c) Törmäys: X Y, X Y Z Kuva 1: Esimerkit kolmen muuttujan ketjusta, haarukasta ja törmäyksestä sekä niissä vallitsevat riippuvuudet ja riippumattomuudet. jien X ja Y törmäyssolmu sekä muuttujien X ja Y välillä on vain yksi polku, niin X ja Y ovat ehdoitta riippumattomia, mutta ehdollisesti riippuvia ehdolla Z tai millä tahansa Z:n jälkeläisellä. (Pearl ym. 2016, ) Yleensä graafit eivät ole niin yksinkertaisia kuin edellä ja sisällä vain yhtä polkua muuttujien välillä. Näin ollen tarvitaan tapa, jolla määritetään riippuvuudet ja riippumattomuudet monimutkaisemmista graafeista. Tähän käytetään d-erottelua tai d-separaatiota, joka yhdistää edellä esitellyt kolme ehdollisen todennäisyyden sääntöä. (Pearl ym. 2016, ) Määritelmä 1.6. Polku p on tukittu solmujoukolla Z, jos ja vain jos 1. p sisältää ketjun A B C tai haarukan A B C, joissa keskimmäinen solmu B kuuluu solmujoukkoon Z, tai 2. p sisältää törmäyksen A B C, jossa keskimmäinen solmu B tai B:n jälkeläinen ei kuulu solmujoukkoon Z. Jos Z tukkii jokaisen polun kahden solmun X ja Y väliltä, niin X ja Y ovat d-erotettuja ehdolla Z. Jos X ja Y ovat d-erotettuja ehdolla Z, niin X ja Y ovat riippumattomia ehdolla Z. (Pearl ym. 2016, ) 7
10 2 Pearlin kausaaliteoriasta Judea Pearlin kausaaliteoria (structural causal model, SCM) tarjoaa kattavan matemaattisen perustan kausaaliyhteyksien analysoinnille. Se pohjautuu graafiteoriaan, ja siinä keskeisessä osassa ovat suunnatut silmukattomat graafit, joiden avulla kausaaliyhteydet esitetään. Pearlin kausaalimalleja on totuttu soveltamaan epidemiologian puolella. (Kline 2016, ; Pearl 2009.) Tässä luvussa on tarkoitus tutustua Pearlin kausaaliteorian keskeisimpiin osiin. Aluksi kerrotaan hiukan kausaalipäättelyn kehityksen vaiheista. Seuraavaksi esitetään määritelmät Pearlin kausaalimallille ja kausaalivaikutukselle. Lopuksi perehdytään kausaalivaikutuksen identifioituvuuteen ja esitellään muutama graafinen identifiointimenetelmä. 2.1 Historiaa Filosofit ovat pohtineet kausaalisuutta paljon ajan saatossa. Jo antiikin kreikkalainen filosofi Aristoteles ( eaa) erotti syyn käsitteestä aiheuttavan syyn ja finalistisen syyn. Finalistinen syy merkitsi Aristoteleelle sitä, että ilmiöt ovat selitettävissä niiden tarkoituksella. Esimerkiksi kivi tippuu pudotettaessa maahan, koska raskaiden aineiden on tarkoitus olla maassa. Tuohon aikaan gravitaatiokäsitettä ei vielä tunnettu. Aristoteleen näkökannat olivat voimassa aina renessanssin aikoihin saakka, kunnes ne kohtasivat teoreettisia vaikeuksia. Vuonna 1638 Galileo Galilei ( ) julkaisi teoksen Discorsi e Dimostrazioni Matematiche, intorno a due nuoue scienze (suom. Kaksi uutta tiedettä), jonka keskiössä on kaksi perussääntöä. Ensimmäisen säännön mukaan ensin tulee ilmiön kuvailu (kuinka, miten) ja toiseksi ilmiön selitys (miksi). Toisen säännön mukaan kuvailu on toteutettu käyttäen matematiikan kieltä eli yhtälöitä. David Humen ( ) filosofian mukaan kausaalisuhteet ovat havaittuja säännönmukaisuuksia, jotka perustuvat peräkkäisten tapahtumien luomiin kokemuksiin ja niistä tehtäviin päätelmiin. (Hopkins 2004, 2 3; Pearl 2009, ) Tilastotieteen puolella tarina kausaalisuudesta alkaa korrelaatiokäsitteestä. Korrelaation juuret ulottuvat vuoteen 1877, jolloin brittiläinen aikansa yleisnero Sir Francis Galton ( ) julkaisi ensimmäisen regressionsa herneiden perinnöllisyydestä. Karl Pearson ( ), brittiläinen tilastotieteilijä, jatkoi Galtonin aloittamaa työtä ja vuonna 1896 loi kaavan korrelaatiokertoimelle, joka on edelleen käytössä. (Stanton 2001, 1 13.) Pearsonin 8
11 korrelaatiokerroin tarjosi keinon laskea kahden muuttujan välinen lineaarinen riippuvuus, mikä mahdollisti regressiomallien muotoutumisen (Schumacker & Lomax 2010, 4). Regressioanalyysi on tilastollinen menetelmä, jossa kiinnostuksen kohteena ovat selittävien muuttujien x yhteydet selitettävään muuttujaan y sekä mallin selitysaste eli se, kuinka paljon x-muuttujat selittävät y-muuttujan vaihtelusta (Ketokivi 2015, ; Vehkalahti 2008, 124). Pearlin kausaaliteoriassa keskeisessä osassa ovat graafit eli polkukaaviot, jotka ovat polkumallien keskeinen ominaisuus (Pearl 2009). Ensimmäiset polkumallit kehitti biologi Sewall Wright ( ) jo vuonna 1918, ja niiden ensimmäisiä sovelluksia hyödynnettiin eläinten käyttäytymisen tutkimisessa (Schumacker & Lomax 2010, 5). Polkumalli on tilastollinen menetelmä, joka on eräänlainen lineaaristen regressiomallien laajennus. Polkumallien kaikki muuttujat ovat havaittuja, ja niiden tarkoituksena on kuvata muuttujien väliset kausaalisuhteet. (Nummenmaa 2004, ) Pearlin työ kausaalimallien parissa lähti liikkeelle 1980-luvulla Bayesin verkoista, joilla esitetään satunnaismuuttujien välisiä ehdollisia riippuvuuksia suunnatussa silmukattomassa graafissa. Myöhemmin hän yleisti Bayesin verkkojen ja kausaaligraafian takana olevat ideat laajemmin kausaaliseen päättelyyn. Nykyään näistä malleista käytetään nimeä SCM (structural causal model). (Kline 2016, ) 2.2 Kausaalimalli Pearlin kausaalimalli koostuu kiinnostuksen kohteena olevista muuttujajoukoista U ja V, muuttujien välisistä funktionaalisista yhteyksistä sekä muuttujien U yhteistodennäköisyysjakaumasta (Pearl 2009, ; Pearl ym. 2016, 26). Määritelmä 2.1. Kausaalimalli on nelikko jossa M = U, V, F, P (u), 1. U on taustamuuttujien joukko, jonka mallin ulkopuoliset tekijät määrittävät. 2. V on muuttujajoukko {V 1, V 2,..., V n }, joka määräytyy mallin muuttujista eli yhdisteen U V alkioista. 9
12 3. F on funktiojoukko {f 1, f 2,..., f n }, jolla jokainen f i kuvautuu joukolta U i P A i joukolle V i, missä U i on U:n osajoukko ja P A i on erotuksen V \V i osajoukko sekä koko joukko F muodostaa kuvauksen U:lta V :lle. Näin ollen jokainen f i antaa V i :lle arvon v i = f i (pa i, u i ), jossa i = 1,..., n. 4. P (u) on taustamuuttujajoukon U yhteistodennäköisyysjakauma. (Pearl 2009, ; Pearl 2012, 4.) Muuttujia U i kutsutaan myös eksogeenisiksi muuttujiksi, sillä ne eivät riipu mallin muista muuttujista. Muuttujia V i taas sanotaan endogeenisiksi muuttujiksi, koska ne selittyvät mallin muilla muuttujilla. Jokainen endogeeninen muuttuja on siis vähintään yhden mallin eksogeenisen muuttujan jälkeläinen. Eksogeeninen muuttuja taas ei voi olla minkään mallin muuttujan jälkeläinen, koska sillä ei ole vanhempia. (Pearl ym. 2016, 27.) Jokaiseen kausaalimalliin M liittyy suunnattu graafi G, jonka solmujoukon jokaista solmua vastaa yksi muuttuja U i tai V i ja jokaista särmää vastaa yksi funktio f i. Kausaalilaskennassa keskitytään pääasiassa suunnattuihin silmukattomiin graafeihin, sillä kausaaliyhteydet pystytään tällöin määrittelemään yksikäsitteisesti. (Pearl 2009, 205; Pearl ym. 2016, 27.) Kausaalimallille voidaan määrittää alamalli, joka saadaan kausaalimallin rakennetta muuttamalla. Määritelmä 2.2. Olkoon M kausaalimalli, X muuttujajoukko V :ssä ja x jokin X:n arvo. Kausaalimallin M alamalli M x on kausaalimalli M x = U, V, F x, P (u), jossa (Pearl 2009, 204.) F x = {f i : V i / X} {X = x}. Käytännössä funktiojoukko F x on muodostettu poistamalla F :n kaikki funktiot f i, jotka vastaavat joukon X jäseniä, ja korvattu ne vakiofunktiolla X = x. Alamallin käsite on hyödyllinen määriteltäessä kausaalivaikutusta. (Pearl 2009, 204.) 10
13 2.3 Kausaalivaikutus Kausaalilaskennassa keskeisenä mielenkiinnon kohteena on kausaalivaikutusten selvittäminen. Perinteisesti kausaalivaikutusta on tutkittu käyttäen satunnaistettua kontrolloitua koeasetelmaa. Pearlin kausaalisuusteoriassa on poistettu kokeellisen intervention tarve hyödyntämällä matemaattista operaattoria do. Interventio do(x = x) simuloi fyysistä interventiota korvaamalla tietyt muuttujat vakiolla X = x ja pitämällä mallin muilta osin muuttumattomana. Intervention tuloksena saadaa alamalli. (Pearl 2012, 4; Pearl ym. 2016, ) Määritelmä 2.3. Olkoon M kausaalimalli, X ja Y kaksi erillistä muuttujajoukkoa V :ssä ja x tietty X:n arvo. Kausaalivaikutus X:stä Y :hyn on funktio X:stä Y :n todennäköisyysjakauman otosavaruuteen. Kausaalivaikutusta merkitään P (Y = y do(x = x)). Jokaisella X = x, P (Y = y do(x = x)) määrittää muuttujalle Y = y uuden todennäköisyysjakauman, joka esitetään alamallissa M x. (Pearl 2009, 70 ja 204.) On hyvä tunnistaa merkintöjen P (Y = y X = x) ja P (Y = y do(x = x) erot. Ensimmäinen kertoo Y :n ehdollisen todennäköisyyden ehdolla X, kun satunnaismuuttuja X saa luonnostaan arvon x. Toinen taas kertoo Y :n ehdollisen todennäköisyyden, kun satunnaismuuttujaan X on kohdistettu interventio ja aktiivisesti valittu X = x. (Pearl ym. 2016, 55.) Ennen kuin kausaalivaikutus voidaan estimoida, pitää tietää, milloin kausaalivaikutus on identifioituva. Määritelmä 2.4. Kausaalivaikutus muuttujasta X muuttujaan Y on identifioituva graafissa G, jos P M1 (y do(x)) = P M2 (y do(x)) millä tahansa kahdella mallilla M 1 ja M 2, joilla P M1 (v) = P M2 (v) > 0 ja G(M 1 ) = G(M 2 ) = G (Pearl 2009, 77). Kausaalivaikutuksen identifioituvuuden määritelmä tarkoittaa, että graafissa G kausaalivaikutus P (y do(x)) on yksiselitteisesti määritettävissä havaittujen muuttujien yhteisjakaumasta (Pearl 2009, 77). Tätä määritelmää ei kuitenkaan yleensä tarvita selvitettäessä kausaalivaikutuksen identifioituvuutta. Sen sijaan kausaalivaikutuksen identifiointiin on olemassa käteviä, graafisia menetelmiä, joita käsitellään seuraavassa kappaleessa. (Pearl 2009, 79.) 11
14 2.4 Kausaalivaikutuksen graafinen identifiointi Kausaalivaikutuksen identifioituvuus voidaan selvittää käyttäen graafisia menetelmiä. Ensin esitellään takaovikriteeri, joka on näppärä identifiointimenetelmä, kun halutaan estimoida kausaalivaikutus havaittuja muuttujia sisältävästä kausaaligraafista. Toiseksi esitellään yleinen päättelysäännöstö kausaalivaikutuksen identifiointiin, nimeltään kausaalilaskenta (do-calculus), jolla voidaan selvittää kausaalivaikutuksen identifioituvuus mistä tahansa kausaaligraafista. (Pearl 2009, ja 85.) Takaovikriteeri Takaovikriteeri on kätevä tapa kontrolloitavan muuttujajoukon määrittämiseen, kun halutaan estimoida kausaalivaikutus havaittuja muuttujia sisältävästä kausaaligraafista. Takaovikriteeri pohjautuu käsitteeseen d-separaatio tai d-erottelu (1.6), joka esiteltiin graafiteorian perusteita käsittelevässä luvussa. (Kline 2016, 177; Pearl 2009, ) Oletetaan, että G on kausaaligraafi, V on joukko havaittuja muuttujia G:ssä ja X ja Y ovat kaksi erillistä muuttujajoukkoa V :ssä. Tavoitteena on estimoida intervention do(x = x) vaikutus vastemuuttujajoukkoon Y. Takaovikriteeriä hyödyntämällä voidaan selvittää, onko V :n muuttujaosajoukko Z riittävä identifioimaan kausaalivaikutuksen P (y do(x)). (Pearl 2009, 79.) Määritelmä 2.5. Olkoon (X, Y ) järjestetty muuttujapari suunnatussa silmukattomassa graafissa G. Muuttujajoukko Z täyttää takaovikriteerin (the backdoor criterion) suhteessa järjestettyyn muuttujapariin (X, Y ), jos 1. yksikään Z:n solmu ei ole X:n jälkeläinen, ja 2. Z tukkii jokaisen X:n ja Y :n välisen polun, joka sisältää X:ään osoittavan nuolen. (Pearl ym. 2016, 85.) Lause 2.6. Jos takaovikriteeri on voimassa, niin syy-seuraussuhde muuttujasta X muuttujaan Y saadaan kaavalla P (Y = y do(x = x)) = z P (Y = y X = x, Z = z)p (Z = z) (Pearl ym. 2016, 85). 12
15 Kuva 2: Esimerkin 2.7 kausaaligraafi. Takaovipolku on siis polku X:stä Y :hyn, joka alkaa X:ään osoittavasta nuolesta ja päättyy Y :hyn. Tukkimalla jokainen takaovipolku X:n ja Y :n väliltä saadaan selville kausaalivaikutus X:stä Y :hyn. Jos takaovipolun tukkiminen tehdään kontrolloimalla jotakin muuttujajoukkoa Z, pitää ottaa huomioon, ettei Z ole X:n jälkeläinen kausaalipolulla, tai muuten se saattaa sulkea kausaalipolun osittain tai kokonaan. (Pearl & Mackenzie 2018, 158.) Pearl ja Mackenzie (2018, ) havainnollistavat takaovikriteerin soveltamista hauskojen ja yksinkertaisten kausaaligraafipelien avulla. Käydään seuraavaksi yksi tällainen peliesimerkki läpi. Esimerkki 2.7. Tutkitaan kausaaligraafia G, joka on esitetty kuvassa 2. Tavoitteena on määrittää muuttujajoukko, joka tukkii jokaisen takaovipolun muuttujien X ja Y väliltä ja samalla jättää jokaisen kausaalipolun X:n ja Y :n väliltä auki. Huomataan, että graafista löytyy kaksi takaovipolkua 1. X A B C Y ja 2. X B C Y. Jos ensimmäinen takaovipolku (X A B C Y ) olisi graafin ainut takaovipolku, ei tarvitsisi kontrolloida mitään muuttujaa, sillä polku sisältää törmäyksen B. Törmäys tukkii polun ilman kontrollointia d-separaation määritelmän mukaan, ja törmäyksen kontrollointi vain avaisi jo tukitun polun. Halutessaan voisi kontrolloida A:n tai C:n. B:n kontrolloiminen on myös mahdollista, jos samaan aikaan kontrolloi A:n tai C:n. Jos toinen takaovipoluista (X B C Y ) olisi graafin ainut takaovipolku, voisi kontrolloida B:n tai C:n. Tämä graafi sisältää kuitenkin nämä molemmat takaovipolut, joten ne on huomioitava yhdessä. Näin ollen havaitaan, että muuttuja C täyttää takaovikriteerin suhteessa järjestettyyn muuttujapariin (X, Y ), sillä se ei ole X:n 13
16 jälkeläinen ja tukkii jokaisen takaovipolun X:n ja Y :n väliltä. Siten kausaalivaikutus X:stä Y :hyn on identifioituva, ja se voidaan laskea kaavalla P (Y = y do(x = x)) = c P (Y = y X = x, C = c)p (C = c). Muuttujan C kontrolloiminen on riittävää, mutta C:n lisäksi on mahdollista kontrolloida myös A tai B. (Pearl & Mackenzie 2018, 162.) Kausaalilaskenta Kausaalilaskenta (do-calculus) on Pearlin kehittämä päättelysääntöjen joukko, joilla voidaan selvittää, onko kausaalivaikutus identifioituva kausaaligraafissa. Päättelysääntöjä on kolme, ja ne perustuvat tulkintaan do-operaattorista interventiona, joka muokkaa mallia korvaamalla tietyt muuttujat vakiolla X = x ja pitämällä mallin muilta osin muuttumattomana. Tulokseksi saadaan alamalli, joka esitetään graafissa G X. (Pearl 2009, ) Lause 2.8. Olkoon G kausaalimalliin M liittyvä suunnattu silmukaton graafi. Mille tahansa erilliselle muuttujien osajoukolle X, Y, Z ja W on voimassa seuravat säännöt. 1. Havaintojen lisääminen tai poistaminen: P (y do(x), z, w) = P (y do(x), w), jos (Y Z X, W ) GX 2. Toiminnan tai havainnon vaihtaminen: P (y do(x), do(z), w) = P (y do(x), z, w), jos (Y Z X, W ) GXZ 3. Toimintojen lisääminen tai poistaminen: P (y do(x), do(z), w) = P (y do(x), w), jos (Y Z X, W ) GX,Z(W ), jossa Z(W ) on joukko solmuja Z, jotka eivät ole yhdenkään solmun W esivanhempia graafissa G X. (Pearl 2009, ) Merkinnällä G X tarkoitetaan, että graafi on saatu poistamalla G:stä särmät, jotka osoittavat X:ään. G X taas tarkoittaa graafia, joka on saatu graafista G poistamalla särmät, jotka lähtevät X:stä. (Pearl 2009, ) 14
17 (a) G (b) G Z = G X (c) G XZ (d) G Z (e) G XZ Kuva 3: Esimerkkien 2.10 ja 2.11 kausaaligraafit. Seuraus 2.9. Kausaalivaikutus q = P (y 1,..., y k do(x 1 ),..., do(x m )) on identifioituva graafissa G, jos äärellistä määrää kausaalilaskennan sääntöjä käyttäen kausaalivaikutus saadaan esitettyä ilman do-operaattoria (Pearl 2009, 86). Kausaalilaskennan on todistettu olevan täydellinen kausaalivaikutuksen identifioinnissa. Sen avulla voidaan siis johtaa kaikkien identifioituvien kausaalivaikutusten jakaumat, ja jos do-operaattoria ei saada poistettua näiden kolmen laskusäännön avulla, niin kausaalivaiktus ei ole identifioituva. (Pearl 2009, 86; Pearl 2012, 5.) Käydään seuraavaksi läpi muutama esimerkki kausaalilaskennan sääntöjen soveltamisesta. Esimerkki Tehtävänä on määrittää kausaalivaikutus X:stä Z:aan graafissa G, joka on esitetty kuvassa 3. Tämä voidaan ratkaista yhdessä vaiheessa säännön 2 nojalla. Havaitaan, että X ja Z ovat riippumattomia (X Z) graafissa G X, koska törmäyssolmu Y tukkii takaovipolun X U Y Z. Näin ollen kausaalivaikutus X:stä Z:aan saadaan laskettua kaavalla P (z do(x)) = P (z x). (2.1) (Pearl 2009, 86.) 15
18 Esimerkki Tehtävänä on määrittää kausaalivaikutus X:stä Y :hyn kausaaligraafissa G (ks. kuva 3). Aloitetaan kirjoittamalla kausaalivaikutus ehdollisen kokonaistodennäköisyyden kaavan 1.2 (esitetty todennäköisyysteorian peruskäsitteitä käsittelevässä luvussa 1.1) avulla, jolloin saadaan P (y do(x)) = z P (y z, do(x))p (z do(x)). (2.2) Yhtälön 2.2 jälkimmäinen osa määritettiin edellisessä esimerkissä (yhtälö 2.1), joten siirrytään suoraan yhtälön 2.2 ensimmäiseen osaan. Ensimmäisestä termistä P (y z, do(x)) ei suoraan saada poistettua do-operaattoria. Sen sijaan säännön 2 nojalla voidaan lisätä do-operaattori, jolloin P (y z, do(x)) = P (y do(z), do(x)), sillä ehto Y Z X pätee graafissa G XZ. Nyt, säännön 3 nojalla, edellisestä yhtälöstä voidaan poistaa do(x), sillä Y X Z graafissa G XZ, joten P (y do(z), do(x)) = P (y do(z)). Sovelletaan jälleen ehdollisen kokonaistodennäköisyyden kaavaa 1.2, mutta tällä kertaa summattavan muuttujajoukon x yli, jolloin P (y do(z)) = x P (y x, do(z))p (x do(z)). Yhtälön jälkimmäiseen osaan voidaan soveltaa sääntöä 3. X ja Z ovat riippumattomia graafissa G Z, sillä törmäyssolmu Y tukkii takaovipolun Z Y U X. Täten P (x do(z)) = P (x). Yhtälön ensimmäiseen osaan voidaan käyttää sääntöä 2. Tällöin P (y x, do(z)) = P (y x, z), sillä ehto Z Y X pätee graafissa G Z. Yhdistämällä kaksi edellistä, saadaan kausaalivaikutus Z:sta Y :hyn muotoon P (y do(z)) = x P (y x, z)p (x). (2.3) Lopuksi yhtälön 2.2 kausaalivaikutus X:stä Y :hyn voidaan kirjoittaa yhtälöjen 2.1 ja 2.3 avulla muotoon P (y do(x)) = z P (z x) x P (y x, z)p (x ). (2.4) 16
19 Lopulliseen yhtälöön 2.4 on lisätty merkintä x, koska on haluttu tehdä ero havaitun x:n ja summattavan x :n välille. Itse asiassa tämä yhtälö 2.4 on sama kuin etuovikriteerin lauseke. Etuovikriteeri on graafinen identifiointimenetelmä, mutta se jätetään tässä käsittelemättä. (Pearl 2009, 87 88; Pearl ym. 2016, 68.) Kausaalivaikutuksen identifiointi pienestä graafista takaovikriteerillä on suhteellisen helppoa, mutta suuremmista graafeista kontrolloitavien muuttujien löytäminen voi olla haasteellisempaa. Kausaalilaskennan soveltaminen ei myöskään ole helppoa, sillä do-operaattorin sääntöjen käyttäminen ei tapahdu systemaattisessa järjestyksessä. Tästä syystä kausaalivaikutuksen identifiointiin on kehitetty useita algoritmeja. Esimerkiksi Shpitser ja Pearl (2006) ovat rakentaneet algoritmin, joka soveltaa kausaalilaskennan ja todennäköisyyslaskennan sääntöjä. Algoritmin on osoitettu olevan täydellinen kausaalivaikutuksen identifioinnissa, ja se joko antaa oikean lausekkeen kausaalivaikutukselle tai epäonnistuu kausaalivaikutuksen identifioinnissa, jolloin kausaalivaikutus ei ole identifioituva. (Shpitser & Pearl 2006.) Jyväskylän yliopiston tutkijatohtori Tikka (2015) on luonut Shpitserin ja Pearlin algoritmiin pohjautuvan R-paketin causaleffect pro gradu -tutkielmassaan. Väitöskirjassaan Tikka (2018) on parantanut algoritmin tuottamia lausekkeita sieventämällä niitä yksinkertaisempaan ja helpommin ymmärrettävään muotoon. 17
20 3 Rakenneyhtälömallien teoriasta Rakenneyhtälömallit (structural equation models, SEM) on kokoelma tilastollisia menetelmiä, joilla voidaan tutkia monimutkaisia, useiden muuttujien välisiä kausaalirakenteita. Rakenneyhtälömalleja sovelletaankin erityisesti käyttäytymis- ja yhteiskuntatieteiden puolella, sillä monesti näillä aloilla tutkittavat kausaaliyhteydet eivät ole yksinkertaisia. Rakenneyhtälömalleissa kausaaliyhteydet kuvataan rakenneyhtälöinä, jotka voidaan esittää havainnollisesti polkukaavioiden avulla. Rakenneyhtälömalleissa kausaalipäättely edellyttää vahvaa substanssiteoriaa ilmiöiden välisitä suhteista, joten rakenneyhtälömalleja ei voi hyödyntää aloilla, joilla teoria on epätarkkaa tai puutteellista. (Byrne 2012, 3; Kline 2015, 9; Pearl 2009, 133.) Rakenneyhtälömallit ei ole yksittäinen tilastollinen menetelmä, vaan mallintaminen voi perustua konfirmatoriseen faktorimalliin, regressiomalliin, polkumalleihin tai yleiseen rakenneyhtälömalliin. Yleinen rakenneyhtälömalli koostuu kahdesta osasta: 1) mittausmallista, joka määrittää havaittujen ja ei-havaittujen muuttujien väliset yhteydet ja 2) rakennemallista, joka esittää ei-havaittujen muuttujien väliset yhteydet. (Byrne 2012, 14; Schumacker & Lomax 2010, 2.) Tässä luvussa rakenneyhtälömallilla tarkoitetaan juurikin yleistä rakenneyhtälömallia, vaikkei sitä erikseen mainittaisi. Tämän luvun tavoitteena on antaa kattava yleiskuva rakenneyhtälömallien teoriasta. Ensin tutustutaan rakanneyhtälömallien kehitykseen ja perustermistöön. Tämän jälkeen määritellään rakenneyhtälömalli sekä perehdytään mallin identifiointiin, estimointiin, testaamiseen ja muokkaamiseen. 3.1 Historiaa Rakenneyhtälömallien kehitykseen liittyvät kolmenlaiset mallit: regressio-, polku- ja faktorimallit (Schumacker & Lomax 2010, 4). Regressio- ja polkumallien muotoutumisesta kerrottiin jo Pearlin kausaaliteorian yhteydessä, joten siirrytän suoraan faktorimalleihin ja niiden kehitykseen. Faktorianalyysi on tilastollinen menetelmä, jossa pyritään löytämään aineistosta vähäulotteisempi piilorakenne muuttujien korrelaatioiden avulla. Piilorakenteteella tarkoitetaan sitä, että havaittujen muuttujien takana ajatellaan olevan pienempi määrä varsinaisen kiinnostuksen kohteena olevia eihavaittuja eli latentteja muuttujia tai toisin sanoen faktoreita. Faktoreita ei siis voida suoraan mitata, mutta niiden oletetaan vaikuttavan havaittujen muuttujien vaihteluun. (Mustonen 1995, 75; Nummenmaa 2004, 397.) 18
21 Faktorianalyysi voidaan jakaa eksploratiiviseen faktorianalyysiin (exploratory factor analysis, EFA) ja konfirmatoriseen faktorianalyysiin (confirmatory factor analysis, CFA). Eksploratiivista lähestymistapaa käytetään, kun havaittujen ja latenttien muuttujien välisiä yhteyksiä ei tiedetä tai niistä ei olla vielä varmoja. Eksploratiivisen faktorianalyysin tavoitteena onkin selvittää, miten havaitut muuttujat ovat linkittyneet taustalla oleviin faktoreihin. Konfirmatorista lähestymistapaa taas käytetään, kun tutkijalla on ennestään tietämystä mallinnettavasta faktorirakenteesta. Tutkija siis muodostaa ensin oletetun mallin teorian tai empiirisen tutkimuksen pohjalta ja vasta sitten testaa tilastollisesti tätä oletetun mallin faktorirakennetta. (Byrne 2012, 5 6.) Faktorianalyysi sai alkunsa psykologian puolella, kun vuonna 1904 brittiläinen psykologi Charles Spearman julkaisi artikkelin General Intelligence, Objectively Determined and Measured, jossa käytetään ensimmäistä kertaa termiä faktorianalyysi. Artikkelissaan Spearman käyttää faktorianalyysia ihmisen älykkyyden rakenteen määrittelemiseen. (Cudeck 2007, 1; Schumacker & Lomax 2010, 4.) Vuonna 1931 amerikkalainen psykologi Louis Leon Thurstone yleisti faktorianalyysin moniulotteisiin asetelmiin artikkelissaan Multiple Factor Analysis (Bock 2007, 35) luvulla myös tilastotieteilijät alkoivat pikkuhiljaa kiinnostua faktorianalyysista. Faktorianalyysin tilastolllisten menetelmien kehittyminen lähti kuitenkin vauhdilla liikkeelle vasta laskentatehokkuuden parannuttua tietokoneiden yleistymisen myötä luvulla. Vuonna 1969 ruotsalainen tilastotieteilijä Karl Jöreskog kehitti konfirmatorisen faktorianalyysin. (Jöreskog 2007, ) Rakenneyhtälömallien varhaisesta kehityksestä ja 1970-luvun vaihteessa vastasivat Karl Jöreskog, Ward Keesling ja David Wiley. He yhdistivät konfirmatorisen faktorimallin (mittausmallin) ja polkumallin (rakennemallin) ja loivat näin teoriakehyksen, jota nykyään kutsutaan rakenneyhtälömalleiksi. Ensimmäinen rakenneyhtälömallien laskemiseen soveltuva ohjelma oli Jöreskogin ja hänen kollegansa Dag Sörbomin kehittämä LISREL, jonka ensimmäinen versio julkaistiin vuonna ja 1990-luvuilta eteenpäin rakenneyhtälömallien kehittäminen jatkui vilkkaasti, ja nykyään niitä sovelletaan monella eri tieteenalalla. (Kline 2016, 23; Schumacker & Lomax 2010, 6.) 3.2 Peruskäsitteitä Rakenneyhtälömalleissa muuttujat jaetaan havaittuihin eli indikaattorimuuttujiin ja ei-havaittuihin eli latentteihin muuttujiin, joita voidaan kutsua myös 19
22 faktoreiksi. Havaitut muuttujat ovat suoraan mitattavissa aineistosta, kun taas latentit muuttujat eivät ole suoraan havaittavissa, joten ne eivät voi olla myöskään suoraan mitattavissa. Latentit muuttujat ovat yhteydessä havaittuihin muuttujiin, jotka tekevät niiden mittaamisen mahdolliseksi. (Byrne 2012, 4.) Rakenneyhtälömalleissa on hyvä erottaa toisistaan eksogeeniset ja endogeeniset latentit muuttujat. Eksogeeninen latentti muuttuja tarkoittaa riippumatonta muuttujaa (syy) ja endogeeninen latentti muuttuja riippuvaa muuttujaa (seuraus). Eksogeeniset muuttujat vaikuttavat mallin endogeenisiin muuttujiin joko suoraan tai epäsuorasti. (Byrne 2012, 5.) Rakenneyhtälömalli voidaan jakaa kahteen osaan: mittausmalliin (measurement model) ja rakennemalliin (structural model). Mittausmalli määrittää havaittujen ja latenttien muuttujien väliset yhteydet. Rakennemalli taas määrittää latenttien muuttujien keskinäiset yhteydet. (Byrne 2012, 14.) Rakenneyhtälömalleja voidaan havainnollistaa polkukaavioilla, jotka koostuvat soikioista ja suorakulmioista sekä yksi- ja kaksisuuntaisista nuolista. Soikiot edustavat latentteja muuttujia ja suorakulmiot havaittuja muuttujia. Yksisuuntainen nuoli kuvaa yhden muuttujan vaikutusta toiseen muuttujaan. Kaksisuuntainen nuoli ilmaisee kahden muuttujan välistä kovarianssia tai korrelaatiota. (Byrne 2012, 9.) Kuvassa 4 on esitetty rakennemallin polkukaavio jaettuna mittaus- ja rakennemalliin. Suorakulmioiden sisällä olevat x 1, x 2 ja x 3 sekä y 1, y 2 ja y 3 ovat havaittuja muuttujia, kun taas soikioiden sisällä olevat ξ ja η ovat latentteja muuttujia. Latenteista muuttujista ξ on eksogeeninen, sillä siihen ei osoita yksikään yksisuuntainen nuoli, kun taas η on endogeeninen, koska siihen johtaa nuoli ξ:stä. Yksisuuntaiset nuolet (γ ja β) kuvastavat latenttien muuttujien välisiä regressiokertoimia. Näistä γ ilmoittaa eksogeenisen ja endogeenisen latentin muuttujan välisen polkukertoimen, kun taas β kuvaa kahden endogeenisen latentin muuttujan välistä polkukerrointa. Yksisuuntaiset nuolet (λ x ja λ y ) ilmaisevat latenttien ja havaittujen muuttujien väliset mittayhteydet. Lisäksi yksisuuntaisilla nuolilla kuvataan erilaisia virhetermejä. Havaittuihin muuttujiin liittyvistä mittausvirheistä δ:t ilmaisevat riippumattomiin havaittuihin muuttujiin liittyviä mittausvirheitä ja ε:t riippumattomiin havaittuihin muuttujiin liittyviä mittausvirheitä. Termiä ζ kutsutaan residuaaliksi, ja se on endogeeniseen latenttiin muuttujaan liittyvä häiriö- tai virhetermi. Residuaali kuvastaa siis endogeenisen latentin muuttujan osaa, jota malli ei pysty selittämään. (Byrne 2012, 9 12; Jöreskog 2007, 65 67; Schumacker & Lomax 2010, ) Näitä samoja kreikkalaisia kirjaimia käytetään seuraavassa kappaleessa, jossa esitetään rakenneyhtälömallin määritelmä käyttäen Jöreskogin LISREL-notaatioita. 20
23 Kuva 4: Rakenneyhtälömallin polkukaavio jaettuna mittaus- ja rakennemalliin (Najaf 2016). 3.3 Yleinen rakenneyhtälömalli Jöreskogin LISREL-matriisimerkintöjä käyttäen rakenneyhtälömallin rakenneosa voidaan esittää matriisiyhtälönä η = α + Bη + Γξ + ζ (3.1) missä η = (η 1, η 2,..., η m ) on latenttien riippuvien muuttujien satunnaisvektori, ξ = (ξ 1, ξ 2,..., ξ n ) on latenttien riippumattomien muuttujien satunnaisvektori, B (m m) ja Γ (m n) ovat kerroinmatriiseita, α on vakiovektori ja ζ = (ζ 1, ζ 2,..., ζ m ) on residuaalin satunnaisvektori eli virhetermi. Yhtälössä oletetaan, että ζ ja ξ eivät korreloi keskenään. Lisäksi oletetaan, että I B on epäsingulaarinen eli kääntyvä. (Jöreskog 2007, 65 66). I on m m identiteettimatriisi eli sen lävistäjän alkiot ovat ykkösiä ja muut nollia. Kerroinmatriisit B ja Γ ovat muotoa 0 β β 1m. β B = βm 1,m β m1... β m,m 1 0 ja γ γ 1n Γ = γ m1... γ mn 21
24 Matriisin B alkiot kuvaavat suoraa vaikutusta η-muuttujilta toisille η-muuttujille. On hyvä huomata, että B:n diagonaalialkiot on aina kiinnitetty nolliksi. Tämä johtuu siitä, ettei koskaan olla kiinnostuneita siitä, missä määrin latentit riippuvat muuttujat vaikuttavat itse itseensä. Matriisin Γ alkiot ilmaisevat suoraa vaikutusta ξ-muuttujilta η-muuttujille. (Schumacker & Lomax 2010, ) Vektorit η ja ξ eivät ole havaittuja, mutta sen sijaan vektorit y = (y 1, y 2,..., y p ) ja x = (x 1, x 2,..., x q ) ovat havaittuja. Jöreskogin merkinnöin mittausmalli latenteille riippuville muuttujille η voidaan määritellä yhtälöllä y = τ y + Λ y η + ε (3.2) ja riippumattomille latenteille muuttujille ξ yhtälöllä x = τ x + Λ x ξ + δ, (3.3) missä τ y ja τ x ovat vakiovektoreita, Λ y (p m) ja Λ x (q n) ovat kerroinmatriiseita sekä ε = (ε 1,..., ε p ) ja δ = (δ 1,..., δ q ) ovat virhetermin vektoreita eli mittausvirheitä. Näissä oletetaan, että mittausvirhe ε ei korreloi latenttien riippuvien muuttujien η kanssa ja vastaavasti mittausvirhe δ ei korreloi latenttien riippumattomien muuttujien ξ kanssa. (Jöreskog 2007, ) Kerroinmatriisit Λ y ja Λ x ovat muotoa ja λ y λ y 1m Λ y =..... λ y p1... λ y pm Λ x = λ x λ x 1n..... λ x q1... λ x qn Matriisi Λ y kertoo indikaattorimuuttujien y faktorilataukset endogeenisissa latenteissa muuttujissa η ja matriisi Λ x indikaattorimuuttujien x fakrotilataukset eksogeenisissa latenteissa muuttujissa ξ. (Schumacker & Lomax 2010, ) Rakennemallin yhtälöön 3.1 ja mittausmallin yhtälöihin 3.2 ja 3.3 liittyy vielä yksi yhteinen oletus. Sen mukaan residuaalivektori ζ ei korreloi mittausvirheiden vektoreiden ε ja δ kanssa. (Jöreskog 2004, 29.) Rakenneyhtälömalliin liittyy useita kovarianssitermejä, ja niistä kaksi liittyy mallin rakenneosaan. Kovarianssimatriisi latenteille riippumattomil-. 22
25 le muuttujille ξ on Kovarianssimatriisi residuaalille ζ on ϕ ϕ 1n Φ = ϕ n1... ϕ nn ψ ψ 1m Ψ = ψ m1... ψ mm Mittausmalliin liittyy myös kaksi kovarianssimatriisia. Kovarianssitermi y:n mittausvirheelle ε on Θ ε ja se on muotoa Θ ε = θ11 ε... θ1p ε..... θp1 ε... θpp ε Kovarianssitermi x:n mittausvirheelle δ on Θ δ ja se on muotoa Θ δ = θ11 δ... θ1q δ..... θq1 δ... θqq δ (Schumacker & Lomax 2010, ) Tarkastellaan seuraavaksi koko mallin odotusarvo- ja kovarianssirakennetta. Edellä määriteltiin seuraavat kahdeksen eri matriisia: kerroinmatriisit B, Γ, Λ y ja Λ x sekä kovarianssimatriisit Φ = Cov(ξ), Ψ = Cov(ζ), Θ ε = Cov(ε) ja Θ δ = Cov(δ). Lisäksi olkoon κ = E(ξ) ja Θ kovarianssimatriisi virhetermien δ ja ε välillä eli [ Θε Θ Θ = δε Θ δε Θ δ ] = Cov Tällöin z = (y, x ) :n odotusarvovektori µ ja kovarianssimatriisi Σ ovat muotoa [ τy + Λ µ = y (I B) 1 ] (α + Γκ) τ x + Λ x κ ja Σ = [ Σyy Σ yx Σ xy 23 Σ xx ].. [ ε δ ].. (3.4)
26 (Jöreskog 2007, 67.) Kovarianssimatriisi Σ on supermatriisi, joka koostuu neljästä alimatriisista. Σ yy ilmaisee y:n kovarianssitermin, ja se voidaan kirjoittaa muodossa Σ yy = [ Λ y (I B) 1 (ΓΦΓ + Ψ)(I B ) 1 Λ y + Θ ε ]. Tämä matriisiyhtälö sisältää rakennemalliin liittyvät matriisit ja y:n mittausmalliin liittyvät matriisit, muttei yhtään x:ään liittyvää matriisia. Alimatriisi Σ xx käsittelee x:n kovarianssitermiä, ja se voidaan esittää muodossa Σ xx = [ Λ x ΦΛ x + Θ δ ]. Tämä matriisiyhtälö koostuu pelkästään x:n mittausmalliin kuuluvista matriiseista. Alimatriisit Σ xy ja Σ yx käsittävät x:n ja y:n välisen kovarianssin, ja ovat muotoa Σ yx = [ Λ y (I B) 1 ΓΦΛ x + ] Θ δε ja Σ xy = [ Λ x ΦΓ (I B ) 1 Λ y + Θ δε Alimatriisit Σ xy ja Σ yx ovat toistensa transpooseja. (Jöreskog 2007, 67; Schumacker & Lomax 2010, ) ]. 3.4 Mallin identifioituvuus ja estimointi Mallin parametrit voidaan estimoida vain jos malli on identifioituva, eli jos mallin jokainen parametri voidaan määrittää yksikäsitteisesti. Rakenneyhtälömalleissa mallin identifioinnissa sanotaan olevan kolme tasoa, jotka riippuvat havaitun kovarianssimatriisin S alkioiden ja estimoitavien parametrien lukumäärästä. Jos kovarianssimatriisin alkioiden määrä on suurempi kuin estimoitavien parametrien määrä, niin malli on yli-identifioituva. Rakenneyhtälömalleissa mallin yli-identifioituvuus on välttämätön ehto analyyseissa etenemiselle. Jos kovarianssimatriisin alkioiden määrä on sama kuin estimoitavien parametrien määrä, niin malli on juuri-identifioituva. Vaikka tällainen malli onkin identifioituva, se ei ole kiinnostuksen kohteena, koska mallin khiin neliötestin arvo sekä vapausasteiden määrä on nolla, eikä hypoteesia mallin riittävyydestä näin ollen pystytä testaamaan. Jos kovarianssimatriisin alkioiden määrä on pienempi kuin estimoitavien parametrien määrä, niin malli on ali-identifioituva, eikä mallin parametreja voida estimoida yksiselitteisesti, vaan mahdollisia ratkaisuja on ääretön määrä. (Byrne 2012, 32 33; Schumacher & Lomax 2010, 57 58; Tabachnick & Fidell 2007, 709.) 24
27 Rakenneyhtälömallien idenfioituvuudessa on eroja riippuen siitä onko malli rekursiivinen vai ei-rekursiivinen. Rekursiivisen rakenneyhtälömallin kausaalivaikutukset ovat yksisuuntaisia ja residuaalit oletetaan korreloimattomiksi. Ei-rekursiivinen rakenneyhtälömalli taas voi sisältää kausaalisilmukoita tai korreloivia residuaaleja. (Kline 2016, 135.) Rekursiiviset rakenneyhtälömallit ovat aina identifioituvia, kun taas ei-rekursiivisten rakenneyhtälömallien identifioituvuuden selvittäminen on monimutkaisempaa (Kline 2016, ). Ei-rekursiivisten rakenneyhtälömallien identifioituvuuden määrittämistä ei tässä lähdetä avaamaan, sillä myöhemmin, luvussa 4, esitetty esimerkkimalli on rekursiivinen. Lisätietoa ei-rekursiivisten mallien identifioituvuudesta löytyy esimerkiksi Klinen (2016) kirjasta. Identifioinnin kannalta tärkeää on määrittää latenttien muuttujien mittaasteikko, sillä nämä muuttujat ovat havaitsemattomia, eikä niillä ole ennelta määrättyä metristä asteikkoa. Yleisin tapa ongelman ratkaisuun on joko kiinnittää jokaisen faktorin varianssi ykköseksi tai kiinnittää yhden faktorilatauksen arvo ykköseksi jokaisesta faktorista. (Byrne 2012, 33 34; Schumacher & Lomax 2010, 58 59; Tabachnick & Fidell 2007, 710.) Rakenneyhtälömallin parametrien estimoinnissa tavoitteena on minimoida havaitun kovarianssimatriisin S ja mallin ennustaman kovarianssimatriisin Σ välinen erotus. Tämän tavoitteen saavuttamiseksi minimoidaan sovitusfunktio, jonka yleinen muoto on F = 1 2 tr[(s Σ)W 1 ] 2, (3.5) missä W on painomatriisi, joka vaihtelee käytetystä estimointimenetelmästä riippuen. Lyhenne tr tarkoittaa matriisin jälkeä eli matriisin diagonaalialkioiden summaa. Rakenneyhtälömallin parametrien estimoinnissa on siis kyse jäännöskovarianssimatriisin S Σ alkioiden neliöiden painotetun summan minimoimisesta. (Ketokivi 2015, 187; Schumacker & Lomax 2010, 59 60; Tabachnick & Fidell 2007, 713.) Rakenneyhtälämalleissa on useita mahdollisia estimointimenetelmiä. Estimointitapa valitaan päättämällä sopiva painomatriisi W. Yleisimmin käytetty estimaattori on suurimman uskottavuuden estimaattori, jossa painomatriisina on mallin ennustama kovarianssimatriisi W = ˆΣ, joten sovitusfunktio (3.5) saa muodon F ML = 1 2 tr[(s Σ) ˆΣ 1 ] 2. Muita mahdollisia estimointimenetelmiä ovat esimerkiksi painottamaton pienimmän neliösumman estimointi, jossa painomatriisina toimii identiteettimatriisi I tai yleistetty pienimmän neliösumman estimointi, jossa painomat- 25
Regressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
Regressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
Pro gradu -tutkielma Meteorologia SUOMESSA ESIINTYVIEN LÄMPÖTILAN ÄÄRIARVOJEN MALLINTAMINEN YKSIDIMENSIOISILLA ILMAKEHÄMALLEILLA. Karoliina Ljungberg
Pro gradu -tutkielma Meteorologia SUOMESSA ESIINTYVIEN LÄMPÖTILAN ÄÄRIARVOJEN MALLINTAMINEN YKSIDIMENSIOISILLA ILMAKEHÄMALLEILLA Karoliina Ljungberg 16.04.2009 Ohjaajat: Ari Venäläinen, Jouni Räisänen
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen
4.0.2 Kuinka hyvä ennuste on?
Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki
Kausaalivaikutusten identifiointi algoritmisesti
Kausaalivaikutusten identifiointi algoritmisesti Santtu Tikka Tilastotieteen pro gradu -tutkielma Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos 27. helmikuuta 2015 JYVÄSKYLÄN YLIOPISTO Matematiikan
Kausaalipäättelyn uudet menetelmät
Kausaalipäättelyn uudet menetelmät Juha Karvanen Matematiikan ja tilastotieteen laitos Jyväskylän yliopisto Profiloitumisalue: Decision analytics utilizing causal models and multiobjective optimization
1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
Olkoon seuraavaksi G 2 sellainen tasan n solmua sisältävä suunnattu verkko,
Tehtävä 1 : 1 a) Olkoon G heikosti yhtenäinen suunnattu verkko, jossa on yhteensä n solmua. Määritelmän nojalla verkko G S on yhtenäinen, jolloin verkoksi T voidaan valita jokin verkon G S virittävä alipuu.
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään
Johdatus graafiteoriaan
Johdatus graafiteoriaan Syksy 2017 Lauri Hella Tampereen yliopisto Luonnontieteiden tiedekunta 62 Luku 2 Yhtenäisyys 2.1 Polku 2.2 Lyhin painotettu polku 2.3 Yhtenäinen graafi 2.4 Komponentti 2.5 Aste
Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1
Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen
Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1
Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että
! #! %! & #!!!!! ()) +
! #! %! & #!!!!! ()) + Tiedekunta/Osasto Fakultet/Sektion Faculty Humanistinen tiedekunta Laitos Institution Department Taiteiden tutkimuksen laitos Tekijä Författare Author Matti Pesonen Työn nimi Arbetets
Moniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
Dynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
Harjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Kausaalisuus ja kausaalipäättely. Pertti Töttö
Kausaalisuus ja kausaalipäättely Pertti Töttö ???? Tilastollinen riippuvuus ei ole yhtä kuin kausaalisuus Ei korrelaatiota ilman kausaatiota Näennäiskorrelaatio Suunnattu korrelaatio Korrelaatio: symmetrinen
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n
Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?
TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä
Inversio-ongelmien laskennallinen peruskurssi Luento 7
Inversio-ongelmien laskennallinen peruskurssi Luento 7 Kevät 2012 1 Tilastolliset inversio-ongelmat Tilastollinen ionversio perustuu seuraaviin periaatteisiin: 1. Kaikki mallissa olevat muuttujat mallinnetaan
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
Tilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
Itseopiskelumateriaalia: Kausaalimallintamisen perusteet tilastotieteessä
Itseopiskelumateriaalia: Kausaalimallintamisen perusteet tilastotieteessä Juho Kopra juho.j.kopra@jyu.fi Santtu Tikka santtu.tikka@jyu.fi Jyväskylän yliopisto, Matematiikan ja tilastotieteen laitos 19.
Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka
1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x
HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 017 Harjoitus 5 Ratkaisuehdotuksia Tehtäväsarja I 1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X
Harjoitus 9: Excel - Tilastollinen analyysi
Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi
9. Tila-avaruusmallit
9. Tila-avaruusmallit Aikasarjan stokastinen malli ja aikasarjasta tehdyt havainnot voidaan esittää joustavassa ja monipuolisessa muodossa ns. tila-avaruusmallina. Useat aikasarjat edustavat dynaamisia
Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio
Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n
Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:
Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016
1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset
TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept
Määritelmä Olkoon T i L (V i, W i ), 1 i m. Yksikäsitteisen lineaarikuvauksen h L (V 1 V 2 V m, W 1 W 2 W m )
Määritelmä 519 Olkoon T i L V i, W i, 1 i m Yksikäsitteisen lineaarikuvauksen h L V 1 V 2 V m, W 1 W 2 W m h v 1 v 2 v m T 1 v 1 T 2 v 2 T m v m 514 sanotaan olevan kuvausten T 1,, T m indusoima ja sitä
Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen
Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on
HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka
Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3
Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset
Todennäköisyyden ominaisuuksia
Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset
Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt
TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,
Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin
Tilastotieteen aihehakemisto
Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Faktorianalyysi (Factor analysis) Faktorianalyysi jaetaan perinteisesti kahteen osaan Eksploratiiviseen (explorative factor analysis)
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Matematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14
Osa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
Yleistetyistä lineaarisista malleista
Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla
Väliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen
5.7 Uskottavuusfunktioon perustuvia testejä II
5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa
Johdatus regressioanalyysiin. Heliövaara 1
Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen
Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61
3.3. Satunnaismuuttujien ominaisuuksia 61 Odotusarvo Määritelmä 3.5 (Odotusarvo) Olkoon X diskreetti satunnaismuuttuja, jonka arvojoukko on S ja todennäköisyysfunktio f X (x). Silloin X:n odotusarvo on
Tilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
pitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
Lohkoasetelmat. Vilkkumaa / Kuusinen 1
Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa
Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus
Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus 1 / 51 Lineaarikombinaatio Johdattelua seuraavaan asiaan (ei tarkkoja määritelmiä): Millaisen kuvan muodostaa joukko {λv λ R, v R 3 }? Millaisen
Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa
Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen
pitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.
2. MS-A4/A6 Matriisilaskenta 2. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 5.9.25 Tarkastellaan esimerkkinä lineaarista yhtälöparia { 2x x 2 = x + x 2
2. Teoriaharjoitukset
2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila Kalvoissa käytetään materiaalia P. Palon vuoden 2005 kurssista. 07.09.2007 Antti Rasila () SovTodB 07.09.2007 07.09.2007 1 / 24 1 Todennäköisyyslaskennan
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
Moniulotteiset satunnaismuuttujat ja jakaumat
Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat KE (2014) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat >> Kaksiulotteiset
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.
Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta
MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,
Mat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
3. Teoriaharjoitukset
3. Teoriaharjoitukset Demotehtävät 3.1 a Olkoot u ja v satunnaumuuttujia, joilla on seuraavat ominaisuudet: E(u = E(v = 0 Var(u = Var(v = σ 2 Cov(u, v = E(uv = 0 Näytä että deterministinen prosessi. x
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 14. syyskuuta 2007 Antti Rasila () TodB 14. syyskuuta 2007 1 / 21 1 Kokonaistodennäköisyys ja Bayesin kaava Otosavaruuden ositus Kokonaistodennäköisyyden
Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1
Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu
Lohkoasetelmat. Kuusinen/Heliövaara 1
Lohkoasetelmat Kuusinen/Heliövaara 1 Kiusatekijä Kaikissa kokeissa kokeen tuloksiin voi vaikuttaa vaihtelu, joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla on mahdollisesti vaikutusta vastemuuttujan
Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41
MS-A0004/MS-A0006 Matriisilaskenta, I/06 Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 4 Tehtävä 5 (L): a) Oletetaan, että λ 0 on kääntyvän matriisin A ominaisarvo. Osoita, että /λ on matriisin A
P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
Dynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 6: 1 Kalmanin suodatin Aiemmin käsitellyt
= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120
Tehtävä 1 : 1 Merkitään jatkossa kirjaimella H kaikkien solmujoukon V sellaisten verkkojen kokoelmaa, joissa on tasan kolme särmää. a) Jokainen verkko G H toteuttaa väitteen E(G) [V]. Toisaalta jokainen
ABHELSINKI UNIVERSITY OF TECHNOLOGY
Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.
ABHELSINKI UNIVERSITY OF TECHNOLOGY
Todennäköisyyslaskennan käsitteitä Satunnaisuus ja deterministisyys Deterministisessä ilmiössä alkutila määrää lopputilan yksikäsitteisesti. Satunnaisilmiö puolestaan arpoo - yhdestä alkutilasta voi päätyä
Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1
Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n
Lohkoasetelmat. Heliövaara 1
Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,
Sovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan
Tilastollinen päättely II, kevät 2017 Harjoitus 2A
Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten
Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden
1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella
ABHELSINKI UNIVERSITY OF TECHNOLOGY
Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai
MS-A0004/A0006 Matriisilaskenta
4. MS-A4/A6 Matriisilaskenta 4. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto..25 Tarkastellaan neliömatriiseja. Kun matriisilla kerrotaan vektoria, vektorin
3.6 Su-estimaattorien asymptotiikka
3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä
Korrelaatiokertoinen määrittely 165
kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
Kaksisuuntainen varianssianalyysi. Heliövaara 1
Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat
.9. Kaksiulotteiset satunnaismuuttujat MS-A Todennäköisslaskennan ja tilastotieteen peruskurssi Viikko Moniulotteiset satunnaismuuttujat sekä niiden jakaumat ja tunnusluvut; Moniulotteisia jakaumia Usein
Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin
BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018
BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018 Tehtävä 8 on tällä kertaa pakollinen. Aloittakaapa siitä. 1. Kun tässä tehtävässä sanotaan sopii mahdollisimman hyvin, sillä tarkoitetaan
Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2
HY / Matematiikan ja tilastotieteen laitos Vektorianalyysi I, syksy 018 Harjoitus Ratkaisuehdotukset Tehtävä 1. Olkoon f : R R f(x 1, x ) = x 1 + x Olkoon C R. Määritä tasa-arvojoukko Sf(C) = {(x 1, x