Yleistetyistä lineaarisista malleista

Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Harjoitus 9: Excel - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Korrelaatiokertoinen määrittely 165

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Johdatus regressioanalyysiin. Heliövaara 1

Dynaamiset regressiomallit

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Yleinen lineaarinen malli

Moniulotteisia todennäköisyysjakaumia

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Väliestimointi (jatkoa) Heliövaara 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Todennäköisyyden ominaisuuksia

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Osa 2: Otokset, otosjakaumat ja estimointi

Otannasta ja mittaamisesta

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Load

805306A Johdatus monimuuttujamenetelmiin, 5 op

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Johdatus regressioanalyysiin

Tilastotieteen aihehakemisto

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Harjoitus 2: Matlab - Statistical Toolbox

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTP1, luento KERTAUSTA

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Moniulotteiset satunnaismuuttujat ja jakaumat

Tilastollinen aineisto Luottamusväli

Mat Tilastollisen analyysin perusteet, kevät 2007

4.0.2 Kuinka hyvä ennuste on?

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

1. Tilastollinen malli??

4.2 Useampi selittävä muuttuja (kertausta)

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Regressiodiagnostiikka ja regressiomallin valinta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MTTTP1, luento KERTAUSTA

Harjoitukset 4 : Paneelidata (Palautus )

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

30A02000 Tilastotieteen perusteet

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Regressiodiagnostiikka ja regressiomallin valinta

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

tilastotieteen kertaus

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3.6 Su-estimaattorien asymptotiikka

Kvantitatiiviset menetelmät

Vastepintamenetelmä. Heliövaara 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Transkriptio:

Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit riippumattomia normaalisti jakautuneita muuttujia, joilla E(Y) = m ja vakiovarianssi σ 2 Systemaattinen komponentti: Selittävien muuttujien x 1, x 2,,x n tuottama lineaarinen ennuste h = Σ x i b i Linkki systemaattisen ja satunnaiskomponentin välillä: Identiteetti m = h 1

Yleistetty lineaarinen malli Klassisen lineaarisen mallin yleistys, jossa systemaattisen ja satunnaiskomponentin välillä funktionaalinen yhteys η i = g(µ i ) Satunnaiskomponentin jakauma voi olla muukin eksponenttiperheen jakauma kuin normaalijakauma linkkifunktio g( ) voi olla mikä tahansa monotoninen differentioituva funktio Erikoistapauksia Y jatkuva, X:t jatkuvia tai diskreettejä Regressioanalyysi, varianssianalyysi normaalijakauma, η = µ Y binäärinen, X:t jatkuvia tai diskreettejä logit-malli = logistinen regressio binomijakauma, η = log{p/(1- p)} Y diskreetti, X:t diskreettejä log-lineaarinen malli = poisson regressio poisson-jakauma, η = log(µ) 2

Regressioanalyysi Yksi muuttuja (selitettävä) ilmaistaan muiden analyysissa mukana olevien muuttujien (selittävien muuttujien) lineaarikombinaationa y i = b 0 + b 1 x 1i + b 2 x 2i + + b n x ni + e i Mitä voimme sanoa selitettävän muuttujan keskimääräisistä arvoista, jos tunnemme selittäjien arvot? Regressikertoimien tulkinta (1/2) Regressiokertoimet b 0, b 1,, b n ovat mallin parametreja Estimoidaan aineistosta b 0 on vakio, joka kuvaa selitettävän muuttujan keskimääräistä arvoa, kun kaikki selittävät muuttujat saavat arvon nolla ei aina mielekästä tulkintaa Muut regressiokertoimet kuvaavat, kuinka monta yksikköä selitettävän muuttujan arvo muuttuu, kun ko. selittävän muuttujan arvo on yhtä mittayksikköä suurempi 3

Regressikertoimien tulkinta (2/2) Jos muuttujilla on ymmärrettävä mittaasteikko, kertoimet saavat suhteellisen selvän konkreettisen tulkinnan voidaan käyttää esimerkiksi verrattaessa jonkin vaikutuksen voimakkuutta eri ryhmissä Jos muuttujille ei ole luonnollista ymmärrettävää asteikkoa, voi olla järkevää käyttää tulkinnan pohjana standardoituja regressiokertoimia (beta-kertoimia) voidaan arvioida eri selittäjien suhteellista selityskykyä Regressioanalyysin perusoletukset Selittäjien arvot ovat kiinteitä eli ei-satunnaisia Minkään selittäjän arvot eivät riipu häiritsevästi toisten selittäjien arvoista multikollineaarisuus Havaintoja on enemmän kuin muuttujia Virhetermin odotusarvo on nolla Virhetermin varianssi on vakio homoskedastisuusoletus Virhetermit ovat keskenään korreloimattomia Virhetermi on normaalisti jakautunut vakiovarianssilla ja odotusarvolla nolla 4

Diagnostiikka Koska mallin sovittaminen aineistoon on matemaattinen ongelma, ei aineistoon sovitetulla mallilla tarvitse olla mitään tekemistä muuttujien välistä todellista riippuvuutta kuvaavan mallin kanssa Tutkijan on aina itse varmistettava, että aineistoon sovitettu malli täyttää sille asetetut vaatimukset näissä ns. diagnostisissa tarkasteluissa mallia kiusataan eri tavoin ja yritetään löytää siitä epäloogisuuksia löydettyjen ongelmien syy ja vaikutus pyritään selvittämään ja tarvittaessa myös mallia tulee korjata Regressiodiagnostiikka Mallin harhattomuus, jäännösvaihtelun homoskedastisuus, vaikutusvaltaiset havainnot Jäännösvaihteludiagramma hajontakuva, jossa y-akselilla residuaalit syytä piirtää sovitteen ja kaikkien mallissa mukana olevien selittävien muuttujien suhteen Satunnaisvaihtelun normaalisuus Normaalisuustestit Multikollineaarisuus korrelaatiomatriisi tulomomenttimatriisin X X ominaisarvot Autokorrelaatio 5

Mallinvalinnasta Muuttujien valinta malliin: Muuttujan mielekkyys tutkittavan ilmiön kannalta Muuttujaan liittyvän regressiokertoimen merkitsevyys Mallin valinta: Mallin (korjattu) selitysaste Selitysaste R 2 on selitysprosentti, joka osoittaa, kuinka suuren osan y:n vaihtelusta mallin muuttujat pystyvät selittämään Dummy-muuttujat Käyttämällä dummy-muuttujia sallitaan kullekin ryhmälle oma vakiotermi dummy-muuttuja on muuttuja, joka saa arvon 1, jos havainto kuuluu ryhmään ja arvon 0, jos havainto ei kuulu ryhmään dummy-muuttujia on (yleensä) yksi vähemmän kuin ryhmiä dummy-muuttujiin liittyviä kertoimia tulkitaan suhteessa referenssiryhmään referenssiryhmä on se ryhmä, jolle ei ole erillistä dummy-muuttujaa 6

Yksisuuntainen varianssianalyysi Yksisuuntaisessa varianssianalyysissa perusjoukko jaetaan kahteen tai useampaan ryhmään yhden tekijän suhteen Tarkoituksena on vertailla johonkin perusjoukon ominaisuuteen liittyvän satunnaismuuttujan odotusarvoa näissä ryhmissä Testauksen kohteena on nollahypoteesi, jonka mukaan odotusarvo on kaikissa ryhmissä sama Huomioita varianssianalyysista Varianssianalyysi on erikoistapaus regressioanalyysista muodostetaan sopivat dummy-muuttujat Tärkeimmät oletukset havaintojen riippumattomuus varianssien yhtäsuuruus kaikissa ryhmissä selitettävän muuttujan normaalisuus 7

Neliösummahajotelma Yksisuuntaisessa varianssianalyysissa selitettävän muuttujan vaihtelu hajotetaan kahteen komponenttiin Kokonaisneliösumma SST = SSG + SSE ryhmäneliösumma SSG ryhmäkeskiarvojen vaihtelu kokonaiskeskiarvon ympärillä jäännösneliösumma SSE havaintojen vaihtelu ryhmäkeskiarvojen ympärillä Kaksiulotteinen varianssianalyysi Perusjoukko jaetaan ryhmiin kahden tekijän suhteen Vaihtelu hajotetaan komponentteihin Virhevaihtelu Sarake- ja rivimuuttujiin (päävaikutuksiin) liittyvä vaihtelu Interaktiovaikutukseen liittyvä vaihtelu Interaktiovaikutus: yhden muuttujan vaikutus on ehdollinen muiden muuttujien suhteen muuttujan yhteys selitettävään on erilainen toisen selittävän muuttujan eri luokissa 8

Logistinen regressio Selitettävä muuttuja dikotominen linkkifunktiona logit-muunnos todennäköisyys p ristitulosuhteeksi p/(1-p) ja edelleen koko reaaliakselille log{p/(1-p)} kuten lineaarinen regressioanalyysi, mutta logit-asteikolla saatuja regressiokertoimia hankala tulkita exp(b) vastaa helposti tulkittavaa ristitulosuhdetta (odds ratio) Ristitulosuhteiden tulkinta Dikotominen selittäjä kuinka paljon todennäköisempää on, että selitettävä on totta selittäjän ollessa totta kuin selittäjän ollessa ei-totta Polytominen selittäjä ristitulosuhteet referenssiryhmään nähden kuinka paljon todennäköisempää on, että selitettävä on totta ryhmälle x kuin referenssiryhmälle Jatkuva selittäjä kuinka paljon todennäköisempää on, että selitettävä on totta selittävän muuttujan arvolle x+1 kuin selittävän muuttujan arvolle x 9

Muita huomioita logit-mallista Mallinvalinta ja diagnostiikka vastaavasti kuin regressioanalyysissa logistiselle regressiolle kuitenkin omat selitys- ja diagnostiikkamitat myös interaktiotermit pitää huomioida interaktiotermi ei järkevä, jos siihen liittyviä päävaikutuksia ei ole mallissa Ristitulosuhteisiin liittyvät luottamusvälit tulee aina raportoida Log-lineaarinen malli Soveltuu ristiintaulukointien analysoimiseen minkä tahansa taulukointiin käytetyn kahden muuttujan yhteyden tarkka kuvaus ja testaaminen onnistuu mallia käytettäessä melko hyvin pyritään erottamaan toisistaan erilaiset perusjoukon ehdolliset jakaumat eli selvittämään, minkä muuttujien välillä on perusjoukossa yhteisvaihtelua ja minkä välillä ei interaktiotermit yleensä keskeisessä osassa 10