Mat-.4 Tilastollise aalyysi perusteet, kevät 7 9. lueto: Regressiomalli validoiti Kai Virtae Regressiomalli validoiista Estimoitu hieo regressiomalli: Kuvaako malli tutkittavaa ilmiötä oikei? Kuika hyvi malli kuvaa tutkittavaa ilmiötä? Malli rakeeosaa liittyviä kysymyksiä: (i Oko selitettävä riippuvuus selittäistä lieaarista? (ii Puuttuuko mallista selittäiä tai oko mallissa liikaa selittäiä? - malli valitaa käsitellää lueolla ro. (iii Oko selitettävä a/tai selittäät oikeassa fuktioaalisessa muodossa? - sopiva muuos saattaa liearisoida epälieaarise riippuvuude Regressiomallille kaattaa tehdä seuraavat diagostiset tarkistukset: (i Oko havaitoe oukossa regressioaalyysi tuloksia vääristäviä poikkeavia havaitoa? (ii Ovatko selittäät itseäisiä? (iii Ovatko malli ääöstermit homoskedastisia? (iv Ovatko malli ääöstermit korreloimattomia? (v Ovatko malli ääöstermit ormaalisia? (vi Kuika hyvä o malli eustuskyky? Kai Virtae Regressiografiikka, sovitteide pistediagrammit Regressiomalli hyvyys verrataa sovitteita selitettävä muuttua havaittuihi arvoihi: Piirretää käppyrä ( y ˆ, y, =,, K, Regressiomalli o sitä parempi mitä lähempää em. pisteet ovat suoraa, oka kulmakerroi = Malli hyvyyde mittari: käppyrä otoskorrelaatiokerroi Cor( y, yˆ a selityaste[ ] Cor( y, yˆ = R Pisteparve käyristymie viittaa regressiomalli rakeeosa väärää muotoo Selitettävä muuttua riippuvuus selittäistä ei lieaarista Mallissa ei ole oikeita selittäiä Selitettävä muuttua a/tai selittäät eivät ole oikeassa fuktioaalisessa muodossa Poikkeavat havaiot erottuvat tavallisesti kaukaa em. suorasta olevia pisteiä Kai Virtae 3 Regressiografiikka, residuaalidiagrammit Regressiomalli hyvyys residuaalidiagrammit: Piirretää käppyrät ( yˆ, e, =,, K, Piirretää käppyrät ( x i, e, =,, K, ; i=,, K, k Hyvä regressiomalli residuaalidiagramit vaakatasossa eteeviä tasaleveitä pisteparvia, oissa ei äy poikkeavia havaitoa Pisteparvie käyristymie viittaa regressiomalli rakeeosa väärää muotoo: Selitettävä muuttua riippuvuus selittäistä ei ole lieaarista Mallissa ei ole oikeita selittäiä Selitettävä muuttua a/tai selittäät eivät ole oikeassa fuktioaalisessa muodossa Pisteparvet eivät ole tasaleveitä (esim. leveevät oikealle tai vasemmalle => regressiomalli ääöstermi saattaa olla heteroskedastie (ei-vakiovariassi Kai Virtae 4
Poikkeavat havaiot Poikkeava havaito (egl. outlier Eroaa ossaki mielessä merkitsevästi muista havaioista Vääristää tilastollise aalyysi tulokset Poikkeavie havaitoe vaikutus: Malli valita vaikeutuu Malli estimoiti hakaloituu Tilastollie päättely vääristyy Poikkeavat havaiot tuistetaa usei suoraa havaioista Poikkeavie havaitoe tuistamie graafisesti, residuaalidiagrammit Poikkeavie havaitoe tuistamise tuuslukua: Residuaalit Stadardoidut residuaalit Poistoresiduaalit Stadardoidut poistoresiduaalit Vipuluvut eli leverage-luvut Cooki etäisyydet Kai Virtae 5 Välihöpiä, hattumatriiisi Regressiokertoimie PNS-estimaattori b= ( X X X y Sovitteide muodostama -vektori voidaa esittää matriisei muodossa yˆ = Xb = X( X X X y = Py Stokastiset omiaisuudet E( yˆ = Xβ Cov( yˆ = σ P= σ X( X X X Residuaalie muodostama -vektori voidaa esittää matriisei muodossa e= y yˆ = ( I X( X X X y = ( I P y = My Stokastiset omiaisuudet E( e = e σ M σ I P σ I X X X X Cov( = = ( = ( ( P-matriisia kutsutaa hattumatriisiksi Kai Virtae 6 Poikkeavat havaiot, stadardoitu residuaali Voimakkaasti muista residuaaleista poikkeavat residuaalit saattavat viitata poikkeavii havaitoihi Estimoidu malli residuaalit yleesä heteroskedastisia => tarkastellaa stadardoitua residuaalea e Std( e = ossa residuaalie variassi o ˆD( e ˆD ( e = s ( h ossa h o hattumatriisi P= X( X X X. diagoaalialkio a s ääösvariassi estimaattori Lukuarvoa.5-3 suuremmat stadardoitue residuaalie itseisarvot saattavat viitata poikkeavii havaitoihi Stadardoitue residuaalie itseisarvoa voidaa verrata Studeti t- akaumasta valittuu kriittisee raaa Kai Virtae 7 Poikkeavat havaiot, stadardoitu poistoresiduaali Havaitoa vastaava poistoresiduaali d : Alkuperäie havaittu arvo y - ilma havaitoa estimoidu malli muuttualle y atama arvo Poistoresiduaalit d saadaa PNS-residuaaleista e kaavalla e d = ossa h o hattumatriisi. diagoaalialkio h Stadardoidut eli studetisoidut poistoresiduaalit Std(d saadaa poistoresiduaaleista d kaavalla d s ( Std( d = ossa ˆD ( d = ossa ˆD( d h s( o ääösvariassi estimaattori mallista, osta havaito o ätetty pois Arvoa.5-3 suuremmat stadardoitue poistoresiduaalie itseisarvot saattavat viitata poikkeavii havaitoihi Stadardoitue poistoresiduaalie itseisarvoa voidaa verrata Studeti t-akaumasta valittuu kriittisee raaa Kai Virtae 8
Poikkeavat havaiot, vipuluku Havaitoa vastaava vipuluku (leverage h o hattumatriisi P = X( X X X. diagoaalialkio Vipuluku h o verraollie havaitopistee ( x, x, K, x k etäisyytee selittävie muuttuie havaitoe keskiarvosta ( x, x, K, x k Havaitoa vastaava vipuluku selvästi muita suurempi => havaito o syrässä selittävie muuttuie muihi havaitoarvoihi ähde Syrässä olevat havaiot saattavat vääristää regressioaalyysi tulokset Kai Virtae 9 Poikkeavat havaiot, Cooki etäisyys Cooki etäisyyde idis: Estimoidaa malli kaikilla havaioilla a lasketaa estimoidulle mallille sovitteet yˆl, l =,,, Estimoidaa malli ättämällä pois havaito a lasketaa tämä malli sovitteet yˆl (, l =,,, Verrataa sovitteita Cooki etäisyydet D, =,,, saadaa kaavalla D = l= ( yˆ yˆ l l ( ( k + s ossa s ääösvariassi estimaattori (kaikki havaiot mukaa Havaitoa vastaava Cooki etäisyys D > tai selvästi muide havaitoe Cooki etäisyyttä suurempi => Havaito kaattaa ottaa erikoistarkasteluu Kai Virtae Poikkeavat havaiot a tilastografiikka Piirretää käppyrä (, T, =,,,, ossa T o käytety tuusluvu havaitokohtaie arvo a havaitoumero Tuusluku T voi olla Residuaali Stadardoitu residuaali Poistoresiduaali Stadardoitu poistoresiduaali Vipuluku Cooki etäisyys Poikkeavat havaiot erottuvat kuviosta tavallisesti helposti Lieaarie riippuvuus a multikollieaarisuus Regressiokertoimie PNS-estimaattori b = ( X X X y Matriisi X ei täysiasteie => estimaattoria ei voida muodostaa Matriisi X sarakkeide o oltava lieaarisesti riippumattomia!!! X täysiasteie (r(x = k +, mutta X: sarakkeet lähes lieaarisesti riippuvia => malli selittäät ovat multikollieaarisia Multikollieaarisuus hakaloittaa malli estimoitia, valitaa a tilastollista päättelyä Mitä vähemmä selittäät ovat multikollieaarisia, sitä itseäisempiä ovat selittävät muuttuat selitettävä muuttua käyttäytymise selittäiä Jos selittäät voimakkaasti multikollieaarisia, e kertovat samaa asiaa selitettävä muuttua käyttäytymisestä Kai Virtae Kai Virtae 3
Multikollieaarisuus, variassi iflaatiotekiä Regressiokertoimeβ i estimaattori b i variassi o σ V ar( bi = Ri ossa selitysaste o mallista ( x i x = i - selitettävää alkuperäise malli selittää x i - selittäiä muut alkuperäise malli selittäistä Variassi iflaatiotekiä VIFi =, i =,, K, k Ri Selittäät x,x,,x k ortogoaalisia eli korreloimattomia => R i = a VIF i = kaikille i =,,,k Selittää x i voidaa esittää muide selittäie x,x,,x i,x i+,,x k lieaarikombiaatioa => R a VIF i = + i = Variassi o sitä suurempi (pieempi, mitä suurempi (pieempi o VIF Multikollieaarisuus ikävää / ortogoaalisuus mukavaa VIF i > => multikollieaarisuudesta saattaa olla haittaa Koeasetelmissa (selittävie arvot voidaa valita selittäät pyritää saamaa ortogoaalisiksi (tai lähes ortogoaalisiksi Kai Virtae 3 Homoskedastisuus a heteroskedastisuus Homoskedastisuusoletus Var( ε = σ, =,, K, Jos em. ei päde, puhutaa heteroskedastisuudesta Heteroskedastisuus => regressiokertoimie PNS-estimaattorit tehottomia (variassit tarpeettoma suuria => Luottamusvälit tarpeettoma leveitä Testisuureide arvot tarpeettoma pieiä Kai Virtae 4 Heteroskedastisuude havaitsemie a testaamie Heteroskedastisuus havaitaa usei residuaalidiagrammista ( yˆ,std( e, =,, K, pisteide vyö ei ole tasaleveä (esim. vyö leveee oikealle tai vasemmalle => ääöstermi saattaa olla heteroskedastie Olkoo yˆ, =,, K, malli tuottama sovite a e, =,, K, vastaava residuaali Määrätää selitysaste R apuregressiosta e ˆ = α + α y + δ Jos homoskedastisuusoletus pätee, ii R χ ( Suuret testisuuree R arvot / piei p-arvo => homoskedastisuusoletus hylkyy ~ Korreloimattomuusoletus a aikasarat Korreloimattomuusoletus Cor( ε, ε l =, l Jääöstermit korreloitueita => Regressiokertoimie PNS-estimaattorit tehottomia a harhaisia (E(b=β / Korreloitueisuus o aikasaroe (havaiot aikaärestyksessä regressiomallie tavallie ogelma Aikasaramalleissa tutkitaa autokorrelaatiota Kai Virtae 5 Kai Virtae 6 4
Autokovariassit a autokorrelaatiokertoimet Tarkastellaa ääöstermie aikasaraa ε, =,,, Aikasaraτ. autokovariassi γτ = E( ε ε τ, = τ +, τ +, K,, τ =,,, K, Erityisesti γ = Var( ε = σ, =,, K, o aikasara ε variassi Autokovariassitγ τ ovat riippumattomia aahetkestä Aikasara τ. autokorrelaatiokerroi γτ ρτ =, τ =,,, K, γ Autokorrelaatiokertoimet ρ τ ovat riippumattomia aahetkestä Autokorrelaatiokertoimilla ρ τ o seuraavat omiaisuudet: (i ρ = (ii ρ τ = ρτ (iii ρτ Kai Virtae 7. kertaluvu autokorrelaatio testaamie, Durbii a Watsoi testisuure Tarkastelllaa. kertaluvu autokorrelaatio testaamista Nollahypoteesi H : ρ = ossa ρ o. kertaluvu autokorrelaatiokerroi Durbii a Watsoi testisuure ( e e = DW = e Nollahypoteesi ok => DW = Suuret poikkeamat ormaaliarvosta => ollahypoteesi roskii Testisuureella o seuraavat omiaisuudet: (i DW 4 (ii DW ρ + (iii DW ρ (iv DW 4 ρ DW akautuut hämärästi, mutta kompuutteri laskee p-arvo Kai Virtae 8 Normaalisuusoletus a se testaamie Normaalisuusoletus ε N(, σ, =,,..., Jääöstermit eivät ormaalisia => PNS-estimaattoreide otosakaumat eivät ormaalisia => t- a F-akaumii perustuva tilastollie päättely ei välttämättä pätevää Jääöstermie ormaalisuutta voidaa tutkia usealla eri tavalla, esim. Bowmai a Shetoi testi Rakit Plot -kuvio sekä Wilki a Shapiro testi Katso lueo ro. 4 kalvot! ~ Kai Virtae 9 Malli eustuskyky se testaamie testaamie Eräs testi malli käyttökelpoisuudelle o malli eustuskyky Käytössä havaiot =,,,, +, +,, + h ( + h kpl Estimoidaa regressiomalli havaioista =,,, Käytetää havaioista =,,, estimoitua mallia selitettävä muuttua y arvoe y eustamisee havaioissa = +, +,, + h Muodostetaa eustevirheet u ˆ = y y, = +, +, K, + h + h Testisuure u χ = = + s ossa s o ääösvariassi estimaattori havaioista =,,, Nollahypoteesi H : β = β,σ = σ ossa ideksi viittaa otosaksoo =,,, a ideksi eusteaksoo = +, +,, + h Nollahypoteesi ok => testisuure oudattaa χ -akaumaa, vapausaste h Suuri testisuuree arvo / piei p-arvo => oletus parametrie vakioisuudesta ei päde => malli eustaa huoosti Kai Virtae 5
Mat-.4 Tilastollise aalyysi perusteet, kevät 7 9. lueto: Epälieaariste riippuvuuksie liearisoiti Kai Virtae Regressiomalli liearisoiti Selitettävä tilastollie riippuvuus selittäistä epälieaarie => epälieaarie regressiomalli, esim. MLP-euroverkko Epälieaarie tilastollie riippuvuus voidaa oskus liearisoida Olkoo havaiot y, x, =,,, a oletetaa muuttuie välille epälieaarie tilastollie riippuvuus Epälieaarie tilastollie riippuvuus voidaa liearisoida, os o olemassa f a g site, että havaioille ( f ( x, g( y, =,, K, pätee regressiokertoimie suhtee lieaarie esitys f ( y = β + βg ( x + ε, =,, K, ossa ääöstermit toteuttavat stadardioletukset Trasformoituu mallii f ( y = β + β g ( x + ε, =,, K, voidaa soveltaa lieaarise malli estimoiti- a testaustekiikoita Parhaimmillaa liearisoivat muuokset löytyvät taustateoria (esim. fysiikka / taloustiede avulla Kai Virtae Liearisoivie muuoste etsimie I Sopivie muuoste etsimisissä voidaa käyttää apua tilastografiikkaa: (i Piirretää käppyrä ( x, y, =,, K, (ii Piirretää käppyrät ( g ( x, f ( y, =,, K, fuktioide f a g kaikille mahdollisille kadidaateille Muuttuie riippuvuude epälieaarisuus äkyy käppyrä ( x, y, =,, K, käyristymiseä Fuktiot f a g oistuvat liearisoimaa riippuvuude => käppyrässä ( g ( x, f ( y, =,, K, ei äy käyristymistä Kai Virtae 3 Liearisoivie muuoste etsimie II Sopivie muuoste f a g etsimisessä auttaa usei myös seuraava tekiikka: (i Estimoidaa trasformoidut mallit f ( y = β + βg ( x + ε, =,, K, fuktioide f a g kaikille mahdollisille kadidaateille (ii Piirretää estimoitituloksista seuraavat residuaalikuviot: Stadardoidut residuaalit sovitteita vastaa ( fˆ ( y,std( e, =,, K, Stadardoidut residuaalit selittää arvoa vastaa ( x,std( e, =,, K, f a g eivät oistu liearisoimaa riippuvuutta => residuaalikuvioide pistepilvissä äkyy käyristymistä f a g oistuvat liearisoimaa riippuvuude => residuaalikuvioide pistepilvissä ei äy käyristymistä Kai Virtae 4 6
Liearisoivia muuoksia g ( x f ( y x x log( x y y = β + β x y = β + β x y = β + β log( x β y y = y = y = β β β β x β β x+ β log( x β + β + β log( y β βx y = e e β β x y = e e β β y = e x g ( x f ( y x x log( x y y = β + β x y = β + β x y = β + β log( x y y = β + β x y = β + β x y = β + β log( x log( y log( y = β + β x log( y = β + β x log( y = β + β log( x Kai Virtae 5 7