Puumenetelmät Topi Sikanen
Puumenetelmät Periaate: Hajota ja hallitse Jaetaan havaintoavaruus alueisiin. Sovitetaan kuhunkin alueeseen yksinkertainen malli (esim. vakio) Tarkastellaan kolmea mallia Luokittelu- ja regressiopuut (CART) Multivariate Adaptive Regression Splines (MARS) Hierarchical Mixture of Experts (HME)
Regessiopuut (CART) Jaetaan havaintoavaruus M suorakulmioon: R 1,R 2,,R M Sovite on M f ( x) = c m I( x R m ) c m = ave y i x i R m m=1 Pyritään löytämään sellainen jako, että jäännösneliösumma minimoituu ( ) Globaalin minimin löytäminen ei yleensä mahdollista
Luokittelu- ja regressiopuut (CART) Solmut Lehdet
Puun kasvattaminen: Ahne algoritmi 1. Aloitetaan koko havaintoaineiston kattavasta alueesta 2. Valitaan j ja s siten, että 3. Toistetaan kohta 2 alueille R 1 ja R 2 kunnes maksimimäärä aleuita on löydetty
Kuinka suureksi puu kannattaa kasvattaa? Puun koko pääteltävä havaintoaineiston perusteella Liian suuri puu => Ylisovitus Liian pieni puu ei riitä kuvaamaan aineiston rakennetta Kaksi strategiaa Tehdään jako vain jos neliövirhe pienenee Liian likinäköinen menetelmä Karsinta (Cost-complexity pruning)
Puun karsinta Yhdistetään puun solmuja Minimidaan funktiota (Cost-complexity) Heikoimman lenkin karsinta Poistetaan aina solmu, joka kasvatta virhettä vähiten. Valitaan paras α ristiinvalidoinnilla.
Luokittelupuu Luokitellaan havainnot alueessa R m luokkaan k Virheen mittana epäpuhtaus Luokitteluvirhe Gini-indeksi Ristientropia
Luokittelupuu kasvatus ja karsinta Puun kasvatuksessa käytetään risti-entropiaa tai Gini-indeksiä Karsinnassa luokitteluvirhettä
Puumallien puutteita Suuri varianssi Voidaan pienentää keskiarvottamalla monta puuta (bagging) Epätasainen regressioipinta Pitäisikö käyttää vakion sijasta splinejä? MARS-menetelmä, HME Huonoja löytämään additiivisia rakenteita
Patient Rule Induction Method (PRIM) Etsitään alueita joissa vastemuuttuja saa suuria arvoja Toisin kuin puumalleissa, alueita ei kuvata binääripuuna
PRIM algoritmi 1. Alussa laatikossa on koko aineisto 2. Kutistetaan laatikkoa siten, että osuus α havainnoista poistetaan ja keskiarvo kasvaa mahd. paljon 3. Toistetaan kohtaa 2 kunnes laatikossa on jokin ennalta määrätty minimimäärä havaintoja 4. Kasvatetaan laatikkoa, mikäli keskiarvo kasvaa 5. Valitaan ristiinvalidoinnilla paras laatikko B 1 askeleiden 1-4 tuottamista 6. Poistetaan laatikon B 1 sisältämät havainnot havaintojen joukosta ja palataan kohtaan 1
PRIM algoritmi käytännössä
Multivariate Adaptive Regression Splines (MARS) MARS on regressiomenetelmä joka sopii hyvin korkeadimensioisiin ongelmiin Voidaan nähdä joiko regressiopuiden muunnelmana tai askeltavana regressiona Käyttää paloittain lineaarisia kantafunktioita muotoa ( t x) + = x t jos x > t 0 muuten
MARS Muodostetaan jokaiselle havaintopisteelle heijastettu pari Malli on muotoa missä C = {( t X ) j +,( X j t) } + t x1 j, x Nj ˆ f x M { } j=1,2,,p ( ) = β 0 + βh m ( x), m=1
MARS: mallin valinta Joka askeleella malliin M lisätään kantafunktio, joka on mallissa jo olevan funktion ja jonkin joukkoon C kuuluvan kantafunktioparin tulo ˆ β M +1 h l ( X) X j t ( ) + + ˆ β M +2 h l ( X) t X j Malliin valitaan se yhdistelmä, joka pienentää neliövirhettä eniten Muistuttaa askeltavaa regressiota ( ) +, h l M Kantafunktioita lisätään kunnes saavutetaan ennalta määrätty mallin maksimikoko
MARS: mallin valinta kuvin M C h( X 1, X 2 ) = ( X j x 52 ) + ( x 72 X 2 ) +
MARS: mallin karsinta Ahne algoritmi johtaa yleensä ylisovitukseen Ratkaisu: Poistetaan mallista termejä, jotka eivät juurikaan pienennä neliövirhettä Sovituksessa käytettävien termien määrä λ voidaan valita esim. ristiinvalidoinnilla. Yleistetty ristiinvalidointi Vapausasteet kun puussa K solmua: Tässä c=3 jos kantafunktiot lin. riippumattomia
Huomioita MARS:ista Miksi paloittain lineaariset kantafunktiot? Paikallisuus Laskennan helppous Askeltava mallinvalintastrategia on hierarkkinen: Yhteisvaikutuksia voi olla mallissa vain jos päävaikutukset ovat jo mallissa Sileämmät regressiopinnat regressiopuihin verrattuna Löytää helpommin additiiviset rakenteet Johtuu aluejakojen binäärisyysvaatimuksen puuttumisesta
MARSin ja regressiopuiden välinen yhteys Korvataan kantafunktiot askelfunktioilla C = I( x t > 0), I( x t 0) { }t x 1 j, x Nj j=1,2,,p Askelfunktion kertominen askelfunktioiden heijastetulla parilla vastaa solmun jakamista Mallissa olevilla termeillä voi olla korkeintaan yksi yhteisvaikutus Vastaa vaatimusta binääripuusta { }
Hierarchical Mixture of Experts (HME) Nyt jako alueisiin on pehmeä, puun solmuissa logistinen malli Porttiverkko, Gating Network Puun lehdissä sovitetaan lineaarinen tai logistinen malli Asiantuntijaverkko, Expert Network Jaot useampaan kuin kahteen osaan mahdollisia
HME-puun rakenne
HME:n todennäköisyysmalli Huipulla Solmuissa ( ) Lehdissä Y ~ Pr y x,θ ij Todennäköisyysmalli (kaksi kerrosta) ( ) = g i g ij Pr( y x,θ ij,γ i,γ ) ij Pr y x,θ ij,γ i,γ ij I i=1 J j=1
HME-puun kasvattaminen ja käyttö HME-puun topologian valitsemiseen ei ole yleispätevää menetelmää Käytetään esim. ennalta valittua puun korkeutta CART Käytetään lähinnä ennustukseen Mallia ei yleensä yritetä tulkita
Kysymyksiä?
Kotitehtävä 1/2 Kirjan tehtävä 9.6 b) ilman MARS:ia ja PRIM:ia Rakenna regressiopuu, jolla selitetään otsonin konsentraatiota, selittäjinä lämpötila, tuulen nopeus ja säteily. Esim. classregtree matlabissa Vertaa tuloksia kuvaan 6.9 (Seuraavalla kalvolla)
Kotitehtävä 2/2