Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Samankaltaiset tiedostot
Logistinen regressio, separoivat hypertasot

Diskriminanttianalyysi I

Laskennallinen data-analyysi II

Harha mallin arvioinnissa

Sovellettu todennäköisyyslaskenta B

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Algoritmit 2. Luento 5 Ti Timo Männikkö

Yleistetyistä lineaarisista malleista

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Dynaamiset regressiomallit

Harjoitus 7: NCSS - Tilastollinen analyysi

, 3.7, 3.9. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Regressioanalyysi. Kuusinen/Heliövaara 1

Algoritmit 1. Luento 7 Ti Timo Männikkö

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Algoritmit 2. Luento 4 To Timo Männikkö

Johdatus regressioanalyysiin. Heliövaara 1

Tilastotieteen aihehakemisto

58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen)

Numeeriset menetelmät TIEA381. Luento 12. Kirsi Valjus. Jyväskylän yliopisto. Luento 12 () Numeeriset menetelmät / 33

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Kombinatorinen optimointi

805306A Johdatus monimuuttujamenetelmiin, 5 op

58131 Tietorakenteet ja algoritmit (syksy 2015) Toinen välikoe, malliratkaisut

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

1. Tilastollinen malli??

SSL syysseminaari Juha Hyssälä

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Algoritmit 2. Luento 14 Ke Timo Männikkö

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Insinöörimatematiikka D

AVL-puut. eräs tapa tasapainottaa binäärihakupuu siten, että korkeus on O(log n) kun puussa on n avainta

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Tietorakenteet, laskuharjoitus 7, ratkaisuja

Numeeriset menetelmät

10. Painotetut graafit

Harjoitus 4: Matlab - Optimization Toolbox

Insinöörimatematiikka D

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

Harjoitus 9: Excel - Tilastollinen analyysi

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Kimppu-suodatus-menetelmä

Integrointialgoritmit molekyylidynamiikassa

Lohkoasetelmat. Kuusinen/Heliövaara 1

Algoritmit 2. Luento 4 Ke Timo Männikkö

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

v 1 v 2 v 3 v 4 d lapsisolmua d 1 avainta lapsen v i alipuun avaimet k i 1 ja k i k 0 =, k d = Sisäsolmuissa vähint. yksi avain vähint.

Algoritmit 2. Luento 7 Ti Timo Männikkö

Numeeriset menetelmät

Johdatus graafiteoriaan

Algoritmit 1. Luento 8 Ke Timo Männikkö

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

58131 Tietorakenteet ja algoritmit (kevät 2016) Ensimmäinen välikoe, malliratkaisut

4. Luennon sisältö. Lineaarisen optimointitehtävän ratkaiseminen Simplex-menetelmä

Algoritmit 2. Luento 2 To Timo Männikkö

2. kl:n DY:t. Lause. Yleisesti yhtälöllä ẍ = f(ẋ, x, t) on (sopivin oletuksin) aina olemassa 1-käs. ratkaisu. (ẋ dx/dt, ẍ d 2 x/dt 2.

811312A Tietorakenteet ja algoritmit V Verkkojen algoritmeja Osa 2 : Kruskalin ja Dijkstran algoritmit

1. TILASTOLLINEN HAHMONTUNNISTUS

Monitasomallit koulututkimuksessa

Useita oskillaattoreita yleinen tarkastelu

Algoritmit 2. Luento 13 Ti Timo Männikkö

Sovellettu todennäköisyyslaskenta B

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

811312A Tietorakenteet ja algoritmit Kertausta jälkiosasta

Lohkoasetelmat. Heliövaara 1

Uolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2

Mat Tilastollisen analyysin perusteet, kevät 2007

Lineaarinen optimointitehtävä

3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

58131 Tietorakenteet (kevät 2009) Harjoitus 11, ratkaisuja (Topi Musto)

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

KKT: log p i v 1 + v 2 x i = 0, i = 1,...,n.

Laskennallinen data-analyysi II

Ratkaisu. Tulkitaan de Bruijnin jonon etsimiseksi aakkostossa S := {0, 1} sanapituudelle n = 4. Neljän pituisia sanoja on N = 2 n = 16 kpl.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mat Tilastollisen analyysin perusteet, kevät 2007

1 Sisätulo- ja normiavaruudet

802320A LINEAARIALGEBRA OSA II

Algoritmit 2. Luento 11 Ti Timo Männikkö

Verkon värittämistä hajautetuilla algoritmeilla

Algoritmit 2. Luento 6 Ke Timo Männikkö

Luku 7. Verkkoalgoritmit. 7.1 Määritelmiä

Algoritmit 2. Luento 2 Ke Timo Männikkö

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Pienimmän neliösumman menetelmä

Pienimmän Neliösumman Sovitus (PNS)

Datatähti 2019 loppu

Mat Lineaarinen ohjelmointi

Transkriptio:

Puumenetelmät Topi Sikanen

Puumenetelmät Periaate: Hajota ja hallitse Jaetaan havaintoavaruus alueisiin. Sovitetaan kuhunkin alueeseen yksinkertainen malli (esim. vakio) Tarkastellaan kolmea mallia Luokittelu- ja regressiopuut (CART) Multivariate Adaptive Regression Splines (MARS) Hierarchical Mixture of Experts (HME)

Regessiopuut (CART) Jaetaan havaintoavaruus M suorakulmioon: R 1,R 2,,R M Sovite on M f ( x) = c m I( x R m ) c m = ave y i x i R m m=1 Pyritään löytämään sellainen jako, että jäännösneliösumma minimoituu ( ) Globaalin minimin löytäminen ei yleensä mahdollista

Luokittelu- ja regressiopuut (CART) Solmut Lehdet

Puun kasvattaminen: Ahne algoritmi 1. Aloitetaan koko havaintoaineiston kattavasta alueesta 2. Valitaan j ja s siten, että 3. Toistetaan kohta 2 alueille R 1 ja R 2 kunnes maksimimäärä aleuita on löydetty

Kuinka suureksi puu kannattaa kasvattaa? Puun koko pääteltävä havaintoaineiston perusteella Liian suuri puu => Ylisovitus Liian pieni puu ei riitä kuvaamaan aineiston rakennetta Kaksi strategiaa Tehdään jako vain jos neliövirhe pienenee Liian likinäköinen menetelmä Karsinta (Cost-complexity pruning)

Puun karsinta Yhdistetään puun solmuja Minimidaan funktiota (Cost-complexity) Heikoimman lenkin karsinta Poistetaan aina solmu, joka kasvatta virhettä vähiten. Valitaan paras α ristiinvalidoinnilla.

Luokittelupuu Luokitellaan havainnot alueessa R m luokkaan k Virheen mittana epäpuhtaus Luokitteluvirhe Gini-indeksi Ristientropia

Luokittelupuu kasvatus ja karsinta Puun kasvatuksessa käytetään risti-entropiaa tai Gini-indeksiä Karsinnassa luokitteluvirhettä

Puumallien puutteita Suuri varianssi Voidaan pienentää keskiarvottamalla monta puuta (bagging) Epätasainen regressioipinta Pitäisikö käyttää vakion sijasta splinejä? MARS-menetelmä, HME Huonoja löytämään additiivisia rakenteita

Patient Rule Induction Method (PRIM) Etsitään alueita joissa vastemuuttuja saa suuria arvoja Toisin kuin puumalleissa, alueita ei kuvata binääripuuna

PRIM algoritmi 1. Alussa laatikossa on koko aineisto 2. Kutistetaan laatikkoa siten, että osuus α havainnoista poistetaan ja keskiarvo kasvaa mahd. paljon 3. Toistetaan kohtaa 2 kunnes laatikossa on jokin ennalta määrätty minimimäärä havaintoja 4. Kasvatetaan laatikkoa, mikäli keskiarvo kasvaa 5. Valitaan ristiinvalidoinnilla paras laatikko B 1 askeleiden 1-4 tuottamista 6. Poistetaan laatikon B 1 sisältämät havainnot havaintojen joukosta ja palataan kohtaan 1

PRIM algoritmi käytännössä

Multivariate Adaptive Regression Splines (MARS) MARS on regressiomenetelmä joka sopii hyvin korkeadimensioisiin ongelmiin Voidaan nähdä joiko regressiopuiden muunnelmana tai askeltavana regressiona Käyttää paloittain lineaarisia kantafunktioita muotoa ( t x) + = x t jos x > t 0 muuten

MARS Muodostetaan jokaiselle havaintopisteelle heijastettu pari Malli on muotoa missä C = {( t X ) j +,( X j t) } + t x1 j, x Nj ˆ f x M { } j=1,2,,p ( ) = β 0 + βh m ( x), m=1

MARS: mallin valinta Joka askeleella malliin M lisätään kantafunktio, joka on mallissa jo olevan funktion ja jonkin joukkoon C kuuluvan kantafunktioparin tulo ˆ β M +1 h l ( X) X j t ( ) + + ˆ β M +2 h l ( X) t X j Malliin valitaan se yhdistelmä, joka pienentää neliövirhettä eniten Muistuttaa askeltavaa regressiota ( ) +, h l M Kantafunktioita lisätään kunnes saavutetaan ennalta määrätty mallin maksimikoko

MARS: mallin valinta kuvin M C h( X 1, X 2 ) = ( X j x 52 ) + ( x 72 X 2 ) +

MARS: mallin karsinta Ahne algoritmi johtaa yleensä ylisovitukseen Ratkaisu: Poistetaan mallista termejä, jotka eivät juurikaan pienennä neliövirhettä Sovituksessa käytettävien termien määrä λ voidaan valita esim. ristiinvalidoinnilla. Yleistetty ristiinvalidointi Vapausasteet kun puussa K solmua: Tässä c=3 jos kantafunktiot lin. riippumattomia

Huomioita MARS:ista Miksi paloittain lineaariset kantafunktiot? Paikallisuus Laskennan helppous Askeltava mallinvalintastrategia on hierarkkinen: Yhteisvaikutuksia voi olla mallissa vain jos päävaikutukset ovat jo mallissa Sileämmät regressiopinnat regressiopuihin verrattuna Löytää helpommin additiiviset rakenteet Johtuu aluejakojen binäärisyysvaatimuksen puuttumisesta

MARSin ja regressiopuiden välinen yhteys Korvataan kantafunktiot askelfunktioilla C = I( x t > 0), I( x t 0) { }t x 1 j, x Nj j=1,2,,p Askelfunktion kertominen askelfunktioiden heijastetulla parilla vastaa solmun jakamista Mallissa olevilla termeillä voi olla korkeintaan yksi yhteisvaikutus Vastaa vaatimusta binääripuusta { }

Hierarchical Mixture of Experts (HME) Nyt jako alueisiin on pehmeä, puun solmuissa logistinen malli Porttiverkko, Gating Network Puun lehdissä sovitetaan lineaarinen tai logistinen malli Asiantuntijaverkko, Expert Network Jaot useampaan kuin kahteen osaan mahdollisia

HME-puun rakenne

HME:n todennäköisyysmalli Huipulla Solmuissa ( ) Lehdissä Y ~ Pr y x,θ ij Todennäköisyysmalli (kaksi kerrosta) ( ) = g i g ij Pr( y x,θ ij,γ i,γ ) ij Pr y x,θ ij,γ i,γ ij I i=1 J j=1

HME-puun kasvattaminen ja käyttö HME-puun topologian valitsemiseen ei ole yleispätevää menetelmää Käytetään esim. ennalta valittua puun korkeutta CART Käytetään lähinnä ennustukseen Mallia ei yleensä yritetä tulkita

Kysymyksiä?

Kotitehtävä 1/2 Kirjan tehtävä 9.6 b) ilman MARS:ia ja PRIM:ia Rakenna regressiopuu, jolla selitetään otsonin konsentraatiota, selittäjinä lämpötila, tuulen nopeus ja säteily. Esim. classregtree matlabissa Vertaa tuloksia kuvaan 6.9 (Seuraavalla kalvolla)

Kotitehtävä 2/2