Logistinen regressio, separoivat hypertasot Topi Sikanen
Logistinen regressio Aineisto jakautunut K luokkaan K=2 tärkeä erikoistapaus Halutaan mallintaa luokkien vedonlyöntikertoimia (odds) havaintojen x lineaarisilla funktioilla Nimittäjän valinta mielivaltainen
Logistinen regressio Yksinkertaisella laskutoimituksella saadaan luokkien todennäköisyyksiksi
Logistinen regressio: mallin sovitus Malli sovitetaan yleensä suurimman uskottavuuden menetelmällä Jos aineisto täysin separoituva, ei yksikäsitteistä ratkaisua. Ratkaistaan, esim newtonin menetelmällä. Iteratiivinen painotettu pienimmän neliösumman menetelmä Myös muita vaihtoehtoja on.
Logistinen regressio: mallin sovitus kun K=2 Iteratiivinen painotettu pienimmän neliösumman menetelmä kahden luokan tapauksessa ˆ β uusi = X T WX ( ) 1 X T z ( ) W = diag( p ˆ i p ˆ i 1 ) z = X ˆ β vanha + W 1 ( y p ˆ ) p ˆ = p ˆ 1, p ˆ 2,, ˆ p i = Pr X = x i ; ˆ [ ] T, ˆ p N ( β vanha )
Logistinen regressio: Mallin tulkinta Jos malli on oikea estimaatit ˆ β suppenevat todellisiin arvoihinsa ˆ β Normaalijakautunut β ˆ ~ N β, X T WX Painotettu jäännösneliösumma on Pearsonin χ 2 - testisuure. Mallin valinnassa voidaan käyttää tavallisen lineaarisesta regression apuvälineitä, esim. Waldin testiä. ( ) 1 ( )
Logistinen regressio: esimerkki Sydänkohtausriskin mallintaminen Aineisto käsittelee Etelä-Afrikkalaisia valkoihoisia 16-64 vuotiaita miehiä Vastemuuttujana sydänkohtauksen esiintyminen kyselyajankohtana
Logistinen regressio: esimerkki
Logistinen regressio: Esimerkin tulkinta Esim. Tupakan poltto mitataan kilogrammoina eliniässä. Jos elämän aikans poltetaan 1 kg tupakkaa enemmän, kasvaa sydänkohtuasriski kertaiseksi tai 8.3% Yllättävät tulokset: ylipaino ja verenpaine eivät merkitseviä Johtuu multikollineaarisuudesta
L 1 Regularisoitu logistinen regressio Maximoidaan sakotettu versio uskottavuusfunktiosta Muuttujat standardoidaan kuten lasso menetelmässä. Vakiotermiä ei sakoteta Voidaan käyttää apuna mallin valinnassa. Auttaa myös jos aineisto täysin separoituva
L 1 Regularisoitu logistinen regressio
Logistinen regressio vai LDA? LDA ja logistinen regressio sovittavat saman mallin Logistinen regressio tekee datasta vähemmän oletuksia Jos luokkien jakaumat gaussisia, on LDA tehokkaampi Logistinen regressio on robustimpi poikkeavien havaintojen suhteen
Separoivat hypertasot Etsitään lineaarista funktiota joka jakaa havaintoaineiston kahteen luokkaan y i = 1 ja y i = 1 Hypertason yhtälö Luokitin y i = sign β 0 + β Τ x x 0 ( ) ( )
Separoivat hypertasot
Perseptroni algoritmi 1/2 Minimoi väärin luokiteltujen pisteiden M etäisyyttä päätösrajasta ( ) = y i ( x i β + β 0 ) D β, β 0 i M M väärin luokiteltujen havaintojen joukko Jos luokiteltu väärin, niin ja päinvatoin jos
Perseptroni algoritmi 2/2 Stokastinen gradienttimenetelmä Käydään väärinluokitellut pisteet läpi mielivaltaisessa järjestyksessä ρ on oppimisnpeusparametri Jos luokat separoituvia, suppenee äärellisellä määrällä askelia
Perseptroni algoritmin ongelmia 1. Jos havainnot ovat separoituvia, ratkaisu ei ole yksikäsitteinen 2. Jos havainnot eivät ole separoituvia, algoritmi ei suppene. 3. Suppeneminen saattaa olla hidasta. 4. Vaikea tietää onko kyse kohdasta 2 vai 3
Optimaalinen separoiva hypertaso Pyrkii maksimoimaan havaintojen etäisyyden päätösrajasta min 1 β 2 2 β,β 0 s.e y ( Tβ x + β ) 1, i = 1, 2,, N i i 0
Optimaalinen separoiva hypertaso: tukivektorit Ratkaistaan maksimoimalla Wolfen duaali KKT Ehdot: β = Ν ι=1 α ι y i x i Ν 0 = α ι y i, α ι 0 ι=1 α i y i x i Tβ [ ( + β ) 0 1] = 0 i
Optimaalinen separoiva hypertaso β β Tukivektorit 1 β βx + β 0 ( )
Optimaalinen separoiva hypertaso: etuja Yksikäsitteinen ratkaisu Parempi luokittelutulos testiaineistolla perseptroni algoritmiin verrattuna Keskittyy pisteisiin jotka lähellä päätösrajaa Samoin kuin logistinen regressio Jos data gaussista on LDA jälleen tehokkaampi
Entä jos aineisto ei ole separoituva? Jos aineisto ei ole separoituva, optimaalista hypertasoa ei löydy Kantamuunnoksilla voidaan yrittää saattaa aineisto separoituvaksi Ongelmana ylisovitus Käytetään tukivektorikoneita
Kotitehtävä Käytetään klassista Iris -aineistoa, johon on kerätty terälehtien (Petal) ja verholehtien (Sepal) pituuksia ja leveyksiä Tehtävänä on tunnistaa lajike Setosa mittausten perusteella käyttäen 1. Logistista regressiota (Matlab funktio glmfit) 2. Separoivaa hypertasoa (esim. perseptroni) Vertaile tuloksia