Koneoppimisen seminaari: Käytännön virherajat

Samankaltaiset tiedostot
arvostelija OSDA ja UDDI palveluhakemistoina.

Työn laji Arbetets art Level Aika Datum Month and year Sivumäärä Sidoantal Number of pages

Selainpelien pelimoottorit

Aika/Datum Month and year Kesäkuu 2012

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Pro gradu -tutkielma Meteorologia SUOMESSA ESIINTYVIEN LÄMPÖTILAN ÄÄRIARVOJEN MALLINTAMINEN YKSIDIMENSIOISILLA ILMAKEHÄMALLEILLA. Karoliina Ljungberg

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

pitkittäisaineistoissa

pitkittäisaineistoissa

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Tutkimustiedonhallinnan peruskurssi

! #! %! & #!!!!! ()) +

Katsaus korruption vaikutuksesta Venäjän alueelliseen talouskasvuun ja suoriin ulkomaisiin investointeihin

Sovellettu todennäköisyyslaskenta B

Maailman muutosta tallentamassa Marko Vuokolan The Seventh Wave -valokuvasarja avauksena taidevalokuvan aikaan

Koht dialogia? Organisaation toimintaympäristön teemojen hallinta dynaamisessa julkisuudessa tarkastelussa toiminta sosiaalisessa mediassa

Tilastollisia peruskäsitteitä ja Monte Carlo

Luonnontieteiden popularisointi ja sen ideologia

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Matematiikan tukikurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Nollasummapelit ja bayesilaiset pelit

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

ImageRecognition toteutus

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Väliestimointi (jatkoa) Heliövaara 1

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

6. laskuharjoitusten vastaukset (viikot 10 11)

Osa 2: Otokset, otosjakaumat ja estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Estimointi. Vilkkumaa / Kuusinen 1

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollinen aineisto Luottamusväli

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

805306A Johdatus monimuuttujamenetelmiin, 5 op

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Injektio (1/3) Funktio f on injektio, joss. f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f )

LIITE 1 VIRHEEN ARVIOINNISTA

tilastotieteen kertaus

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

1 Määrittelyjä ja aputuloksia

Tiedekunta/Osasto Fakultet/Sektion Faculty Valtiotieteellinen tiedekunta

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Sovellettu todennäköisyyslaskenta B

Lukujonon raja-arvo 1/7 Sisältö ESITIEDOT: lukujonot

Oppimateriaalin kokoaminen ja paketointi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

1 Kannat ja kannanvaihto

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Hallintomallit Suomen valtionhallinnon tietohallintostrategioissa

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

D ( ) E( ) E( ) 2.917

LIITE 1 VIRHEEN ARVIOINNISTA

Korvausvastuun ennustejakauma bootstrap-menetelmän avulla

4. laskuharjoituskierros, vko 7, ratkaisut

Parametrin estimointi ja bootstrap-otanta

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Arkkitehtuurinen reflektio

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Johdatus tilastotieteeseen

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Matematiikan tukikurssi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Parinmuodostuksesta tietojenkäsittelytieteen silmin. Petteri Kaski Tietojenkäsittelytieteen laitos Aalto-yliopisto

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

LIITE 1 VIRHEEN ARVIOINNISTA

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Jatkuvat satunnaismuuttujat

MTTTP5, luento Luottamusväli, määritelmä

ABHELSINKI UNIVERSITY OF TECHNOLOGY

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Matematiikan tukikurssi

Laskennallinen data-analyysi II

Derivaatat lasketaan komponenteittain, esimerkiksi E 1 E 2

Asuntojen neliöhinnan vaihtelu Helsingissä ( )

Johdatus tn-laskentaan torstai

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin Yliopisto Harjoitus 1, ratkaisuehdotukset

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Testit järjestysasteikollisille muuttujille

Transkriptio:

hyväksymispäivä arvosana arvostelija Koneoppimisen seminaari: Käytännön virherajat Otso Mäkinen Helsinki 10.10.2005 HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta/Osasto Fakultet/Sektion Faculty Laitos Institution Department Tekijä Författare Author Otso Mäkinen Työn nimi Arbetets titel Title Koneoppimisen seminaari: Käytännön virherajat Oppiaine Läroämne Subject Työn laji Arbetets art Level Aika Datum Month and year Sivumäärä Sidoantal Number of pages Tiivistelmä Referat Abstract 10.10.2005 9 sivua + 0 liitesivua Avainsanat Nyckelord Keywords Säilytyspaikka Förvaringsställe Where deposited Muita tietoja övriga uppgifter Additional information

ii Sisältö 1 Johdanto 1 2 Luokittelija 1 3 Virherajan määrittely 2 4 Satunnaistetut luokittelijat 3 4.1 Satunnaistetun luokittelijan virheraja.................. 4 5 Puolivalvotut virherajat 4 5.1 Bagging.................................. 6 5.2 Cross-Validation.............................. 6 5.3 Puolivalvottu testijoukkoa käyttävä raja................ 7 5.4 Muita menetelmiä............................. 7 6 Tuloksia 7 7 Yhteenveto 8 Lähteet 9

1 1 Johdanto Tässä kirjoitelmassa käsitellään luokittelijoiden käytännöllisiä virherajoja. Pohjana on käytetty pääasiassa artikkeleita [Kää05], [Kää] ja [Lan]. Täysin yleisesti ei luokittelijoiden tulevaisuudessa tekemistä virheistä voida päätellä kovinkaan paljoa. Jos kuitenkin voimme tehdä oletuksia alkuperäisestä jakaumasta, jonka tuottamia näytteitä haluamme luokitella, voidaan kysymykseen Kuinka usein luokittelija c on tulevaisuudessa väärässä? vastata. Oletamme että data on IID, eli otokset otetaan toisistaan riippumatta samasta jakaumasta. Voidaan osoittaa että tämä on riittävä oletus luokittelijoiden virherajojen määrittelyyn. Koske tutkimme tuntemattomia jakaumia, on virheraja aina määritelty vain tietyn todennäköisyyden puitteissa. Esimerkiksi Luokittelijan virhe on alle 20.0% todennäköisyydellä 99% 2 Luokittelija Tässä luokittelijoilla tarkoitetaan funktioita, jotka jakavat syötejoukon kahteen tulosjoukkoon, esim. { +1, -1 } tai {kuuluu luokkaan A, ei kuulu luokkaan A}. Luokittelija saadaan oppimisalgoritmin tuloksena, jonka tavoitteena on löytää funktio joka mallintaa tuntematonta (syöte, tulos) jakaumaa. Jakaumasta oletetaan ainoastaan, että se on IID, eli näytteet otetaan toisistaan riippumatta samasta jakaumasta. Toisin sanoen näytteiden välillä ei ole korrelaatiota. Jakauma ei myöskään välttämättä ole minkään deterministisen funktion määrittelemä, vaan voi esimerkiksi sisältää kohinaa. Esitetyissä tuloksissa kaikki luokittelijat ajatellaan mustina laatikoina, eikä niiden varsinaiseen toteutukseen tai oppimisalgoritmiin oteta mitään kantaa. Joitain käytettyjä merkintöjä ([Lan]): Merkintä X Y = { 1, 1} D S m c x y Kuvaus Luokittelijan syöteavaruus Luokittelun tulosavaruus. Tuntematon jakauma X Y :ssä Sarja D:stä otettuja riippumattomia näytteitä. S näytteiden lukumäärä Kuvaus X:ltä Y :lle Syöte x X Haluttu tulos kun, x ja y X Y

2 3 Virherajan määrittely Todellinen virhe Luokittelijan todellinen virhe määritellään yksinkertaisesti todennäköisyydeksi, että näyte x luokitellaan väärin. Empiirinen virhe e(c, D) = Pr (c(x) y) (x,y) D Koska jakauma D on tuntematon, ei todellista virhettä e(c, D) voida suoraan havainnoida. Tarkka todellinen virhe voidaan selvittää vain jos funktio jonka luokittelija yrittää oppia on tarkasti tiedossa. Käytännössä mitataan empiiristä virhettä ê(c, S) = 1 S (x,y) S I(c(x) y) Empiirinen virhe on väärin luokiteltujen näytteiden ja testattujen näytteiden lukumäärän suhde otoksessa S. Seuraavaksi esitetään kuinka kokeellisesti virheestä voidaan laskea yläraja todelliselle virheelle tietyllä luottamusvälillä. Yläraja todelliselle virheelle todennäköisyydellä 1 δ Empiirinen virhe on mitattu testaamalla luokittelijaa m kappaleella nimettyjä näytteitä ts. joiden oikea luokittelu on ennalta tiedossa (labeled sample). Käytettävissä olevat suureet ovat siis havaittujen virheiden määrä k ja käytettyjen näytteiden määrä m. Siis ê(c, S) = k/m. Todetaan, että havaittujen virheiden määrä on binomijakautunut parametrein m ja e(c, D). Koska jakauman keskiarvo e(c, D) on tuntematon, etsimme sen sijaan binomijakauman keskiarvon joka on halutulla todennäköisyydellä yläraja oikealle keskiarvolle. Tämä löydetään etsimällä suurin keskiarvo, jonka kanssa mitattu virhe ê(c, S) on yhteensopiva. Määritelmä [Lan]: (Inverse binomial tail) Bin (k/m, m, δ) on q jolle k ( ) m q i (1 q) m i = δ. i i=0 Todennäköisyys saada k/m:ää pienempi virhe binomijakaumasta, jonka keskiarvo on suurempi kuin Bin (k/m, m, δ), on pienempi kuin δ. Siten todellisen virheen e on oltava pienempi kuin Bin (k/m, m, δ) luotettavuudella 1 δ.

3 Kaikille D, c ( ) Pr Bin (ê(c, S), m, δ) e(c, D) 1 δ. S D m Eli: todennäköisyys, että virheraja on suurempi kuin todellinen virhe on 1 δ. Tällä tavalla määritelty virheraja on täydellisen tiukka: jos oikea virhe on riittävän suuri, virheraja rikotaan täsmälleen suhteessa δ. (IID oletuksella) Riippumattoman virhearvion saamiseksi on helpointa käyttää joukkoa valmiiksi nimettyjä näytteitä, joita ei käytetä oppimiseen. Tällöin virhearvioon käytetyt näytteet eivät pääse vaikuttamaan oppimisen tulokseen ja antavat siten luotettavan arvion todellisesta virheestä. Nimettyjä näytteitä voi olla kuitenkin saatavissa vain rajoitettu määrä, jolloin mahdollisemman moni näyte halutaan käyttää oppimiseen. Tällöin on virheraja laskettava oppimiseen käytetyn datan perusteella ja tarvitaan monimutkaisempia menetelmiä virheenmäärittelyyn, sillä virheen mittauksen ja oppimisen välille syntyy riippuvuus. Perinteisesti oppimisdatasta lasketut luotettavat virherajat ovat olleet liian väljiä ollakseen käyttökelpoisia. 4 Satunnaistetut luokittelijat Satunnaistetuissa luokittelijoissa lopullinen luokitus määritetään käyttämällä useampaa samalla datalla opetettua luokittelijaa, joiden joukosta yksi valitaan jonkun satunnaisjakauman perusteella. Tässä esitellyt satunnaiset luokittelijat toimivat jakamalla opetusdatan k:hon osaan S i ja opettamalla monta instanssia samasta luokittelijasta näillä eri näytejoukoilla. Kullekin luokittelijalle c i määritellään virheraja käyttämällä sitä osaa datasta (S i ), jota ei käytetty kyseisen luokittelijan opettamiseen. Näin koko data saadaan käyttöön sekä opettamiseen että virherajan määrittelyyn. Lopullinen luokittelija valitsee yhden näistä luokittelijoista tasaisesta jakaumasta ja käyttää sitä annetun syötteen luokitteluun. Luokittelija valitaan aina uudestaan jokaiselle syötteelle. Satunnainen luokittelija antaa siis tilastollisen keskiarvon useammasta luokittelijasta. Myös virhearvio tälle yhdistetylle luokittelijalle voidaan laskea keskiarvona osaluokittelijoiden virheestä. Deterministinen luokittelija, jota käytettiin testijoukkoon perustuvan virheen määrittelyyn, saadaan erikoistapauksena k = 1.

4 4.1 Satunnaistetun luokittelijan virheraja Satunnaistetun luokittelijan f virheraja e(f, D) saadaan seuraavasti. on vähintään to- Jokaiselle aliluokittelijalle c i virheraja käyttämällä testidataa S i dennäköisyydellä 1 δ/k e(c i, D) Bin (ê(c i, S i), S i, δ/k). Yhdistetyn luokittelijan, joka siis valitsee aina satunnaisesti yhden c i luokittelua tehdessään, virherajaksi saadaan vähintään todennäköisyydellä 1 δ e(f, D) = 1 k k e(c i, D) 1 k i=1 k Bin (ê(c i, S i), S i, δ/k) i=1 eli virherajojen keskiarvo. 5 Puolivalvotut virherajat Usein parhaat virherajat saadaan juuri satunnaistetuilla luokittelijoilla, mutta niiden ominaisuudet eivät yleensä ole käytännössä toivottuja. Suurimpana haittapuolena sama syöte x voidaan luokitella eri tavalla kun luokittelijaa käytetään sille monta kertaa. Tämä johtuu yhdistetyn luokittelijan stokastisesta luonteesta. Satunnaiselle luokittelijalle saatua virherajaa voidaan kuitenkin käyttää hyödyksi laskettaessa virherajaa paremmin käyttäytyvälle deterministiselle luokittelijalle poistamalla satunnaisuus virherajoista. Merkitsemättömiä näytteitä voidaan käyttää satunnaistetun luokittelijan virherajan turvalliseen muuntamiseen deterministiselle luokittelijalle sopivaksi. Ideana on käyttää merkitsemättömiä näytteitä arvioimaan todennäköisyyttä, että satunnainen luokittelija ja valittu deterministinen luokittelija ovat eri mieltä. Tämä erimielisyys muutetaan sitten luokittelijoiden väliseksi virheeksi, joka voidaan lisätä satunnaisen luokittelijan virherajaan. Selvennyksenä käytetty deterministinen luokittelija on samaa algoritmia käyttämällä opittettu luokittelija jonka opettamiseen käytetään kaikki nimetyt näytteet. Menetelmää käytetään seuraavasti:

5 1. Valitaan oppimisalgoritmi 2. Opetetaan satunnainen luokittelija f, jolle voidaan laskea tiukka virheraja. 3. Opetetaan lopullinen deterministinen luokittelija c nal kaikella datalla S. 4. Käytetään nimeämätöntä dataa ja lasketaan luokittelijoiden välinen ns. etäisyys d(f, c nal ), eli kuinka usein ne ovat eri mieltä. 5. Lopullisen luokittelijan virheraja on satunnaisen luokittelijan virheraja + luokittelijoiden erimielisyyteen perustuva virhe. (Disagreement probability) luokittelijoiden f ja g erimielisyyden todennäköisyys määritellään suhteena jolla luokittelijat ovat eri mieltä näytteen luokittelusta joukossa D. d(f, g) = d(f, g, D) = Pr (f(x) g(x)) (x,y) D Tätäkään ei voida suoraan mitata, vaan käytetään empiiristä versiota: ˆd(f, g, U) = 1 U I(f(x) g(x)) x U Jossa U on joukko nimeämättömiä näytteitä. Tärkeää on huomata tämän metriikan yhteys luokittelijan virheen määrittelyyn. Samaa binomijakaumaan perustuvaa virherajan laskentaa voidaan soveltaa myös ˆd:n rajojen määrittelyyn. Luokittelijoiden välinen etäisyys d(f, c nal ) lasketaan siis käytännössä samalla tavalla kuin satunnaisen luokittelijan virhe verrattuna oikeaan jakaumaan D. Intuitiivisesti siis lasketaan ensin satunnaistetun luokittelijan etäisyys jakaumaan D, sekä deterministisen luokittelijan etäisyys satunnaistettuun luokittelijaan. Etäisyyksien summa on yläraja deterministisen luokittelijan etäisyydelle jakaumaan D (kolmioepäyhtälö). Ja vähintään todennäköisyydellä 1 δ e(c nal, D) e(f, D) + d(f, c nal )

6 e(c nal, D) 1 k Bin (ê(c i, S k i), S i, δ/(2k)) i=1 ( ) +Bin ˆd(f, cnal, U), U, δ/2. Deterministinen luokittelija siis tässä tapauksessa käyttää kaiken datan S oppimiseen, eikä testidataa tarvitse jättää syrjään. Mahdollisuudesta käyttää nimeämättömiä näytteitä voi olla suurta etua, sillä se on yleensä paljon halvempaa tuottaa kuin nimetyt näytteet. Käytännössä tilanteissa joissa tilastollista oppimista käytetään, voi nimeämättömien näytteiden tuottaminen olla ilmaista. Seuraavaksi esitellään eri menetelmiä satunnaistetun luokittelijan käyttämien joukkojen S i valitsemiseksi. 5.1 Bagging Breiman esitteli Bagging-menetelmän ([Bre96]). Siinä kukin S i tuotetaan valitsemalla satunnaisesti takaisinpanoin n otosta S:stä. Jokaiselle i noin 1 1/e 0.63 osuus näytteistä valitaan joukkoon S i loppujen 0.37 jäädessä testauskäyttöön joukkoon S i. Alunperin Bagging-menetelmä esiteltiin äänestävänä luokittelijana, joka vastaa aiemmin esiteltyä satunnaista luokittelua, mutta satunnaisen luokittelijan sijaan lopullinen luokittelu ratkaistaan äänestämällä kaikkien c i luokittelijoiden kesken. Tässä esiteltyjä menetelmiä voidaan käyttää myös tällaisen äänestävän luokittelijan virherajan laskemiseen. Äänestävän luokittelijan yhtenä huonona puolena jokaista luokittelua tehdessä on luokittelu tehtävä k kertaa, joka vaatii luonnollisesti enemmän laskentaresursseja. Jokainen luokittelija on myöskin pidettävä yhtä aikaa muistissa. 5.2 Cross-Validation Cross-Validation -menetelmä toimii seuraavasti. Näytejoukko S jaetaan k:hon (mahdollisimman) yhtä suureen osaan S i. Oppimisalgoritmi ajetaan k kertaa ja kullakin ajolla i oppimiseen käytetään näytteitä S i, jotka eivät ole joukossa S i. Virhearvion tekemiseen käytetään vastaavasti kullakin ajolla joukkoa S i. Kun valitaan k = S saadaan erikoistapaus, jossa jätetään aina yksi näyte virheen tarkistamiseen. Tätä ei kuitenkaan voi soveltaa tässä esiteltyihin

7 menetelmiin, sillä yhdellä näytteellä ei saada millään tavalla hyödyllisiä virherajoja yksittäisille luokittelijoille. Cross-validation -menetelmää käytetään usein käytännössä koko joukolla S opetetun deterministisen luokittelijan virheen approksimointiin. Sen tekemä arvio ei kuitenkaan ole tilastollisesti pätevä ja voi olla hyvinkin kaukana todellisesti virheestä. Esitellyllä virherajan satunnaisuuden poistamisella saadaan kuitenkin luotettavia tuloksia. Myös Cross-Validation -menetelmästä voi tehdä äänestävän luokittelijan. 5.3 Puolivalvottu testijoukkoa käyttävä raja Erikoistapauksena valinta k = 1 vastaa deterministisen luokittelijan, jonka virheraja on saatu erillistä testijoukkoa käyttämällä, muuntamista puolivalvotuksi opetusjoukkoon perustuvaksi virherajaksi luokittelijalle c nal. Satunnaisen luokittelijan sijaan käytetään siis suoraan luvussa 3 esiteltyä virherajan mittausta pohjana lopullisen luokittelijan virherajoille. Jos testijoukon kooksi S 1 valitaan n/k, on saatu virheraja suoraan vertailtavissa Cross-Validation -menetelmän rajaan, sillä niillä on sama odotusarvo luotettavuustermiä lukuun ottamatta. 5.4 Muita menetelmiä Kääriäinen ja Langford vertailevat myös muita menetelmiä, mukaan lukien onlinemenetelmät ja PAC-Bayesian virherajoja. Bayesiläisillä menetelmillä on monta kiinnostavaa ominaisuutta, mutta käytännössä PAC-Bayes rajat näyttävät olevan selvästi muita esiteltyjä rajoja huonommat. [Kää] 6 Tuloksia Kääriäinen ja Langford [Kää05] mittasivat virherajojen käytännön tuloksia laskemalla esitellyillä menetelmillä virherajat useille tunnetuilla vertailujoukoille käyttäen erilaisia yleisessä jaossa olevia oppivia luokittelijoita. Taulukoissa 6 ja 6 on esitetty osa tuloksista, paljon kattavampi taulukko löytyy alkuperäisestä artikkelista. Testeissä nimeämättömät näytteet saatiin unohtamalla luokittelu 10% alkuperäisestä datasta. Kaikissa testeissä on valittu δ = 0.01, eli rajojen luotettavuus on 99%.

8 Taulukko 1: Tuloksia virherajojen laskemisesta satunnaistetuille virherajoille. Data/algoritmi R-Test R-Bag R-CV AU ST RALIAN/SV M LIGHT 13.04/31.12 13.77/23.29 15.36/32.30 CEN SU S IN COM E/c4.5 4.61/4.93 4.82/5.03 4.59/5.01 CRX/c4.5 10.14/25.40 11.45/24.83 10.72/33.48 F OU RCLASS/SV M LIGHT 19.54/28.75 15.40/22.98 19.77/32.23 SAT IM AGE/c4.5 13.20/16.50 15.19/17.68 14.13/18.72 Taulukko 2: Tuloksia puolivalvotuille virherajoille. Data/algoritmi S-Test S-Bag S-CV AU ST RALIAN/SV M LIGHT 45.16 38.64 43.27 CENSUS INCOME/c4.5 5.80 7.12 5.84 CRX/c4.5 36.93 47.03 47.38 F OU RCLASS/SV M LIGHT 38.33 41.67 43.46 SAT IM AGE/c4.5 32.31 37.95 35.73 Testijoukkoon perustuva virheen laskeminen käytti 10% näytteistä testaukseen ja Bagging- ja Cross-Validation -menetelmät käyttivät arvoa k = 10. R-alkuiset sarakkeet tarkoittavat satunnaistettujen luokittelijoiden virherajoja ja ne sisältävät mitattu virhe/virheraja parin. S-alkuiset sarakkeet ovat samoista luokittelijoista muunnettuja deterministisiä luokittelijoita, joiden virheraja on esitetty. Satunnaisille luokittelijoille parhaat virherajat näytetään saavan Bagging-menetelmällä, mutta se ei kuitenkaan saa parhaita tuloksia mitatusta varsinaisesta virheestä. Tämä on luonnollista, sillä Bagging-menetelmä käyttää noin 37% näytteistä virheen arviointiin, jotka ovat pois oppimisessa käytetyistä näytteistä. Puolivalvotut oppimisjoukolle lasketut virherajat ovat selvästi satunnaistettuja huonompia, mutta silti Kääriäisen ja Langfordin mukaan vaikuttavia aikaisempiin tuloksiin verrattuna. 7 Yhteenveto Jos käytössä on ylimääräistä nimettyä dataa, on virherajojen määrittely suoraviivaista ja tuloksena saadaan tiukat tilastolliset rajat. Ongelmana on ollut virherajat jotka saadaan kun kaikki data halutaan käyttää opetukseen. Tämä on erityisen haluttua jos valmiiksi luokiteltua opetusdataa on vain rajoitetusti saatavilla. Kääriäisen ja Langfordin mukaan esitetyt puolivalvotut virherajat alkavat olla jo

9 käyttökelpoisia verrattuna aikaisempiin menetelmiin. Vaatimuksena on ainoastaan luokittelemattoman datan saatavuus, mikä ei yleensä ole ongelma luokittelijoiden käyttökohteissa. Parhaan oppimistuloksen saavuttamisen ja opitun tuloksen luotettavuuden välillä on tehtävä kompromissi: parhaan virherajan saamiseksi osa näytteistä on jätettävä pois oppimisesta ja käytettävä virherajan tiukentamiseen. Tämä kuitenkin heikentää luokittelijan todellista luokittelukykyä. Lähteet Bre96 Kää Kää05 Lan Breiman, L., Bagging predictors. Machine Learning, 24,2(1996), sivut 123140. URL citeseer.ist.psu.edu/breiman96bagging.html. Kääriäinen, Matti; Langford, J., A comparison of tight generalization error bounds. ICML 2005. Kääriäinen, M., Generalization error bounds using unlabeled data. Lecture Notes in Computer Science, 3559, sivut 127 142. Langford, J., Tutorial on practical prediction theory for classication.