1 1 HEIKKI KORKALA KASVOJEN TUNNISTUS ELOKUVASTA FUNKTIONAALISTEN AIVOKUVIEN PERUSTEELLA Kandidaatintyö Tarkastaja: Lehtori Konsta Koppinen
2 TIIVISTELMÄ TAMPEREEN TEKNILLINEN YLIOPISTO Tietoliikenne-elektroniikan koulutusohjelma Korkala, Heikki: Kasvojen tunnistus elokuvasta funktionaalisten aivokuvien perusteella Kandidaatintyö, 23 sivua Joulukuu 2010 Pääaine: Signaalinkäsittely ja multimedia Tarkastaja: Lehtori Konsta Koppinen Avainsanat: fmri, piirrevalinta, regressio Tässä työssä tutkitaan aivotoiminnan laskennallista tulkittavuutta luonnollisen ärsykkeen tapauksessa. Työssä toteutetaan ennustin, joka ennustaa elokuvassa esiintyviä kasvoja fmri-kuvantamisella saadun aivoaktiivisuusdatan perusteella. Ennustin toteutetaan lineaarisilla menetelmillä.
3 ALKUSANAT Tahtoisin kiittää kandidaatintyö ohjaajiani Jukka- Pekka Kauppia, sekä Konsta Koppista kärsivällisestä neuvomisesta ja ohjeistamisesta. Suuri kiitos kuuluu myös sisarelleni Annalle, joka kannusti minua tämän kiinnostavan, mutta alkuun niin haastavan oloisen aiheen valinnassa.
4 SISÄLLYS Tiivistelmä... 2 Alkusanat... 3 Termit ja niiden määritelmät... 5 1. Johdanto... 6 2. Taustaa... 7 3. Teoria... 9 3.1. Toiminnallinen magneettikuvaus... 9 3.2. Piirteen valinta... 10 3.3. Lineaarinen regressio... 11 4. Ennustimen toteutus... 13 4.1. Aineisto... 13 4.2. Esikäsittely... 13 4.2.1. Globaalin komponentin eliminointi... 14 4.2.2. Annotaation desimointi... 15 4.2.3. Annotaation viivästäminen... 15 4.3. Piirrevalinta... 16 4.4. Ennusteen generointi... 16 5. Tulokset... 17 6. Johtopäätökset... 22 7. Lähteet... 23
5 TERMIT JA NIIDEN MÄÄRITELMÄT BOLD-signaali (Blood oxygen level dependent) Veren happipitoisuudesta riippuva signaali. MRI (Magnetic resonance imaging) Lääketietteellisessä rakenteellisessa kuvantamisessa käytetty menetelmä. fmri (Functional magnetic resonance imaging) Toiminnallinen magneettikuvaus. Fusiform gyrus Sequential forward selection PNS c Aivoalue, jolla sijaitsee kasvojen havaitsemiseen ja erotteluun liittyvää toiminnallisuutta. Piirteenvalintamenetelmä. Pienin neliösumma. Kerroinvektori. H Selittävistä muuttujista ja vakiovektorista koostuva matriisi. â ja mse Parametrien a ja b estimaatit. (Mean square error) Keskineliövirhe.
6 1. JOHDANTO Koko ihmisen elämä riippuu aivotoiminnasta. Aivot käsittelevät, varastoivat ja tuottavat informaatiota ja määrittävät pitkälti sen, mikä erottaa ihmisen muista lajeista. Muun muassa tästä johtuen on aivotoiminta ja aivotutkimus kiehtonut ihmisiä jo pitkään. Aivojen ja niiden toiminnan tutkiminen on perinteisesti ollut kuitenkin erittäin haastavaa. Nykyään aivotutkimuksen avuksi ovat tulleet uudet kuvantamismenetelmät ja tietotekniikan kehityksen myötä tehostunut tietojenkäsittely. Valtaosa aivotoiminnasta tapahtuu tiedostamattomalla tasolla. Ihminen mieltää tiedostamattomalla tasolla tapahtuneen tiedon prosessoinnin helpoksi ja itsestään selväksi, mutta toteutettaessa edes pientä osaa aivojen toiminnallisuudesta ohjelmallisesti, havaitaan kuinka sofistikoituneita algoritmeja aivojen täytyy suorittaa yksinkertaisienkin tehtävien täyttämiseksi. Esimerkkinä mainittakoon käsin kirjoitettujen kirjaimien ja numeroiden tunnistus, joka nykyään onnistuu myös tietokoneellisesti. Oppimalla enemmän aivojen tavasta selviytyä tämän kaltaisista haasteista, voitaisiin tietoa käyttää mahdollisesti hyväksi myös digitaalisen tietojenkäsittelyn kehittämiseksi. Toisaalta yhteiskunta kärsii kasvavasta määrästä erilaisia aivotoimintaan liittyviä sairauksia ja häiriöitä kuten dementia ja masennus, joiden hoitamiseen aivotoiminnan parempi tuntemus saattaisi tuoda uusia keinoja. Aivoissa on eri toimintoihin vahvasti erikoistuneita alueita. Itse asiassa suureen osaan aivojen rutiininomaisia toimintoja on oma aivoalueensa. Moni näistä tiettyyn toimintoon spesialisoituneista alueista on synnynnäisesti erikoistunut oman tyyppisien ärsykkeidensä prosessointiin. Esimerkiksi kasvojen havaitsemiseen on ihmisellä oma erikoistunut aivoalueensa. Itse aisassa verrattaen suuri osa aivokapasiteetista on varattu kasvojen tunnistamiseen, erotteluun ja tulkitsemiseen ja alttius tähän on synnynnäinen. [1] Työssä keskitytään kasvojentunnistusongelmaan. Työn tavoitteena on tutkia voidaanko koehenkilöiden aivotoiminnan perusteella laskennallisia menetelmiä hyödyntäen päätellä, milloin he havaitsevat elokuvaa katsellessaan yhdet tai useammat kasvot. Laskennallinen tulkittavuus olisi onnistuessaan merkittävä askel kohti muiden toistaiseksi huonosti tunnettujen asioiden ymmärtämistä.
7 2. TAUSTAA Ihmisen aistit tuottavat ärsykkeitä aivoille. Kunkin aistin tuottaman informaation prosessointiin on aivoissa spesialisoitunut alue. Myös eri tyyppisten ärsykkeiden käsittelyyn on omat alueensa. Esimerkiksi näköaivokuorelta löytyy eri kohdat liike-, muoto- ja väri-informaation käsittelyyn. Työn tutkimus rajautuu elokuvasta saatavaan luonnolliseen näköärsykkeeseen (natural stimulus), jonka prosessointi tapahtuu aivojen takaosassa näköaivokuorella. Tarkemmin rajaus kohdistuu kasvohavainnon aiheuttamaan vasteeseen fmri- signaalissa. Kasvojen erotteluun on näköaivokuorella spesifi alue, jonka latinankielinen nimi on Fusiform Gyrus (Kuva 2.1). Kuva 2.1: Aivo-alueita [2] Vaikka aivoalueilla on melko selkeä työnjako, ovat eri alueet ja alueiden osat myös vahvasti keskenään verkottuneita ja toimivat siten yhteistyössä. Erilaiset ärsykkeet ja ajatukset aktivoivat erilaisen kombinaation aivoalueita ja nämä kombinaatiot ovat juuri aivotoiminnan tulkinnan kannalta oleellista informaatiota. Yksittäisen alueen aktivoituminen ei välttämättä kerro juuri mitään, mutta useamman alueen yhtäaikainen aktivoituminen saattaa jo puolestaan kertoa. Mittaamalla tietyn ärsykkeen aikaansaamaa vastetta, saadaan tietoa aivoalueiden välisestä työnjaosta ja voidaan siten oppia tulkitsemaan aivotoimintaa aktiivisuuksien kautta. [3]
Aivojen rakenne ja eri toimintoihin spesialisoituneiden alueiden sijainnit ovat varsin yhtäläiset eri ihmisten välillä. Siten myös aivoaktiivisuuksien vasteet erilaisille ärsykkeille ovat ihmisten välillä varsin samankaltaiset. Luonnollisella ärsykkeellä kuvataan tilannetta, joka on, tai vastaa mahdollisimman tarkasti ihmisen normaalin toimintaympäristön tuottamia ärsykkeitä. Esimerkiksi elokuvan katsotaan siten edustavan luonnollista ärsykettä. Se pitää sisällään valtavan määrän erilaista kompleksista informaatiota esimerkiksi objektien liikkeestä, muodosta etäisyyksistä yms. Toisaalta luonnollisen ärsykkeen tapauksessa koehenkilöllä on vapaus liikuttaa silmiään haluamallaan tavalla, tai kohdistaa keskittymisensä haluamaansa asiaan. Kuitenkin kaikista muuttujista ja kaikesta kompleksisuudesta huolimatta, on aikaisemmissa tutkimuksissa [4] [5] havaittu eri ihmisten tiettyjen aivoalueiden aktiivisuuksien välillä vahva korrelaatio elokuvan katsomisen aikana. [5] 8
9 3. TEORIA Tässä kappaleessa käsitellään kasvohavainnon tunnistukseen toiminnallisesta aivokuvasta käytettyjen menetelmien teoriaa. Kappaleessa 3.1 perehdytään kuvantamismenetelmään ja sillä saadun datan ominaisuuksiin. Kappaleessa 3.2 puolestaan keskitytään piirrevalintaan ja siinä käytettyyn sequential forward selection menetelmään. Kappale 3.3 puolestaan koskee ennusteen generoimista valittujen piirteiden avulla regressiolla. 3.1. Toiminnallinen magneettikuvaus Rakenteellinen magneettikuvaus (Magnetic resonance imaging, eli MRI) on lääketieteellisessä kuvantamisessa laajalti käytetty menetelmä, joka mahdollistaa kehon sisäosien kerroksittaisen, tai kolmiulotteisen kuvaamiseen. Se perustuu ydinmagneettiseen resonanssiin. Kuvattava kudos altistetaan magneettikentälle, joka on kudoksen eri osissa hieman erisuuruinen. Magneettikentälle altistettuun kudokseen kohdistetaan radiopulsseja, jotka aiheuttavat resonanssin, mikä puolestaan voidaan mitata laitteen radiovastaanottimella. [6] Nykyään myös aivoaktiivisuutta pystytään kuvaamaan melko hyvällä tarkkuudella. Kuvantamismenetelmä on jalostettu rakenteellisesta magneettikuvauksesta ja sitä kutsutaan toiminnalliseksi magneettikuvaukseksi (fmri, Functional magnetic resonance imaging). Se mittaa veren happipitoisuuden muutoksia (BOLD), perustuen hapekkaan ja hapettoman hemoglobiinin erilaisiin magneettisiin ominaisuuksiin. Happipitoisuuden muutokset kertovat hermosolujen energiankulutuksesta, joka puolestaan indikoi oletetusti aivoalueen sähköistä aktiivisuutta, josta juuri olemme kiinnostuneita. [7] Toiminnallisesta magneettikuvauslaitteesta saatu data koostuu kolmiulotteisista matriiseista, joita kuvantamislaite tallentaa noin 1-4 sekunnin välein. Matriisit rakentuvat pienistä kuutioista, joita kutsutaan vokseleiksi. Vokseli on käytännössä kolmiulotteinen vastine pikselille ja sen sivun pituus on yhdestä kolmeen millimetriä. Tähän tilavuuteen voi mahtua jopa 20 miljoonaa hermosolua, 250 kilometriä tuoja- ja viejähaarakkeita, sekä miljardeja hermoliitoksia. Solutarkkuudella aivojen aktiivisuutta ei näin ollen pystytä tarkastelemaan, mutta suurempia aivoalueita sekä niiden välistä työnjakoa voidaan kuitenkin tarkastella. Vokselin arvo on sitä suurempi, mitä aktiivisempia vokselin sisäänsä sulkemat aivosolut ovat. Tässä työssä dataa ei käsitellä matriiseittain, vaan vokselien aikasarjoina. [3]
10 3.2. Piirteen valinta Yleensä laskennallista ennustusta tehtäessä käytettävän datan määrä on erittäin suuri. Esimerkiksi tässä työssä käytettävä data koostuu 601:den vokselin aikasarjoista. Ennustuksen kannalta suurin osa datasta on turhaa, tai redundanttia informaatiota, josta olisi hyvä päästä eroon ja vähentää siten datan dimensioita. Eräs yksinkertaisimmista dimensionaalisuuden vähentämistavoista on valita ennustimen sisäänmenoista parhaiten ennustettavaa signaalia kuvaava osajoukko ja hylätä muut sisäänmenot. Kutsuttakoon menetelmää piirteenvalinnaksi, vaikka piirteet ovatkin vain alkuperäisiä sisäänmenomuuttujia. [8] Kaikkien piirteenvalinta menetelmien tulee ratkaista kaksi perusongelmaa: Ensimmäinen on määritellä kriteerit, jolla vertaillan piirrejoukkojen keskinäistä paremmuutta. Kriteerin tulee olla sama, jolla mitataan luokituksen tai ennustuksen lopullista onnistumista. Toinen perusongelma on määritellä systemaattinen menetelmä, jolla käydään läpi mahdollisia piirreosajoukkoja. Ainoa menetelmä, joka löytää varmuudella optimaalisen piirrejoukon, on menetelmä, joka käy läpi kaikki mahdolliset piirreosajoukot. Tällöin laskennallinen kuorma kävisi kuitenkin nopeasti liian suureksi ja esimerkiksi 601:den sisäänmenon tapauksessamme mahdollisia osajoukkoja, joille laskettuja kriteereitä tulisi vertailla, olisi 8,299*10 180. Näin ollen laskennallisen kompleksisuuden rajoittamiseksi, joudumme tyytymään epävarmempiin hakualgoritmeihin. [8] Sequential forward selection menetelmän mukainen piirrejoukon haku aloitetaan tarkastelemalla jokaista piirrettä ensin yksittäin ja valitsemalla piirrejoukon ensimmäiseksi piirteeksi suurimman kriteeri-funktion arvon antava piirre. Jokaisella kierroksella algoritmi kasvattaa piirrejoukkoa yhdellä piirteellä, joka saa aikaa suurimman kriteerifunktion kasvun. Kuvassa 3.1 on havainnollistettu algoritmin toimintaa. Siinä jokainen vaakarivi kuvaa kussakin vaiheessa käytettävissä olevia piirteitä. [8]
11 Kuva 3.1: Sequential forward selection menetelmän mukainen piirrevalinta. 3.3. Lineaarinen regressio Lineaarinen regressioanalyysi on tilastollinen analyysimenetelmä, jonka avulla voidaan estimoida tilastollista riippuvuutta vastemuuttujan ja selittävän muuttujan välillä. Jos muuttujien x ja y välillä on tilastollinen riippuvuus, voidaan y kuvata suureen x ja tilastollista mallia kuvaavan funktion f avulla seuraavasti:. (3.1) Koska malli f ei tavallisesti ole täydellinen, jää mallin ja todellisuuden, eli vastemuuttujan y ja funktion f välille mallinnusvirhe, jota kuvataan muuttujalla. Jos suureiden x ja y välinen riippuvuus on lineaarinen, voidaan yhtälö kirjoittaa muotoon:, (3.2) josta termeille a ja b tulisi estimoida mahdollisimman hyvät arvot, jotta virhe minimoituisi. [9] Pienimmän neliösumman (PNS, engl. Least squares) menetelmä pyrkii minimoimaan virheen mallin ja todellisuuden välillä. Muuttujien a ja b estimaatit saadaan todistetusti [9] kaavoilla: (3.3), (3.4)
12 missä â ja ovat parametrien a ja b estimaatit. Lineaaristen mallien tapauksessa estimaatin löytäminen helpottuu kirjoittamalla malli matriisimuotoon. Kaava 3.2 saadaan kirjoitettua seuraavanlaiseksi matriisi-yhtälöksi: 0 1... 1 0 1 1 1 2 1...... 1 1. (3.5) Tämän, muotoa y = Hc + olevan yhtälön kertoimien a ja b PNS-estimaatit saadaan ratkaistua yhtälöstä: ¹ (3.6) Tapauksissa, joissa selittäviä sisäänmenosuureita x on useita, taipuu yhtälö 3.5 seuraavanlaiseen muotoon: 0 0 0 1 1 1 1, (3.7) 1 missä n on järjestelmän sisäänmenojen määrä ja c n on sisäänmenoa vastaava yhtä kerroin. Kertoimet c saadaan ratkaistua tästä kaavan 3.6 mukaisella laskutoimituksella. [9]
13 4. ENNUSTIMEN TOTEUTUS Tässä luvussa kuvataan ennustimen Matlab-toteutus. Kappaleessa 4.1 kerrotaan ennustimen toteutuksessa ja testaamisessa hyväksi käytetystä datasta. Kappaleessa 4.2 kerrotaan käytettyyn dataan tehdystä esikäsittelystä. Kappaleessa 4.3 puolestaan keskittyy piirteenvalintaan ja kappaleessa 4.4 ennusteen generointiin. 4.1. Aineisto Työssä käytettävä data on peräisin Aalto-yliopiston Aivoaalto-tutkimuksen yhteydessä vuonna 2009 tehdystä kokeesta. Kokeessa kaksitoista koehenkilöä katsoi Crashelokuvaa (v.2004) fmri-laitteessa. Data koostuu elokuvan viimeisen 36 minuutin aikana tehdyistä kahdesta nauhoitussessiosta, joiden pituudet olivat 14 ja 22 minuuttia. fmri laitteen näytteenottoväli kuvauksessa oli 3,4 sekuntia. Työssä käytetyn datan esikäsittelyyn liittyvät tiedot löytyvät julkaisusta [4]. fmri-datan lisäksi työssä käytetään kolmea elokuvan loppuosasta koostettua kasvoannotaatiota. Niiden näytteenottoväli on yksi sekunti. Onset-annotaatio saa arvon yksi ainoastaan niillä ajanhetkillä, joilla elokuvassa ilmestyy näkyville uudet kasvot. Muulloin sen arvot ovat nollia. Sustained-annotaatio puolestaan saa arvon yksi niillä sekunneilla, joilla jo aikaisemmin ilmestyneet kasvot pysyvät kuvassa. Summaannotaatio puolestaan on nimensä mukaisesti kahden edellä mainitun annotaation summa. Myös annotaatiot jaettiin kahteen osaan kuvaussessioiden mukaisesti. fmri-aineiston jako kahteen osaan johtui mittausteknisistä syistä, mutta työn kannalta tämä on hyvä asia. Ensimmäisen 14 minuutin kuvaussession ajalta saatua dataa käytettiin ennustimen opetusaineistona ja jälkimmäisen 22 minuutin dataa testiaineistona. Opetusaineistoa käytettiin ennustimen opettamiseen, eli piirrevalintaan ja piirteiden kertoimien laskemiseen ja testiaineiston avulla tutkittiin saadun ennustimen kykyä ennustaa annotaatiota. 4.2. Esikäsittely Raakaan fmri-signaaliin on summautunut runsaasti muun muassa laskostumisesta ja koehenkilön elintoiminnoista, kuten esimerkiksi pulssista ja silmien räpäytyksistä johtuvaa häiriötä. Tämä häiriö on luokituksen onnistumisen kannalta kiusallista, sillä sen aiheuttamat muutokset aktiivisuussignaaliin eivät kuvaa kasvohavainnosta johtuvaa
14 aktiivisuutta. Suuria piikkejä aktiivisuudessa näyttäisi esiintyvän esimerkiksi kohdissa, joissa elokuvassa on pelottava, tai muuten jännitystä aiheuttava kohta. Muita esikäsittelyä vaativia ominaisuuksia käytetyssä datassa ovat kasvoannotaation ja fmrisignaalin eri aikaresoluutiot, sekä viive kasvojen esiintymisen ja fmri-vasteen välillä. 4.2.1. Globaalin komponentin eliminointi Ennustamiseen käytetään ainoastaan fusiform-alueen dataa. Tarkasteltaessa kuitenkin koko aivojen vokseleiden aktiivisuuksia, havaitaan, että ne korreloivat melko vahvasti keskenään. Täten voidaan olettaa, että koko aivojen alueen vokseleihin on summautunut jokin yhteinen vahvahko häiriökomponentti. Tämän globaalin häiriön voidaan olettaa aiheutuvan esimerkiksi pulssista, verenpaineen muutoksista tai hormonaalisesta toiminnasta. Työn kannalta oleellista on kuitenkin lähinnä häiriökomponentin olemassaolo ja se, että se ei globaalin olemuksensa vuoksi voi kertoa kasvohavainnon aiheuttamasta aktiivisuudesta, josta olemme kiinnostuneita. Kuvassa 4.1 on esitetty mediaanisignaalit kolmesta kymmenen näytteen satunnaisotoksesta, jotka on poimittu kaikkien aivovokselien joukosta (yhteensä 228 000 kpl). Globaalin häiriökomponentin läsnäolo on selvästi havaittavissa, sillä mediaanisignaalit korreloivat erittäin vahvasti keskenään. Mediaanisignaalit saavat paikoin itseisarvoltaan varsin suuria arvoja ja keskimäärinkin arvot ovat merkittäviä, verrattaessa työssä myöhemmin esitettäviin ennusteen arvoihin. Kuva 4.1: Kolme mediaani-signaalia laskettuna koko aivojen alueelta kymmenestä satunnaisesti valitusta vokselista.
15 Globaalin häiriökomponentin eliminoimiseksi koko aivojen alueelta laskettiin tuhannesta satunnaisesti valitusta vokselista mediaani-signaali, joka edustanee häiriötä riittävän tarkasti. Kun fusiform-alueen vokseleiden aikasarjoista vähennetään tämä mediaanisignaali, voidaan olettaa sen poistuneen pääosin käsiteltävästä datasta. 4.2.2. Annotaation desimointi Annotaatioden näytteenottoväli on yksi sekunti. fmri-kuvauksessa käytetty näytteenottoväli puolestaan on 3,4 sekuntia. Jotta luokittimen opettaminen ennustamaan kasvoannotaatiota fmri-datasta olisi mahdollista, täytyy datat skaalata samaan aikaresoluutioon. Tässä työssä tiheämmin näytteistetyt annotaatiot desimoitiin samaan aikaresoluutioon fmri-datan kanssa. Desimointi suoritettiin pidentämällä annotaatio ensin kymmenkertaiseksi toistamalla kutakin alkiota kymmenen kertaa ja sen jälkeen annotaatio lyhennettiin 34 osaan summaamalla peräkkäisiä alkioita. Lopuksi annotaation arvot skaalattiin takaisin arvovälille 0-1 jakamalla kukin alkio maksimiluvulla 34. Eri annotaatioilla saatuja ennusteita vertailtiin ennusteen ja annotaation välisen keskineliövirheen avulla. Eri annotaatiot ovat kuitenkin luonteeltaan varsin erilaisia. Esimerkiksi onset-annotaation saamat arvot ovat keskimäärin huomattavasti muita pienempiä, sillä annotaatio kertoo vain kasvojen ilmestymishetken ja sisältää siten enimmäkseen nollia. Tästä johtuen myös sen avulla toteutetun ennusteen keskineliövirheeksi tulee pieniä arvoja, vaikka korrelaatio ennusteen ja annotaation välillä olisi heikko ja virheen tulisi näin olla suuri. Näin ollen eri annotaatioista saatujen ennusteiden virheet eivät ole keskenään vertailukelpoisia. Ongelmaa lievennettiin suorittamalla annotaatiolle myös normalisointi ennen piirrevalintaa ja ennustusta. Normalisaatio toteutettiin jakamalla annotaation kukin arvo annotaation arvojen summalla. 4.2.3. Annotaation viivästäminen fmri-vasteen viive vaihtelee kolmen ja viiden sekunnin, eli 1-2 näytteen välillä. Kasvoannotaatiossa puolestaan ei viivettä ole, vaan esimerkiksi arvo yksi vastaa kasvojen esiintymistä elokuvassa juuri kyseisellä hetkellä. Parhaan ennustustuloksen saavuttamiseksi tämä viive-ero tulee minimoida. Minimointi toteutettiin viivästämällä annotaatioita. Ennustusta kokeiltiin vaihtelemalla viivettä nollan ja kolmen näytteen välillä. Viivästys toteutettiin lisäämällä haluttu määrä nollia annotaation alkuun ja poistamalla vastaava määrä näytteitä annotaation lopusta.
16 4.3. Piirrevalinta Fusiform-alue pitää sisällään 601 vokselia. Näistä vokseleista valittiin parhaiten kasvojen esiintymistä ennustavat vokselit piirteiksi. Piirrevalinta toteutettiin sequential forward selection menetelmällä, Matlabin sequentialfs-funktiota hyväksi käyttäen. Sequnentialfs-funktion piirteiden valintaan käyttämä kriteerifunktio tehtiin itse. Kriteerifunktio laskee parametrina saamalleen harjoitusdatalle lineaarisella regressioanalyysillä Matlabin regress-funktiota käyttäen kertoimet, joita hyväksikäyttäen lasketaan testidatasta ennuste. Kriteerifunktio palauttaa saadun ennusteen ja annotaation välisen keskineliövirheen. Sequentiafs kasvattaa piirrejoukkoa virheiden perusteella, kunnes ennustus ei enää parane, eli ennusteen virhe ei pienene. Näin saatujen piirteiden kertoimet lasketaan puolestaan Matlabin regress-funktiota uudestaan hyväksi käyttäen. 4.4. Ennusteen generointi Edellä kuvatuin menetelmin saatuja piirrejoukkoa ja piirteiden kertoimia käyttäen voidaan nyt generoida kasvojen esiintymistä indikoiva ennuste fmri-kuvasta. Ennuste saadaan yksinkertaisesti kertomalla piirteiksi valittujen vokseleiden aikasarjoista koostuva matriisi kerroin-vektorilla. Tuloksena saadaan kulloinkin käytettyä annotaatiota vastaava ennuste-aikasarja. Ennusteen generointi suoritettiin sekä ensimmäisen session opetusdatalle, että toisen kuvaussession testidatalle.
17 5. TULOKSET Edellä esiteltyä ennustinta hyväksikäyttäen laskettiin 12 ennustetta: kutakin kolmea annotaatiota käyttäen neljällä eri viiveen arvolla. Ennusteiden keskinäisen paremmuuden mittaamiseksi kullekin laskettiin keskineliövirhe (mse). Myös fmriopetusdatasta lasketun ennusteen ja vastaavan annotaation osan välinen virhe, eli opetusvirhe laskettiin. Virheet on esiteltynä taulukoissa 5.1 ja 5.2. Annotaatio OnSet Sustained Summa Viive 0 1 2 3 0 1 2 3 0 1 2 3 1 18,19 18,06 15,04 17,02 9,35 4,62 6,71 8,40 4,22 2,52 2,76 4,73 2 18,63 16,53 11,20 14,39 6,17 4,91 4,58 6,66 3,28 3,23 2,94 4,42 3 13,83 11,43 16,32 14,31 6,10 5,14 6,54 7,86 4,18 2,94 2,95 3,79 4 18,41 17,22 11,64 12,66 6,45 6,51 5,06 5,54 3,86 2,37 2,61 3,95 5 12,00 16,71 15,08 12,11 7,32 5,70 5,58 8,49 3,41 2,50 3,20 4,64 6 11,16 14,31 13,12 12,99 6,95 5,25 5,88 6,61 3,20 2,65 2,83 3,63 7 16,78 13,72 11,89 12,43 5,98 5,03 3,92 6,90 4,32 3,11 2,68 3,96 8 16,37 13,23 14,42 15,54 6,65 5,05 4,91 6,94 3,33 3,10 2,40 4,20 9 14,75 15,72 14,57 16,23 7,40 4,67 3,37 5,80 3,43 3,16 2,44 2,86 10 13,22 13,83 16,24 18,53 7,29 5,55 5,69 7,89 4,09 2,66 3,08 4,27 11 12,94 14,53 13,72 13,73 5,60 4,64 5,03 6,14 4,26 2,62 2,56 3,69 12 16,36 15,80 13,61 15,46 6,35 5,84 6,09 7,33 3,46 2,90 3,32 4,70 Keskiarvo 15,22 15,09 13,91 14,62 6,80 5,24 5,28 7,05 3,75 2,81 2,82 4,07 Min 11,16 11,43 11,20 12,11 5,60 4,62 3,37 5,54 3,20 2,37 2,40 2,86 Max 18,63 18,06 16,32 18,53 9,35 6,51 6,71 8,49 4,32 3,23 3,32 4,73 Taulukko 5.1: Opetusvirhe(*10-6 ) 12 koehenkilölle kolmella eri annotaatiolla neljällä viiveen arvolla. Keskimäärin pienimmät opetusvirheet saavutettiin summa-annotaatiolla viiveen ollessa yhden näytteen suuruinen. Koehenkilöiden keskineliövirheiden keskiarvo oli tällöin 2,81*10-6. Myös pienin yksittäinen opetusvirheen arvo saavutettiin summa-annotaatiolla ja yhden näytteen viiveellä. Tämä pienin opetusvirheen arvo oli 2,37*10-6 ja se saavutettiin koehenkilö neljän kohdalla. Opetusvirheitä tarkasteltaessa voidaan todeta, että summa-annotaatio antoi selvästi parhaat tulokset ja pienimmät virheet. Toiseksi parhaat tulokset saavutettiin sustained-annotaatiolla ja huonoimmat onset-annotaatiolla. Eri annotaatioilla saatujen virheiden ero on myös merkittävä. Sustained-annotaatiolla saatiin keskimäärin lähes kaksinkertaisia ja onset-annotaatiolla yli kolminkertaisia virheen arvoja summa-annotaatioon nähden. On kuitenkin huomattava, että opetusvirhe ei sinänsä kerro juurikaan ennustuksen luotettavuudesta, eikä datan ennustettavuudesta ja siksi taulukko 5.2:ssa esitetyt ennustusvirheet ovatkin huomattavasti merkittävämpiä.
18 Annotaatio OnSet Sustained Summa Viive 0 1 2 3 0 1 2 3 0 1 2 3 1 28,91 26,44 30,21 28,10 19,35 22,35 16,77 14,06 13,01 14,40 8,62 6,40 2 21,77 26,58 41,36 24,98 32,49 19,43 23,96 16,79 16,13 7,92 8,15 6,50 3 33,98 48,36 21,49 35,68 33,90 26,56 20,55 22,10 9,77 10,97 7,32 9,70 4 24,54 21,88 35,15 41,48 28,85 20,25 21,91 22,36 14,47 28,38 7,14 6,54 5 37,63 20,67 20,50 26,96 19,74 19,76 18,72 14,45 11,09 10,95 7,99 6,30 6 35,86 26,54 27,69 30,68 22,15 18,02 16,56 18,20 10,04 8,82 6,53 6,97 7 24,70 27,71 27,46 28,92 24,65 21,40 21,31 16,04 11,04 9,46 7,25 7,14 8 21,08 27,29 23,44 23,37 18,85 16,66 16,78 20,75 9,36 7,12 6,98 8,66 9 30,59 24,84 24,38 18,08 17,99 22,69 23,02 23,47 9,88 9,19 8,06 8,43 10 30,15 26,05 20,83 20,96 21,08 16,73 16,34 15,03 8,41 8,51 6,92 6,59 11 38,31 23,75 23,27 28,10 25,91 37,10 16,99 19,36 9,55 9,73 7,47 8,38 12 31,66 25,17 27,25 28,03 24,50 17,82 14,97 21,79 12,68 9,50 6,73 8,01 Keskiarvo 29,93 27,11 26,92 27,95 24,12 21,57 18,99 18,70 11,29 11,25 7,43 7,47 Min 21,08 20,67 20,50 18,08 17,99 16,66 14,97 14,06 8,41 7,12 6,53 6,30 Max 38,31 48,36 41,36 41,48 33,90 37,10 23,96 23,47 16,13 28,38 8,62 9,70 Taulukko 5.2: Ennustusvirhe (*10-6 ) 12 koehenkilölle kolmella eri annotaatiolla neljällä viiveen arvolla. Keskimäärin parhaat ennustustulokset ja siten pienin ennustusvirhe saatiin summaannotaatiolla ja kahden näytteen viivettä käyttäen. Tällöin koehenkilöiden keskineliövirheiden keskiarvo oli 7,43*10-6. Pienin yksittäinen ennustusvirheen arvo 6,30*10-6 saatiin kuitenkin kolmen näytteen viiveellä koehenkilölle viisi. Lisäksi voidaan todeta, että kolmen näytteen viiveellä saatiin eniten alle 7*10-6 virheeltään olevia ennusteita. Myös ennustusvirhettä tarkasteltaessa voidaan todeta eri annotaatioilla saatujen virheiden poikkeavan merkittävästi toisistaan. Lisäksi voidaan huomata virheiden olevan merkittävästi -keskimäärin noin kolme kertaa suurempia kuin vastaavat opetusvirheet. Tämä saattaa johtua ennustimen ylioppimisesta, mikä tarkoittaisi, että sequentilafs-funktion valitsemien piirteiden määrää tulisi rajoittaa. Asian tarkempaan tutkimiseen ei kuitenkaan tässä työssä ollut mahdollista perehtyä.
19 Kuva 5.1: Summa-annotaatio ja ennuste toiselta kuvaussessiolta koehenkilölle 12, kahden näytteen viiveellä. Kuva 5.2: Summa-annotaatio ja koehenkilön 12 ennuste toiselta kuvaussessiolta, kahden näytteen viiveellä, n. viiden minuutin ajalta.
20 Kuvissa Kuva 5.1 ja Kuva 5.2 on esitettynä koehenkilö kahdentoista datasta tehty ennuste sessiolle kaksi. Silmämääräisesti kuvia tarkasteltaessa voidaan nähdä annotaation ja ennusteen välinen korrelaatio. Etenkin kohdissa, joissa kasvoja ei ole näkyvillä, eli annotaatio saa arvon nolla, voidaan havaita myös ennusteen saavan keskimääräistä alhaisempia arvoja. Lisäksi nähdään, että annotaatiota esittävän kuvaajan nousevien ja laskevien reunojen kohdalla myös ennusteessa on vastaavia muotoja. Kuva 5.3: Testidatasta summa-annotaatiota käyttäen generoitu ennuste koehenkilölle 5 kolmen näytteen viiveellä. Toisaalta voidaan nähdä myös annotaation binäärisen luonteen tuottavan ongelmia käyttämällemme ennustusmenetelmälle. Kohdissa joissa annotaatio ei muutu, ennuste poikkeaa eniten annotaatiosta. Ongelma ei kuitenkaan muodostu mahdottoman suureksi, mikä on nähtävissä erityisen hyvin kuvasta 5.4, jossa on esitettynä opetusdatasta generoitu ennuste koehenkilö 12:lle.
21 Kuva 5.4: Opetusdatasta summa-annotaatiota käyttäen generoitu ennuste koehenkilölle 12 kahden näytteen viiveellä. Tehtäessä ennustimen opetusta ja ennusteen generointia yhdelle koehenkilölle useita kertoja (Taulukko 5.3), havaitaan keskineliövirheen vaihtelevan ennusteiden välillä. Tästä johtuen koehenkilöiden keskinäinen vertailu yhden ajon ja taulukoissa 5.1 ja 5.2 esitettyjen virheiden perusteella ei välttämättä ole mielekästä. Siten taulukoissa oleellisinta informaatiota ovat eri annotaatioilla ja viiveillä saadut keskiarvot, eli eri annotaatioiden ja viiveiden vertailu. Koehenkilöiden välisen ennustettavuuden vertailua varten ennustimen opetus tulisi suorittaa useita kertoja yhdelle koehenkilölle ja vertailla niistä generoitujen ennusteiden tuottamien virheiden keskiarvoa muiden koehenkilöiden vastaaviin lukuihin. Tämä ei kuitenkaan työssä käytettävissä olleen ajan puitteissa ollut mahdollista. Myöskään silmämääräisesti eri koehenkilöiden ennusteita vertailtaessa esiin ei tule merkittäviä eroja ennusteiden hyvyydessä. Tämä on nähtävissä kuvista 5.2 ja 5.3. Ajo nro. 1 2 3 4 5 Opetusvirhe 4,100 4,215 4,438 4,368 3,886 Ennustusvirhe 6,943 7,293 6,534 6,970 7,085 Taulukko 5.3: Koehenkilö 5:den ennustus- ja opetusvirheet(*10-6 ) viideltä eri opetus- ja ennustusajolta.
22 6. JOHTOPÄÄTÖKSET fmri-kuvan ja laskennallisen tulkinnan yhdistämistä ei luonnollisen ärsykkeen tapauksessa ole aikaisemmin tutkittu. Siten lähtötiedot työn tekemiseen olivat varsin vähäiset. Nämä lähtökohdat huomioonottaen työn tuloksia voidaan pitää varsin onnistuneina ja lupaavina. Korrelaatio saatujen ennusteiden ja todellisuuden välillä oli silmin havaittava, eikä esimerkiksi ennustettavan suureen binäärinen luonne muodostunut ylitsepääsemättömäksi ongelmaksi. Täten lähestymistapaa voidaan pitää kehityskelpoisena. Globaaliin häiriökomponenttiin suurehkoista amplitudeista johtuen, myös siihen liittyviä havaintoja voidaan pitää merkittävinä, vaikka häiriön merkittävyyden tutkiminen ennustuksen onnistumisen kannalta jäikin työn ulkopuolelle. Konkreettisia tuloksia saatiin myös annotaatioiden käyttökelpoisuuden keskinäisestä vertailusta, sekä annotaation ja fmri-signaalin välisen viiveen tutkimisesta. Työn positiiviset tulokset toiminevat kannustimena jatkotutkimuksille. Seuraavia tutkimuskohtia ja jatkokehitysideoita voisivat olla kehittyneempien ennustus-, tai luokitusmetodien soveltaminen ongelmaan, tai yhdellä koehenkilöllä opetetun ennustimen käyttäminen muilla koehenkilöillä. Toisaalta aikaisemmissa fmri luonnollinen ärsyke-tutkimuksissa [4] on havaittu koehenkilöiden välisen korrelaation olevan vahvimmillaan matalilla taajuuskaistoilla. Siten myös ennustusta, tai luokitusta voisi tutkia alipäästösuodatetuilla signaaleilla. Työssä toteutetun ennustimen myöhemmässä käytössä on hyvä huomioida myös kappaleessa 5 esitetty ylioppimisen mahdollisuus.
23 7. LÄHTEET [1] N. Kanwisher, J. McDermott, M. M. Chun, "The Fusiform Face Area: A Module in Human Extrastriate Cortex Specialized for Face Perception", The Journal of Neuroscience, 1.6.1997. [2] http://commons.wikimedia.org/wiki/file:gray727.svg [3] R. K. Jakobsen, Aivojen kuvannus auttaa lukemaan ajatuksia, Tieteen kuvalehti, 15/2009, s. 32-37. [4] J.P. Kauppi, I.Jääskeläinen, M. Sams and J. Tohka, Inter-subject correlation of brain hemodynamic responses during watching a movie: localization in space and frequency, Frontiers in neuroinformatics, 19.3.2010. [5] U. Hasson, Y. Nir, I. Levy, G. Fuhrmann and R. Malach, Intersubject Synchronization of Cortical Activity During Natural Vision, Science, vol.303, pp.1634-1640, 2004. [6] H. Devlin, I. Tracey, H. Johansen-Berg, Stuart Clare, Introduction to FMRI [www], Saatavissa: http://www.fmrib.ox.ac.uk/education/fmri/introduction-tofmri/. [7] N.K. Logothetis, J. Pauls, M. Augath, T. Trinath, A. Oeltermann. Neurophysiological investigation of the basis of the fmri signal. Nature, nro 412 (2001): 150-157. [8] C. M. Bishop, Neural networks for pattern recognition, Delhi 2009, Oxford university press. 482p. [9] S. M. Kay, "Fundamentals of Statistical Signal Processing - Estimation Theory", Prentice Hall, 1993.