Visuaalisten objektien tunnistus Markku Kilpeläinen Käyttäytymistieteiden laitos, Helsingin yliopisto Tietokone osaa kyllä etsiä reunoja kuvasta, mutta mitkä reunat ovat olennaisia? Page 1 of 29 Page 3 of 29 Jotta kohteita voidaan tunnistaa, ne täytyy erottaa taustasta Esimerkkejä Gestalt -laeista http://www.graphics.cornell.edu Page 2 of 29 Ns. Gestalt lait määritettiin 1900- luvun alussa -Lait ennustavat (varsin pätevästi), mitkä kuvan elementit ihminen todennäköisesti ryhmittelee yhteen. -Tämä mahdollistaa periaatteessa objektien (elementit ryhmässä) erottamisen taustasta (ei elementtejä ko. ryhmässä). -Lait toimivat, mutta eivät anna selitystä sille, miten näköjärjestelmä noudattaa lakeja, eli suorittaa ryhmittelyn. -Yleisesti hyväksyttyä selitystä ei ole vieläkään olemassa Page 4 of 29 Symmetria Samankaltaisuus Lähekkäisyys Sulkeutuminen Jatkuvuus http://www.cs.iupui.edu/~tuceryan/
Tosielämässä on monimutkaisempaa Kun objekti on erotettu taustasta ja muista samankaltaisista, mikä se on? -Jokaisen kohteen suora vertaaminen mielessä olevaan malliin kyseisestä kohteesta (ns. isoäiti-solu) on melko mahdoton ajatus: -Pitäisi olla neuraalinen edustus jokaisesta henkilöstä ja esineestä kaikilta mahdollisilta etäisyyksiltä ja kaikista kulmista katsottuna täysin ääretön määrä malleja Monet kuvan piirteet auttavat erottelemaan objektit toisistaan näköjärjestelmän täytyy valita jokin vaihtoehdoista Page 5 of 29 -Sen sijaan olisi enemmän mahdollista, että olisi edustus tietyille piirteiden suhteille, jotka koosta tai vaihtelevuuksista Page 7 of 29 riippumatta tunnistettaisiin. Kun näköjärjestelmän varhaiset tasot ovat tuottaneet jonkinlaisen (tarkoituksenmukaisesti) käsitellyn kuvan ulkomaailman informaatiosta, objektintunnistusjärjestelmän täytyy: 1. Erotella objekteja taustasta / ryhmitellä elementit: mikä kaikki kuuluu yhteen objektiin? 2. Tunnistaa: Minkälainen kuvio se on? 3. Tunnistaa eroteltu objekti. Mikä se on? Page 6 of 29 David Marrin komputationaalinen lähestymistapa Marr tajusi, että aivot eivät ole valkokangas, vaan niiden täytyy aktiivisesti käsitellä sisään tuleva informaatiovirta ja tehdä niistä käyttökelpoinen esitys. Lisäksi koska Marr oli kiinnostunut siitä, miten keinotekoinen näköjärjestelmä voitaisiin valmistaa, ylläolevan tehtävän vaikeus ja monimutkaisuus tuli ymmärretyksi. -Marr erotti näköjärjestelmän tehtävästä 3 vaihetta: 1) Ensimmäinen luonnos 2) 2.5-D luonnos 3) 3-D malli todellisuudesta Page 8 of 29
Reunan yhdistäminen 1) Ensimmäinen luonnos Verkkokalvon pikselikuva, josta järjestelmä erottaa: Reunoja, Palkkeja, Viivanpäitä, Täpliä Järjestelmä ryhmittelee Reunat ym. elementit tiettyjen (Gestalttyyppisten) periaatteiden mukaan, esim: Lähekkäisyys, Viivojen jatkuvuus David Fieldin (ja monien muiden) psykofysikaaliset tutkimukset tukevat ajatusta ns. assosiaatiokentästä. Reseptiiviset kentät osoittavat kohti toisiaan: linkitetään Eivät osoita: ei linkitetä Page 9 of 29 Loffler (2008) Vision Research Page 11 of 29 1. Objektin erottaminen taustasta Onko kuvissa pelkkää yleistä hälyä vai jokin taustasta erottuva säännönmukaisuus? Missä? Mikä se on? Assosiaatiokentän neurofysiologinen tausta: V1 -Solut yhteydessä pääasiallisesti melko samaa orientaatiota preferoiviin soluihin. -Tietty solu yhteydessä pääasiallisesti soluihin, jotka käsittelevät näkökentässä aluetta, joka on ko. solun reseptiivisen kentän päässä. -Tällaiset toisiinsa yhteydessä olevat solut pääasiallisesti vahvistavat toistensa responsseja (aivan vierekkäisiä näkökentän alueita käsittelevät solut vaimentavat toisiaan, harmaa alue kuvassa) Page 10 of 29 Page 12 of 29
2) 2.5-D luonnos Kaikille edellisessä vaiheessa erotelluille yksiköille annetaan arvo syvyys- ja orientaatio-asteikoilla - Käytetään mm. syvyyshavainto vihjeitä (kts. edellinen luento) Kovera ärsyke löydetään kuperoiden joukosta nopeammin kuin kupera koveroiden joukosta. 45 +10 Orientaatio (astetta) 0 90 - Kuten ensimmäinen luonnos, myös tämä vaihe on katselukulmasta riippuva. Syvyys (asteikko merkityksetön) - 2.5-D luonnos ei sisällä objektien piilossa olevia osia Page 13 of 29 0-10 Hakuaika 1 5 10 Ärsykkeiden määrä Humphreys & Müller, 2000 Page 15 of 29 3) 3-D malli todellisuudesta katselukulma-riippumaton - Primitiiviyksiköt: lieriöitä, joilla on yksi pää-akseli - Suhteellisen helppo hahmottaa, vaikka katselukulma vaihtelee - Hahmottamalla ryhmän lieriöitä, voimme verrata ärsykettä muistissa olevaan luetteloon 1) Ensin etsitään objektista koverat kohdat. Ne osoittavat lieriöiden liitoskohdat 2) Sitten määritetään lieriöiden pää-akselien orientaatiot V1:n tuottamien assosiaatiokenttien jatkokäsittelyn fysiologiaa -V2:n solut valikoivia ärsykkeille, joissa on 2 tietyn orientaation omaavaa viivaa, eli tietty kulma. -Eivät siis tietylle kulman suuruudelle Reseptiivinen kenttä Keskisuuri vaste:2 Keskisuuri vaste:2 Suuri vaste: 2+2=4 Korkeintaan pieni vaste:1 Kovera kohta Page 14 of 29 -Sen sijaan alueella V4 solut vaikuttavat olevan valikoivia tietylle kulmallekin, missä tahansa suunnassa esitettynä (3. vs 4. tilanne). Page 16 of 29
Biederman muokkasi Marrin teoriaa lähinnä: 1) Korvaamalla lieriöt 36 erilaisella geonilla 2) Esittämällä ei-satunnaisuus (non-accidental) periaatteen: - Tietty muoto 2-D kuvassa (mistä tahansa kuvakulmasta) heijastaa suurella todennäköisellä vastaavaa muotoa 3- D kuvassa. - On huonoa tuuria, jos jokin mikä näyttää kuutiolta, onkin pyramidi suoraan pohjasta päin katsottuna Katselukulma-riippumaton 3-D malli mahdollistuu. Tosielämässä, havainnoija muodostaa reunoja sinne, missä niitä ei fysikaalisesti ole - Näköjärjestelmä käyttää jollain lailla tietoa siitä, että kun esineissä (pallot ja viivat) on epäjatkuvuuksia, jokin (talo) yleensä peittää ne. Esimerkkejä Geoneista: www.pigeon.psy.tufts.edu Page 17 of 29 Page 19 of 29 Marrin ja Biedermanin teorioiden arviontia + Objektien havaitsemisen suuri haaste näköjärjestelmälle on ymmärretty + Koverat kohdat vaikuttavat todella olevan tärkeitä objektien tunnistamiselle - Hienovaraiset, meille helpot erottelut (oma muki vs. joku muu) eivät onnistu geonien perusteella - Katselukulman ja objektin kontekstin merkitystä aliarvioidaan Näköjärjestelmän käyttämät yleisperiaatteet : 1. Implisiittinen tieto fysiikan laeista (synnynnäinen tai nopeasti kokemuksessa opittu). 2. Havaittu kuva on se todennäköinen eikä mikään lukemattomista epätodennäköisistä vaihtoehdoista. A B C Onko näkymän A todennäköinen selitys B vai C? Page 18 of 29 Page 20 of 29
Aivovaurioiden antama kuva objektien tunnistamisen eri osa-tehtävistä Kasvojen havaitseminen: erikoistoiminto vai ei? Kasvojen haivaitsemista on tutkittu paljon, koska se on ihmiselle äärimmäisen tärkeä kyky. Riddoch ja Humphreys erottivat erilaisia objektintunnistuksen vaikeuksia, joihin on myös löydetty vastaavia paikallisia aivovaurioita. Tuttujen ja tuntemattomien kasvojen prosessointi voi olla häiriintynyt toisesta riippumatta (kaksoisdissosiaatio). - Toisistaan ainakin osittain riippumattomat aivoalueet Esim: Tietynlaisen vamman saaneet sekoittavat kahden objektin piirteitä: Musta ympyrä ja punainen laatikko. - Objektiin liittyvä tieto muistista (se on onkivapa, onkimiseen) -Objektirakenteen tunnistaminen muistista (pitkä, ohut, taipuisa keppi) - Katselukulma-riippumattomuus - Piirteiden yhdistely (binding) - Reunojen ryhmittely Page 21 of 29 Ylemmät toiminnot rakentuvat alempien päälle Ongelmat ovat sitä laajempia, mitä alempaan tasoon vaurio vaikuttaa Prosopagnosia: Kasvojen tunnistaminen häiriintynyt, vaikka muiden kohteiden tunnistaminen normaalia. Tutut kasvot kuitenkin aiheuttavat tuntemattomista eroavia tiedostamattomia vasteita. Lisäksi: -Aivokuvantaminen on tuottanut paljon suurta julkisuutta saaneita tutkimuksia, joissa vaikuttaa tulevan esiin kasvoalue aivoissa -Vaikuttaa, että kasvot prosessoidaan lähtökohtaisesti kokonaisuutena, toisin kuin muut objektit. Page 23 of 29 Inferior temporal cortex (IT) objektin tunnistuksen päätepysäkki? -Vahvat yhteydet hippokampukseen ja muihin muistin kannalta tärkeisiin rakenteisiin. -Solujen reseptiiviset kentät sisältävät aina tarkan näön alueen. -Solujen responssin voimakkuus yleensä riippumaton kohteen koosta, väristä ja paikasta verkkokalvolla. -Solujen reseptiiviset kentät hyvin erilaisia kuin useimmilla alemmilla näköaivokuorilla. -Res. kentät ja yhteydet muistirakenteisiin viittaavat tärkeään rooliin objektien tunnistuksessa. Page 22 of 29 IT Dorsaalinen Ventraalinen thebrain.mcgill.ca Mutta: -Jopa eräs kuvantamisen kasvoalue pioneereista (Kanwisher) on nyttemmin esittänyt, että se mikä vaikuttaa kasvoalueelta on vain kohta aivokuorella, jossa preferoidaan sellaisia eri muuttujien arvoja (esim. orientaatioiden yhdistelmiä), joita kasvoista löytyy. Tummien pisteiden etäisyys ympyrän keskikohdasta Aivokuoren pintaa Ympyrän soikeus Esimerkki-muuttujat ovat fantasiaa, mutta kukaan ei tiedä, millä muuttujilla korkeita aivokuoria pitäisi tutkia tai käsitteellistää! Ympyrämäisissä muodostelmissa edustettu pisteiden välinen ero. Toisaalta: Viimeaikaisessa tutkimuksessa apinan temporaalilohkon soluissa preferenssien suhteen ei vierekkäisillä soluilla aivokuorella esiintynyt kuten ylläoleva teoria ennustaisi Page 24 of 29
-Kokonaisuutena prosessointi on tyypillistä, kun havaitsija on kyseisten objektien ekspertti. Ihmisistä tulee jo hyvin varhain kasvojen havainnoinin supereksperttejä. Koska puhe on aina ajassa nopeasti muuttuvaa ääntä, on sitä tarpeen kuvata kuvaajalla, jossa on eri taajuuksien suhteellinen energia kuvattu ajan funktiona. Aivokuoren temporaalilohkolla on alueita, joilla on suuri rooli kasvojen käsittelyssä, mutta on vielä aivan auki, mikä ko. alueiden toimintaperiaate ja kyseisten toimintaperiaatteiden perimmäinen tarkoitus on? Klusiili on äänne, joka syntyy, kun ilmavirta ensin pysäytetään ääntöväylässä ja sitten annetaan sen purkautua äkillisesti. (Wikipedia). Käytännössä vokaali tai kuten sanassa linja-auto. Joka tapauksessa kasvot ovat tärkeä osoitus siitä, että puhdas näkökulmariippumaton objektintunnistus (ala Marr) ei ole koko totuus. Page 25 of 29 Page 27 of 29 Kertaus Puheen kontrolloitu tutkimus vaatii puheärsykkeiden tarkan kuvailun, tässäkin tapauksessa fourier-analyysi tarjoaa työkalut. Formantti on taajuus, jota jokin ääntöväylän kohta (kurkunpää, suuontelo jne.) vahvistaa suhteessa toisiin (suodattaa vähemmän kuin muita). Ihminen havaitsee käytännössä vain 2-5 matalinta formanttia. Äänihuulista lähtee ääntä 100 Hz perustaajuudella Ääntöväylä korostaa tiettyjä taajuuksia (yläääniä), tuloksena tietty vokaali (i) Ganglionsolujen reseptiiviset kentät (alla) ja useammat näköaivokuorien reseptiiviset kentät pysyvät paikallaan aina, kun katse pysyy paikallaan. Premotorisen aivokuoren näkötunto solujen reseptiiviset kentät (oikealla) liikkuvat käden mukana, vaikka katse pysyy paikallaan. Page 26 of 29 Page 28 of 29
Ihminen tarttuu kädellä ruokaan apinan nähden aktivaatio Apina tarttuu kädellä kyseiseen ruokaan. aktivaatio Ihminen tarttuu esineellä ruokaan apinan nähden ei aktivaatiota Apina tarttuu kädellä ruokaan näkemättä ruokaa aktivaatio Peilisolujen aktivaatio on siis kiinni tietystä motorisesta suorituksesta, joko toisen tai itsen tekemästä. Page 29 of 29