1 Johdanto Mitä digitaalinen kuvankäsittely on Esimerkkejä digitaalisen kuvankäsittelyn hyödyntämisestä Kuvankäsittelyn vaiheet 3

Transkriptio

1 Sisältö 1 Johdanto Mitä digitaalinen kuvankäsittely on Esimerkkejä digitaalisen kuvankäsittelyn hyödyntämisestä Kuvankäsittelyn vaiheet 3 2 Digitaalisen kuvan perusteet Havaitseminen Valo ja sähkömagneettinen spektri Kuvantaminen Kuvan näytteenotto ja kvantisointi Pikseleiden välisiä yhteyksiä Lineaariset ja epälineaariset operaatiot 15 3 Kuvan korostus paikkatasossa Taustaa Harmaasävymuunnoksia Histogrammin prosessointi Kuvan korostus aritmeettisilla ja loogisilla operaattoreilla Spatiaalisen suodatuksen perusteita Tasoittavat spatiaaliset suodattimet 26 i

2 ii SISÄLTÖ 3.7 Terävöittävät spatiaaliset suodattimet 27 4 Kuvan korostus taajuustasossa Fourier-muunnoksen ja taajuustason suodatuksen perusteet Tasoittavat suodattimet taajuustasossa Terävöittävät suodattimet taajuustasossa Homomorfinen suodatus Toteutus 38 5 Kuvan entistäminen Häiriömalli Kohinamalli Kohinaisen kuvan entistäminen Häiriöoperaattorin estimointi Käänteissuodatus Wiener-suodatus Pakotettu pienimmän neliövirheen entistys Geometriset muunnokset 49 6 Värikuvien käsittely Perusteita Värimallit Valevärikuvien käsittely Värikuvien prosessointi paikkatasossa 55 7 Aallokkeet ja moniskaalakäsittely Taustaa Moniskaalakäsittely ulotteiset aallokemuunnokset Kaksiulotteinen diskreetti aallokemuunnos 67 8 Kuvan kompressointi Perusteita Kuvan kompressointimalli Virheetön kompressointi Häviötön ennustava koodaus Häviöllinen kompressointi Kuvan kompressoinnin standardeja 84

3 SISÄLTÖ iii 9 Morfologinen kuvankäsittely Perusteita Dilaatio ja eroosio Avaaminen ja sulkeminen Hit-or-Miss-muunnos Morfologisia algoritmeja Harmaasävymorfologiaa 95 10Kuvan segmentointi Epäjatkuvuuksien ilmaisu Reunojen yhdistely Kynnystäminen Aluelähtöinen segmentointi Alueen jakaminen ja yhdistäminen Watershed-menetelmä segmentoinnissa Liikkeen käyttö segmentoinnissa Esitystavat ja kuvaukset Esitystavat Rajaviivan kuvaajat Alueiden kuvaajat Pääkomponenttianalyysi Relaatioiden kuvaajat Hahmontunnistus Hahmot ja hahmoluokat Päätösteoriaan perustuvat menetelmät 138

4 1 Johdanto 1.1 MITÄ DIGITAALINEN KUVANKÄSITTELY ON Kuva voidaan ajatella kaksiulotteiseksi funktioksi f(x, y), jossa x ja y ovat koordinaatit ja f:n arvo pisteessä (x, y) on kuvan intensiteetti tai harmaasävy tuossa pisteessä. Kun f:n, x:n ja y:n arvot ovat äärellisiä ja diskreettejä, puhutaan digitaalisesta kuvasta, ja digitaalisella kuvankäsittelyllä tarkoitetaan näiden kuvien käsittelemistä tietokoneella. Ihmisen näköaisti rajoittuu pieneen osaan sähkömagneettisen säteilyn spektristä. Tätä aluetta kutsutaan näkyväksi valoksi. Erilaiset kuvantamisjärjestelmät mahdollistavat kuitenkin sähkömagneettisen säteilyn kuvantamisen hyvin erilaisilta aallonpituuksilta gamma-aalloista radioaaltoihin. Digitaalinen kuva ei välttämättä perustu ollenkaan sähkömagneettiseen säteilyyn, mistä esimerkkejä ovat mm. ultraäänikuvat tai tietokonegrafiikka. Digitaaliseen kuvankäsittelyyn liittyvät olennaisesti mm. digitaalisen signaalinkäsittelyn ja konenäön alat. Digitaalisen kuvankäsittelyn ja konenäön rajaa ei ole helppo määritellä täsmällisesti, vaan hyödyllisempää on jakaa digitaalisten kuvien käsittely matalan, keski- ja korkean tason prosesseihin. Matalan tason prosesseissa sekä prosessin syöte että tulos ovat kuvia. Esimerkkejä matalan tason prosesseista ovat kohinan poisto kuvasta, kuvan terävöittäminen tai värikuvan muuttaminen väriavaruudesta toiseen. Keskitason prosesseja ovat mm. kuvan segmentointi (eli kuvan jakaminen mielekkäisiin pienempiin osiin) ja näiden osien kuvaaminen (description) eli esittäminen tunnistukseen sopivassa muodossa. 1

5 2 JOHDANTO Kuvan osien tunnistaminen tai luokittelu luetaan eri lähteissä joko keski- tai korkean tason prosessiksi. Kurssikirjassa näiden katsotaan olevan keskitason prosesseja. Korkean tason prosessien tavoite on kuvan tai sen tunnistettujen osien ymmärtäminen, ja mahdollisesti jonkinlainen päätöksenteko kuvan perusteella. Esimerkki korkean tason prosessoinnista voisi olla robotin ohjaaminen kamerasta tulevan kuvan perusteella. Yleensä kuten jatkossa tässäkin kurssissa digitaalisella kuvankäsittelyllä tarkoitetaan matalan tason sekä yksinkertaisimpia keskitason prosesseja. 1.2 ESIMERKKEJÄ DIGITAALISEN KUVANKÄSITTELYN HYÖDYNTÄMISESTÄ Gamma-säteiden kuvantamista käytetään hyväksi mm. lääketieteessä ja tähtitieteessä. Röntgensäteitä on hyödynnetty erityisesti lääketieteen kuvantamisessa jo pitkään. Perinteisten röntgenkuvien lisäksi röntgensäteiden avulla otetaan angiografia- eli verisuonikuvia sekä tietokonetomografiakuvia. Lääketieteen lisäksi röntgenkuvia käytetään tähtitieteessä sekä teollisuudessa mm. laaduntarkastukseen. Ultraviolettisäteilyn kuvantamista hyödynnetään mm. mikroskopiassa. Näkyvän valon ja infrapunasäteilyn kuvantaminen on arkielämästä kaikkein tutuinta: esimerkiksi digikamerat tai tavalliset skannerit perustuvat tähän. Arkisten sovellusten lisäksi näkyvän valon tai infrapunasäteilyn kuvantamista käytetään esim. kaukokartoitukseen (remote sensing) satelliiteista tai lentokoneista, visuaaliseen laaduntarkastukseen teollisuudessa tai erilaisiin automaattisiin tunnistustehtäviin kuten sormenjälkien tai rekisterikilpien tunnistukseen. Mikroaaltojen kuvantamisen selkeästi tärkein sovellus on tutka. Tutka perustuu mikroaaltojen lähettämiseen ja kohteesta heijastuvien aaltojen ilmaisuun antennin ja (digitaaalisen) signaalinkäsittelyjärjestelmän avulla. Radioaaltoja samoin kuin spektrin toisessa päässä olevia gammasäteitä käytetään lähinnä tähtitieteen ja lääketieteen kuvantamisessa. Lääketieteessä radioaaltoja käytetään magneettiresonanssikuvien (MRI) ottamiseen ja tähtitieteessä taivaankappaleita voidaan kuvata radiotaajuuksilla siinä missä muillakin sähkömagneettisen säteilyn spektrin alueilla. Kuvassa 1.1 on kuvia Crab-nimisestä pulsarista, jotka on otettu sähkömagneettisen spektrin eri alueilla. Kuten kuvasta näkyy, pulsari näyttää aivan erilaiselta eri aallonpituusalueilla. Välttämättä kuvantamismenetelmä ei perustu lainkaan sähkömagneettiseen säteilyyn. Muita mahdollisia menetelmiä ovat mm. ääni (alle 100 Hz:n äänet geologiassa ja ultraäänikuvaus useissa sovelluksissa), elektronisuihku (elektronimikroskoopit) tai kuvien luominen tietokoneella (esim. fraktaalit).

6 KUVANKÄSITTELYN VAIHEET 3 Kuva 1.1 Kuva Crab-pulsarista eri sähkömagneettisen spektrin alueilla kuvattuna. Vasemmalta oikealle: gamma-, röntgen-, näkyvän valon-, infrapuna- ja radiotaajuuksien alue 1.3 KUVANKÄSITTELYN VAIHEET Erityisesti konenäkösovelluksissa kuvankäsittelyprosessi voidaan jakaa useaan vaiheeseen: 1. Kuvantaminen. Edellä käsiteltiin muutamia eri vaihtoehtoja digitaaliseen kuvanmuodostukseen. Menetelmästä riippumatta oletuksena yleensä on, että kuvantamisen tuloksena saadaan yksi- tai värikuvien tapauksessa useampikanavainen digitaalinen kuva. 2. Kuvan korostus tai entistäminen. Kuvan korostuksen tarkoituksena on saada kuva näyttämään paremmalta tai käyttötarkoitukseensa sopivammalta. Esimerkkejä kuvan korostusmenetelmistä ovat kuvan kontrastin lisääminen ja kuvan terävöittäminen. Kuvan entistämisessä lähtökohtana on, että kuvaan on kuvantamisessa tai jossain muussa vaiheessa tullut häiriö, jota pystytään jollain tavoin mallintamaan, ja tätä mallia käyttäen häiriön vaikutus pyritään poistamaan tai sitä pyritään vähentämään. 3. Segmentointi lähtee oletuksesta, että kuva koostuu useista mielekkäistä itsenäisistä osista (kuten varsinaisesta kuvattavasta kohteesta ja taustasta). Segmentoinnin tarkoituksena on erottaa nämä osat toisistaan. Automaattinen segmentointi on useissa sovelluksissa erittäin vaikeaa, mutta toisaalta segmentointi on kriittinen osa kuvankäsittelyprosessia, sillä epäonnistunut segmentointi johtaa pääsääntöisesti koko järjestelmän suorituskyvyn romahtamiseen. 4. Representaatio. Kuvan segmentoinnin jälkeen tuloksena on kutakin kuvan osaa esittävä pikselijoukko. Representaatio tarkoittaa näiden osien esittämistä erilaisten piirteiden avulla, toisin sanoen muodossa, joka sopii jatkokäsittelyyn ja tunnistukseen parhaiten. 5. Luokittelu ja tunnistus. Kuvan osat pyritään luokittelemaan edellisessä vaiheessa laskettujen piirteiden perusteella. Esimerkiksi videokuvaan perustuvassa liikennelaskentasovelluksessa pyritään tunnistamaan kuvasta ajoneuvot tai satelliittikuvasta etsitään automaattisesti peltoalueita. Kaikkia edellämainittuja vaiheita tarkastellaan tällä kurssilla. Muita digitaalisen kuvankäsittelyn alueita, joihin kurssilla perehdytään, ovat

7 4 JOHDANTO 1. Värikuvien käsittely. Suurimmassa osassa kurssia oletuksena on, että käsiteltävät kuvat ovat yksikanavaisia eli harmaasävykuvia. Monikanavaisten eli värikuvien käsittely on muuttunut jatkuvasti yhä tärkeämmäksi osaksi digitaalista kuvankäsittelyä, ja joiltain osin se eroaa harmaasävykuvien käsittelystä. 2. Aallokkeet. Aallokkeita käytetään moniin tarkoituksiin digitaalisessa kuvankäsittelyssä. 3. Kuvan kompressointi. Kompressoinnin eli pakkauksen tarkoituksena on vähentää kuvan esittämiseen tarvittavaa bittimäärää tallennus- tai tiedonsiirtokapasiteetin säästämiseksi. Kompressoinnissa käytetään hyväksi kuvassa esiintyvää toistoa eli redundanssia. 4. Morfologiset operaattorit perustuvat matemaattiseen morfologiaan. Niitä hyödynnetään mm. binäärikuvien käsittelyssä sekä kuvan segmentoinnissa ja representaatiossa.

8 2 Digitaalisen kuvan perusteet 2.1 HAVAITSEMINEN Digitaalinen kuvankäsittely perustuu suurelta osin formaaliin matemaattiseen käsittelyyn, mutta toisaalta intuitio ja käytännönläheinen analyysi ovat tärkeitä käytettyjen menetelmien valinnassa. Tästä syystä ihmisen näköjärjestelmän tunteminen on oleellista kuvankäsittelyssä. Seuraavassa käsitellään ihmissilmän rakennetta, kuvanmuodostusta silmässä sekä silmän sopeutumista valaistusolosuhteisiin. Ihmissilmän rakenne on esitetty kuvassa 2.1. Silmän kuori muodostuu kolmesta kerroksesta: Sarveiskalvo ja kovakalvo muodostavat uloimman kerroksen. Näistä sarveiskalvo muodostaa suurimman osan silmän taittovoimasta. Silmän osat saavat ravinteensa suonikalvon verisuonista. Sisimpänä olevan verkkokalvon valoherkät solut tuottavat varsinaisen näköaistimuksen. Iiriksen keskellä oleva aukko, pupilli, säätelee silmään tulevan valon määrää. Pupillin halkaisija vaihtelee noin kahdesta kahdeksaan millimetriin. Sädekehän lihakset säätelevät mykiön paksuutta. Mykiö toimii silmässä linssinä. Verkkokalvolla on kahdenlaisia soluja: Tappi- ja sauvasoluja. Tappisolut ovat keskittyneet pääasiassa verkkokalvon keskellä olevalle tarkan näön alueelle, ja ne ovat herkkiä värille. Tappisoluihin perustuvaa näköä kutsutaan fotooppiseksi tai päivänäkemiseksi. Sauvasolut sen sijaan ovat levittäytyneet melko tasaisesti verkkokalvolle. Ne eivät ole herkkiä valon eri aallonpituuksille eli väreille, ja 5

9 6 DIGITAALISEN KUVAN PERUSTEET Kuva 2.1 Yksinkertaistettu kuva ihmissilmän rakenteesta ne vaativat toimiakseen huomattavasti vähemmän valoa kuin tappisolut. Sauvasoluihin perustuvaa näköä kutsutaan skotooppiseksi tai hämäränäöksi. Terävän kuvan muodostuminen silmässä perustuu siihen, että linssinä toimiva silmän mykiö muuttaa muotoaan sädekehän lihasten ohjaamana. Linssin polttoväli vaihtelee noin 14:n ja 17:n mm:n välillä. Kun ihminen katsoo kohdetta joka on yli 3 metrin päässä, mykiö on litteimmillään ja sen polttoväli pisimmillään. Kun kohde on lähempänä silmää, linssi muuttuu paksummaksi ja samalla polttoväli lyhenee. Ihmissilmä kykenee havaitsemaan valtavan suuren skaalan eri kirkausasteita: häikäisyrajalla valon intensiteetti on noin kertainen skotooppisen näön alarajaan verrattuna. Silmä ei kuitenkaan kykene havaitsemaan kaikkia näitä kirkkauksia kerralla vaan se adaptoituu tietylle kapeammalle sävyalueelle iiriksen koon muuttumisen ja verkkokalvon solujen adaptaation seurauksena. Kun silmä on adaptoitunut tietylle intensiteettialueelle, tätä aluetta tummemmat kohteet näkyvät mustina ja toisaalta sitä kirkkaamman valon tuleminen silmään aiheuttaa silmän adaptoitumisen yhä kirkkaammille intensiteeteille. Koska digitaalisen kuvan arvot ovat diskreettejä, on olennainen ja mielenkiintoinen kysymys, kuinka monta eri harmaasävyä ihminen voi havaita eli kuinka paljon kahden harmaan kohteen intensiteetin tulee poiketa, jotta ihminen kokee ne erisävyisiksi. Tätä voidaan mitata esimerkiksi kuvan 2.2 järjestelyllä. Tässä taustan intensiteetti on I ja keskellä vilautetaan I:n verran kirkkaampaa aluetta. Pienintä muutosta, jolla koehenkilö havaitsee muutoksen 50 %:ssa kokeista, merkitään I c :llä. Nyt arvoa I c /I kutsutaan Weberin suhteeksi. Pieni Weberin suhde tarkoittaa, että pienet muutokset havaitaan ja suuri suhde, että vain suuret muutokset havaitaan. On huo-

10 HAVAITSEMINEN 7 mattu, että Weberin suhteen arvo riippuu I:stä. Weberin suhde pienenee kun taustan intensiteetti kasvaa. Kerrallaan, yhdessä kohdassa ihmissilmä voi havaita korkeintaan parikymmentä eri harmaasävyä. Näin vähäinen määrä harmaasävyjä ei kuitenkaan riitä korkealaatuisen harmaasävykuvan esittämiseen, sillä katse kiertelee kuvassa ja eri kohdissa silmä adaptoituu erilaisten harmaasävyalueiden havaitsemiseen. Korkealaatuisen kuvan esittämiseen vaaditaankin yleensä yli 100 intensiteettitasoa. Ι Ι+ Ι Kuva 2.2 Koejärjestely, jolla mitataan harmaasävyjen erottelukykyä Havaittu, subjektiivinen intensiteetti ei usein riipu suoraan todellisesta, mitatusta valon intensiteetistä. Ensinnäkin on havaittu, että subjektiivinen intensiteetti on likimain absoluuttisen intensiteetin logaritmi. Lisäksi erilaiset optiset illuusiot kuten Machin nauhat ja kuvassa 2.3 esitetty suhteellisesta kontrastista johtuva harha haittaavat harmaasävyjen havaitsemista. Kuva 2.3 Absoluuttisten harmaasävyjen havaitsemiseen liittyvä harha: kuvan ruudut A ja B ovat absoluuttiselta harmaasävyltään samat.

11 8 DIGITAALISEN KUVAN PERUSTEET 2.2 VALO JA SÄHKÖMAGNEETTINEN SPEKTRI Sähkömagneettista spektriä käsiteltiin edellisessä luvussa. Spektri jaetaan lyhyemmästä aallonpituudesta pidempään päin lueteltuna gamma-, röntgen-, ultravioletti-, näkyvän valon, infrapuna-, mikroaalto- ja radioaaltoalueisiin. Säteilyn taajuus ν ja aallonpituus λ liittyvät toisiinsa yhtälöllä λ = c ν, (2.2-1) jossa c on valon nopeus. Yhden fotonin energia riippuu myös taajuudesta: E = hν, (2.2-2) jossa h on Planckin vakio. Näkyvän valon aallonpituus on välillä 0, 43µm 0, 79µm. Värispektri voidaan jakaa kuuteen alueeseen (lyhyimmästä aallonpituudesta alkaen): violetti, sininen, vihreä, keltainen, oranssi ja punainen. Siirtymät näiden välillä eivät luonnollisesti ole teräviä vaan väri muuttuu toiseksi vähitellen aallonpituuden muuttuessa. Väriä tarkastellaan tarkemmin luvussa 6. Se, minkä värisenä jokin kohde havaitaan, riippuu sekä kohteen valaisuun käytetyn valon väristä että kohteen heijastusominaisuuksista. Valkoinen valo sisältää käytännössä kaikkia näkyvän valon aallonpituuksia, ja esimerkiksi vihreinä havaittavat kohteet heijastavat valoa, jonka aallonpituus on välillä nm, ja absorboivat muilla aallonpituusalueilla olevan valon. Siitä heijastuu siis pääasiassa vihreää väriä vastaavia aallonpituuksia. Säteilyn aallonpituuden lisäksi sen määrällä on merkitystä. Eritysesti näkyvä valon ollessa kyseessä valon määrää kuvataan termeillä radianssi, luminanssi ja kirkkaus. Radianssi mittaa, kuinka paljon energiaa säteilylähteestä virtaa. Radianssin mittayksikkö on watti. Luminanssi mittaa havaitsijan havainnoimaa intensiteettiä. Esimerkiksi infrapunasäteilyn ollessa kyseessä säteilylähteen radianssi voi olla huomattavan suuri, mutta lähde on hädin tuskin havaittavissa ihmissilmällä eli sen luminanssi on lähes nolla. Kirkkaus taas tarkoittaa havaitsijan kokemaa harmaasävyä. Kuten edellä todettiin, kirkkaus on subjektiivinen käsite ja siihen vaikuttavat monenlaiset tekijät eikä se ole helposti mitattavissa. Periaatteessa, mikäli voidaan kehittää sensori, joka mittaa energiaa tietyllä sähkömagneettisen spektrin alueella, voidaan tällä alueella säteileviä tai säteilyä heijastavia kohteita kuvantaa. Erityisesti mikroskopian alueella on kuitenkin huomattava, että nähdäkseen tietyn kohteen säteilyn aallonpituuden tulee olla samaa luokkaa tai pienempi kuin kohteen koko. Esimerkiksi vesimolekyylin läpimitta on luokkaa m, joten vesimolekyylien tutkimiseen tarvitaan sähkömagneettista säteilyä, jonka aallonpituus on tuota luokkaa tai pienempi, eli esimerkiksi röntgensäteitä. 2.3 KUVANTAMINEN Kuvantamisessa sensori mittaa kuvattavasta kohteesta tietyllä spektrin alueella tulevaa säteilyä. Sensorin vaste riippuu jollain tavalla (ei välttämättä lineaarisesti) sensoriin

12 KUVANTAMINEN 9 tulevan säteilyn määrästä. Sensorin vaste muutetaan digitaaliseen muotoon ja yleensä sille suoritetaan joitain signaalinkäsittelyoperaatioita halutunlaisen kuvan saamiseksi. Kuva ulotteinen kuva voidaan muodostaa käyttämällä yksittäissensoria jota voidaan liikuttaa suhteessa kuvattavaan kohteeseen. Kuvassa 2.4 on esimerkki yksittäissensorista. Yksittäissensori voi olla esimerkiksi valodiodi. Kaksiulotteisen kuvan saamiseksi yksittäissensoria on liikutettava sekä x- että y-suunnassa. Tämän järjestelyn hyvä puoli on, että mekaanista liikettä voidaan kontrolloida sopivalla laitteistolla erittäin tarkasti, joten erittäin korkean tarkkuuden kuvien ottaminen on mahdollista (joskin hitaasti). Yksittäissensoreita käyteteään myös lasereiden kanssa. Laserista tuleva säde ohjataan liikuteltavien peilien avulla kohteeseen ja sieltä heijastuva valo edelleen sensoriin. Kuva 2.5 Esimerkkejä viivasensoreista Viivasensoreista on esimerkkejä kuvassa 2.5. Viivasensoreita käytettäessä sensoria tarvitsee liikuttaa enää yhdessä suunnassa kaksiulotteisen kuvan saamiseksi. Lää-

13 10 DIGITAALISEN KUVAN PERUSTEET ketieteen kuvantamisessa (tietokonetomografiassa, sekä MRI- ja PET-kuvauksessa) käytetään kuvassa oikealla puolella olevaa järjestelyä: Säteilylähde pyörii kuvattavan kohteen ympärillä ja vastapuolella on ko. säteilylle herkkä sensori. Kun mittauksia otetaan useissa eri suunnissa, sensorien vasteesta voidaan laskea kohteen poikkileikkauskuva nk. käänteisellä Radon-muunnoksella. Kuva 2.6 Kuvantaminen matriisisensorilla Tavallisissa digitaalikameroissa ym. vastaavissa laitteissa käytetään sensorimatriisia, jossa on valoherkkiä sensoreita m n elementin matriisissa. Sensoritekniikasta riippuen värikuvia otettaessa tarvitaan yleensä useita sensoreita kuvapistettä kohti eri värikomponenttien mittaamiseksi. Kuvassa 2.6 on tyypillinen kuvausjärjestely sensorimatriisia käytettäessä: Valonlähteestä tuleva valo (tai muu sähkömagneettinen säteily) heijastuu kuvattavasta kohteesta, kulkee linssi- tai muun kuvantamisjärjestelmän läpi kuvatasolle, jossa on säteilylle herkkiä sensoreita. Sensorit integroivat niihin tulevaa säteilyenergiaa tietyn ajan (valotusajan) yli, jonka jälkeen kuvasignaali on luettavissa matriisista analogisessa muodossa. Lopuksi analoginen signaali muuutetaan digtaaliseksi A/D-muunnoksessa, jota tarkastellaan seuraavassa kappaleessa. Kuvanmuodostus Harmaasävykuva voidaan ymmärtää kaksiulotteiseksi funktioksi f(x, y), 0 < f(x, y) < (2.3-1) joka kuvaa kuvattavasta kohteesta kuvantamisjärjestelmään tulevan säteilyn määrää. Useimmissa tapauksissa f voidaan jakaa kahteen komponenttiin: valaistuskomponenttiin i(x, y) joka kuvaa säteilylähteestä kuvattavaan kohteeseen tulevan säteilyn määrää ja heijastuskomponenttiin r(x, y) joka kuvaa kuinka hyvin kuvattava kohde

14 KUVAN NÄYTTEENOTTO JA KVANTISOINTI 11 heijastaa säteilyä. Kuva f voidaan siis esittää tulona f(x, y) = i(x, y)r(x, y), (2.3-2) jossa ja 0 < i(x, y) < (2.3-3) 0 < r(x, y) < 1. (2.3-4) 2.4 KUVAN NÄYTTEENOTTO JA KVANTISOINTI Kuvantamisjärjestelmään tuleva signaali on jatkuva sekä paikan että intensiteetin suhteen. Digitaalisessa kuvassa sekä koordinaattien että kuvafunktion arvot ovat diskreettejä. Kuvan diskretoimista paikan suhteen kutsutaan näytteistämiseksi ja intensiteetin (amplitudin, kuvafunktion arvon) diskretoimista kvantisoinniksi N y M 1 x Kuva 2.7 Tässä kurssissa kuvatason koordinaatisto valitaan seuraavasti: x-akselin positiivinen suunta on vasemmasta yläkulmasta alaspäin ja y-akselin positiivinen suunta vasemmasta yläkulmasta oikealle. Olkoon aluperäinen jatkuva kuvafunktio f(x, y). Siitä otettuja näytteitä f(x 0 + x x, y 0 + y y), 0 x M 1, 0 y N 1 kutsutaan näytteistetyksi funktioksi. Huomaa, että kurssikirjan mukaisesti tässä kurssissa käytetään koordinaatteja x ja y välillä kuvaamaan jatkuvan funktion koordinaatteja ja välillä näytteistetyn funktion indeksejä. Kuvankäsittelyssä yleisesti käytetty koordinaattien merkitsemistapa poikkeaa matematiikan käytännöstä. Tässä kurssissa käytetty koordinaatisto on esitelty kuvassa 2.7. Näytteistettyä kuvaa käsitellään usein

15 12 DIGITAALISEN KUVAN PERUSTEET myös M N-matriisina: f(x, y) = f(0, 0) f(0, 1)... f(0, N 1) f(1, 0) f(1, 1)... f(1, N 1) f(m 1, 0) f(m 1, 1)... f(m 1, N 1). (2.4-1) Huomaa, että kurssissa käytetty kuvatason koordinaatiston valinta vastaa matriisilaskennassa perinteisesti käytettyjä indeksejä. Analogia-digitaalimuunnoksessa alkuperäisen kuvafunktion arvot kvantisoidaan tietylle määrälle harmaasävytasoja. Alkuperäisen funktion intensiteettiarvot[l min, L max ] kvantisoidaan välille 0,...,L 1. Rajaa L min pienemmät ja rajaa L max suuremmat intensiteetit leikkautuvat eli saavat arvon 0 tai L 1 kvantisoidussa funktiossa. Kuvassa 2.8 on esimerkki tasavälisestä kvantisoinnista: alkuperäinen funktion arvot kuvautuvat arvoiksi 0, 1...., 7. Digitaaliset kuvat esitetään yleensä binäärimuodossa, joten käytännön syistä kvantisointitasojen määrä L valitaan usein siten, että se on 2:n potenssi: L = 2 k. (2.4-3) Nyt ilman kompressiota digitaalisen kuvan esittämiseen tarvitaan b = M N k (2.4-4) bittiä. Esimerkiksi 256:m harmaasävyn pikselin kuvan esittäminen vaatii bittiä = 256 kilotavua. kvantisoitu arvo alkuperäinen arvo Kuva 2.8 Esimerkki kvantisointifunktiosta, joka kvantisoi alkuperäisen funktion arvot tasavälisesti 8 kvantisointitasolle.

16 PIKSELEIDEN VÄLISIÄ YHTEYKSIÄ PIKSELEIDEN VÄLISIÄ YHTEYKSIÄ Pikselin p = (x, y) 4-naapurit ovat ja sen diagonaalinaapurit ovat (x + 1, y), (x 1, y), (x, y + 1), (x, y 1) (x + 1, y + 1), (x + 1, y 1), (x 1, y + 1), (x 1, y 1). Pisteen 4-naapureita merkitään N 4 (p):llä ja diagonaalinaapureitan D (p):llä. Diagonaalija 4-naapurit yhdessä muodostavat pisteen 8-naapurit, N 8 (p):n, ks. kuva 2.9. N (p) N (p) 4 D N (p) 8 Kuva 2.9 Pisteen p 4-, diagonaalija 8-naapurit. Jotta kaksi pistettä olisivat vierekkäisiä (adjacent), niiden täytyy olla naapureita ja lisäksi niiden harmaasävyjen täytyy täyttää määrätty samanlaisuuskriteeri. Jos V :llä merkitään sitä harmaasävyjen joukkoa, jotka täyttävät samanlaisuuskriteerin (esim. voidaan määrätä, että V :hen kuuluvat harmaasävyt 0 30), 4-, 8- ja m-vierekkäisyys määritellään seuraavasti: 4-vierekkäisyys. Pisteet p ja q ovat 4-vierekkäisiä, jos niiden harmaasävyarvot kuuluvat V :hen ja q kuuluu N 4 (p):hen. 8-vierekkäisyys. Pisteet p ja q ovat 8-vierekkäisiä, jos niiden harmaasävyarvot kuuluvat V :hen ja q kuuluu N 8 (p):hen. m-vierekkäisyys. Pisteet p ja q ovat m-vierekkäisiä, jos niiden harmaasävyarvot kuuluvat V :hen ja 1. q kuuluu N 4 (p):hen tai 2. q kuuluu N D (p):hen ja joukkoon N 4 (p) N 4 (q) ei kuulu pikseleitä joiden harmaasävyarvo on V :ssä. Polku pisteestä p = (x, y) pisteeseen q = (s, t) on jono erillisiä pisteitä (x 0, y 0 ), (x 1, y 1 ),..., (x n, y n ) siten että p = (x, y) = (x 0, y 0 ) sekä q = (s, t) = (x n, y n ), ja pisteet (x i 1, y i 1 ) ja (x i, y i ) ovat vierekkäisiä kun 1 i n. Olkoon S joukko pikseleitä kuvassa. Nyt p ja q ovat liittyneitä (connected) S:ssä jos on olemassa polku p:stä q:hun siten että kaikki polun pisteet ovat S:ssä.

17 14 DIGITAALISEN KUVAN PERUSTEET (a) (b) (c) Kuva 2.10 Esimerkki pisteiden välisestä vierekkäisyydestä kun V = {1} ja käytetään (a) 4-vierekkäisyyttä, (b) 8-vierekkäisyyttä, (c) m-vierekkäisyyttä. Olkoon p piste S:ssä. Tällöin niiden pisteiden joukkoa, jotka ovat liittyneitä p:hen S:ssä kutsutaan S:n liittyneeksi komponentiksi. Jos S koostuu tasan yhdestä liittyneestä komponentista, S:ää kutsutaan liittyneeksi joukoksi. Liittynyttä joukkoa kutsutaan kuvan alueeksi (region). Alueen R rajan (boundary, border, contour) muodostavat ne pisteet, joilla on vähintään yksi naapuri, joka ei ole R:ssä sekä ne R:n pisteet jotka ovat samalla koko kuvan reunapisteitä. Kuvan alueisiin liittyy oleellisesti myös reunan (edge) käsite. Rajan ja reunan oleellinen ero on, että raja on alueeseen liittyvä globaali käsite, ja se muodostaa suljetun polun kuvassa. Reuna sen sijaan on paikallinen käsite, ja sillä tarkoitetaan paikallista epäjatkuvuutta kuvan harmaasävyarvoissa. Reunojen ilmaisua käsitellään kappaleessa 10. Etäisyysmittoja Olkoot p, q ja z kuvapisteitä, koordinaatteina (x, y), (s, t) ja (u, v). D on etäisyysfunktio eli metriikka, jos 1. D(p, q) 0 (D(p, q) = 0, jos ja vain jos p = q), 2. D(p, q) = D(q, p) ja 3. D(p, z) D(p, q) + D(q, z) (kolmioepäyhtälö). p:n ja q:n välinen Euklidinen etäisyys: D 4 -etäisyys (city block, Manhattan distance): D 8 -etäisyys (chessboard): D e (p, q) = (x s) 2 + (y t) 2. (2.5-1) D 4 (p, q) = x s + y t. (2.5-2) D 8 (p, q) = max( x s, y t ). (2.5-3) On syytä huomata, että edellä esitettyjen etäisyysmittojen arvo ei riipu lainkaan kuvapisteiden harmaasävyistä; etäisyys lasketaan pelkästään koordinaattien avulla. Lisäksi voidaan määritellä kuvapisteiden arvoista riippuva etäisyys, D m -etäisyys, joka tarkoittaa lyhyimmän mahdollisen p:stä q:hun kulkevan m-polun pituutta.

18 LINEAARISET JA EPÄLINEAARISET OPERAATIOT (a) (b) (c) Kuva 2.11 Esimerkkejä etäisyysmitoista. Ympyröityjen pisteiden välinen etäisyys (a), (b)- ja (c)-kohdassa on D e-mitalla 2 2, D 4-mitalla 4 ja D 8-mitalla 2. D m-mitalla etäisyys on (a)-kohdassa 2, (b)-kohdassa 3 ja (c)-kohdassa LINEAARISET JA EPÄLINEAARISET OPERAATIOT Olkoon H operaattori, jonka syöte ja tulos ovat kuvia. H on lineaarinen operaattori, jos mille tahansa kuville f ja g sekä mille tahansa skalaareille a ja b pätee H {af + bg} = ah {f} + bh {g}. (2.6-1) Mikäli em. yhtälö ei päde, operaattorin sanotaan olevan epälineaarinen.

19 3 Kuvan korostus paikkatasossa Kuvan korostuksen tavoitteena on prosessoida kuvaa siten, että tuloskuva on valittuun sovellutukseen käyttökelpoisempi kuin alkuperäinen kuva. Kuvan korostusmenetelmät voidaan jakaa paikka- ja taajuustason menetelmiin. Tässä luvussa käsitellään paikkatason menetelmiä. 3.1 TAUSTAA Paikkatasolla tarkoitetaan sitä pikseleiden joukkoa, joka muodostaa varsinaisen kuvan. Paikkatason menetelmät käyttävät suoraan näiden pikseleiden arvoja kuvan prosessointiin. Paikkatason operaattori voidaan määritellä yhtälöllä g(x, y) = T [f(x, y)], (3.1-1) missäf(x, y) on syötekuva,g(x, y) on tuloskuva jat on paikkatason operaattori, joka on määritelty jossain (x, y)-tason naapurustossa. T voi käyttää syötteenään yhden kuvan sijaan myös useampaa kuvaa, esimerkiksi jos T -operaatio määritellään usean syötekuvan keskiarvoistamiseksi. Paikkatason menetelmien perusajatus on, että prosessointi aloitetaan esim. kuvan vasemmasta yläkulmasta ja kunkin pikselin prosessoinnissa käytetään hyväksi syötekuvasta ko. pikselin ympärillä määritellyn suorakaiteen tai neliön muotoisen naapuruston harmaasävyjä. Tämän jälkeen naapurustoa siirretään pikselin verran oikealle ja käsitellään seuraava piste, jne. 16

20 HARMAASÄVYMUUNNOKSIA HARMAASÄVYMUUNNOKSIA Yksinkertaisimmassa tapauksessa edellä mainitun naapuruston koko on 1 1, jolloin tuloskuvan pikselin arvo riippuu ainoastaan kyseisen pikselin arvosta lähtökuvassa. Tämä operaatio voidaan määritellä harmaasävyjen muunnosfunktiona s = T(r), (3.1-2) missä r on syötekuvan f(x, y) harmaasävy ja s on harmaasävy tuloskuvassa g(x, y). Seuraavassa esitellään eräitä keskeisimpiä harmaasävymuunnoksia. Negatiivikuva Olkoon syötekuvassa harmaasävyjä välillä [0, L 1]. Tällöin kuvan negatiivikuva saadaan harmaasävymuunnoksella s = L 1 r. (3.2-1) Tällä muunnoksella voidaan korostaa erityisesti pieniä vaaleita harmaasävyalueita, jotka ovat tummien alueiden ympäröimiä. Logaritmi Logaritmimuunnos määritellään yhtälöllä s = c log(1 + r), (3.2-2) missä c on vakio. Tämä muunnos kuvaa kapean alueen pieniä harmaasävyjä lähtökuvassa laajemmalle alueelle harmaasävyjä tuloskuvassa ja päin vastoin. Toisin sanoen, muunnos on käyttökelpoinen kun mielenkiintoinen informaatio kuvassa on keskittynyt harmaasävyalueen alapäähän. Eksponentiaalinen muunnos Eksponentiaalinen harmaasävymuunnos määritellään yhtälöllä s = cr γ, (3.2-3) missä c ja γ ovat positiivisia vakioita. Useiden kameroiden, näyttöjen, jne vaste on edellämainitun yhtälön mukainen, joten vastaavanmuotoinen gamma-korjaus tehdään harmaasävyarvoille lineaarisen vasteen saavuttamiseksi. Paloittain lineaariset muunnokset Paloittain määriteltyjä lineaarisia muunnoksia voidaan käyttää halutun harmaasävyalueen korostamiseen. Esimerkkejä paloittain määritellyistä lineaarisista muunnoksista on kuvassa 3.1.

21 18 KUVAN KOROSTUS PAIKKATASOSSA (r 2, s 2 ) s s s (r, s ) 1 1 r (a) r (b) r (c) Kuva 3.1 Esimerkkejä paloittain määritellyistä lineaarisista harmaasävymuunnoksista: (a) kontrastin venytys, (b) ja (c) erilaisia vaihtoehtoja intensiteetin viipalointiin. Kontrastin venytyksellä voidaan lisätä kuvan harmaasävydynamiikkaa. Pisteet(r 1, s 1 ) ja (r 2, s 2 ) määrittävät kuvauksen. Kun r 1 = s 1 ja r 2 = s 2, kyseessä on lineaarinen kuvaus, joka ei muuta kuvan harmaasävyjä. Jos taas r 1 = r 2, s 1 = 0 ja s 2 = L 1, saadaan kynnystysfunktio joka kuvaa r 1 :tä pienemmät harmaasävyt mustaksi ja sitä suuremmat valkoiseksi. Valitsemalla näiden kahden ääritapauksen väliltä saadaan erilaisia kuvan kontrastia lisääviä funktioita. Intensiteetin viipalointi korostaa kuvan tiettyä harmaasävyaluetta. Kuvan 3.1 (b) mukainen kuvaus korostaa määrättyä aluetta ja säilyttää muut harmaasävyt ennallaan, ja kuvan 3.1 (c) mukainen kuvaus esittää halutun harmaasävyalueen kirkkaana ja kaikki muut harmaasävyt tummana. Bittitasojen viipaloinnissa esitetään harmaasävykuvan määrätyn bitin arvot mustavalkokuvana. Tätä voidaan hyödyntää esimerkiksi arvioitaessa, kuinka monen bitin tarkkuudella kuva pitää esittää jotta riittävä määrä yksityiskohtia saadaan säilytettyä. Esimerkki bittitason viipaloinnista on kuvassa 3.2. Kuten esimerkistä huomaa, tärkein informaatio on muutamaa eniten merkitsevää bittiä vastaavilla bittitasoilla, ja matalammilla tasoilla on pääasiassa pienempiä yksityiskohtia ja kohinaa. 3.3 HISTOGRAMMIN PROSESSOINTI Olkoon kuvassa harmaasävyjä [0, L 1]. Tällöin kuvan histogrammi on diskreetti funktio h(r k ) = n k, jossa r k on harmaasävy välillä [0, L 1] ja n k on niiden kuvapisteiden lukumäärä, joiden harmaasävyarvo on r k. Normalisoidussa histogrammissa arvot on jaettu kuvapisteiden kokonaismäärällä n, eli p(r k ) = n k /n. Vapaasti tulkittuna normalisoitu histogrammi antaa estimaatin kunkin sävyn esiintymistodennäköisyydestä kuvassa. Histogrammin muoto antaa hyödyllistä infomaatiota kuvasta esim. kontrastin korostustarpeita silmälläpitäen. Esimerkkejä erilaisista harmaasävykuvista ja niiden histogrammeista on kuvassa 3.3. Histogrammin laskenta on yksinkertaista, joten histogrammeihin perustuvia kuvankäsittelymenetelmiä käytetään paljon reaaliaikaisissa kuvankäsittelysovelluksissa.

22 HISTOGRAMMIN PROSESSOINTI 19 Kuva 3.2 Esimerkki bittitason viipaloinnista. Ylhäältä vasemmalta: alkuperäinen kuva ja kuvan bittitasot

23 20 KUVAN KOROSTUS PAIKKATASOSSA Kuva 3.3 Esimerkkejä harmaasävykuvista ja niiden histogrammeista. Ylhäältä alas: vaalea kuva, tumma kuva, matalakontrastinen kuva ja korkeakontrastinen kuva.

24 HISTOGRAMMIN PROSESSOINTI 21 Histogrammin tasoitus Oletetaan seuraavassa, että kuvan harmaasävyt on normalisoitu välille [0, 1] ja että normalisoitu harmaasävyjakaumap r (r) on määritelty ja positiivinen välillä [0, 1] ja se on jatkuva. Koska nyt jakauma on jatkuva eikä diskreetti, puhutaan todennäköisyystiheysfunktiosta histogrammin sijaan. Tarkastellaan harmaasävymuunnosta s = T(r), joka on 1. yksikäsitteinen ja monotonisesti kasvava kun 0 r 1 ja 2. 0 T(r) 1 kun 0 r 1. Tällöin käänteismuunnos s = T 1 (r) on olemassa, ja sillä on samat ominaisuudet. Nyt todennäköisyystiheysfunktioille p s (s) ja p r (r) on voimassa p s (s) = p r (r) dr ds. (3.3-3) Kuvankäsittelyssä yleisesti käytetty harmaasävymuunnos on muotoa s = T(r) = r 0 p r (w)dw, (3.3-4) jossa w on integrointivakio. Huomaa, että T(r) on samalla satunnaismuuttujan r kertymäfunkio. Koska p r (r):n oletettiin olevan positiviinen välillä [0, 1], T(r) on yksikäsitteinen ja monotonisesti kasvava tällä välillä. Satunnaismuuttujan kertymäfunktion ominaisuuksista seuraa, että T(r) täyttää myös em. ehdon 2. Muunnoksen T(r) derivaatta on ds dr = dt(r) = d dr dr r 0 p r (w)dw = p r (r). (3.3-5) Nyt kaavasta saadaan s:n jakauma seuraavasti: p s (s) = p r (r) dr ds = p r(r) 1 p r (r) = 1, 0 s 1. (3.3-6) Muunnoksella T(r) saadaan siis kuvan harmaasävyjakauma muutettua tasaiseksi. Käytännön tilanteissa digitaalisilla kuvilla jakauma p r (r) ei ole jatkuva vaan diskreetti. Normalisoidulle histogrammille p r (r k ) = n k n muunnos T(r k ) määritellään seuraavasti: s k = T(r k ) = k p r (r j ) = j=0 k j=0 n j n (3.3-7) (3.3-8) Tätä operaatiota kutsutaan histogrammin tasoittamiseksi tai ekvalisoinniksi. Kaavan mukainen muunnos täyttää edellämainitut ehdot 1. ja 2., mutta toisin kuin jatkuvassa tapauksessa, tuloksena saatavan kuvan histogrammi ei yleensä ole täysin tasainen. Tämä johtuu muunnoksen diskreetistä luonteesta. Kuvassa 3.4 on esimerkki harmaasävykuvasta, jolle on suoritettu histogrammin tasoitus.

25 22 KUVAN KOROSTUS PAIKKATASOSSA Kuva 3.4 Esimerkki harmaasävykuvasta, jolle on suoritettu histogrammin tasoitus. Histogrammin määrääminen Histogrammin tasoitus muuttaa kuvan histogrammin lähes tasaiseksi, mutta kaikissa tilanteissa tämä lähestymistapa ei ole paras mahdollinen vaan voi olla hyödyllisempää tavoitella jotain muuta kuin tasaista histogrammia. Käsitellään jälleen jatkuvia jakaumia. Olkoon p z (z) haluttu harmaasävyjakauma. Nyt muunnos G(z) = z 0 p z(w)dw muuttaa jakauman p z (z) tasajakaumaksi. Jos käänteismuunnos G 1 (s) on olemassa (ks. ehdot 1. ja 2. edeltä), se muuttaa tasajakauman jakaumaksip z (z). Edellisessä kappaleessa kuvatulla muunnoksellas = T(r) voidaan annetun kuvan harmaasävyjakauma tasoittaa, joten jakauman määrittäminen tapahtuu yhdistetyllä muunnoksella z = G 1 (s) = G 1 (T(r)). (3.3-12) Tällä muunnos muuntaa jakauman p r (r) halutuksi jakaumaksi p z (z). Käytännössä käänteismuunnoksen G 1 (s) määrittäminen voi olla vaikeaa jatkuvassa tapauksessa. Diskreetissä tapauksessa sen sijaan voidaan muunnokset toteuttaa yksinkertaisesti taulukoilla. Diskreetissä tapauksessa tosin pätee sama kuin histogrammin tasoittamisessa eli saavutettu jakauma ei usein ole täsmälleen halutun kaltainen. Esimerkki histogrammin määräämisellä saadusta kuvasta on kuvassa 3.5. Paikallinen käsittely Edellä esitetyt menetelmät ovat globaaleja, koska muunnosfunktio perustuu koko kuvan harmaasävyjakaumaan. Usein tarvitaan paikallista korostusta, koska globaali muunnos ei anna välttämättä hyvää tulosta. Paikallinen histogrammin käsittely toimii seuraavasti: 1. Määritellään n m suuruinen ympäristö (ikkuna), jota liikutetaan piste pisteeltä kuvan yli.

26 KUVAN KOROSTUS ARITMEETTISILLA JA LOOGISILLA OPERAATTOREILLA 23 (a) (b) (c) Kuva 3.5 Esimerkki histogrammin määräämisestä. (a) tavoiteltu histogrammi, (b) histogrammin määräämisellä saatu kuva, (c) tuloskuvan histogrammi. 2. Kussakin pisteessä lasketaan n m ympäristön histogrammi, jota käytetään joko histogrammin tasoituksessa tai spesifioinnissa antamaan uusi arvo n m ympäristön keskipisteelle. 3. Ympäristö siirretään seuraavaan pisteeseen ja lasketaan uusi histogrammi. Laskenta-ajan pienentämiseksi voidaan käyttää myös ei-päällekkäisiä ympäristöjä, mikä saattaa kuitenkin aiheuttaa "shakkiruutuefektin". 3.4 KUVAN KOROSTUS ARITMEETTISILLA JA LOOGISILLA OPERAATTOREILLA Tässä osassa tarkastellaan kuvan korostusta aritmeettisilla ja loogisilla operaattoreilla. Loogista NOT-operaatiota lukuunottamatta kaikissa käsiteltävissä operaatioissa syötteenä on vähintään kaksi kuvaa. Perusajatus on, että syötekuvat ovat samankokoisia, ja jokaiselle pikselille lasketaan ko. pikselin summa, erotus, jne. lähtökuvissa. Mahdollisia operaatioita ovat mm NOT-operaattori. Syötteenä on vain yksi kuva ja tuloksena saadaan negatiivikuva (kaava 3.2-1). AND-operaattori ja OR-operaattori. Käytetään lähinnä binäärimaskien kanssa erotettaessa kuvasta tiettyä osaa käsittelyä varten. AND-operattoria käytettäessä maskin ykkösiä vastaavat pikselit lähtökuvassa pysyvät ennallaan ja nollia vastaavat pikselit muuttuvat mustiksi. OR-operaattoria käytettäessä maskin ykkösiä vastaavat pikselit muuttuvat valkoisiksi ja nollia vastaavat pikselit pysyvät ennallaan. Kertolasku. Kertolaskun avulla voidaan toteuttaa monimutkaisempia maskioperaatioita: binäärimaskin sijasta voidaan käyttää harmaasävymaskia.

27 24 KUVAN KOROSTUS PAIKKATASOSSA Yhteen- ja vähennyslasku. Yhteenlaskua (keskiarvoistamista) voidaan käyttää kohinan vähentämiseen ja vähennyslaskua kuvien välisten erojen osoittamiseen. Näitä käsitellään tarkemmin seuraavassa. Kuvien vähentäminen Kuvien vähentämisellä saadaan esille kahden kuvan välinen ero. Tätä voidaan hyödyntää mm. Tutkittaessa kuvankäsittelyoperaation (esim. kuvan bittimäärän vähennyksen) vaikutusta kuvaan: vähennetään käsitelty kuva alkuperäisestä Lääketieteellisessä kuvantamisessa: esimerkiksi käytettäessä varjoainetta röntgenkuvassa vähennetään ilman varjoainetta otettu kuva varjoaineen kanssa otetusta kuvasta jolloin saadaan verisuonet selvästi näkyviin. Liikkuvien kohteiden ilmaisussa ja seuraamisessa: vähennetään paikallaan olevalla kameralla otetun kuvasekvenssin kaksi kuvaa toisistaan. Erotuskuvassa on (kohinan lisäksi) kuvien ottamisen välillä liikkuneet kohteet. Jos alkuperäisissä kuvissa on harmaasävyja [0,...,L 1], voi erotuskuvassa olla arvoja [ (L 1),...,0,...,L 1]. Yleensä digitaalisissa kuvissa ei sallita negatiivisia arvoja. Ongelman voi ratkaista esim. seuraavilla kahdella tavalla: joko lisätään erotuskuvaan vakio L 1 ja jaetaan tulos kahdella, tai lisätään erotuskuvaan sen pienimmän arvon vastaluku ja kerrotaan tulos luvulla (L 1)/(M ax), missä M ax on muunnetun kuvan suurin arvo. Ensimmäinen ratkaisu on yksinkertainen toteuttaa, mutta sen seurauksena koko käytettävissä oleva harmaasävyalue ei välttämättä ole käytössä. Jälkimmäinen menetelmä taas on toteutukseltaan hieman monimutkaisempi, mutta se takaa, että lopullisessa tuloskuvassa koko harmaasävyalue on käytössä. Kuvien keskiarvoistaminen Oletetaan, että alkuperäiseenkuvaan f(x, y) summaututuu kohinaa η(x, y), eli g(x, y) = f(x, y) + η(x, y). (3.4-2) Oletetaan lisäksi, että eri pikseleiden kohinanäytteet ja saman pikselin ajallisesti peräkkäiset kohinanäytteet ovat korreloimattomia, ja että kohina on nollakeskiarvoista. Tavoitteena on vähentää kohinaa ottamalla laskemalla keskiarvokuva ḡ(x, y) joukosta kohinaisia kuvia {g i (x, y)}: ḡ(x, y) = 1 K K g i (x, y). (3.4-3) Jos edellämainitut kohinaa koskevat oletukset pitävät paikkansa, voidaan osoittaa että keskiarvokuvan odotusarvo ja varianssi saadaan kaavoista i=1 E{ḡ(x, y)} = f(x, y) (3.4-4)

28 SPATIAALISEN SUODATUKSEN PERUSTEITA 25 f(x 1,y 1) f(x 1,y) f(x 1,y+1) w( 1, 1) w( 1,0) w( 1,1) f(x,y 1) f(x,y) f(x,y+1) w(0, 1) w(0,0) w(0,1) f(x+1,y 1) f(x+1,y) f(x+1,y+1) w(1, 1) w(1,0) w(1,1) Kuva naapurusto kuvassa f(x, y) sekä 3 3-maski w. ja σ 2 ḡ(x,y) = 1 K σ2 η(x,y). (3.4-5) Keskiarvokuvan varianssi siis laskee kun K kasvaa eli käytännössä kuvassa oleva kohina vähenee kun lasketaan keskiarvo useasta kuvasta. Tämä kuitenkin vaatii, että kuvattavasta kohteesta voidaan ottaa identtisiä peräkkäisiä otoksia, jotka pystytään kohdistamaan tarkasti päällekkäin. Useissa sovelluksissa tämä ei ole mahdollista, mutta keskiarvoistamista käytetään mm. mikroskopiassa ja astronomiassa. 3.5 SPATIAALISEN SUODATUKSEN PERUSTEITA Spatiaaliset suodatusmenetelmät perustuvat artimeettisten tai loogisten operaatioiden suorittamiseen kunkin pikselin määrätyssä naapurustossa. Yleensä suodatuksessa käytetään myös maskia (ks. kuva 3.6), joka on naapuruston kokoinen matriisi, joka sisältää suodattimen kertoimet, jotka määräävät ko. suodattimen ominaisuudet. Lineaarisessa spatiaalisessa suodatuksessa tuloskuvan pikselin arvo saadaan laskemalla summa naapuruston pikseleiden arvoista kerrottuna vastaavilla maskin kertoimilla eli a b g(x, y) = w(s, t)f(x + s, y + t), (3.5-1) s= a t= b jossa w on (2a + 1) (2b + 1)-kokoinen maski, f on lähtökuva ja g tuloskuva. Voidaan osoittaa, että tämä operaatio on lineaarinen eli täyttää ehdon Epälineaarisessa spatiaalisessa suodatuksessa käytetään myös naapuruston arvoja, mutta painotetun summan sijaan käytetään jotain muuta aritmeettista tai loogista operaatiota, jonka seurauksena ehto ei täyty. Naapuruston arvoista voidaan laskea esim. mediaani tai varianssi. Kuvan reunoilla ei kaikilla pikseleillä ole vaadittavia naapureita, jotta kyseinen pikseli voitaisiin käsitellä normaalisti. Tällöin on olemassa mm. seuraavia vaihtoehtoja: 1. Käsitellään vain ne pikselit, joilla on kaikki tarvittavat naapurit. Tämän käsittelytavan seurauksena tuloskuva on pienempi kuin lähtökuva.

29 26 KUVAN KOROSTUS PAIKKATASOSSA (a) (b) (c) Kuva 3.7 Vaihtoehtoja reunojen käsittelyyn spatiaalisessa suodatuksessa. (a) Kuvan käsittäminen sykliseksi, (b) Heijastaminen, (c) Ulkopuolisten pisteiden olettaminen nolliksi. (a) (b) (c) (d) Kuva 3.8 Esimerkki tasoituksen käytöstä kuvankäsittelyssä. Alkuperäisessä kuvassa (a) on paljon kohinaa ja kuvan renkaassa on pieni katkos. Jos tavoitteena on mustavalkoinen kuva, jossa on yhtenäinen rengas, tästä kuvasta ei saada hyvää tulosta millään kynnysarvolla (b). Jos sen sijaan kuvaa tasoitetaan ensin (c) ja tasoitettu kuva kynnystetään (d), tulos on merkittävästi parempi. 2. Käytetään reunoilla erilaista maskia tai alkuperäisestä maskista vain ne kertoimet jotka osuvat kuvan todellisten pikseleiden päälle. 3. Käsitetään kuva syklisesti suljetuksi. Käytetään harvoin, ja tälle käsittelytavalle tulisi olla joku perustelu. Ks. kuva 3.7 (a). 4. Heijastetaan reunapikseleiden arvot niiden ympärille. Ks. kuva 3.7 (b). 5. Oletetaan kuvan ulkopuoliset pisteet nolliksi. Ks. kuva 3.7 (c). 3.6 TASOITTAVAT SPATIAALISET SUODATTIMET Kuvan tasoittamisen (smoothing) tai sumentamisen(blurring) tavoitteena on vähentää kuvasta kohinaa sekä tarpeettomia yksityiskohtia ennen jatkokäsittelyä. Tasoittaminen myös yhdistää pienet katkeamat reunoissa tai käyrissä. Kuvassa 3.8 on esimerkki tasoituksen käytöstä. Eräitä tasoittavia suodattimia kutsutaan myös alipäästösuodattimiksi. Tämän nimityksen perusteluja käsitellään luvussa 4.

30 TERÄVÖITTÄVÄT SPATIAALISET SUODATTIMET 27 Tasoittavat lineaariset suodattimet Tasoittavissa lineaarisissa suodattimissa perusajatus on, että kunkin pikselin naapurustosta lasketaan painotettu tai painottamaton keskiarvo. Yleisesti tämä voidaan laskea kaavalla a b s= a t= b w(s, t)f(x + s, y + t) g(x, y) = a b s= a t= b w(s, t), (3.6-1) missä esim. 3 3-naapurustoa ja painottamatonta keskiarvoa käytettäessa w on w = ja painotettua keskiarvoa käytettäessä w voi olla esim. w = Järjestysstatistiikkaan perustuvat suodattimet Usein käytetyt epälineaariset tasoittavat suodattimet perustuvat järjestysstatistiikkaan. Näistä yleisin on mediaanisuodatin, jossa k k-naapuruston keskipisteen uudeksi arvoksi tulee naapuruston harmaasävyjen mediaani eli keskimmäinen arvo kun naapuruston harmaasävyt on laitettu suuruusjärjestykseen. Yleensä mediaanisuodatus hämärtää kuvassa olevia reunoja vähemmän kuin lineaariset tasoittavat suodattimet. Samalla periaatteella kuin mediaanisuodatin voidaan toteuttaa esim. maksimi- tai minimisuodatin, joissa naapuruston keskipisteen uudeksi arvoksi tulee harmaasävyjen suurin tai pienin arvo. 3.7 TERÄVÖITTÄVÄT SPATIAALISET SUODATTIMET Kuvan terävöittämisen tavoitteena on korostaa kuvassa olevia pieniä yksityiskohtia, reunoja, jne, jotka ovat sumentuneet esim. kuvantamisessa käytetyn laitteen takia. Hieman epätäsmällisesti voidaan sanoa, että tasoittavissa suodattimissa tehty keskiarvon laskeminen vastaa integrointia. Vastaavasti voidaan olettaa, että tasoittamiselle käänteinen operaatio, kuvan terävöittäminen, voidaan toteuttaa derivoivalla suodattimella. Yleensä toista derivaattaa approksimoivat menetelmät soveltuvat terävöittämiseen ensimmäistä derivaattaa paremmin. Diskreetissä tapauksessa ensimmäistä derivaattaa voidaan approksimoida kaavalla ja toista derivaattaa kaavalla f = f(x + 1) f(x) x 2 f = f(x + 1) + f(x 1) 2f(x). x2

31 28 KUVAN KOROSTUS PAIKKATASOSSA Laplacen operaattori On toivottavaa, että terävöittävät suodattimet ovat isotrooppisia eli että niiden vaste ei riipu kuvassa olevan epäjatkuvuuden suunnasta. Käytännössä tämä tarkoittaa, että jos kuva suodatetaan terävöittävällä suodattimella ja kuvaa pyöritetään, tuloksen tulisi olla sama kuin silloin kun samat operaatiot suoritetaan käänteisessä järjestyksessä. Jatkuvassa tapauksessa yksinkertaisin isotrooppinen derivaattaoperaattori on Laplacen operaattori, joka määritellään kaavalla 2 f = 2 f x f y 2. (3.7-1) Käyttäen kaavaa 3.7 tästä saadaan diskreetti approksimaatio 2 f(x, y) = 4f(x, y) + f(x + 1, y) + f(x 1, y) + f(x, y + 1) + f(x, y 1), (3.7-4) mikä vastaa maskia w 1 = Tällä maskilla toteutettuna operaattori on invariantti n90 rotaatioille. Usein derivaatan approksimaatio lasketaan myös diagonaalisuunnissa jolloin maskiksi saadaan w 2 = Laplacen operaattori on derivoiva, joten se korostaa harmaasävyjen epäjatkuvuuksia lähtökuvassa. Sen tulos ei kuitenkaan riipu lainkaan varsinaisista harmaasävyistä alkuperäisessä kuvassa vaan vierekkäisten pikselien harmaasävyjen eroista. Esimerkiksi tasaiset harmaasävyalueet operaattori muuttaa nolliksi riippumatta siitä, mikä harmaasävytaso lähtökuvassa on. Jotta saataisiin tulos, jossa yksityiskohdat ovat korostuneet, mutta alkuperäisen kuvan harmaasävyinformaatiota on säilynyt, Laplacen operaattorin tulos ja alkuperäinen kuva tulee yhdistää. Tämä tehdään vähentämällä Laplacen operaattorin tuottama tulos alkuperäisestä kuvasta: g(x, y) = f(x, y) 2 f(x, y). Käytännössä Laplacen operaattori ja vähennyslasku voidaan yhdistää jolloin käytettäväksi maskiksi saadaan w 3 = tai w 4 =

32 TERÄVÖITTÄVÄT SPATIAALISET SUODATTIMET 29 (a) (b) (c) (d) (e) Kuva 3.9 Kuvan terävöittäminen Laplacen operaattorilla. (a) Alkuperäinen kuva, (b) kuva suodatettu maskilla w 1, (c) kuva suodatettu maskilla w 2, (d) kuva suodatettu maskilla w 3, (e) kuva suodatettu maskilla w 4 Esimerkki Laplacen operaattorin käytöstä kuvan terävöittämiseen on kuvassa 3.9. Kuten kuvasta näkee, maskin w 4 mukainen suodatus terävöittää kuvaa enemmän kuin suodatus maskilla w 3, mutta toisaalta se aiheuttaa myös enemmän kohinaa.

33 4 Kuvan korostus taajuustasossa 4.1 FOURIER-MUUNNOKSEN JA TAAJUUSTASON SUODATUKSEN PERUSTEET Yhden muuttujan jatkuvan funktion Fourier-muunnos määritellään kaavalla F(u) = f(x) saadaan F(u):sta käänteisellä Fourier-muunnoksella f(x) = f(x)e j2πux dx. (4.2-1) F(u)e j2πux du. (4.2-2) Muunnos kahden muuttujan funktiolle saadaan yksinkertaisella yleistyksellä F(u, v) = ja käänteismuunnos vastaavasti f(x, y) = f(x, y)e j2π(ux+vy) dxdy (4.2-3) F(u, v)e j2π(ux+vy) dudv (4.2-4) Digitaalisessa kuvankäsittelyssä ollaan pääsääntöisesti tekemisissä diskreettien funktioiden kanssa. Yhden muuttujan funktion f(x), x = 0, 1, 2,..., M 1 diskreetti Fourier-muunnos (DFT) on 30 F(u) = 1 M M 1 x=0 f(x)e j2πux/m (4.2-5)

34 FOURIER-MUUNNOKSEN JA TAAJUUSTASON SUODATUKSEN PERUSTEET 31 kun u = 0, 1, 2,..., M 1. Käänteinen DFT saadaan kaavasta Eulerin kaavan f(x) = M 1 u=0 F(u)e j2πux/m. (4.2-6) e jθ = cosθ + j sin θ (4.2-7) avulla diskreetti Fourier-muunnos voidaan esittää muodossa F(u) = 1 M M 1 x=0 f(x)(cos 2πux/M + j sin 2πux/M), (4.2-8) mistä nähdään, että jokainen F(u):n arvo saadaan summaamalla f(x):n arvoja kerrottuina eritaajuisilla sini- ja kosinifunktioilla. Tästä syystä F(u):ta kutsutaan usein taajuustason esitykseksi. Fourier-muunnoksen tulos on kompleksiarvoinen. Se on joissain tilanteissa hyödyllistä esittää napakoordinaattien avulla eli muodossa jossa ja F(u) = F(u) e jφ(u), (4.2-9) F(u) = (ReF(u) 2 + (ImF(u)) 2 (4.2-10) ( ) ReF(u) φ(u) = tan 1. (4.2-11) ImF(u) F(u) :ta kutsutaan f:n amplitudispektriksi ja φ(u):ta vaihespektriksi. Diskreetti funktio f(x), x = 1, 2,..., M 1 esittää M:ää näytettä alkuperäisestä jatkuvasta funktiosta. Näitä näytteitä ei pääsääntöisesti ole otettu jatkuvan funktion kokonaislukupisteistä, vaan diskreetissä tapauksessa f(x):llä tarkoitetaan f(x) = f(x 0 + x x). (4.2-13) Diskreetin Fourier-muunnoksen tuloksena saadaan vastaavasti näytteitä jatkuvasta spektristä: F(u) = F(u u), u = 1, 2,...,M 1. (4.2-14) Huomaa, että alkuperäisen funktion ensimmäinen näytepiste on x 0, mutta spektrin ensimmäinen näytepiste on aina 0. Paikka- ja taajuustason näytepisteiden etäisyyksien x ja u välillä on yhteys u = 1 M x. (4.2-15) Kaksiulotteinen DFT saadaan vastaavalla tavalla yksiulotteisesta laajentamalla kuin jatkuvassakin tapauksessa F(u, v) = 1 MN M 1 x=0 N 1 y=0 f(x, y)e j2π(ux/m+vy/n) (4.2-16)

35 32 KUVAN KOROSTUS TAAJUUSTASOSSA ja käänteinen DFT f(x, y) = M 1 u=0 N 1 v=0 F(u, v)e j2π(ux/m+vy/n). (4.2-17) Amplitudi- ja vaihespektri määritellään myös samaan tapaan kuin 1-ulotteisessa tapauksessa: F(u, v) = (ReF(u, v)) 2 + (ImF(u, v)) 2 (4.2-18) ja ( ) ReF(u, v) φ(u, v) = tan 1. (4.2-19) ImF(u, v) Kun f(x, y) on reaalinen, sen Fourier-muunnos on konjugaattisymmetrinen eli F(u, v) = F ( u, v) (4.2-23) missä tähdellä merkitään luvun kompleksikonjugaattia. Edellisestä seuraa, että reaalisen funktion amplitudispektri on symmetrinen eli F(u, v) = F( u, v). (4.2-24) Suodatus taajuustasossa Lineaarinen suodatus paikkatasossa (ks. kappale 3.5) voidaan tulkita kuvan f(x, y) ja maskin h(x, y) konvoluutioksi, joka lasketaan seuraavasti: f(x, y) h(x, y) = 1 MN M 1 N 1 m=0 n=0 f(m, n)h(x m, y n). (4.2-30) Tämä vastaa yhtälön mukaista suodattamista muutamin poikkeuksin: Konvoluutiossa mukana on kerroin 1/M N Summauksen rajat ovat erilaiset. h:n indekseissä on miinusmerkit plusmerkkien sijaan. Käytännössä tämä merkitsee, että maski h peilataan origon suhteen. Taajuustasossa suodattaminen perustuu konvoluutioteoreemaan: konvoluutiota paikkatasossa vastaa kertolasku taajuustasossa ja päin vastoin eli h(x, y) f(x, y) H(x, y)f(x, y) (4.2-31) h(x, y)f(x, y) H(x, y) F(x, y) (4.2-32) joissa G(x, y), H(x, y) ja F(x, y) ovat (diskreetit) Fourier-muunnokset (diskreeteistä) funktioista g(x, y), h(x, y) ja f(x, y). Ylläolevissa yhtälöissä kertolasku suoritetaan alkioittain ja -merkillä merkitään Fourier-muunnosparia, jossa merkin oikea puoli saadaan vasemman puolen Fourier-muunnoksena.

36 TASOITTAVAT SUODATTIMET TAAJUUSTASOSSA 33 Kuva 4.1 Suodatus taajuustasossa. Vasen: alkuperäinen kuva ja sen Fourier-muunnos. Keskellä: Ali- ja ylipäästösuodattimien siirtofunktiot. Oikea: tuloskuvat. Nyt suodatus taajuustasossa voidaan toteuttaa laskemalla suodatettavan kuvan diskreetti Fourier-muunnos, kertomalla se halutulla siirtofunktiolla H(u, v) ja laskemalla tulon käänteinen Fourier-muunnos. Taajuustasossa matalien taajuuksien (lähellä 0-taajuutta) voidaan ajatella vastaavan hitaita muutoksia alkuperäisessä kuvassa ja vastaavasti korkeiden taajuuksien vastaavan nopeita muutoksia kuten teräviä reunoja ja kohinaa. Tästä syystä korkeiden taajuuksien vähentäminen eli alipäästösuodatus sumentaa kuvaa ja vastaavasti korkeiden taajuuksien korostus eli ylipäästösuodatus korostaa yksityiskohtia ja terävöittää kuvaa. Kuvassa 4.1 on esimerkki alipäästö- ja ylipäästösuodatuksesta taajuustasossa. 4.2 TASOITTAVAT SUODATTIMET TAAJUUSTASOSSA Kuten edellä todettiin, korkeat taajuudet taajuustasossa vastaavat kuvan teräviä muutoksia kuten reunoja ja kohinaa. Näin ollen tasoittava vaikutus saadaan suodattimilla, jotka vaimentavat korkeita taajuuksia. Ideaalinen alipäästösuodatin päästää läpi kaikki rajataajuutta pienemmät taajuudet ja leikkaa pois kaikki sitä suuremmat taajuudet taajuustasossa eli sen siirtofunktio on { 1, kun D(u, v) D0 H(u, v) =, (4.3-2) 0, kun D(u, v) > D 0 jossad(u, v) on pisteen(u, v) euklidinen etäisyys origosta eli nollataajuudesta.d 0 :aa kutsutaan suodattimen rajataajuudeksi. Ideaalinen alipäästösuodatin aiheuttaa rengastumista eli nähtävissä olevia renkaita suodatettavan kuvan kirkkaiden pisteiden ympärille. Kuvassa 4.2 on erään ideaalisen alipäästösuodattimen siirtofunktio, impulssivaste ja impulssivasteen poikkileikkaus.

37 34 KUVAN KOROSTUS TAAJUUSTASOSSA 8 x Kuva 4.2 Ideaalinen alipäästösuodatin. Vasen: suodattimen siirtofunktio. Keskellä: Suodattimen impulssivaste. Oikea: Poikkileikkaus impulssivasteesta. H(u,v) n=1 n=4 n=2 D(u,v) Kuva 4.3 Butterworthin alipäästösuodattimen siirtofunktion arvo D(u, v):n funktiona eri asteluvun arvoilla. Impulssivaste saadaan siirtofunktiosta käänteisellä Fourier-muunnoksella, ja se on suodattimen vaste syötekuvaan, jossa on kirkas piste origossa ja muut osat kuvasta ovat nollia. Kuten kuvasta huomaa, kirkas piste on levinnyt (kuten tasoittavalta suodattimelta sopii odottaa), mutta lisäksi pisteen ympärille on muodostunut useita nähtävissä olevia renkaita. Butterworthin alipäästösuodattimen siirtofunktio on H(u, v) = 1, (4.3-6) 1 + (D(u, v)/d 0 ) 2n jossa jälleen D(u, v) on pisteen (u, v) euklidinen etäisyys origosta ja D 0 on suodattimen rajataajuus. Butterworthin suodattimen siirtofunktion arvo rajataajuudella on aina 0,5. Parametria n kutsutaan suodattimen asteluvuksi, ja se määrää, kuinka jyrkkä siirtymä suodattimen päästö- ja estoalueen välillä on. Kuvassa 4.3 on esitetty H(u, v) D(u, v):n funktiona eri asteluvun arvoilla. Butterworthin suodatin aiheuttaa vähemmän sumentumista kuin ideaalinen alipäästösuodatin samalla rajataajuudella koska se päästää läpi myös rajataajuutta suurempia taajuuksia kuten kuvasta 4.3 voi huomata. Toisaalta, riittävän pienellä asteluvulla Butterworthin suodatin ei aiheuta havaittavissa olevaa rengastumista. Astelu-

38 TERÄVÖITTÄVÄT SUODATTIMET TAAJUUSTASOSSA 35 vun 1 suodatin ei aiheuta rengastumista lainkaan ja yleensä myöskään asteluvun 2 suodattimien aiheuttamaa rengastumista ei käytännössä huomaa. Gaussin alipäästösuodattimen siirtofunktio on H(u, v) = e D2 (u,v)/2d 2 0. (4.3-7) Gaussin alipäästösuodattimen siirtofunktion arvo rajataajuudella on aina e 0.5 0, 607. Gaussin funktion käänteinen Fourier-muunnos on myös Gaussin funktio. Näin ollen Gaussin alipäästösuodatin ei aiheuta lainkaan rengastumista. 4.3 TERÄVÖITTÄVÄT SUODATTIMET TAAJUUSTASOSSA Reunat ja muut nopeat muutokset kuvassa liittyvät korkeisiin taajuuskomponentteihin. Tästä syystä terävöittävä vaikutus saadaan taajuustason ylipäästösuodattimella, joka vaimentaa matalia taajuuksia. Ylipäästösuodatuksen tavoite on käänteinen alipäästösuodatukseen nähden; tästä syystä tässä käsiteltävien ylipäästösuodattimien siirtofunktiot voidaan laskea vastaavasta alipäästösuodattimesta H lp (u, v) kaavalla Ideaalisen ylipäästösuodattimen siirtofunktio on H hp (u, v) = 1 H lp (u, v). (4.4-1) H(u, v) = { 0, kun D(u, v) D0 1, kun D(u, v) > D 0. (4.4-2) Ideaalinen ylipäästösuodatin aiheuttaa kuvaan yleensä voimakasta rengastumista ellei D 0 ole varsin suuri. Butterworthin ylipäästösuodattimen siirtofunktio on H(u, v) = 1. (4.4-3) 1 + (D 0 /D(u, v)) 2n Samoin kuin alipäästösuodattimilla, Butterworthin ylipäästösuodatin aiheuttaa vähemmän rengastumista kuin ideaalinen suodatin. Gaussin ylipäästösuodattimen siirtofunktio saadaan suoraan kaavasta 4.4-1: H(u, v) = 1 e D2 (u,v)/2d 2 0. (4.4-4) Gaussin ylipäästösuodattimia voidaan toteuttaa myös kahden Gaussin funktion erotuksena, jolloin suodattimessa on enemmän parametreja ja siirtofunktion tai impulssivasteen muotoon voi vaikuttaa enemmän. Useissa tapauksissa kuitenkin edellä esitetty suodatin tuottaa riittävän hyvän tuloksen. Kuvassa 4.4 on esitetty tyypillisten ideaalisen, Butterworthin ja Gaussin ylipäästösuodattimien impulssivasteet. Kuvasta huomaa, että erityisesti ideaalinen ylipäästösuodatin aiheuttaa voimakasta rengastumista.

39 36 KUVAN KOROSTUS TAAJUUSTASOSSA Kuva 4.4 Tyypillisten taajuustason ylipäästösuodattimien impulssivasteet ja impulssivasteiden poikkileikkaukset. Vasen: ideaalinen ylipäästösuodatin. Keskellä: Butterworthin ylipäästösuodatin. Oikea: Gaussin ylipäästösuodatin. Kappaleessa 3.7 käytettiin Laplacen operaattoria kuvan terävöittämiseen. Jatkuvan funktion tapauksessa voidaan osoittaa, että Laplacen operaattorin kaksiulotteinen Fourier-muunnos on F [ 2 f(x, y) ] [ 2 ] f(x, y) = F x f(x, y) y 2 = (u 2 + v 2 )F(u, v). (4.4-6) Näin ollen Laplacen operaattori voidaan toteuttaa taajuustasossa siirtofunktiolla H(u, v) = (u 2 + v 2 ). (4.4-8) Jos tälle suoritetaan käänteinen Fourier-muunnos, tuloksena saadaan osapuilleen maskin 3.7 mukainen impulssivaste. High-boost-suodatus Ylipäästösuodatettu kuva saadaan vähentämällä alipäästösuodatettu kuva alkuperäisestä: f hp (x, y) = f(x, y) f lp (x, y) (4.4-14) High-boost-suodatukseksi kutsutaan suodatusta, jossa terävöitetty, mutta myös matalia taajuuksia sisältävä kuva saadaan kertomalla alkuperäinen kuva vakiolla A 1 ennen vähentämistä: f hb (x, y) = Af(x, y) f lp (x, y). (4.4-15)

40 HOMOMORFINEN SUODATUS 37 Yhdistämällä kaksi edellistä yhtälöä voidaan high-boost-suodatettu kuva laskea myös ylipäästösuodatettua kuvaa käyttäen: Taajuustasossa saadaan f hb (x, y) = (A 1)f(x, y) + f hp (x, y). (4.4-16) F hb (u, v) = (A 1)F(u, v) + F hp (u, v), ja koska F hp (u, v) = H hp (u, v)f(u, v) saadaan high-boost-suodattimen taajuustason esitykseksi H hb = F hb(u, v) F(u, v) = (A 1) + H hp(u, v). (4.4-19) High-boost-suodatusta voidaan käyttää mm. ihmisen katsottavaksi tarkoitettujen kuvien terävöittämiseen. Pelkkä ylipäästösuodatus poistaa kuvasta nollataajuuden eli keskimääräisen harmaasävyn, eikä tuloskuva yleensä sellaisenaan sovi katseltavaksi. High-boost-suodatuksessa osa matalista taajuuksista säilytetään, joten tuloskuva on enemmän alkuperäisen kuvan näköinen, ja parametria A säätämällä terävöittävä vaikutus voidaan säätää sopivaksi. 4.4 HOMOMORFINEN SUODATUS Kameraan tuleva valo ja siten myös kuva f(x, y) voidaan yleensä ilmaista kahden komponentin tulona: valaistuskomponentin i(x, y) ja heijastuskomponentin r(x, y): Määritellään funktio (kuva) z(x, y): jonka Fourier-muunnos on f(x, y) = i(x, y)r(x, y) (4.5-1) z(x, y) = lnf(x, y) = lni(x, y) + lnr(x, y), (4.5-2) Z(u, v) = F i (u, v) + F r (u, v), (4.5-4) jossaf i jaf r ovatlni(x, y):n jalnr(x, y):n Fourier-muunnokset. NytZ(u, v):lle voidaan suorittaa suodatus taajuustasossa kertomalla sopivalla siirtofunktiolla H(u, v), jolloin saadaan suodatettu taajuustason esitys S(u, v): S(u, v) = H(u, v)z(u, v) = H(u, v)f i (u, v) + H(u, v)f r (u, v), (4.5-5) josta voidaan edelleen palata normaaliin taajuustason kuvaan käänteisillä operaatioilla (käänteinen Fourier-muunnos ja logaritmin käänteisfunktio eli eksponenttifunktio). Tämä menetelmä on eräs erikoistapaus homomorfisesta suodatuksesta. Se perustuu oletukselle, että kuvan valaistuskomponentti i(x, y) muuttuu hitaasti eli sisältää pääasiassa matalia taajuuksia kun taas kiinnostavampi heijastuskomponentti r(x, y)

41 38 KUVAN KOROSTUS TAAJUUSTASOSSA H(u,v) γ H γ L D(u,v) Kuva 4.5 Tyypillisten homomorfisen suodattimen siirtofunktio Kuva 4.6 Esimerkki homomorfisesta suodatuksesta sisältää enemmän korkeita taajuuksia. Jos suodatukseen käytetään kuvan 4.5 kaltaista siirtofunktiota ja valitaan γ L ja γ H siten että γ L < 1 ja γ H > 1, suodatin pyrkii vähentämään matalien taajuuksien (valaistuksen) vaikutusta ja lisäämään korkeiden taajuuksien (heijastuksen) vaikutusta. Tuloksena on dynaamisen alueen kompressointi ja kontrastin paraneminen. Esimerkki homomorfisesta suodatuksesta on kuvassa TOTEUTUS 2-ulotteisen Fourier-muunnoksen ominaisuuksia Translaatio. f(x x 0, y y 0 ) F(u, v)e j2π(ux0/m+vy0/n) (4.6-1) f(x, y)e j2π(u0x/m+v0y/n) F(u u 0, v v 0 ) (4.6-2) Erityisesti f(x, y)( 1) x+y F(u M/2, v N/2), (4.6-3) mitä voidaan käyttää origon siirtämiseen Fourier-muunnetun kuvan keskelle.

42 TOTEUTUS 39 Distributiivisuus ja skaalaus. Fourier-muunnos on lineaarinen operaatio: Lisäksi on voimassa F [af 1 (x, y) + bf 2 (x, y)] = af [f 1 (x, y)] + bf [f 2 (x, y)]. Rotaatio. Käytetään napakoordinaatteja f(ax, by) 1 F(u/a, v/b). (4.6-8) ab x = r cosθ, y = r sin θ, u = ω cosφ, v = ω sin φ, jolloin θ 0 :n suuruiselle kierrolle on voimassa f(r cosθ + θ 0, r sin θ + θ 0 ) F(ω cosφ + θ 0, ω sinφ + θ 0 ) (4.6-9) eli f(x, y):n kiertäminen origon ympäri kiertää F(u, v):tä saman verran. Jaksollisuus ja konjugaattisymmetrisyys. Diskreetti Fourier-muunnos on jaksollinen: F(u, v) = F(u + M, v) = F(u, v + N) = F(u + M, v + N). (4.6-10) Myös käänteinen muunnos on jaksollinen: f(x, y) = f(x + M, y) = f(x, y + N) = f(x + M, y + N) (4.6-11) Lisäksi, kuten edellä jo mainittiin, reaalisen f(x, y):n Fourier-muunnos on konjugaattisymmetrinen: F(u, v) = F ( u, v). (4.6-12) Separoituvuus. Lähtien yhtälöstä voidaan Fourier-muunnos kirjoittaa muotoon jossa F(u, v) = 1 MN = 1 M = 1 M M 1 x=0 M 1 x=0 M 1 x=0 F(x, v) = 1 N N 1 y=0 e j2πux/m 1 N f(x, y)e j2π(ux/m+vy/n) N 1 y=0 f(x, y)e j2πvy/n F(x, v)e j2πux/m, (4.6-14) N 1 y=0 f(x, y)e j2πvy/n. (4.6-15) Tämä tarkoittaa, että 2-ulotteinen Fourier-muunnos voidaan jakaa kahteen yksiulotteiseen muunnokseen: ensin tehdään 1-ulotteinen muunnos jokaiselle sarakkeelle ja sen jälkeen jokaiselle riville.

43 40 KUVAN KOROSTUS TAAJUUSTASOSSA Käänteinen Fourier-muunnos. Fourier-muunnokselle voidaan osoittaa seuraava ominaisuus: 1 MN M 1 x=0 N 1 y=0 F (u, v)e j2π(ux/m+vy/n) = 1 MN f (x, y). (4.6-19) Tämä tarkoittaa, että normaalin (ei käänteisen) Fourier-muunnoksen suorittavaa ohjelmistoa tai laitteistoa voi käyttää myös käänteiseen muunnokseen: taajuustason esityksestä otetaan kompleksikonjugaatti ja tälle tehdään normaali Fourier-muunnos. Tulos kerrotaan M N:llä ja siitä otetaan kompleksikonjugaatti, jolloin päästään paikkatason esitykseen. Jaksollisuus ja päällekkäistyminen Fourier-muunnoksen määritelmään sisältyy oletus muunnettavan kuvan jaksollisuudesta jaksolla (M, N). Useimmissa tapauksissa tämä oletus ei pidä paikkaansa. Kun konvoluutio paikkatasossa korvataan kertolaskulla taajuustasossa, jaksollisuusolettamasta seuraa virheellistä päällekkäistymistä. Olkoon alkuperäisen kuvan ja maskin koot A B ja C D. Jotta virheellistä päällekäistymistä ei tapahtuisi, pitää molemmat täydentää nollilla kokoon P Q, jossa P A + C 1 (4.6-23) ja Q B + D 1. (4.6-24) Kertolaskun ja Fourier-käänteismuunnoksen jälkeen tuloskuvan koko on P Q. Useimmissa tapauksissa tuloskuva voidaan leikata kokoon A B koska tämän ulkopuolella ei ole mielenkiintoista informaatiota. Nopea Fourier-muunnos Yksiulotteisen diskreetin Fourier-muunnoksen suorittaminen N:n näytteen sekvenssille vaatiio(n 2 ) laskentaoperaatiota. Niin kutsutulla nopealla Fourier-muunnoksella muunnos voidaan tehdä O(N log 2 N):llä operaatiolla. Esimerkiksi kokoisen kuvan diskreetti Fourier-muunnos vaatii 6, operaatiota jos käytetään suoraan kaavaa Fourier-muunnoksen separoituvuutta hyödyntämällä operaatioiden määrä laskee 2, :aan ja edelleen nopeaa Fourier-muunnosta käyttämällä 4, :een. Laskentaoperaatioiden määrä laskee siis alle kymmenestuhannesosaan alkuperäisestä! Nopean Fourier-muunnoksen yksityiskohtia ei käsitellä tässä kurssissa. Muunnos käsitellään Digitaaliset suodattimet -kurssissa.

44 5 Kuvan entistäminen Kuten kuvan korostamisessakin, kuvan entistämisessä tavoitteena on kuvan laadun parantaminen. Ero kuvan korostamisen ja entistämisen välillä on, että korostaminen on ennen kaikkea subjektiivista kun taas entistämisen tavoitteena on parantaa kuvaa jollain objektiivisella kriteetillä mitattuna. Kuvan korostamisessa tavoitteena on saada kuva näyttämään hyvältä tai käyttötarkoitukseensa sopivalta. Kuvan entistämisessä lähtökohtana on, että kuvaan on tullut häiriötä esimerkiksi kohinan tai kameran linssin taittovirheen takia, ja tämä häiriö pyritään poistamaan käyttämällä hyväksi häiriön matemaattista mallia. 5.1 HÄIRIÖMALLI Olkoon alkuperäinen häiriötön kuva f(x, y). Oletetaan, että häiriöinen kuva g(x, y) saadaan alkuperäistä kuvasta häiriöfunktion H ja kohinan η(x, y) lisäämisen seurauksena: g(x, y) = H [f(x, y)] + η(x, y). Kuvan entistämisen tavoitteena on estimaatti ˆf(x, y), joka on mahdollisimman lähellä alkuperäistä kuvaa f(x, y). Yleisesti ottaen mitä paremmin H ja η(x, y):n ominaisuudet tunnetaan, sitä parempi entistämistulos on. Jos häiriöfunktio H on lineaarinen eli H [af + bg] = ah [f] + bh [g]. ja paikkariippumaton eli kun g(x, y) = H [f(x, y)] niin H [f(x α, y β)] = g(x α, y β), 41

45 42 KUVAN ENTISTÄMINEN niin häiriömalli voidaan esittää paikkatasossa muodossa g(x, y) = h(x, y) f(x, y) + η(x, y) (5.1-1) ja taajuustasossa muodossa G(u, v) = H(u, v)f(u, v) + N(u, v), (5.1-2) joissa h(x, y) ja H(u, v) ovat häiriöfunktion impulssivaste ja siirtofunktio. 5.2 KOHINAMALLI Kuvassa esiintyvä kohinaa voidaan mallintaa kaksiulotteisella satunnaisprosessilla. Niiden teoriaan ei perehdytä tässä kurssissa. Myöhemmin käsiteltävää jaksollista kohinaa lukuunottamatta jatkossa kohinan odotetaan olevan koordinaateista riippumatonta, valkoista eli itsensä kanssa korreloivaa ainoastaan siirtymällä (0, 0) ja kuvasta f(x, y) riippumatonta Usein kohina oletetaan normaalijakautuneeksi eli z = η(x, y) noudattaa jakaumaa p(z) = 1 2πσ e (z µ)2 /2σ 2, (5.2-1) jossa µ on kohinan keskiarvo ja σ 2 sen varianssi. Muita jakaumia, joilla kohinaa voi mallintaa, ovat mm. Rayleigh-, Gamma-, eksponentti- ja tasajakauma. Impulssikohinaksi kutsutaan kohinaa, joka tuottaa kuvaan satunnaisesti saturoituneita kirkkaita ja vaaleita (eli maksimi- ja minimiarvoisia) pikseleitä. Kohinan parametrien estimointi Kuten edellä mainittiin, tulos kuvan entistämisessä on sitä parempi, mitä paremmin η(x, y):n ominaisuudet tunnetaan. Käytännössä kohinan jakaumaa ei useimmissa tapauksissa tiedetä etukäteen (joskin joissain tapauksissa esim. kuvantamisessa käytettävien sensorien kohinamalli löytyy sensorin spesifikaatioista), vaan malli joudutaan estimoimaan. Kuvantamisjärjestelmän kohinamallin estimoinnissa voi käyttää apuna esimerkiksi järjestelmällä otettua kuvaa tasaisesti valaistusta harmaasta levystä. Tällaisesta kuvasta lasketusta histogrammista p(z i ) saadaan estimaatit keskiarvosta ja varianssista kaavoilla µ = z i p(z i ) (5.2-15) i ja σ 2 = i (z i µ) 2 p(z i ) (5.2-16)

46 KOHINAISEN KUVAN ENTISTÄMINEN 43 Mikäli kohina on normaalijakautunutta (minkä voi selvittää tilastollista testausta käyttäen), edellämainitut parametrit riittävät todennäköisyysjakauman muodostamiseen. Monimutkaisempien jakaumien parametrien estimointia käsitellään Tilastollinen signaalinkäsittely -kurssissa. 5.3 KOHINAISEN KUVAN ENTISTÄMINEN Tässä kappaleessa käsitellään kuvan entistämistä tilanteessa, jossa ainoa häiriö on additiivinen kohina. Tällöin häiriömalli (kaava 5.1-1) pelkistyy muotoon ja taajuustasossa g(x, y) = f(x, y) + η(x, y) (5.3-1) G(u, v) = F(u, v) + N(U, V ). (5.3-2) Koska kohina on satunnaisprosessin tulos, sitä ei voida vähentää kuvasta suoraan vaan entistämiseen käytetään erilaisia suodattimia. Mahdollisia suodatustapoja ovat mm. keskiarvosuodattimet, järjestysstatistiikkaan perustuvat suodattimet sekä adaptiiviset suodattimet. Keskiarvosuodatuksessa pikselin arvo korvataan sen naapurustosta lasketulla keskiarvolla. Aritmeettisen keskiarvon tapauksessa suodatus voidaan toteuttaan m n- kokoisella maskilla, jonka kaikki arvot ovat 1/mn, siis esimerkiksi 3 3-maskilla w = Myös geometrista, harmonista tai kontraharmonista keskiarvoa voidaan käyttää kuvan entistykseen. Nämä kolme ovat epälineaarisia suodattimia. Sopivin suodatustapa riippuu kohinan jakaumasta: normaali- tai tasajakautuneelle kohinalle aritmeettinen tai geometrinen suodatus antaa yleensä parhaan tuloksen. Järjestysstatistiikkaan perustuvia suodattimia esiteltiin kappaleessa 3.6. Niissä suodattimen vaste tietyssä pisteessä perustuu pisteen naapuruston harmaasävyjen suuruusjärjestykseen. Kappaleessa 3.6 esitelty mediaanisuodatin soveltuu erityisen hyvin impulssikohinan poistamiseen kuvasta. Muita järjestysstatistiikkaan perustuvia suodattimia ovat keskipistesuodatin ˆf(x, y) = 1 [ ] max {g(s, t)} + min {g(s, t)}, (5.3-10) 2 (s,t) S xy (s,t) S xy joka yhdistää aiemmin esitellyt minimi- ja maksimisuodattimen sekä keskiarvon laskemisen, sekä alfa-säädetty keskiarvo jossa m n-kokoisesta naapurustosta jätetään huomioimatta suurimmat d/2 ja pienimmät d/2 harmaasävyä ja lasketaan keskiarvo jäljellejääneistä mn d arvosta. Alfa-säädetty keskiarvo on aritmeettisen keskiarvon ja mediaanisuodattimen yleistys: jos valitaan d = 0, kyseessä on aritmeettinen keskiarvosuodatin ja jos valitaan d = mn 1, kyseessä on mediaanisuodatin. Kun

47 44 KUVAN ENTISTÄMINEN d valitaan näiden arvojen väliltä, saadaan suodatin joka on käyttökelpoinen erityisesti silloin kun kuvassa on useantyyppistä kohinaa, esimerkiksi sekä impulssi- että normaalijakautunutta kohinaa. Kohinaa poistavat adaptiiviset suodattimet pyrkivät hyödyntämään sitä oletusta, että alkuperäisen kuvan eri alueet ovat olemukseltaan erilaisia. Adaptiivisten suodattimien toiminta kuvan eri alueilla muuttuu riippuen kuvan paikallisista tilastollisista ominaisuuksista. Niillä voidaan saavuttaa huomattavasti parempi suorituskyky kuin edellä esitetyillä suodattimilla, mutta toisaalta ne ovat laskennallisesti merkittävästi raskaampia. Paikallinen kohinaa poistava keskiarvosuodatin määritellään kaavalla ˆf(x, y) = g(x, y) σ2 η σl 2 [g(x, y) m L ], (5.3-12) missä ση 2 on estimaatti kuvaan summautuneen kohinan varianssista ja m L ja σl 2 ovat pikselin (x, y) naapuruston harmaasävyjen keskiarvo ja varianssi. Suodatin toimii siten, että kun paikallinen varianssi on suuri kohinan varianssiin verrattuna, suodatin palauttaa arvon, joka on lähellä pikselin alkuperäistä arvoa, koska tällaisessa tilanteessa pikselin kohdalla on usein reuna tai muu paikallinen epäjatkuvuus, jota ei haluta sumentaa. Kun taas paikallinen varianssi on samaa suuruusluokkaa kohinan varianssin kanssa, kyseessä on luultavasti tasainen alue, jota voidaan suodattaa voimakkaasti, joten suodatin palauttaa arvon, joka on lähellä naapuruston keskiarvoa. Negatiivisten paluuarvojen välttämiseksi ση/σ 2 L 2 kannattaa yleensä korvata arvolla 1, mikäli ση 2 > σ2 L. Adaptiivinen mediaanisuodatin käyttää erikokoista naapurustoa kuvan eri kohdissa. Jokaisen pikselin (x, y) kohdalla suodatin aloittaa naapurustolla (ikkunalla) S min. Olkoon pikselin (x, y) harmaasävy z xy ja naapuruston minimi-, mediaani- ja maksimiharmaasävyt z min, z med ja z max. Lisäksi suurinta sallittua ikkunan kokoa merkitään S max :lla. Nyt algoritmi toimii seuraavasti: Taso A: Jos (z med > z min ) JA (z med < z max), siirry tasolle B Muuten kasvata ikkunan kokoa Jos ikkunan koko S max, toista taso A Muuten palauta z xy. Taso B: Jos (z xy > z min ) JA (z xy < z max), palauta z xy Muuten palauta z med. Algoritmi käyttää arvoja z min ja z max arvioina paikallisista negatiivista ja positiivisista impulsseista. Algoritmi suurentaa ikkunaa kunnes ikkunan mediaani ei ole positiivinen tai negatiivinen impulssi (tai kunnes ikkunan maksimikoko saavutetaan). Tämän jälkeen algoritmi palauttaa pikselin alkuperäisen arvon, mikäli se ei ole impulssiarvo, tai muussa tapauksessa ikkunan mediaaniarvon. Tällä menettelyllä päästään yleensä yhtä aikaa parempaan impulssi- ja muunlaisen kohinan vähenemiseen ja vähäisempään kuvan vääristymiseen kuin staattisella mediaanisuodatuksella. Adaptiivisesta mediaanisuodatuksesta on esimerkki kuvassa 5.1. Kaikissa kolmessa kohdassa lasketaan suodattimen vaste keskipisteessä. Oletetaan että aloitusikkunan koko on 3 3 ja ikkunan maksimikoko 5 5.

48 HÄIRIÖOPERAATTORIN ESTIMOINTI (a) (b) (c) Kuva 5.1 Esimerkki adaptiivisesta mediaanisuodatuksesta. Kohdassa (a) ikkunan koolla 3 3 saadaan z min = 1, z med = 4 ja z max = 9. Koska z min < z med < z max, algoritmi siirtyy tasolle B. Nyt z xy = 2 ja z min < z xy < z max joten algoritmi palauttaa arvon z xy = 2. Kohdassa (b) aloitusikkunassa z med = z min = 0, joten algoritmi kasvattaa ikkunan kokoa. 5 5-ikkunassa z min = 0, z med = 2 ja z max = 7, joten siirrytään tasolle B. Keskipisteen arvo z xy = z min = 0 joten algoritmi palauttaa arvon z med = 2. Kohdassa (c) aloitusikkunassa z med = z max = 9, joten algoritmi kasvattaa ikkunan kokoa. Myös 5 5-ikkunassa z med = z max = 9. Koska ikkunan maksimikoko on saavutettu, algoritmi palauttaa arvon z med = HÄIRIÖOPERAATTORIN ESTIMOINTI Jatkossa häiriöoperaattorin H oletetaan olevan lineaarinen ja paikkariippumaton. Tällöin impulssivaste eli pisteenleviämisfunktio määrää häiriöoperaattorin yksikäsitteisesti. Yleensä kuitenkaan kuvaa vääristäneen häiriöoperaattorin impulssivastetta ei tunneta. Sen estimointiin esitetään tässä kolme keinoa: estimointi havainnoista, kokeilemalla tai matemaattisesta mallista. Jos häiriöoperaattorita estimoidaan havainnoista, häiriöllisestä kuvasta otetaan voimakkaan signaalin alueelta osa g s (x, y). Samasta alueesta tehdään estimaatti häiriöttömästä kuvasta ˆf s (x, y). Kun kohina oletetaan pieneksi, häiriöoperaattorin siirofunktio saataan kaavasta H s (u, v) = G s(u, v) ˆF s (u, v). (5.6-1) Toinen vaihtoehto häiriöoperaattorin estimointiin on estimointi kokeilemalla. Tällöin kuvantamisjärjestelmällä pyritään kuvantamaan yksikköimpulssifunktio eli mahdollisimman kirkas piste mustalla taustalla. Jos jälleen kohina oletetaan pieneksi, järjestelmän vasteena saadaan suoraan pisteenleviämisfunktio. Häiriöoperaattorin siirtofunktio on nyt G(u, v) H(u, v) = A, (5.6-2)

49 46 KUVAN ENTISTÄMINEN jossa G(u, v) on järjestelmän vasteen Fourier-muunnos ja A on pisteen kirkkautta kuvaava vakio. Joissain tilanteissa kuvaan tullutta häiriötä voidaan kuvata matemaattisella mallilla. Esimerkiksi kaukokartoituksessa ilmakehän turbulenssin aiheuttamaa häiriötä voidaan mallintaa siirtofunktiolla H(u, v) = e k(u2 +v 2 ) 5/6. (5.6-3) Samoin esim. kameran tärähtämisen aiheuttama häiriö voidaan mallintaa matemaattisesti ja saatua mallia käyttää kuvan entistämiseen. 5.5 KÄÄNTEISSUODATUS Kun häiriöoperaattorista H on olemassa estimaatti, yksinkertaisin tapa häiriönpoistoon on käänteissuodatus, jossa estimaatti ˆF(u, v) saadaan jakamalla häiriöllinen kuva H(u, v):lla: G(u, v) ˆF(u, v) = H(u, v). (5.7-1) Kun G(u, v):n paikalle sijoitetaan yhtälön oikea puoli, saadaan ˆF(u, v) = F(u, v) + N(u, v) H(u, v) (5.7-2) eli vaikka H tunnettaisiin täydellisesti, alkuperäistä kuvaa ei pystytä palauttamaan koska kuvassa oleva kohina on satunnaisprosessin tulos, eikä N(u, v):ta siksi tunneta. Lisäksi jos H(u, v):ssa on hyvin pieniä arvoja, em. summan jälkimmäinen termi voi dominoida entistyksen tuloksessa, jolloin lopputulos on usein varsin huono. Koska yleensä H(u, v) vaimenee etäisyyden kasvaessa origosta, ongelmaa voi kiertää suorittamalla käänteissuodatus taajuustasossa vain pienellä alueella origon ympärillä. Kuvassa 5.2 on esimerkki kohinaisen kuvan käänteissuodatuksesta, jossa käänteissuodatus on suoritettu koko taajuustasossa sekä erikokoisissa alueissa origon ympärillä. 5.6 WIENER-SUODATUS Edellä käsitelty käänteissuodatus ei ota huomioon kuvassa olevaa kohinaa. Seuraavassa esitellään Wiener-suodatin, joka ottaa kohinan huomioon ja minimoi keskineliövirheen e 2 = E {(f ˆf) } 2. Wiener-suodatin voidaan esittää taajuustasossa muodossa [ ] 1 H(u, v) ˆF(u, 2 v) = H(u, v) H(u, v) 2 G(u, v), (5.8-2) + S η (u, v)/s f (u, v)

50 PAKOTETTU PIENIMMÄN NELIÖVIRHEEN ENTISTYS 47 Kuva 5.2 Esimerkki kohinaisen kuvan käänteissuodatuksen tuloksista. Vasemmalta ylhäältä: käänteissuodatus koko taajuustasossa, käänteissuodatus origon ympärillä arvoilla r < 40, r < 70 ja r < 85. jossa S η (u, v) ja S f (u, v) ovat kohinan ja alkuperäisen kuvan tehotiheysspektrit. Koska näitä ei usein tunneta, suhde S η (u, v)/s f (u, v) voidaan korvata vakiolla K, jolloin suodatin ei luonnolisesti ole enää optimaalinen keskineliövirheen suhteen, mutta tuottaa silti hyväksyttäviä tuloksia. Kuvassa 5.3 on esimerkki Wiener-suodatuksesta. Kuvassa riveillä ylhäältä alaspäin entistettävään kuvaan lisätyn kohinan määrä vähenee. Sarakkeet vasemmalta oikealle ovat entistettävä kuva, käänteissuodatuksella saatu tulos ja Wiener-suodatuksella saatu tulos. Wiener-suodattimen parametri K on valittu silmämääräisesti siten että tulos on paras mahdollinen. 5.7 PAKOTETTU PIENIMMÄN NELIÖVIRHEEN ENTISTYS Wiener-suodatin optimoi keskineliövirheen eli suodatetun ja häiriöttömän kuvan välisen erotuksen neliön odotusarvon. Toinen vaihtoehto on käyttää pakotettua pienimmän neliövirheen entistystä, joka on optimaalinen annetulle kuvalle kun optimointikriteerinä on kuvan tasaisuus. Menetelmän etu on, että kohinan ja kuvan tehotiheysspektrejä ei tarvitse tuntea. Menetelmä on esitetty kurssikirjassa, mutta sen yksityiskohtia ei käsitellä tässä kurssissa tarkemmin.

51 48 KUVAN ENTISTÄMINEN Kuva 5.3 Esimerkki Wiener-suodatuksesta.

52 GEOMETRISET MUUNNOKSET GEOMETRISET MUUNNOKSET Tässä kappaleessa käsitellään kuvan geometrisia muunnoksia. Ne eroavat aikaisemmin käsitellyistä vääristymistä siten, että aiemmin käsitellyt vääristymät vaikuttavat kuvan harmaasävyihin, kun taas geometriset vääristymät vaikuttavat kuvapikseleiden koordinaatteihin. Spatiaaliset muunnokset Oletetaan että alkuperäisen kuvan koordinaatit (x, y) vääristyvät siten että tuloksena on kuva, jonka koordinaatit (x, y ) voidaan esittää seuraavasti: ja x = r(x, y) (5.11-1) y = s(x, y). (5.11-2) Esimerkiksi jos r(x, y) = x/2 ja s(x, y) = y/2, kyseessä on vääristymä joka pienentää kuvan puoleen x- ja y-suunnassa. Vääristymät voivat olla paljon monimutkaisempia ja epälineaarisia, eikä funktioita r(x, y) ja s(x, y) yleensä voida esittää tällä tavoin analyyttisesti. Usein käytetään kuvasta valittuja kiintopisteitä, joiden koordinaatit alkuperäisessä ja vääristyneessä kuvassa tunnetaan, ja kiintopisteiden välisten pisteiden koordinaatit interpoloidaan. Usein käytetty vaihtoehto on valita kiintopisteitä siten, että ne muodostavat nelikulmion muotoisia alueita alkuperäisessä ja vääristyneessä kuvassa. Alueiden sisällä kordinaattien vääristymää kuvataan yhtälöillä ja x = c 1 x + c 2 y + c 3 xy + c 4 (5.11-5) y = c 5 x + c 6 y + c 7 xy + c 8. (5.11-6) Koska nelikulmion kulmapisteiden toisiaan vastaavat(x, y)- ja(x, y )-koordinaattiparit tunnetaan, edellä olevien yhtälöiden kahdeksan tuntematonta kerrointa voidaan ratkaista. Harmaasävyjen interpolointi Edellä esitetyt yhtälöt tuottavat yleensä x :lle ja y :lle arvoja, jotka eivät ole kokonaislukuja. Koska digitaalinen kuva on määritelty vain kokonaislukukoordinaatteja vastaavissa pisteissä, kuvan arvot reaalilukukoordinaateissa joudutaan interpoloimaan. Nollannen kertaluvun eli lähimmän naapurin interpolointi on yksinkertaisin vaihtoehto: nimensä mukaisesti siinä koordinaatit pyöristetään lähimpään kokonaislukupikseliin. Se on laskennallisesti kevyt mutta voi tuottaa vääristymiä kuvaan. Visuaalisesti miellyttävämpään tulokseen päästään bilineaarisella interpolaatiolla jossa pikselin arvo interpoloidaan neljästä lähimmästä naapurista. Bilineaarisessa

53 50 KUVAN ENTISTÄMINEN interpolaatiossa harmaasävy reaalilukukoordinaateissa saadaan kaavasta v(x, y ) = ax + by + cx y + d, (5.11-7) jonka kertoimet a, b, c ja d voidaan ratkaista neljän lähimmän kokonaislukupikselin koordinaateista ja harmaasävyistä.

54 6 Värikuvien käsittely 6.1 PERUSTEITA Kuten kappaleessa 2.2 todettiin, näkyvän valon aallonpituus on välillä 0, 43µm 0, 79µm. Se, minkä värisenä ihminen jonkin kohteen havaitsee, riippuu siitä, mitä aallonpituuksia ja missä suhteessa kohteesta heijastuu. Akromaattiseksi eli värittömäksi kutsutaan valoa, jossa on kaikkia aallonpituuksia osapuilleen samassa suhteessa. Akromaattisen valon ainoa attribuutti on sen voimakkuus eli intensiteetti. Kuvankäsittelyssä pikselin harmaasävy kuvaa kuvaustasolle ko. pisteeseen tulevan valon intensiteettiä. Kromaattinen eli värillinen valo sisältää joko vain yhtä aallonpituutta tai eri aallonpituuksia erilaisissa suhteissa. Ihmissilmässä on kolmenlaisia tappisoluja, joista kutkin ovat herkkiä tietylle aallonpituusalueelle. Silmän 6 7 miljoonasta tappisolusta noin 65 % on herkkiä punaiselle valolle, 33 % vihreälle ja 2 % siniselle valolle. Erilaiset ihmisen havaitsemat värisävyt syntyvät näiden yhdistelmästä. Kuvassa 6.1 on esitetty, kuinka tappisolut absorboivat erilaisia aallonpituuksia. Ihmissilmän fysiologiasta johtuen suuri osa ihmissilmän havaitsemista erilaisita värisävyistä voidaan esittää punaisen, sinisen ja vihreän valon yhdistelmänä. Näitä kutsutaan pääväreiksi ja niiden aallonpituudet on määritelty CIE:n standardissa seuraavasti: sininen= 435,8 nm, vihreä=546,1 nm ja punainen=700 nm. Nämä aallonpituudet eivät vastaa käyrien huippuja kuvassa 6.1 sillä huippujen tarkat aallonpituudet eivät olleet tiedossa vuonna 1931 kun standardi määriteltiin. Valon sekundäärivärit saadaan päävärejä yhdistämällä: punainen + sininen = magenta 51

55 52 VÄRIKUVIEN KÄSITTELY Kuva 6.1 Valon absorboituminen punaisiin, vihreisiin ja sinisiin tappisoluihin aallonpituuden funktiona. vihreä + sininen = syaani punainen + vihreä = keltainen Valon päävärit ovat väripigmenttien eli esim. painotekniikassa käytettävien värien sekundäärivärejä ja päin vastoin. Asiaa käsitellään tarkemmin CMY-värijärjestelmää käsittelevässä kappaleessa. Ihmiselle ehkä luontaisin tapa kuvata väriä on käyttää seuraavia kolmea suuretta: 1. Kirkkaus (brightness) 2. Värikkyys (hue) vastaa värin dominoivaa aallonpituutta 3. Värikylläisyys (saturation) tarkoittaa värin puhtautta eli sitä, kuinka paljon valkoista valoa dominoivaan aallonpituuteen on sekoittunut. Värikkyys ja värikylläisyys muodostavat yhdessä värin kromaattisuuden. Ne punaisen, vihreän ja sinisen määrät, jotka tarvitaan tietyn värin tuottamiseen, muodostavat tristimulusarvot X, Y ja Z. Normalisoituja tristimulusarvoja kutsutaan tristimuluskertoimiksi x, y ja z: X x = X + Y + Z, (6.1-1) Y y = (6.1-2) X + Y + Z ja Z z = (6.1-3) X + Y + Z Eri puhtaita aallonpituuksia vastaavat tristimuluskertoimet on määritetty kokeeellisesti ja taulukoitu.

56 VÄRIMALLIT 53 B (0,0,1) sininen (0,1,1) syaani (1,0,1) magenta (1,1,1) valkoinen (0,0,0) musta (0,1,0) G vihreä R (1,0,0) punainen (1,1,0) keltainen Kuva 6.2 RGB-värikuutio. 6.2 VÄRIMALLIT Värimallin tavoitteena on värin määrittely standardoidulla tavalla. Tässä kurssissa käsitellään RGB-, CMY(K)- ja HSI-värimallit. RGB-värimalli RGB-värimallissa väri esitetään punaisen, vihreän ja sinisen komponentin avulla. Kukin voi saada arvoja nollasta yhteen. RGB-väri avaruus voidaan esittää kuution avulla (ks. kuva 6.2): origo eli piste (0, 0, 0) vastaa mustaa, piste (1, 0, 0) punaista väriä, piste (1, 1, 1) valkoista jne. RGB-värimalli soveltuu käytettäväksi laiterajapinnassa esimerkiksi digitaaliset värikamerat ja monitorit käyttävät yleensä RGB-värimallia. Kuvankäsittelyyn RGBmalli ei aina sovi hyvin, koska siinä kanavien välinen korrelaatio on suuri ja toisaalta kukin kanava sisältää sekä intensiteetti- että kromaattisuusinformaatiota. CMY(K)-värimalli CMY-värit saadaan RGB-väreistä yksinkertaisesti vähennyslaskulla: C M Y = R G B (6.2-1)

57 54 VÄRIKUVIEN KÄSITTELY valkoinen I syaani vihreä S H keltainen punainen sininen magenta musta Kuva 6.3 HSI-värimalli voidaan esittää tasakylkisen kolmion pyörähdyskappaleena (vasen kuva). Kappaleen kärjet edustava mustaa ja valkoista väriä ja lävistäjällä ovat muut harmaasävyt. Kunkin värin pystysuora etäisyys mustasta on sen intensitetti I. Kun tarkastellaan kappaleen poikkileikkausta (oikea kuva), puhtaat eli yhtä aallonpituutta vastaavat värit ovat poikkileikkauksen ulkokehällä. Värikkyys (H) eli dominoiva aallonpituus voidaan ymmärtää kiertokulmana. Värikylläisyys (S) taas vastaa värin etäisyyttä lävistäjästä. CMY-värejä käytetään painotekniikassa. Valkoinen pinta heijastaa kaikkia aallonpituuksia. Esimerkiksi syaani pigmentti absorboi punaisen aallonpituuden eli kun pinnalle painetaan syaania pigmenttiä, se heijastaa kaikkia muita paitsi punaista väriä. Magenta pigmentti puolestaan absorboi vihreän aallonpituuden, joten jos pinnalle painetaan syaania ja magentaa pigmenttiä, se heijastaa enää sinistä aallonpituutta. Todellisuudessa värit voivat koostua vapaasti eri aallonpituuksista, eivätkä pelkästään kolmesta pääväristä, joten edellisen kappaleen esitys on hieman yksinkertaistettu. Kuitenkin perusperiaatteena RGB-mallissa on värien lisääminen ja CMY-mallissa värien vähentäminen. Teoriassa yhdistämällä kaikkia kolmea pigmenttien pääväriä samassa suhteessa saadaan musta väri. Käytännössä tämä ei tuota hyvää tulosta, ja lisäksi värilliset musteet ovat mustaa kalliimpia, joten painotekniikassa käytetään lisäksi neljättä väriä, mustaa. Neliväripainamisessa käytetyt värit ovat siis syaani, magenta, keltainen ja musta. HSI-värimalli HSI-värimallissa väri esitetään värikkyyden (H), värikylläisyyden (S) ja intensiteetin (I) avulla. Koska HSI-mallissa värin intensiteettitieto on erotettu kromaattisuustiedosta, se soveltuu hyvin kuvankäsittelyyn. HSI-mallin geometrinen esitys on kuvassa 6.3. Muunnos HSI- ja RGB-mallien välillä on esitetty kurssikirjassa. Se on epälineaarinen ja melko monimutkainen, eikä sitä käsitellä tässä kurssissa tarkemmin.

58 VALEVÄRIKUVIEN KÄSITTELY 55 HSI-mallin käyttöön kuva-analyysissä on suhtauduttava varauksella silloin, kun valaistus on hyvin heikko tai hyvin voimakas, koska näillä äärialueilla värikkyys ja värikylläisyys ovat epästabiileja. 6.3 VALEVÄRIKUVIEN KÄSITTELY Valevärikuvilla tarkoitetaan kuvia, jotka on tuotettu harmaasävykuvista erilaisilla muunnoksilla. Valevärikuvien pääasiallinen käyttötarkoitus on harmaasävykuvien näyttäminen ihmiselle sellaisessa muodossa, että halutut yksityiskohdat ovat paremmin erotettavissa: ihminen kykenee erottamaan toisistaan tuhansia eri värejä, mutta vain muutamia kymmeniä harmaasävyjä. Intensiteetin viipalointia harmaasävykuvien tuottamiseksi käsiteltiin kappaleessa 3.2. Vastaavalla tavalla voidaan tuottaa myös valevärikuvia. Harmaasävyalue[0, L 1] jaetaan P + 1:een osaan V 1, V 2,..., V P+1. Jokaiselle osalle V k määrätään väri c k, jolloin muunnettu kuva saadaan seuraavasti: g(x, y) = c k, jos f(x, y) V k. (6.3-1) Toinen mahdollisuus valevärikuvan luomiseen on suorittaa harmaasävykuvalle rinnakkain kolme erilaista harmaasävymuunnosta, joista yhden tulos ohjataan värikuvan R-kanavaan, toisen tulos G-kanavaan ja kolmannen B-kanavaan. Tämä menetelmä on tuttu lentokentillä käytetyistä läpivalaisulaitteista. 6.4 VÄRIKUVIEN PROSESSOINTI PAIKKATASOSSA Perusoperaatiot värikuvien käsittelyssä ovat pitkälti samankaltaisia kuin harmaasävykuvien käsittelyssä. Molemmissa tapauksissa prosessoinnin lähtökohtana on, että pikselin arvo lähtökuvassa määräytyy syötekuvassa pikselin ympärillä olevan naapuruston arvojen perusteella. Käsittely aloitetaan kuvan vasemmasta yläkulmasta ja jokaisen pikselin käsittelyn jälkeen naapurustoa siirretään eteenpäin. Ratkaiseva ero väri- ja harmaasävykuvien käsittelyssä on, että harmaasävykuvissa pikselin arvo on skalaari kun taas värikuvissa pikselin arvo on vektori. Värimuunnokset Oletetaan, että pikselin (x, y) väri r esitetään n:n komponentin avulla: r 1 r 2 r =. missä lähes aina käytännön sovelluksissa n = 3 (tai CMYK-kuvilla 4). Samoin kuin harmaasävymuunnoksissa, värimuunnoksissa kunkin pikselin arvoon tuloskuvassa r n,

59 56 VÄRIKUVIEN KÄSITTELY vaikuttaa ainoastaan kyseisen pikselin arvo lähtökuvassa eli värimuunnos voidaan esittää muodossa s i = T i [r 1, r 2,...,r n ], i = 1, 2,...,n (6.5-2) jossas i jar i ovat tulos- ja lähtökuvan pikselini:nnet värikomponentit ja {T 1, T 2,..., T n } on joukko värimuunnosfunktioita. Nyt useita värimuunnoksia voidaan määritellä samaan tapaan kuin harmaasävykuvien tapauksessa. Negatiivikuva saadaan RGB-värimallissa kaavoilla s R = 1 r R s G = 1 r G s B = 1 r B. Väriviipaloinnissa pyritään häivyttämään kaikki paitsi tietyn värisävyn ympäristö. Se määritellään kaavalla { 0, 5 kun s i = i (r i a i ) 2 > R0 2 (6.5-8) muulloin r 1 Nyt kaikki sävyt, joiden etäisyys käytetyssä väriavaruudessa (esim. RGB) on pienempi kuin R 0 halutusta väristä (a 1, a 2,..., a n ), esitetään sellaisinaan ja kaikki muut sävyt esitetään harmaina. Erityisesti painotekniikassa käytetään myös erilaisia sävy- ja värikorjauksia halutunlaisen painotuloksen saamiseksi. Sävykorjauksista on esimerkkejä kurssikirjassa, mutta niitä ei käsitellä tässä tarkemmin. Histogrammin prosessointia voidaan tehdä myös värikuville. Jos esimerkiksi histogrammin tasoitus tehdään RGB-kuvassa kaikille kanaville erikseen, tuloksena on kuva, jonka värisävyt ovat vääristyneet. Yleensä parempi ratkaisu on tehdä histogrammin tasoitus tai määrääminen HSI-värimallissa intensiteettikanavalle ja jättää kromaattisuustieto käsittelemättä. Värikuvien tasoittaminen ja terävöittäminen Värikuvan tasoittaminen keskiarvosuodattimella spatiaalitasossa voidaan tehdä laskemalla yksinkertaisesti keskiarvo kustakin RGB-värimallin kanavasta erikseen. Toisin sanoen pikselin arvo lähtökuvassa on syötekuvan naapuruston pikselien keskiarvovektori: g(x, y) = 1 f(x, y). (6.6-1) K (x,y) S xy Myös kuvan terävöittäminen paikkatasossa voidaan tehdä kullekin RGB-kanavalle erikseen. Esimerkiksi Laplace-operaattori (ks. luku 3.7) määritellään värikuville seuraavasti: 2 [f(x, y)] = 2 f R (x, y) 2 f G (x, y). (6.6-3) 2 f B (x, y)

60 7 Aallokkeet ja moniskaalakäsittely 7.1 TAUSTAA Fourier-muunnos on ollut keskeisellä sijalla muunnosperustaisessa kuvankäsittelyssä 1950-luvun lopusta saakka. Uudempi menetelmä, aallokemuunnos (wavelet transform) on saanut viime aikoina paljon huomiota. Sitä voidaan soveltaa mm. kuvan pakkaamiseen ja analysointiin. Fourier-muunnoksen kannan muodostavat eritaajuiset ja -vaiheiset sinifunktiot. Aallokemuunnoksen kanta taas muodostuu eritaajuisista lyhyistä aalloista, aallokkeista, joiden kesto on rajoitettu. Tämän takia aallokemuunnoksen avulla kuvaa tai muuta signaalia voidaan tarkastella yhtä aikaa sekä taajuus- että paikkatasossa. Fouriermuunnos kadottaa tiedon, missä kohtaa kuvaa eri taajuudet esiintyvät kun taas aallokemuunnoksessa tämä tieto pyritään säilyttämään. Aallokemuunnos perustuu useisiin signaalinkäsittelyssä aikaisemmin käytettyihin menetelmiin kuten kuvapyramideihin, alikaistakoodaukseen ja Haar-muunnokseen. Näistä kuvapyramidit esitellään seuraavassa lyhyesti. Kuvapyramidit Kuvapyramidin (image pyramid) periaate on esitetty kuvassa 7.1. Pyramidin pohjalla on alkuperäinen kuva, ja jokaisella ylemmällä tasolla approksimaatioiden pikselimäärä pienenee. Usein valitaan alkuperäisen kuvan resoluutioksi 2 J 2 J ja muiden tasojen 0 j J resoluutioiksi 2 j 2 j. Kaikkein pienimmän resoluution approksimaatiot eivät usein sisällä käyttökelpoista tietoa kuvasta, joten pyramidin huippu leikataan siten, että säilytetään P + 1 alinta tasoa eli tasot J P... J. 57

61 58 AALLOKKEET JA MONISKAALAKÄSITTELY Kuvapyramidin periaate sekä pyramidin luomiseen käytettävän järjestelmän loh- Kuva 7.1 kokaavio. Kuvassa 7.1 on esitetty myös periaate, jolla kuvapyramidi muodostetaan. Pyramidin muodostus tapahtuu iteratiivisesti: tason j 1 muodostamisessa syötteenä käytetään tason j approksimaatiota. Kuvapyramidiin liittyy yleensä ennustusvirhepyramidi (prediction residual pyramid). Tason j approksimaatiosta voidaan tehdä ennuste tason j 1 (eli matalamman resoluution) perusteella näytteistaajuutta nostamalla ja suodattamalla tulos interpolointisuodattimella. Nyt ennusteen ja todellisen esityksen erotusta kutsutaan tason j ennustevirheeksi. Tätä voidaan käyttää hyväksi kuvanpakkauksessa, sillä useissa tapauksissa ennustevirhe voidaan pakata tehokkaammin kuin approksimaatio. Kuvassa 7.2 on esimerkki kuvapyramidista ja siihen liittyvästä ennustusvirhepyramidista sekä näiden histogrammeista. Kuva on esitetty resoluutioilla eli kuvassa ovat pyramidin tasot 9 j MONISKAALAKÄSITTELY Sarjakehitelmät Jos V on (ei välttämättä äärellisulotteinen) vektoriavaruus ja B on V :n lineaarisesti riippumaton osajoukko joka virittää V :n, niin B on V :n kanta (ja sen alkiot ϕ k ovat kantafunktioita). Siten jos B on V :n kanta niin kaikille f V on yksikäsitteinen esitys kantafunktioiden ϕ k B lineaarikombinaationa f(x) = k α k ϕ k (x), (7.2-1)

62 MONISKAALAKÄSITTELY 59 Kuva 7.2 Esimerkki kuvapyramidista.

63 60 AALLOKKEET JA MONISKAALAKÄSITTELY jossa k on äärellisen tai äärettömän summan indeksi. Kantafuktioiden virittämää funktioavaruutta V merkitään V = Span k {ϕ k (x)}. (7.2-2) Mille tahansa funktioavaruudelle V, jonka kanta on {ϕ k (x)}, on olemassa duaalifunktioiden joukko { ϕ k (x)}, joita käyttäen saadaan yhtälön kertoimet: α k = ϕ k (x), f(x) = ϕ k (x)f(x)dx. (7.2-3) Nyt voidaan erottaa kolme eri tapausta: Tapaus 1: Kantafunktiot muodostavat funktioavaruuden ortonormaalin kannan eli { 0, j k ϕ j (x), ϕ k (x) = (7.2-4) 1, j = k Tällöin ϕ k (x) = ϕ k (x) Tapaus 2: Kantafunktiot eivät ole ortonormaaleja mutta muodostavat ortogonaalisen kannan eli ϕ j (x), ϕ k (x) = 0, j k. (7.2-6) Tällöin kantafunktiota ja niiden duaaleja kutsutaan biortogonaalisiksi ja niille on voimassa { 0, j k ϕ j (x), ϕ k (x) = (7.2-7) 1, j = k Tapaus 3: Jos funktiojoukko {ϕ k (x)} ei ole V :n kanta, mutta mahdollistaa 7.2-1:n mukaisen kehitelmän, on olemassa useampia kuin yksi joukko kertoimia α k jotka toteuttavat yhtälön tietylle f(k):lle V. Nyt funktioiden {ϕ k (x)} ja niiden duaalien sanotaan muodostavan kehyksen jolle on voimassa A f(x) 2 k ϕ k (x), f(x) 2 B f(x) 2. (7.2-8) joillekin A > 0, B < ja kaikille f(x) V. Jos A = B, funktiojoukkoa {ϕ k (x)} kutsutaan tiukaksi kehykseksi ja voidaan osoittaa, että Skaalausfunktiot f(x) = 1 ϕ k (x), f(x) ϕ k (x). (7.2-9) A k Tarkastellaan kantafunktioita {ϕ j,k (x)} jotka ovat tietyn reaalisen neliöllisesti integroituvan funktion ϕ(x) kokonaislukusiirtoja ja kahden potensseilla skaalauksia: ϕ j,k = 2 j/2 ϕ(2 j x k), (7.2-10)

64 MONISKAALAKÄSITTELY 61 jossa j, k Z ja ϕ(x) L 2 (R). Tässä Z:lla merkitään kokonaislukujen joukkoa ja L 2 (R):lla reaalisten, neliöllisesti integroituvien funktioiden joukkoa eli funktioita joille f(x) 2 dx on olemassa ja äärellinen. Nyt k määrittää funktion paikan x-akselilla ja j säätää sen leveyttä ja korkeutta. Kun ϕ(x) valitaan sopivasti, funktiojoukko {ϕ j,k (x)} virittää koko L 2 (R):n. Josj rajoitetaan tiettyyn arvoon, j = j 0, tuloksena saatava funktiojoukko {ϕ j0,k(x)} ei enää viritäkään koko L 2 (R):ää vaan sen aliavaruuden. Merkitään tätä aliavaruutta V j0 :lla: V j0 = Span k {ϕ j0,k(x)}. (7.2-11) Nyt, yhtälön mukaisesti f(x) V j0 voidaan esittää lineaarikehitelmänä f(x) = k α k ϕ j0,k(x), (7.2-12) Yleisemmin aliavaruutta jonka funktiojoukko {ϕ j,k (x)} virittää kun j on kiinnitetty, merkitään V j :llä: V j = Span k {ϕ j,k (x)}. (7.2-13) Jatkossa tutkitaan pääasiassa Haarin skaalausfunktiota joka määritellään seuraavasti: ϕ(x) = { 1, 0 x < 1 0, muulloin. (7.2-14) Kuvassa 7.3 on esimerkkejä em. skaalausfunktiosta. Kuten kuvan viimeisestä kohdasta huomaa, ϕ 0,0 (x) V 1. Itse asiassa on voimassa, että millä tahansa k ϕ 0,k (x) voidaan ilmaista muodossa ϕ 0,k (x) = 1 2 ϕ 1,2k (x) ϕ 1,2k+1 (x). Tästä seuraa että jos f(x) kuuluu V 0 :aan, se kuuluu myös V 1 :een eli V 0 on V 1 :n aliavaruus: V 0 V 1. Jotta funktio voisi toimia aallokkeiden skaalausfunktiona, sen on toteutettava seuraavat ehdot: 1. Skaalausfunktio on ortogonaalinen omien kokonaislukusiirtojen kanssa 2. Aliavaruus, jonka skaalausfunktio virittää tietyllä skaalalla, on kaikkien korkeamman skaalan funktioiden virittämien funktioavaruuksien aliavaruus eli V V 1 V 0 V 1 V (7.2-15) Tästä seuraa, että jos f(x) V j, niin f(2x) V j Ainoa funktio, joka kuuluu kaikkiin aliavaruuksiin V j on f(x) = 0 eli V = {0}. 4. Mikä tahansal 2 (R):n funktio voidaan esittää mielivaltaisella tarkkuudella kun j celi V = {L 2 (R)}.

65 62 AALLOKKEET JA MONISKAALAKÄSITTELY Kuva 7.3 Vasemmalta ylhäältä: 1. ϕ 0,0(x) = ϕ(x), 2. ϕ 0,1(x) = ϕ(x 1), 3. ϕ 1,0(x) = 2ϕ(2x), 4. ϕ1,1(x) = 2ϕ(2x 1), 5. f(x) V 1, 6. ϕ 0,0(x) V 1.

66 MONISKAALAKÄSITTELY 63 Kuva 7.4 Skaalausfunktioiden ja aallokefunktioiden virittämät funktioavaruudet, Haarin skaalausfunktio (7.2-14) täyttää edellä mainitut neljä ehtoa. Koska ϕ j,k (x) V j ja ehdon 2. mukaan V j V j+1, voidaan ϕ j,k esittää yhtälön mukaisesti muodossa ϕ j,k (x) = n α n ϕ j+1,n (x) Kun tehdään sijoitus yhtälöstä ja merkitään muuttujaa α n h ϕ (n):lla, saadaan ϕ j,k (x) = n h ϕ (n)2 (j+1)/2 ϕ(2 j+1 x n). Kun tähän sijoitetaan j = 0 ja k = 0, saadaan moniresoluutioanalyysiyhtälö eli dilaatioyhtälö ϕ(x) = h ϕ (n) 2ϕ(2x n), (7.2-18) n jossa kertoimia h ϕ (n) kutsutaan skaalausfunktion kertoimiksi. Esim. Haarin skaalausfunktiolle kertoimet ovat h ϕ (0) = h ϕ (1) = 1/ 2. Aallokefunktiot Jos on annettu funktio, joka täyttää aallokkeiden skaalausfunktiolle asetetut ehdot, voidaan määritellä aallokefunktio ψ(x), jonka kokonaislukusiirrokset ja kahden potenssilla skaalaukset virittävät V j :n ortogonaalikomplementin V j+1 :ssä, merkitään W j = Vj, missä V j = {f V j+1 f V j }. Tämä on esitetty graafisesti kuvassa 7.4. Aallokkeiden joukko {ψ j,k (x)} määritellään äitiaallokkeen siirtoina ja skaalauksina vastaavalla tavalla kuin skaalausfunktiot: ψ j,k (x) = 2 j/2 ψ(2 j x k). (7.2-19) Kunj kiinnitetään, aallokefunktioiden {ψ j,k (x)} virittämää avaruutta merkitään W j :llä: W j = Span k {ψ j,k (x)}. (7.2-20)

67 64 AALLOKKEET JA MONISKAALAKÄSITTELY Nyt funktiot f(x) W j voidaan esittää muodossa f(x) = k α k ψ j,k (x). (7.2-21) Kuvan 7.4 mukaisesti skaalaus- ja aallokealiavaruudet liittyvät toisiinsa seuraavasti: V j+1 = V j W j, (7.2-22) jossa merkitsee avaruuksien suoraa summaa (direct sum). V j+1 on V j :n ja W j :n suora summa, jos kaikille f V j+1 on olemassa yksikäsitteinen esitys f = f 1 + f 2 siten että f 1 V j ja f 2 W j. Kaikki funktiot V j :ssä ovat ortogonaalisia suhteessa funktioihin W j :ssä eli ϕ j,k (x), ψ j,l (x) = 0 (7.2-23) kaikilla j, k, l Z. Nyt neliöllisesti integroituvien reaalisten funktioiden avaruus voidaan esittää muodossa tai pelkästään aallokefunktioiden avulla muodossa L 2 (R) = V 0 W 0 W 1 (7.2-24) L 2 (R) = W 2 W 1 W 0 W 1 W 2. (7.2-26) tai lähtien mistä tahansa skaalasta j 0 L 2 (R) = V j0 W j0 W j0+1 (7.2-27) Koska W j V j+1, voidaan aallokefunktioille johtaa dilaatioyhtälöä vastaava kaava jossa aallokefunktio esitetään kaksinkertaisen tarkkuuden skaalausfunktioiden painotettuna summana: ψ(x) = n h ψ (n) 2ϕ(2x n), (7.2-28) jossa h ψ (n):t ovat aallokefunktiokertoimia. Kertoimien h ψ (n) ja h ϕ (n) välillä voidaan osoittaa yhteys h ψ (n) = ( 1) n h ϕ (1 n). (7.2-29) Kuten aiemmin todettiin, Haarin skaalausfunktion kertoimet ovath ϕ (0) = h ϕ (1) = 1/ 2. Nyt yhtälön mukaisesti Haarin aallokefunktiokertoimet ovat h ψ (0) = 1/ 2 ja h ψ (1) = 1/ 2. Kun nämä sijoitetaan kaavaan , saadaan Haarin aallokefunktio ψ(x) = ϕ(2x) ϕ(2x 1) eli 1, 0 x < 0, 5 ψ(x) = 1, 0, 5 x < 1 (7.2-30) 0 muulloin Kuvassa 7.5 on esimerkkejä Haarin aallokefunktiosta.

68 MONISKAALAKÄSITTELY 65 Kuva 7.5 Vasemmalta ylhäältä: 1. ψ(x) = ψ 0,0(x), 2. ψ 0,2(x) = ψ(x 2), 3. ψ 1,0(x) = 2ψ(2x), 4. f(x) = fa(x) + f d (x) V 1 = V 0 W 0, 5. f a(x) V 0, 6. f d (x) W 0.

69 66 AALLOKKEET JA MONISKAALAKÄSITTELY ULOTTEISET AALLOKEMUUNNOKSET Aallokesarjakehitelmä Kaavan mukaisesti funktio f(x) L 2 (R) voidaan esittää sarjakehitelmänä f(x) = k c j0 (k)ϕ j0,k(x) + d j (k)ψ j,k (x), (7.3-1) j=j 0 k jossa j 0 on mielivaltainen aloitusskaala ja c j0 (k) ja d j (k) vastaavat kertoimia α k yhtälöissä ja Kertoimia c j0 (k) kutsutaan approksimaatio- tai skaalauskertoimiksi ja kertoimia d j (k) yksityiskohta- tai aallokekertoimiksi. Yhtälön ensimmäinen summa on funktion f(x) approksimaatio skaalalla j 0 ja jälkimmäisessä summassa jokaisella j j 0 approksimaatioon lisätään yksityiskohtia. Jos kehitelmäfunktiot muodostavat ortonormaalin kannan tai tiukan kehyksen, kertoimet saadaan yhtälöistä c j0 (k) = f(x), ϕ j0,k(x) = f(x)ϕ j0,k(x)dx (7.3-2) ja d j (k) = f(x), ψ j,k (x) = f(x)ψ j,k (x)dx (7.3-3) Diskreetti aallokemuunnos Aallokesarjakehitelmä muuntaa jatkuvan funktion joukoksi skaalaus- ja aallokekertoimia. Vastaavasti diskreetti aallokemuunnos (DWT) muuntaa lukujonon tai diskreetin funktion skaalaus- ja aallokekertoimiksi W ϕ (j 0, k) ja W ψ (j, k). Diskreetti aallokemuunnos määritellään seuraavilla kaavoilla: ja W ϕ (j 0, k) = 1 f(x)ϕ j0,k(x) (7.3-5) M x W ψ (j, k) = 1 f(x)ψ j,k (x) (7.3-6) M jossa j j 0. Käänteinen DWT saadaan kaavasta f(x) = 1 W ϕ (j 0, k)ϕ j0,k(x) + 1 W ψ (j, k)ψ j,k (x). (7.3-7) M M k Näissä kaavoissa f(x), ϕ j0,k(x) ja ψ j,k (x), x = 0, 1, 2,..., M 1 ovat diskreettejä funktioita. Yleensä valitaan M siten että se on kahden potenssi eli M = 2 J jolloin j saa summauksessa arvot j = 0, 1, 2,..., J 1 ja k arvot k = 0, 1, 2,..., 2 j 1. x j=j 0 k

70 KAKSIULOTTEINEN DISKREETTI AALLOKEMUUNNOS KAKSIULOTTEINEN DISKREETTI AALLOKEMUUNNOS Kuvankäsittelyssä tarvitaan pääasiassa kaksiulotteista aallokemuunnosta. Se määritellään kaksiulotteisen skaalausfunktion ϕ(x, y) sekä kolmen kaksiulotteisen aallokefunktion ψ H (x, y), ψ V (x, y) ja ψ D (x, y) avulla. Nämä saadaan yksiulotteisten aallokefunktioiden kertolaskulla: ϕ(x, y) = ϕ(x)ϕ(y) (7.5-1) ψ H (x, y) = ψ(x)ϕ(y) (7.5-2) ψ V (x, y) = ϕ(x)ψ(y) (7.5-3) ψ D (x, y) = ψ(x)ψ(y) (7.5-4) Kolme eri aallokefunktiota esittävät erisuuntaisia yksityiskohtia: ψ H horisontaalisia muutoksia kuten vaakasuoria reunoja, ψ V vertikaalisia muutoksia ja ψ D diagonaalisia muutoksia. Yhtälöitä ja vastaavat yhtälöt kaksiulotteisille skaalaus- ja aallokefunktioille ovat ϕ j,m,n (x, y) = 2 j/2 ϕ(2 j x m, 2 j y n), (7.5-5) ψ i j,m,n(x, y) = 2 j/2 ψ i (2 j x m, 2 j y n), i = {H, V, D}. (7.5-6) Huomaa, että jälkimmäisessä yhtälössä i ei ole eksponentti vaan indeksi jolla merkitään erisuuntaisia aallokefunktioita. Nyt M N-kokoisen kuvan diskreetti aallokemuunnos on W ϕ (j 0, m, n) = W i ψ(j, m, n) = M 1 1 MN x=0 M 1 1 MN x=0 N 1 y=0 N 1 y=0 f(x, y)ϕ j0,m,n(x, y) (7.5-7) f(x, y)ψ i j,m,n(x, y). (7.5-8) Käänteinen DWT on analoginen yksiulotteiseen tapaukseen verrattuna: f(x, y) = 1 W ϕ (j 0, m, n)ϕ j0,m,n(x, y) + (7.5-9) MN 1 MN m n i=h,v,d j=j 0 m Wψ i (j, m, n)ψi j,m,n (x, y). Käytännössä aallokemuunnosta ei kannata toteuttaa toteuttaa yhtälöiden ja mukaisesti vaan ns. nopealla aallokemuunnoksella, joka perustuu kuvan suodattamiseen ja desimointiin. Lähtökohtana tässä menetelmässä on alkuperäinen kuva, jonka oletetaan olevan funktion esitys skaalalla j + 1, koska (toisin kuin jatkuvassa tapauksessa), diskreetissä tapauksessa voidaan aina valita j + 1 < siten, että esitys skaalalla j + 1 sisältää kaiken kuvassa olevan informaation. Nopean aallokemuunnoksen tuloksena saadaan approksimaatiokertoimet W ϕ (j, m, n) sekä yksityiskohtakertoimet W i ψ (j, m, n), i = {H, V, D}. Kertoimista W ϕ(j, m, n) voidaan edelleen n

71 68 AALLOKKEET JA MONISKAALAKÄSITTELY Kuva 7.6 Esimerkki 2-ulotteisesta diskreetistä aallokemuunnoksesta. Vasemmalta ylhäältä: 1. alkuperäinen kuva. 2., 3. ja 4 approksimaatio ja yksityiskohdat eri skaaloilla laskea esitys skaalalla j 1, jne, kunnes päästään haluttuun aloitusskaalaan. Kuvassa 7.6 on esimerkki 2-ulotteisesta diskreetistä aallokemuunnoksesta. Digitaalisessa kuvankäsittelyssä aallokemuunnosta voidaan hyödyntää samalla tavalla kuin Fourier-muunnosta: 1. Lasketaan kuvan diskreetti 2-ulotteinen aallokemuunnos 2. Muokataan muunnettua kuvaa 3. Lasketaan käänteinen muunnos Aallokemuunnosta voidaan käyttää mm. reunanilmaisuun. Tässä perusajatuksena on, että aallokemuunnoksen jälkeen approksimaatiokuva korvataan nollilla, ja tälle suoritetaan käänteinen muunnos. Tuloskuvassa jäljellä ovat alkuperäisen kuvan yksityiskohdat, reunat. Aallokemuunnosta käytetään myös piirteenilmaisuun useissa konenäkösovelluksissa kuten tekstuurianalyysissä ja kasvojenilmaisussa. Toinen sovellus on kohinanpoisto, jossa muunnoksen jälkeen aallokekertoimet kynnystetään eli tiettyä rajaa pienemmät kertoimet asetetaan nolliksi. Kolmas sovellus on kuvanpakkaus mm. JPEG2000-pakkauksessa käytetään wavelet-muunnosta.

72 8 Kuvan kompressointi 8.1 PERUSTEITA Kuvan kompressointi, kuten muukin lähteenkoodaus, perustuu datan redundanssin vähentämiseen. Redundanttisella datalla tarkoitetaan ylimääräistä tai tarpeetonta dataa joka voidaan poistaa varsinaista informaatiosisältöä vähentämättä. Matemaattisesti redundanssi määritellään seuraavasti: Olkoot n 1 ja n 2 kahden (samanlaisia) tietoyksikköjä, esim. bittejä, ja saman informaatiosisällön sisältävän jonon pituudet. Nyt ensimmäisen jonon suhteellinen redundanssi R D on R D = 1 1 C R, (8.1-1) jossa C R on kompressiosuhde C R = n 1. (8.1-2) n 2 Jos esimerkiksi ensimmäisessä jonossa on 10 tietoyksikköä toisen jonon yhtä yksikköä kohti, kompressiosuhde on 10 ja esimmäisen jonon suhteellinen redundanssi on 0,9 eli 90% datasta ensimmäisessä jonossa on redundanttista. Kuvan kompressoinnissa voidaan hyödyntää kolmenlaista redundanssia: koodausredundanssia, pikselien välistä redundanssia ja psykovisuaalista redundanssia. Näitä käsitellään seuraavassa. Koodausredundanssi Merkitään kuvassa olevia harmaasävyjä diskreetillä satunnaismuuttujallar k ja niiden esiitymistodennäköisyyksiä p r (r k ):lla. Kuten kappaleessa 3.3 esitettiin, histogram- 69

73 70 KUVAN KOMPRESSOINTI Taulukko 8.1 Esimerkki 8 harmaasävyn kuvan harmaasävyjakaumasta ja kahdesta sen esittämiseen käytettävästä kodista r k p r (r k ) Koodi 1 l 1 (r k ) Koodi 2 l 2 (r k ) r 0 = r 1 = 1/ r 2 = 2/ r 3 = 3/ r 4 = 4/ r 5 = 5/ r 6 = 6/ r 7 = mia voidaan käyttää estimaattina todennäköisyysjakaumasta: p r (r k ) = n k, k = 0, 1, 2,..., L 1, (8.1-3) n jossa n k on harmaasävyä r k olevien pikselien määrä kuvassa ja n on koko kuvan pikselimäärä. Jos nyt harmaasävyn r k koodaamiseen käytetään l(r k ) bittiä, keskimääräinen yhden pikselin koodaamiseen tarvittava bittimäärä on L 1 L avg = l(r k )p(r k ). (8.1-4) k=0 Edelleen, jos koodattavan kuvan koko on M N, sen esittämiseen tarvittava bittimäärä on MNL avg. Taulukossa 8.1 on esimerkki 8 harmaasävyn kuvan harmaasävyjakaumasta ja kahdesta mahdollisesta binäärikoodista, joilla harmaasävyt voidaan esittää. Nyt koodilla 1 L avg = 3, koska kaikkien harmaasävyjen koodaamiseen käytetään 3 bittiä. Koodilla 2 yhden harmaasävyn koodaamiseen tarvitaan keskimäärin L avg = 7 l 2 (r k )p r (r k ) = 2, 7 bittiä. k=0 Koodia 2 käyttäen kuva voidaan siis esittää pienemmällä bittimäärällä eli koodi 1 on redundanttinen. Saavutettu kompressiosuhde on 3/2, 7 = 1, 11 ja koodin 1 redundanttisuus siis 1 1/1, 11 = 0, 099. Edellisessä esimerkissä vähennettiin kuvan koodausredundanssia. Hieman epätäsmällisesti ilmaistuna kuvassa on koodausredundanssia kun harmaasävyille määrätyt koodisanat eivät vastaa harmaasävyjen esiitymistodennäköisyyksiä eli kun toisenlaisella koodilla voitaisiin saavuttaa pienempi keskimääräinen harmaasävyn esittämiseen tarvittava bittimäärä.

74 PERUSTEITA 71 Pikselien välinen redundanssi Luonnollisen kuvan pikselien harmaasävyt eivät yleensä ole riippumattomia toisistaan. Koska useimmissa tapauksissa pikselin arvo voidaan summittaisesti ennustaa viereisistä kuvapisteistä, se sisältää paljon redundanttista informaatiota. Pikseleiden välisiä riippuvuuksia kuvaavat käsitteet spatiaalinen redundanssi, geometrinen redundanssi ja kuvienvälinen redundanssi. Näistä käytetään yhteisnimitystä pikselien välinen redundanssi. Pikselien välisen redundanssin pienentämiseksi kuva muunnetaan tehokkaampaan, yleensä ei-visuaaliseen muotoon. Näitä muunnoksia kutsutaan kuvauksiksi (mappings). Kuva voidaan esittää esimerkiksi naapuripikselien harmaasävyjen erotusten avulla. Kuvausta kutsutaan palautuvaksi (reversible), jos alkuperäinen kuva voidaan rekonstruoida muunnetusta datajoukosta. Pikselien välisen redundanssin poistoon perustuvia mentelmiä ovat mm. telefakseissa käytetty jononpituuskoodaus, joka esitellään myöhemmin sekä useissa kuvaformaateissa kuten TIF- ja GIF-formaateissa käytetty LZW-kompressointimenetelmä. Psykovisuaalinen redundanssi Kappaleessa 2.1 todettiin, ettei ihmisen näköaisti ole tarkka mittari vaan ihmisen kokema havainto riippuu monista muistakin tekijöistä kuin näkökentän eri osista tulevan valon absoluuttisesta määrästä. Tästä syystä osa kuvassa olevasta informaatiosta voidaan poistaa ilman että ihmisen kokema kuvanlaatu heikentyy merkittävästi. Tällaisen informaation sanotaan olevan psykovisuaalisesti redundanttista. Psykovisuaalista redundanssia poistava kompressointi eroaa edellisistä siinä, että se ei ole palautettavissa eli se poistaa kuvasta informaatiota pysyvästi. Tällöin kompressoinnnin sanotaan olevan häviöllistä (lossy). Mm. JPEG-pakkaus perustuu psykovisuaalisen redundanssin poistoon. Psykovisuaalisen redundanssin poistoa kutsutaan myös kvantisoinniksi. Laatukriteerit Kuten edellä mainittiin, psykovisuaalista redundanssia poistavalla menetelmällä kompressoitu kuva ei ole palautettavissa täydellisesti alkuperäiseen muotoon. Kompressointimenetelmien sopivuutta arvioitaessa on hyödyllistä jos menetetyn informaation määrää ja laatua kyetään mittaamaan. Tähän käytetään objektiivisia ja subjektiivisia laatukriteereitä. Objektiiviset laatukriteerit lasketaan alkuperäisen kuvan f(x, y) ja häviöllisellä pakkausmenetelmällä kompressoidun ja dekompressoidun kuvan ˆf(x, y) funktiona. Virhekuva e(x, y) on e(x, y) = ˆf(x, y) f(x, y). (8.1-7)

75 72 KUVAN KOMPRESSOINTI f(x,y) Lähteen koodaus Kanava koodaus Kanava Kanava dekoodaus Lähteen dekoodaus ^ f(x,y) Kooderi Dekooderi Kuva 8.1 Kuvan kompressointimalli Usein käytetty objektiivinen laatukriteeri on RMS (root mean square) -virhe e rms, joka on virheiden neliöiden keskiarvon neliöjuuri: e rms = [ 1 MN M 1 x=0 ] N 1 1/2 [ ˆf(x, y) f(x, y)] 2. (8.1-8) x=0 Toinen objektiivinen laatukriteeri on keskineliöllinen signaali-kohinasuhde, jota merkitään SNR ms :llä: SNR ms = M 1 x=0 M 1 N 1 x=0 ˆf(x, x=0 y) 2 N 1 x=0 [ ˆf(x, y) f(x, y)]. (8.1-9) 2 Ottamalla tästä edelleen neliöjuuri saadaan RMS-signaali-kohinasuhde SNR rms. Objektiiviset laatukriteerit eivät välttämättä anna yhteneväistä tulosta ihmisen tekemän laadun arvioinnin kanssa. Tästä syystä usein tarvitaan myös subjektiivisia laatukriteereitä jotka perustuvat usean ihmisen tekemän subjektiivisen arvion keskiarvoon. Arviointi voidaan tehdä joko absoluuttisella asteikolla (esim. 1: erinomainen... 6: käyttökelvoton) tai suhteellisella asteikolla eli vertaamalla kahta kuvaa f(x, y) ja ˆf(x, y) keskenään ja vertaamalla niitä esim. asteikolla -3: paljon huonompi... 3: paljon parempi. 8.2 KUVAN KOMPRESSOINTIMALLI Kuvan kompressointimalli on esitetty kuvassa 8.1. Kompressointijärjestelmä koostuu kahdesta osasta: kooderista ja dekooderista. Kooderi jakautuu edelleen lähteenkoodaukseen ja kanavakoodaukseen. Lähteenkoodauksessa tarkoituksena on poistaa kanavan yli siirrettävän informaation redundanssia. Kanavakoodauksessa siirrettävään dataan lisätään systemaattista redundanssia, jota voidaan käyttää kanavadekoodauksessa siirtovirheiden ilmaisuun tai korjaamiseen. Mikäli käytettävä kanava on kohinaton, ei kanavakoodausta tarvita. Kanavakoodaukseen perehdytään mm. Koodausmenetelmät -kurssissa, eikä sitä käsitellä tässä tarkemmin. Lähteenkoodausmalli on esitetty kuvassa 8.2. Huomaa, että kuvasta on jätetty pois kanavakooderi ja -dekooderi, jotka järjestelmään tulee lisätä jos kanava on kohinainen. Useimmissa tapauksissa lähdekooderi voidaan jakaa kolmeen osaan: Kuvaaja poistaa pikselien välistä redundanssia muuttamalla kuvan toisenlaiseen, yleensä ei-visuaaliseen muotoon. Tapauksesta riippuen kuvaaja vähentää

76 VIRHEETÖN KOMPRESSOINTI 73 f(x,y) Kuvaaja Kvantisoija Symboli kooderi Kanava Symboli dekooderi Käänteis kuvaaja ^ f(x,y) Lähdekooderi Lähdedekooderi Kuva 8.2 Lähteenkoodausmalli tai ei vähennä datamäärää. Esim. jononpituuskoodaus johtaa suoraan datamäärän vähenemiseen, kun taas muunnoskoodauksessa käytettävä kosinimuunnos ei vähennä datamäärää, mutta muuntaa kuvan lohkot sellaiseen muotoon, että pikselien välistä redundanssia voidaan vähentää kvantisoinnissa. Kvantisoija pienentää kuvaajan tuloksen tarkkuutta määrätyn laatukriteerin rajoissa. Kvantisoija poistaa kuvasta psykovisuaalista redundanssia. Tämä operaatio ei ole käännettävissä, joten sitä ei voi käyttää häviöttömässä kompressioissa. Symbolikooderi muuttaa kvantisoijan lähdöstä saatavat symbolit vakio- tai vaihtuvamittaisiksi koodisanoiksi. Usein käytetään vaihtuvamittaista koodia, jossa lyhyimmät koodisanat vastaavat useimmin esiintyviä symboleja ja päin vastoin. Symbolikooderi poistaa koodausredundanssia. Lähteendekoodauksessa suoritetaan symbolidekoodaus ja käänteiskuvaus, jotka ovat käänteisiä operaatioita symbolikoodaukselle ja kuvaukselle. 8.3 VIRHEETÖN KOMPRESSOINTI Virheettömiä kompressointimenetelmiä käytettäessä kuva voidaan palauttaa täydellisesti alkuperäiseen muotoon eli kuvassa 8.2 f(x, y) = ˆf(x, y). Häviöttömiä menetelmiä tarvitaan mm. sovelluksissa, joissa kuvanotto on kallista kuvan säilyttämiseen verrattuna kuten avaruusluotaimissa. Joissain tapauksissa kuten lääketieteen kuvantamisessa tai oikeudellisten asiakirjojen säilyttämisessä kuva on tarpeen säilyttää täysin muuttamattomana. Tällöin häviöllisiä menetelmiä ei voi käyttää. Virheettömät kompressointimenetelmät koostuvat kahdesta osasta: kuvauksesta jolla vähennetään pikselien välistä redundanssia ja symbolikoodauksesta, jolla poistetaan koodausredundanssi. Vaihtuvamittainen symbolikoodaus Yksinkertaisin tapa virheettömään kompressointiin on poistaa ainoastaan koodausredundanssia. Siinä tavoitteena on valita koodisanat symboleille (esim. harmaasävyille) siten, että yhden symbolin esittämiseen tarvittava keskimääräinen koodisanan pituus minimoituu. Useimmat symbolikoodauksen menetelmät eivät ole spesifisiä digitaaliselle kuville vaan ne ovat riippumattomia siitä, mitä koodattavat symbolit esittävät:

77 74 KUVAN KOMPRESSOINTI a b c d e f 0.04 a b c d e f Huffman-koodin muodostaminen. 1. Lähteen redusointi. 2. Koodisanojen määrää- Kuva 8.3 minen symbolit voivat esittää kuvan harmaasävyjä, viereisten harmaasävyjen erotuksia, jononpituuksia tai yhtä lailla esimerkiksi ASCII-koodattuja merkkejä. Tunnetuin symbolikoodausmenetelmä on Huffman-koodaus. Voidaan osoittaa, että kun symbolit koodataan yksi kerrallaan, Huffman-koodauksella päästään pienimpään keskimääräiseen koodisanan pituuteen. Kuvassa 8.3 on esitetty koodisanojen määrääminen 6 symbolin joukolle (a,...,f). Huffman-koodin määrittäminen tapahtuu seuraavasti: 1. Järjestä koodisymbolit esiitymistodennäköisyyden mukaan laskevaan järjestykseen 2. Suorita lähteen redusointi yhdistämällä kullakin redusointitasolla pienimmän todennäköisyyden omaavat koodisanat. 3. Koodaa redusoidut lähteet alkaen pienimmästä lähteestä ja päätyen alkuperäiseen lähteeseen. Koodaus suoritetaan palaamalla samaa reittiä kuin lähteen redusoinnissa ja lisäämällä jokaisella tasolla vähiten todennäköisiä symboleja vastaavien koodisanojen loppuun yksi bitti. Kuvan 8.3 esimerkin tapauksessa keskimääräiseksi koodinsanan pituudeksi saadaan L avg = = 2, 2 bittiä / symboli. Huffman-koodin lisäksi on olemassa useita muita symbolikoodaukseen käytettäviä koodeja. Näitä ovat mm. Huffman-koodia nopeampi, mutta epäoptimaalinen katkaistu Hufmann-koodi sekä aritmeettinen koodaus.

78 VIRHEETÖN KOMPRESSOINTI 75 Bittitasojen koodaus Bittitasojen koodauksessa poistetaan pikselien välistä redundanssia. Siinä harmaasävytai värikuva muutetaan joukoksi binäärikuvia, joista kukin koodataan binäärikuvien kompressointimenetelmällä. Harmaasävykuvan muuntaminen binäärikuviksi voidaan tehdä kappaleessa 3.2 esitetyllä tavalla. Vaihtoehtoinen tapa on muuttaa kuvan koodaus ensin Gray-koodiksi jossa peräkkäiset koodisanat eroavat aina tasan yhden bitin kohdalla, ja suorittaa muuntaminen binäärikuviksi tämän jälkeen. Bittitasojen koodauksessa saavutettava hyöty on sitä suurempi, mitä useammalla bittitasolla vierekkäisten bittien korrelaatio on voimakasta, ja Gray-koodia käytettäessä vierekkäisten bittien korrelaatio on yleensä suurempi kuin suoralla koodilla. Jos harmaasävyn esitys binäärimuodossa on a m 1 a m 2...a 1 a 0, jossa a i :t ovat suoran koodin bitit eniten merkitsevästä vähiten merkitsevään, saadaan Gray-koodin bitit kaavoilla g m 1 = a m 1 (8.4-3) g i = a i a i+1, 0 i m 2. Tässä :lla merkitään XOR-bittioperaatiota. Kuvassa 8.4 on esimerkki harmaasävykuvan bittitasoista suoralla ja Gray-koodilla. Kuvista huomaa, että eniten merkitseviä bittejä vastaavat bittitasot ovat huomattavasti yksinkertaisempia kuin vähiten merkitseviä bittejä vastaavat tasot. Lisäksi Graykoodiin perustuvat bittitasot ovat jonkin verran yksinkertaisempia kuin suoraan koodiin perustuvat. Binäärikuvien virheettömään koodaukseen on olemassa useita menetelmiä. Varsin usein käytetty menetelmä on jononpituuskoodaus joka soveltuu sekä binääri- että harmaasävykyville. Siinä kuva koodataan riveittäin siten että koodatussa muodossa koodisana ilmoittaa perättäisten bittien tai harmaasävyjen eli jonon arvon ja pituuden. Binäärikuvissa pikseleillä on vain kaksi mahdollista arvoa joten riittää, että kunkin rivin ensimmäisen bitin arvo ilmoitetaan: jos rivin ensimmäinen jono sisältää 1-bittejä, seuraavan on oltava 0-bittejä, jne. Esimerkiksi 4 8 binäärikuvan rivit ovat jononpituuskoodattuina , 3, 5 1, 8 1, 1, 2, 1, 4 1, 5, 3 Tässä esimerkissä kuvan esittämiseen binäärimuodossa tarvitaan 4 8 = 32 bittiä ja jononpituuskoodattuna = 31 bittiä (4 bittiä rivien ensimmäisten pikselien arvojen esittämiseen ja 3 bittiä kunkin jononpituuden koodaamiseen. 3 bitillä voidaan

79 76 KUVAN KOMPRESSOINTI Kuva 8.4 Harmaasävykuva ja sen bittitasot suoralla ja Gray-koodilla. Sarakkeet 1. ja 3: bittitasot suoralla koodilla. Sarakket 2 ja 4: bittitasot Gray-koodilla.

80 HÄVIÖTÖN ENNUSTAVA KOODAUS 77 f Alkuperäinen kuva + e Symboli koodaus Kompressoitu kuva Symboli e f Dekompressoitu + dekoodaus + kuva Ennustus Pyöristys ^ f ^f Ennustus Kuva 8.5 Häviöttömän ennustuskoodauksen lohkokaavio esittää arvot , koska jononpituus 0 ei ole mahdollinen). Esimerkissä ei siis saatu merkittävää hyötyä jononpituuskoodauksella, mutta suurilla binäärikuvilla joissa on isoja tasaisia alueita voidaan saada erittäin hyviä kompressiosuhteita. Muita tapoja binäärikuvien koodaamiseen ovat mm. 2-ulotteinen jononpituuskoodaus, vakioaluekoodaus sekä reunaviivojen koodaus. 8.4 HÄVIÖTÖN ENNUSTAVA KOODAUS Häviöttömässä ennustavassa koodauksessa(lossless predictive coding) tarkoituksena on vähentää pikselien välistä redundanssia koodaamalla ainoastaan kunkin pikselin sisältämä uusi informaatio. Tässä pikselin uusi informaatio määritellään sen todellisen ja naapureista ennustetun arvon erotuksena. Ennustuskoodauksen lohkokaavio on kuvassa 8.5. Järjestelmän kompressointiosassa on ennustaja, joka ennustaa pikselin arvon edellisten pikselien arvoista. Tämä ennuste pyöristetään lähimmäksi kokonaisluvuksi ja vähennetään pikselin todellisesta arvosta. Nyt symbolikooderiin syötetään ennustusvirhe e n = f n ˆf n, (8.4-5) joka koodataan vaihtuvamittaisella koodilla. Yleensä ennustevirheiden entropia on pienempi kuin alkuperäisten harmaasävyjen entropia, joten symbolikoodauksessa päästään pienempään keskimääräiseen sananpituuteen. Kuvan dekompressoinnissa tehdään sama ennuste kuin kompressoinnissa ja siihen lisätään ennustevirheet jolloin saadaan pikselin todellinen arvo: f n = e n + ˆf n, (8.4-6) Ennusteen ˆf n laskemiseen on useita mahdollisia menetelmiä. Yleisimmin käytetty on laskea lineaarinen kombinaatio edellisestä m pikselistä: [ m ] ˆf n = round α i f n i, (8.4-7) jossa m on lineaarisen ennusteen kertaluku, α i ovat ennustuskertoimet ja round tarkoittaa pyöristystä lähimpään kokonaislukuun. Kuvan kompressoinnissa kannattaa ennusteessa yleensä käyttää saman rivin edellisten pikseleiden lisäksi myös edellisten rivien pikseleitä. i=1

81 78 KUVAN KOMPRESSOINTI f Alkuperäinen kuva + e ė Kvantisointi Symboli koodaus Kompressoitu kuva Symboli dekoodaus ė + + ḟ Dekompressoitu kuva ^ f Ennustus ḟ + + ^ f Ennustus Kuva 8.6 Häviöllisen ennustuskoodauksen lohkokaavio 8.5 HÄVIÖLLINEN KOMPRESSOINTI Häviöllisiä kompressointimenetelmiä käytettäessä alkuperäinen kuva ei ole täysin rekonstruoitavissa kompressoidusta kuvasta. Koska osa kuvassa olevasta informaatiosta voidaan hävittää, häviöllisillä menetelmillä päästään usein huomattavasti suurempiin kompressiosuhteisiin kuin häviöttömillä menetelmillä. Häviöttömillä menetelmillä tyypillinen kompressiosuhde on luokkaa 2-5, kun taas häviöllisillä menetelmillä päästään 10-50:n kompressiosuhteisiin ilman että kompressoitu kuva on silmämääräisesti erotettavissa alkuperäisestä. Virheitä tuottava ennustava koodaus Häviöllisessä ennustavassa koodauksessa kuvan 8.5 järjestelmään lisätään ennustusvirheiden kvantisointi, jossa ennustusvirhe kuvataan rajoitettuun määrään arvoja ė n. Kvantisointi määrää, kuinka suuren kompressiosuhteen ja kuinka paljon säröä järjestelmä tuottaa. Häviöllisen ennustuskoodauksen lohkokaavio on kuvassa 8.6 Huomaa, että virheitä tuottavassa ennustavassa koodauksessa kompressointiosassa ennustuslohkon syötteenä ei ole alkuperäinen kuva f n vaan rekonstruoitu kuva f n f n = ė n + ˆf n. (8.5-1) Deltamodulaatio Deltamodulaatio on hyvin yksinkertainen häviöllinen ennustuskoodausmenetelmä. Se määritellään seuraavasti: ˆf n = αf n 1 (8.5-2) { +ξ kun en > 0 ė n = (8.5-3) ξ muulloin. Kvantisoijan lähdössä on ainoastaan kaksi mahdollista arvoa joten koodaukseen tarvitaan vain 1 bitti / pikseli. Kuvassa 8.7 on esimerkki 1-ulotteisen signaalin kompressoinnista deltamodulaatiolla käyttäen kaavoja ja ja arvoja α = 1.0 ja ξ = 6, 5. Deltamodulaatio tuottaa kahdenlaista virhettä. Kun signaali on tasainen tai sen muutokset ovat pienempiä kuin ξ, deltamodulaatio tuottaa granulaarista kohinaa. Jos taas ξ on liian pieni kuvaamaan signaalin nopeimpia muutoksia, syntyy slope overhead -virhettä. Kuvissa granulaarinen kohina ilmenee kohinana kuvan tasaisilla alueilla ja slope overhead aiheuttaa terävien reunojen sumenemista.

82 HÄVIÖLLINEN KOMPRESSOINTI 79 Kuva 8.7 Esimerkki deltamodulaatiosta. Optimaalinen ennustaja Optimaalinen ennustaja minimoi ennusteen ja todellisen kuvan välisen keskineliövirheen olettaen, että ennusteen kvantisoinnista syntyvä virhe on pieni (eli ė n e n ) ja että ennuste on m:n edellisen pikselin lineaarinen kombinaatio: min E{e 2 n } = E{[f n ˆf n ] 2 } (8.5-4) pakotteella ja f n = ė n + ˆf n e n + ˆf n = f n (8.5-5) ˆf n = m α i f n i. (8.5-6) i=1 Mainitut oletukset eivät ole välttämättömiä eivätkä kaikissa tapauksissa valideja, mutta helpottavat ennustajan toteuttamista. Näistä oletuksista johdettua koodausmenetelmää kutsutaan nimellä differential pulse code modulation (DPCM). Nyt optimaalinen ennustaja saadaan valitsemalla kertoimet α i siten, että minimoidaan odotusarvo [ ] 2 m E f n α i f n 1. (8.5-7) i=1 Tälle minimointitehtävälle saadaan ratkaisu α = R 1 r, (8.5-8)

83 80 KUVAN KOMPRESSOINTI jossa R on autokorrelaatiomatriisi E{f n 1 f n 1 } E{f n 1 f n 2 }... E{f n 1 f n m } E{f n 2 f n 1 } E{f n 2 f n 2 }... E{f n 2 f n m } R =......, (8.5-9) E{f n m f n 1 } E{f n m f n 2 }... E{f n m f n m } α on kertoimet α i sisältävä vektori ja r on vektori E{f n f n 1 } E{f n f n 2 } r =.. (8.5-10) E{f n f n m } Käytännössä autokorrelaatioiden laskeminen on raskas ja epäkäytännöllinen menetelmä verrattuna saavutettavaan hyötyyn. Jos kompressoitavan kuvan voidaan olettaa noudattavan 2-ulotteista Markovin mallia, sen autokorrelaatiot saadaan kaavasta Nyt neljännen asteen ennustajan E {f(x, y)f(x i, y i)} = σ 2 ρ i vρ i h. (8.5-12) ˆf(x, y) = α 1 f(x, y 1) + α 2 f(x 1, y 1) + α 3 f(x 1, y) + α 4 f(x 1, y + 1) (8.5-13) optimaaliset kertoimet ovat α 1 = ρ h, α 2 = ρ v ρ h, α 3 = ρ v, α 4 = 0, (8.5-14) jossa ρ v ja ρ h ovat kuvan vertikaalinen ja horisontaalinen korrelaatiokerroin. Monissa tilanteissa riittävät yksinkertaiset varsin yksinkertaiset ennustajat. Yli neljännen asteen ennustajien on osoitettu tuovan varsin vähän hyötyä kompression kannalta ottaen huomioon ennustajan lisääntyneen kompleksisuuden. Optimaalinen kvantisointi Kuvassa 8.8 on esitetty kvantisointifunktio t = q(s). Kun kvantisointifunktio oletetaan parittomaksi eli q( s) = q(s), s i :n ja t i :n arvot määräävät kvantisointifunktion täydellisesti. Näitä arvoja kutsutaan funktion päätösja rekonstruointitasoiksi. Kvantisoijassa tuloarvojen väli s [s i 1, s i [ kuvautuu lähtöarvoksi t i. Oletetaan kvantisoijan tulon s todennäköisyysjakauma p(s) tunnetuksi. Nyt tilastollisessa mielessä optimaalinen kvantisoija minimoi keskineliövirheen E{(s q(s)) 2 }. Tämän kvantisoijan päätös- ja rekonstruointitasot ovat seuraavien yhtälöiden mukaiset: ja si s i 1 (s t i )p(s)ds = 0, i = 1, 2,... L 2 0 i = 0 t s i = i+t i+1 2 i = 1, 2,..., L 2 1 i = L 2 (8.5-20) (8.5-21)

84 HÄVIÖLLINEN KOMPRESSOINTI 81 Kuva 8.8 Esimerkki kvantisointifunktiosta. Alkuperäinen kuva (N * N) Lohkoihin jako Muunnos Kvantisointi Symboli koodaus Kompressoitu kuva Kompressoitu kuva Symboli dekoodaus Käänteis Lohkojen Dekompressoitu kuva muunnos yhdistäminen Kuva 8.9 Muunnoskoodauksen lohkokaavio Kvantisoija oletetaan parittomaksi (joten p(s):n on oltava symmetrinen nollan suhteen), jolloin s i = s i ja t i = t i. (8.5-22) Nämä ehdot täyttävää kvantisoijaa kutsutaan Lloyd-Max-kvantisoijaksi. Jos optimaalisuuden lisäksi asetetaan lisäehto t i t i 1 = s i s i 1 = θ, (8.5-23) tuloksena saadaan optimaalinen tasavälinen(uniform) kvantisoija. Sekä tavallista että tasavälistä Lloyd-Max-kvantisoijaa voidaan lisäksi muuttaa niin, että kvantisointitasot muuttuvat kuvan paikallisten tilastollisen ominaisuuksien mukaisesti. Tällaista kvantisoijaa kutsutaan adaptiiviseksi. Sillä saavutetaan yleensä staattista kvantisoijaa parempi kompressiosuhde lisääntyneen kompleksisuuden kustannuksella. Muunnoskoodaus Kaikki edellä esitetyt menetelmät toimivat paikkatasossa. Nykyaikaisessa kuvan komressoinnissa käytetään usein toisenlaista lähtökohtaa muunnoskoodausta.

85 82 KUVAN KOMPRESSOINTI Muunnoskoodauksen lohkokaavio on kuvassa 8.9. Lähtökohtana on, että kuva jaetaan n n pikselin lohkoihin, joista kullekin suoritetaan jokin palautuva lineaarinen muunnos kuten Fourier-muunnos. Muunnoksen tuloksena saatavat kertoimet kvantisoidaan siten, että vähiten informaatiota sisältävät kertoimet kvantisoidaan pienimmällä tarkkuudella. Lopuksi kvantisoiduille kertoimille suoritetaan symbolikoodaus. N N-kokoisen kuvan f(x, y) lineaarinen muunnos on muotoa T(u, v) = N 1 N 1 x=0 y=0 f(x, y)g(x, y, u, v), u, v = 0, 1, 2,..., N 1. (8.5-24) Jos muunnos on palautuva, alkuperäinen kuva voidaan palauttaa T(u, v):sta kaavalla f(x, y) = N 1 N 1 u=0 v=0 T(u, v)h(x, y, u, v). (8.5-25) Näissä kaavoissag(x, y, u, v) jah(x, y, u, v) ovat muunnoksen ja käänteismuunoksen ytimet. Ydin on separoituva jos g(x, y, u, v) = g 1 (x, y)g 2 (y, v). (8.5-26) Jos ydin on separoituva, muunnos voidaan suorittaa tekemällä se ensin riveille ja sitten sarakkeille (ks. Fourier-muunnosen separoituvuus, kappale 4.5). Lisäksi ydin on symmetrinen jos g(x, y, u, v) = g 1 (x, u)g 2 (y, v). (8.5-27) Diskreetin Fourier-muunnoksen ydin ja käänteismuunnoksen ydin g(x, y, u, v) = 1 N 2 e j2π(ux+vy)/n (8.5-28) h(x, y, u, v) = e j2π(ux+vy)/n (8.5-29) ovat separoituvia ja symmetrisiä. Diskreetti kosinimuunnos (DCT) on kuvan kompressoinnissa erittäin yleisesti käytetty muunnos. Käytännössä siinä on kysymys diskreetin Fourier-muunnoksen tuloksena saatavien kertoimien reaaliosan ottamisesta. Täsmällisesti DCT määritellään ytimillä [ ] [ ] (2x + 1)uπ (2y + 1)vπ g(x, y, u, v) = h(x, y, u, v) = α(u)α(v)cos cos, 2N 2N (8.5-32) jossa 1 α(u) = N kun u = 0 (8.5-33) 2 N kun u = 1, 2,..., N 1

86 HÄVIÖLLINEN KOMPRESSOINTI 83 Alkuperäinen kuva (N * N) Aalloke muunnos Kvantisointi Symboli koodaus Kompressoitu kuva Kompressoitu kuva Symboli dekoodaus Käänteinen aallokemuunnos Dekompressoitu kuva Kuva 8.10 Aallokkeisiin perustuvan kuvan kompressoinnin lohkokaavio Käytännössä diskreettiä kosinimuunnosta käytetään kompressoinnissa siten, että kuva jaetaan n n pikselin lohkoihin, jossa n on kahden potenssi. Useimmin käytettyjä arvoja ovat n = 8 ja n = 16. Muunnoksen tuloksena saatavat kertoimet kvantisoidaan siten, että tärkeimmän visuaalisen informaation sisältävät kertoimet ( matalat taajuudet eli pienimpiä u:n ja v:n arvoja vastaavat kertoimet) kvantisoidaan tarkimmin ja suuremmat taajuudet karkeammin eli vähemmällä kvantisointitasojen määrällä. Yksinkertaisimmillaan kvantisointi voi tarkoittaa, että osa kertoimista säilytetään sellaisenaan ja osa jätetään kokonaan pois kompressoidusta esityksestä. Muunnoskoodauksen vaihetta, jossa kertoimet kvantisoidaan ja symbolikoodataan, kutsutaan bittien allokoinniksi. Bittien allokointia ei käsitellä tässä tarkemmin. Aallokkeiden käyttö kuvan kompressoinnissa Aallokemuunnosta voidaan käyttää kuvan kompressoinnissa samoin kuin muitakin lineaarisia muunnoksia. Tavoitteena on, että muunnoksen kantafunktiot pakkaavat suurimman osan kuvassa olevasta visuaalisesta informaatiosta pieneen määrään muunnoskertoimia, jolloin muut kertoimet voidaan esittää pienellä bittimäärällä tai ne voidaan jättää kokonaan pois. Aallokepohjaisen kuvan kompressoinnin lohkokaavio on kuvassa J 2 J :n pikselin kuvan aallokekoodauksessa valitaan käytettävä aalloke ψ ja alin esitystaso J P. Aallokemuunnoksen tuloksena saadaan approksimaatiokertoimet tasolla J P sekä horisontaali-, vertikaali- ja diagonaalisuuntien aallokekertoimet tasoilla J P... J 1. Iso osa aallokekertoimista ei sisällä visuaalisesti merkittävää informaatiota, joten aallokekertoimia voidaan kvantisoida. Lisäksi eri skaalojen aallokekertoimien välillä on voimakasta korrelaatiota, jota voidaan hyödyntää kompressoinnissa. Aallokemuunnos on laskennallisesti tehokas ja aallokkeiden rajatun keston takia muunnos on paikallinen. Tästä syystä aallokekoodausta käytettäessä kuvaa ei tarvitse jakaa paikallisiin lohkoihin ennen aallokemuunnosta, mikä on tärkein ero aallokekoodauksen ja muiden muunnoskoodausmenetelmien välillä. Esim. DCT-pohjaisessa kompressiossa lohkojako aiheuttaa suurilla kompressiosuhteilla sen, että lohkojen rajat ovat nähtävissä rekonstruoidussa kuvassa. Aallokekoodatussa kuvassa tätä ongelmaa ei esiinny, ja suurilla kompressiosuhteilla aallokekoodatut kuvat ovatkin usein visuaalisesti miellyttävämpiä kuin lohkopohjaisilla menetelmillä koodatut kuvat.

87 84 KUVAN KOMPRESSOINTI 8.6 KUVAN KOMPRESSOINNIN STANDARDEJA Seuraavassa esitellään lyhyesti muutamia merkittävimpiä kuvan kompressoinnin standardeja. Menetelmien tarkemmat kuvaukset ovat kurssikirjassa. Kuvan kompressoinnin standardeja julkaisevat mm. International Standardization Organization (ISO) sekä International Telecommunication Union (ITU). Binäärikuvien kompressointiin tarkoitettuja standardeja ovat mm. telefakseissa käytetyt CCITT Group 3 ja Group 4 -standardit, jotka perustuvat binäärikuvan 1- tai 2-ulotteiseen jononpituuskoodaukseen. Menetelmät ovat staattisia, ja esim. rasterikuvilla niiden käyttö saattaa johtaa jopa datamäärän kasvamiseen. Uudemmat adaptiivisiin menetelmiin perustuvat Joint Bilevel Imaging Groupin JBIG1 ja JBIG2 -standardit tuottavat paremman kompressiosuhteen sekä keskimääräisessä että huonoimmassa mahdollisessa tapauksessa. JBIG-standardit soveltuvat sekä binääri- että harmaasävykuvien kompressointiin. Harmaasävy- ja värikuvien kompressointiin soveltuvia standardeja ovat mm. häviöttömät GIF- ja PNG-standardit sekä häviölliset JPEG- ja JPEG2000-standardit. JPEG-standardissa määritellään useita kompressointimenetelmiä. Perus-JPEG-kompressoinnissa kuva jaetaan 8 8 pikselin lohkoihin, joille tehdään DCT-muunnos. Muunnoksen kertoimet kvantisoidaan ja luetaan lohkosta lukujonoksi ns. zigzagkuvion mukaisessa järjestyksessä. Uudelleenjärjestelyn seurauksena kertoimet saadaan järjestykseen, jossa kertoimien välinen korrelaatio on paremmin hyödynnettävissä koodauksessa. Lopuksi kertoimet koodataan Huffman-koodin kaltaisella vaihtuvamittaisella koodilla. Useimmat videon kompressoinnin menetelmät perustuvat sekä yksittäisissä videokehyksissä (video frame) olevan pikselien välisen redundanssin että kehyksien välisen redundanssin vähentämiseen. Tunnetuimpia videon kompressoinnin standardeja ovat mm. MPEG-standardit ja erityisesti videoneuvottelussa käytetyt H.261 ja H.263 -standardit. Videon kompressointia käsitellään tarkemmin Digitaalinen videonkäsittely -kurssilla.

88 9 Morfologinen kuvankäsittely Matemaattista morfologiaa hyödyntäen kuvasta voisaan irrottaa alueiden muotojen esittämiseen ja kuvaamiseen käyttökelpoisia komponentteja kuten rajaviivat, rungot ja convex hull. Morfologisia työkaluja kuten morfologista suodatusta, ohennusta tai karsimista voi käyttää myös kuvan esi- ja jälkikäsittelyyn. Morfologia perustuu joukko-oppiin. Erityisesti binäärikuvien morfologiassa kuvat käsitetään joukoiksi. Binäärikuvan morfologinen esitys on joukko Z 2 :ssa, jossa Z:llä merkitään kokonaislukujen joukkoa. Morfologisen esityksen (joukon) jokainen alkio vastaa (x, y)-koordinaatteja yhdelle pikselille jonka arvo on 1. Joukko, joka sisältää kuvan kaikki 1-pikselit, on täydellinen morfologinen esitystapa kuvasta. 9.1 PERUSTEITA Olkoon A joukko Z 2 :ssa eli A Z 2. Jos a = (a 1, a 2 ) on A:n alkio, merkitään ja jos a ei ole A:n alkio, merkitään a A (9.1-1) a / A. (9.1-2) Joukkoa, jossa ei ole yhtään alkiota, kutsutaan tyhjäksi joukoksi, ja siitä käytetään merkintää. Jos kaikki joukon A alkiot kuuluvat joukkoon B, A on B:n osajoukko eli A B. (9.1-3) 85

89 86 MORFOLOGINEN KUVANKÄSITTELY Kahden joukon unioni C = A B (9.1-4) on kaikkien niiden alkioiden joukko, jotka kuuluvat joko A:han tai B:hen tai molempiin. Joukkojen leikkaus D = A B (9.1-5) koostuu niistä alkioista jotka kuuluvat sekä A:han että B:hen. Joukkojen sanotaan olevan erilliset (disjoint) jos niillä ei ole yhtään yhteistä alkiota eli jos A B =. (9.1-6) Joukon A komplementti on niiden alkioiden joukko jotka eivät kuulu A:han: Joukkojen erotus määritellään seuraavasti: A c = {w w / A}. (9.1-7) A B = {w w A, w / B} = A B c. (9.1-8) Edellä esiteltyjen joukko-opin perusoperaatioiden lisäksi morfologiassa tarvitaan kahta muuta perusoperaatiota, peilausta ja translaatiota. Joukon A peilaus on ja joukon A translaatio z:lla, z = (z 1, z 2 ) on Â = {w w = a, a A} (9.1-9) (A) z = {c c = a + z, a A}. (9.1-10) Kaavoissa esitellyt operaatiot on havainnollisettu Venn-diagrammeilla kuvassa DILAATIO JA EROOSIO Useat morfologiset algoritmit perustuvat kahteen morfologian perusoperaatioon: dilaatioon ja eroosioon. Dilaatio Olkoot A ja B joukkoja Z 2 :ssa. Nyt A:n dilaatio B:llä on A B = {z ( ˆB) z A }. (9.2-1) Tässä joukkoa B kutsutaan rakenne-elementiksi(structuring element). Dilaatiossa siis rakenne-elementti peilataan origon suhteen, minkä jälkeen dilaation tulos on kaikkien niiden vektoreiden z joukko, joilla ( ˆB) z ja A menevät päällekkäin vähintään yhden pikselin verran.

90 DILAATIO JA EROOSIO 87 (a) (b) (c) A B (d) (e) (f) z 2 (g) z 1 Kuva 9.1 Joukko-operaatioita: (a) Joukot A ja B. (b) Unioni A B. (c) Leikkaus A B. (d) Joukkojen vähennys A B. (e) Komplementti (A) c. (f) A:n siirto z:lla (A) z. (g) Peilaus Â. Kuvissa origo on merkitty pisteellä. Kaavan kanssa ekvivalentti, mutta toteutuksen kannalta usein helpompi määritelmä dilaatiolle on A B = (B) a eli rakenne-elementin origo siirretään jokaiseen A:n pisteeseen ja lasketaan siirrettyjen rakenne-elementtien unioni. Dilaatiosta on esimerkki kuvassa 9.2 Dilaatio täyttää binäärikuvan aukkoja ja yhdistää toisiinsa kuvan osia. Kuvassa 9.3 vasemmalla on esimerkki skannatusta binäärikuvasta jossa kirjaimiin on jäänyt aukkoja. Kuvassa oikealla on alkuperäisen kuvan dilaatio rakenne-elementillä a A [ccc] (rakenne-elementin origo alleviivattu). Tässä esimerkissä kuten yleensä jatkossakin joukkoja ei esitetä koordinaattiparien joukkona vaan kuvana tai matriisina. Siten esim. edellä esitetty rakenne-elementti esittää joukkoa {( 1, 0), (0, 1), (0, 0), (0, 1), (1, 0)}. Eroosio Joukon A eroosio B:llä on A B = {z (B) z A}. (9.2-3) Toisin sanoen piste z kuuluu eroosion tulokseen jos B kuuluu kokonaisuudessaan A:han kun B:n origo siirretään pisteeseen z. Kuvassa 9.4 on esimerkki joukon eroo-

91 88 MORFOLOGINEN KUVANKÄSITTELY Kuva 9.2 Esimerkki joukon A dilaatiosta kahdella erilaisella rakenne-elementillä B. Kuva 9.3 Esimerkki dilaatiosta binäärikuvaan.

92 DILAATIO JA EROOSIO 89 Kuva 9.4 Esimerkki joukon A eroosiosta kahdella erilaisella rakenne-elementillä B. Kuva 9.5 Esimerkki eroosion käytöstä pienten yksityiskohtien suodatuksessa. Vasemmalta oikealle: 1. alkuperäinen kuva jossa on neliöitä joiden sivunpituudet ovat 1, 3, 5, 7, 9 ja Kuvan eroosio neliönmuotoisella rakenne-elementillä jonka sivunpituus on Eroosiokuvan dilaatio alkuperäisellä rakenne-elementillä palauttaa kuvassa säilyneet neliöt alkuperäiseen kokoonsa. siosta kahdella erilaisella rakenne-elementillä. Huomaa, että jälkimmäisessä kohdassa eroosion tulos on pelkkä viiva. Eroosio poistaa kuvasta rakenne-elementtiä pienempiä yksityiskohtia. Tästä on esimerkki kuvassa 9.5. Alkuperäisessä kuvassa on erikokoisia neliöitä, joista halutaan säilyttää vain suurimmat. Valitaan rakenne-elementti, joka on hieman pienempi kuin pienimmät yksityiskohdat jotka kuvassa halutaan säilyttää. Kuvassa keskellä on eroosion tulos. Rakenne-elementtiä pienemmät neliöt ovat hävinneet kuvasta kokonaan.

93 90 MORFOLOGINEN KUVANKÄSITTELY Kuva 9.6 Geometrinen tulkinta avaamiselle ja sulkemiselle. Säilytettävät neliöt voidaan palauttaa alkuperäiseen kokoonsa laskemalla eroosiokuvan dilaatio alkuperäisellä rakenne-elementillä. Eroosio ja dilaatio ovat duaalisia operaatioita. Eroosio voidaan laskea käyttäen komplementti-, peilaus- ja dilaatio-operaatioita: (A B) c = A c ˆB. (9.2-4) 9.3 AVAAMINEN JA SULKEMINEN Avaaminen ja sulkeminen ovat morfologisen suodatuksen perusmenetelmiä. Näistä avaaminen tasoittaa kuva-alueiden reunaviivoja, rikkoo pieniä kannaksia ja poistaa pieniä ulkonemia. Sulkeminen tasoittaa myös reunaviivoja, mutta se liittää yhteen kapeita aukkoja, täyttää kuva-alueessa olevia reikiä ja yhdistää reunaviivassa olevia katkoksia. Joukon A avaamisessa rakenne-elementillä B lasketaan ensin A:n eroosio B:llä ja sen jälkeen tuloskuvan dilaatio B:llä A B = (A B) B. (9.3-1) Vastaavasti sulkemisessa operaatiot suoritetaan käänteisessä järjestyksessä: A B = (A B) B. (9.3-2) Kuvassa 9.6 on esitetty geometrinen tulkinta avaamiselle ja sulkemiselle. Molemmissa esimerkeissä rakenne-elementtinä käytetään pyöreää kiekkoa. Ylemmässä ku-

94 AVAAMINEN JA SULKEMINEN 91 Esimerkki avaamisen ja sulkemisen käytöstä binäärisen sormenjälkikuvan suoda- Kuva 9.7 tukseen. vassa, avaamisessa, kiekkoa pyöritetään avattavan kuvan sisällä kuvan reunaviivaa pitkin. Avatun alueen reunaviiva muodostuu niistä pisteistä, joihin rakenne-elementti äärimmillään mahtuu. Alemmassa kuvassa, sulkemisessa, rakenne-elementtiä pyöritetään vastaavasti kuvan reunaviivaa pitkin kuvan ulkopuolella. Samoin kuin eroosio ja dilaatio, avaaminen ja sulkeminen ovat toistensa duaaleja: (A B) c = A c ˆB. (9.3-4) Avaamisoperaatiolle ovat voimassa seuraavat ominaisuudet: 1. A B on A:n osajoukko 2. Jos C on D:n osajoukko niin (C B) on (D B):n osajoukko 3. (A B) B = A B Vastaavasti sulkemiselle ovat voimassa seuraavat ominaisuudet: 1. A on (A B):n osajoukko 2. Jos C on D:n osajoukko niin (C B) on (D B):n osajoukko 3. (A B) B = A B Kuvassa 9.7 on esimerkki avaamis- ja sulkemisoperaatioiden käyttämisestä binäärisen sormenjälkikuvan käsittelyyn. Esimerkissä poistetaan kuvasta ensin kohinaa

95 92 MORFOLOGINEN KUVANKÄSITTELY (ylimääräisiä valkoisia pisteitä) avaamisoperaatiolla. Tämän jälkeen viivoissa olevia katkoksia yhdistetään sulkemisella. 9.4 HIT-OR-MISS-MUUNNOS Hit-or-Miss-muunnos on muotojen ilmaisuun käytettävä työkalu. Se etsii kuvasta rakenne-elementin muotoiset osat, jotka eivät ole liittyneitä kuvan muihin osiin. Muunnos esitellään kuvan 9.8 esimerkin avulla. Kuva A koostuu kolmesta erimuotoisesta komponentista. Kunkin komponentin origon oletetaan olevan sen massakeskipisteessä. Kuvasta etsitään komponenttia X. Lisäksi on määritelty hieman X:ää suurempi ikkuna W. Nyt Hit-or-Miss-muunnos koostuu kahdesta eroosiosta: A:n eroosio X:llä tuottaa tuloksenaan niiden pisteiden joukon, joihin siirrettynä X mahtuu kokonaisuudessaan A:n sisälle. A c :n eroosio (W X):llä puolestaan etsii X:n ympäristöä. Muunnoksen tulos on näiden kahden eroosion leikkaus, A B = (A X) [A c (W X)]. (9.4-1) Yleisemmin, merkitään B = (B 1, B 2 ), jolloin muunnos voidaan kirjoittaa muodossa A B = (A B 1 ) [A c B 2 ]. (9.4-2) Edellisen esimerkin tapauksessa B 1 = X ja B 2 = (W X). Yhtälön kanssa yhtäpitävä määritelmä Hit-or-Miss-muunnokselle on A B = (A B 1 ) (A ˆB 2 ). (9.4-3) 9.5 MORFOLOGISIA ALGORITMEJA Kurssikirjassa esitellään useita morfologisia algoritmeja: reunan erottaminen, alueen täyttäminen, liittyneiden komponenttien etsintä, konveksi verho (convex hull), ohennus, paksuunnus, rungon (skeleton) erottaminen ja karsinta (pruning). Näistä reunan erottaminen ja liittyneiden komponenttien etsintä käsitellään tässä kurssissa esimerkkeinä morfologian hyödyntämisestä kuvankäsittelyssä. Reunan erottaminen Joukon A reunaviiva β(a) rakenne-elementin B mielessä määritellään A:n ja A:n eroosion erotuksena: β(a) = A (A B). (9.5-1) Kuvassa 9.9 on esimerkki binäärikuvasta ja siitä rakenne-elementillä

96 MORFOLOGISIA ALGORITMEJA 93 Kuva 9.8 Hit-or-Miss-muunnos. Vasemmalta ylhäältä: 1. Joukko A. 2. Ikkuna W ja erotus W X. 3. A:n komplementti. 4. Eroosio A X. 5. Eroosio A c (W X). 6. Muunnoksen tulos

97 94 MORFOLOGINEN KUVANKÄSITTELY Kuva 9.9 Esimerkki binäärisen kuvan reunan erottamisesta. Kuva 9.10 Esimerkki liittyneiden komponenttien etsinnästä käyttäen morfologiaa. Vasemmalta ylhäältä: 1. Joukko A, liittynyt komponentti Y ja aloituspiste p. 2. Rakenne-elementti B. 3. Ensimmäisen iteraatioaskeleen tulos X 1 4. Toisen iteraatioaskeleen tulos X Lopputulos erotettu reunaviiva. Liittyneiden komponenttien etsintä Luvussa 2.5 määriteltiin liittyneen komponentin käsite. Olkoon Y liittynyt komponentti joukossa A. Oletetaan, että yksi Y :n piste p on tunnettu. Nyt kaikki Y :n pisteet löytyvät seuraavalla iteratiivisella kaavalla: X k = (X k 1 B) A, k = 1, 2, 3,... (9.5-3) jossa X 0 = p ja B on sopiva rakenne-elementti riippuen siitä, millaista liittyvyyttä käytetään. KunX k 1 = X k, algoritmi on konvergoitunutja tällöin X k = Y. Kuvassa 9.10 on esimerkki liittyneen komponentin etsinnästä käyttäen 8-liittyvyyttä.

98 HARMAASÄVYMORFOLOGIAA HARMAASÄVYMORFOLOGIAA Morfologiset operaatiot voidaan määritellä myös harmaasävykuville. Harmaasävymorfologiassa kuva f(x, y) ja rakenne-elementti b(x, y) tulkitaan funktioiksi Z 2 R eli funktiot on määritelty kokonaislukukoordinaateissa ja ne voivat saada mitä tahansa reaaliarvoja. Dilaatio Harmaasävydilaatio f b määritellään seuraavasti: (f b)(s, t) = max{f(s x, t y)+ b(x, y) (s x), (t y) D f ; (x, y) D b }, (9.6-1) jossa D f ja D b ovat f:n ja b:n kantajat eli alueet joissa funktiot ovat suurempia kuin 0. Jokaisessa pisteessä dilaation arvo on siis maksimi f:n ja b:n summasta b:n määräämässä alueessa. Dilaatiolla on seuraavat vaikutukset harmaasävykuvaan: 1. Jos b:n arvot ovat positiivisia, tuloskuva on kirkkaampi kuin syötekuva. 2. Tummat yksityiskohdat pienenevät tai häviävät. Kuvassa 9.11 on esimerkki dilaation vaikutuksesta harmaasävykuvaan. Eroosio Harmaasävyeroosio f b on (f b)(s, t) = min{f(s + x, t + y) b(x, y) (s + x), (t + y) D f ; (x, y) D b }. (9.6-2) Myös harmaasävykuville siis eroosio on tietyssä mielessä käänteinen operaatio dilaatiolle. Eroosion arvo on minimi erotuksesta (f b) b:n määräämässä alueessa. Eroosiolla on seuraavat vaikutukset harmaasävykuvaan: 1. Jos b:n arvot ovat positiivisia, tuloskuva on tummempi kuin syötekuva 2. Eroosio heikentää tai poistaa kuvasta kirkkaita yksityiskohtia. Kuvassa 9.11 on esimerkki eroosion vaikutuksesta harmaasävykuvaan. Avaaminen ja sulkeminen Avaaminen ja sulkeminen määritellään harmaasävykuvilla dilaation ja eroosion avulla täsmälleen samoin kuin binäärikuville. Avaaminen f b määritellään kaavalla f b = (f b) b (9.6-4)

99 96 MORFOLOGINEN KUVANKÄSITTELY Kuva 9.11 tulos. 1. Alkuperäinen kuva. 2. Harmaasävydilaation tulos. 3. Harmaasävyeroosion Kuva 9.12 Harmaasävykuvan avaamisen ja sulkemisen geometrinen tulkinta. Ylhäältä alas: 1. Poikkileikkaus pinnasta z = f(x, y). 2. Avaamisessa palloa kuljetetaan pinnan alapuolella. 3. Avaamisen tuloskuvan muodostavat ne pisteet, joihin pallo juuri ja juuri mahtuu. 4. Sulkemisessa palloa kuljetetaan pinnan yläpuolella. 5. Sulkemisen tuloskuva

100 HARMAASÄVYMORFOLOGIAA 97 Kuva 9.13 Kuvalle 9.11 suoritetun (1) avaamisen ja (2) sulkemisen tulos. ja sulkeminen f b kaavalla f b = (f b) b (9.6-5) Harmaasävyavaamiselle ja -sulkemiselle on samankaltaiset geometriset tulkinnat kuin vastaaville binäärioperaatioille. Nyt kuva tulkitaan 3-ulotteiseksi pinnaksi ja rakenne-elementti palloksi. Kuvassa 9.12 on poikkileikkauskuva tästä. Avaamisessa palloa kuljetetaan pinnan alapuolella ja avauskuvan muodostavat ne pisteet joihin pallo juuri ja juuri mahtuu. Sulkemisessa vastaavasti palloa kuljetetaan pinnan yläpuolella. Kuvassa 9.13 on esimerkki avaus- ja sulkemisoperaatioiden tuloksista harmaasävykuvalle. Harmaasävymorfologian sovelluksia Morfologisessa tasoituksessa tehdään ensin avaus- ja sitten sulkemisoperaatio. Tämä poistaa tai vaimentaa sekä vaaleita että tummia häiriöitä ja kohinaa. Morfologinen gradientti määritellään kaavalla g = (f b) (f b). (9.6-7) Se korostaa teräviä harmaasävymuutoksia kuvassa. Morfologinen gradientti ei ole yhtä vahvasti riippuvainen reunan suunnasta kuin muut gradienttioperaattorit, mutta sen laskennallinen kompleksisuus on suurempi. Top-hat-muunnoksessa alkuperäisestä kuvasta vähennetään avattu kuva h = f (f b). (9.6-8) Top-hat-muunnos korostaa kuvan yksityiskohtia varjostuneilla alueilla. Mainittujen kolmen muunnoksen tuloskuvat ovat kuvassa Lisäksi harmaasävymorfologiaa voidaan soveltaa mm. tekstuurien segmentointiin ja granulometriaan eri kuvassa olevien partikkeleiden kokojakauman määrittämiseen.

101 98 MORFOLOGINEN KUVANKÄSITTELY Kuva 9.14 Harmaasävymorfologian sovellusesimerkkejä. 1. Morfologinen tasoitus. 2. Morfologinen gradientti. 3. Top-hat-muunnos.

102 10 Kuvan segmentointi Kuvan segmentoinnissa kuva jaetaan jatkokäsittelyn kannalta mielekkäisiin osiin. Erityisesti kontrolloimattomassa ympäristössä otettujen kuvien automaattinen segmentointi on erittäin vaikeaa, ja toisaalta onnistunut segmentointi on välttämätön edellytys kuvan jatkokäsittelyn onnistumiselle. Useimmat segmentointimenetelmät perustuvat joko kuvan epäjatkuvuuksien ilmaisuun tai kuvan alueiden samanlaisuuden tutkimiseen EPÄJATKUVUUKSIEN ILMAISU Tässä kappaleessa käsitellään paikallisten epäjatkuvuuksien kuten pisteiden, viivojen ja reunojen ilmaisua. Useimmat epäjatkuvuuksien ilmaisun menetelmät perustuvat kappaleessa 3.5 esiteltyihin maskioperaatioihin. Kun pisteen esim. 3 3 naapuruston harmaasävyjä merkitään z 1,..., z 9 :llä ja niitä vastaavia maskin kertoimia w 1,...w 9 :llä, maskin vaste ko. pisteessä on 9 R = w 1 z 1 + w 2 z w 9 z 9 = w i z i. (10.1-1) i=1 Seuraavassa esitetään maskit yhden pikselin kokoisen pisteen ja yhden pikselin levyisen viivan ilmaisuun. Tähän käytetään 3 3 -maskia ja vastaavasti isommilla maskeilla voidaan etsiä kuvasta isompia kohteita. 99

103 100 KUVAN SEGMENTOINTI Pisteen ilmaisu Pisteen ilmaisussa yleisesti käytetty maski on Maskin vaste kynnystetään eli paikallisen epäjatkuvuuden katsotaan löytyneen kun vaste ylittää rajan T eli R T. (10.1-2) Pisteen ilmaisussa käytettävä maski on samanlainen kuin Laplace-operaattori, mutta sen käyttötapa on erilainen: vain rajan T ylittävät pisteet huomioidaan. Huomaa, että maskin vaste tasaisilla alueilla on 0. Viivojen ilmaisu Viivojen ilmaisu paikallisesti tehdään seuraavilla neljällä maskilla: Nämä maskit ilmaisevat paikallisesti vaakasuoran, +45 asteen, pystysuoran ja -45 asteen suoran osan. Viivan ilmaisu tehdään laskemalla kuvan jokaisessa pisteessä vasteet R 1, R 2, R 3 ja R 4 kaavalla ja yllä olevilla maskeilla. Jos nyt tietyssä pisteessä R i > R j kaikilla j i, ko. pisteessä voidaan katsoa olevan maskin i suuntaisen viivan osan. Vaihtehtoisesti kuvasta voidaan etsiä tietyn suuntaisia viivoja käyttämällä pelkästään yhtä maskia ja kynnystämällä tulos samoin kuin pisteen ilmaisussa. Reunan ilmaisu Reunan ilmaisu on tärkein epäjatkuvuuksien ilmaisun menetelmistä. Useat reunan ilmaisun menetelmät perustuvat ensimmäisen tai toisen derivaatan approksimointiin kuvasta. Reunalla tarkoitetaan kahden eri alueen rajalla olevien pikseleiden liittynyttä joukkoa, jossa harmaasävy muuttuu. Askelreuna (step edge) on ideaalinen reuna. Siinä kuvan harmaasävy muuttuu jyrkästi. Käytännön tilanteissa reuna usein sumenee optiikan ja näytteistyksen epätäydellisyyksien takia ja tuloksena on kuvan 10.1 mukainen ramppireuna (ramp edge). Kuvassa on esitetty ramppireunan yhden yhden rivin harmaasävyprofiili sekä sen ensimmäinen ja toinen derivaatta. Ensimmäinen derivaatta

104 EPÄJATKUVUUKSIEN ILMAISU 101 Kuva 10.1 Kuvassa oleva ramppireuna sekä kuvan yhden rivin harmaasävyprofiili ja sen ensimmäinen ja toinen derivaatta. on positiivinen reunan alueella kun taas toisessa derivaatassa on positiivinen piikki reunan tummassa osassa ja negatiivinen piikki reunan vaaleassa osassa. Kuvan perusteella voidaan päätellä, että ensimmäisen derivaatan suuruutta tai toisen derivaatan merkin muutosta voidaan käyttää reunan ilmaisuun. Käytännön tilanteissa ongelmia aiheuttaa se, että derivaatat ovat varsin herkkiä kohinalle. Kuvapikselin sanotaan olevan reunapiste jos ensimmäisen derivaatan itseisarvo kyseisessä pisteessä on suurempi kuin asetettu kynnysarvo tai jos toisen derivaatan merkki muuttuu pisteessä. Liittyneiden reunapisteiden joukko muodostaa reunan. Mikäli reuna on lyhyt suhteessa kuvan kokoon, puhutaan reunasegmentistä. Segmentoinnissa keskeinen ongelma on, kuinka reunasegmenteistä kootaan pidempiä, sovelluksen kannalta mielekkäitä reunoja. Gradienttioperaattori. Digitaalisen kuvan ensimmäiset derivaatat perustuvat 2- ulotteisen gradientin approksimointiin. Jatkuvassa tapauksessa gradientti määritellään seuraavasti: f = [ ] Gx = G y [ ] f x f. (10.1-3) y Gradienttivektori osoittaa funktion suurimman muutoksen suunnan kyseisessä pisteessä. Reunanilmaisuun voidaan käyttää gradienttivektorin magnitudia jota merkitään f:llä: f = mag( f) = [G 2 x + G2 y ]1/2. (10.1-4)

105 102 KUVAN SEGMENTOINTI Roberts Prewitt Sobel Kuva 10.2 Robertsin, Prewittin ja Sobelin gradienttioperaattorit G x:n ja G y:n laskemiseen. Gradientin suunta ( ) α(x, y) = tan 1 Gy G x (10.1-5) ilmoittaa gradienttivektorin ja x-akselin välisen kulman. Reunan suunta pisteessä (x, y) on kohtisuorassa gradientin suuntaa vastaan. Kuvassa 10.2 on kolme erilaista maskia gradientin paikalliseen approksimointiin. Näistä Prewittin ja Sobelin operaattorit ovat useimmin käytettyjä. Prewittin operaattori on hieman yksinkertaisempi toteuttaa, mutta Sobelin operaattori sietää paremmin kohinaa. Maskeilla lasketaan gradientin komponentit G x ja G y, joista gradientin magnitudi voidaan laskea kaavalla Tämä on kuitenkin laskennallisesti raskasta, ja usein käytetäänkin approksimaatiota f G x + G y. ( ) Laplacen operaattori. Laplacen operaattori on funktion toisen derivaatan johdannainen. Sen laskemiseen käytettävät maskit esiteltiin kappaleessa 3.7. Laplacen operaattoria ei yleensä käytetä reunan ilmaisuun sellaisenaan, koska toisen derivaatan johdannaisena se on varsin herkkä kohinalle ja lisäksi sen itseisarvon käyttö tuottaa kaksinkertaisia reunoja (ks. kuva 10.1). Lisäksi Laplacen operaattorilla ei saada selville reunan suuntaa. Reunan ilmaisussa Laplacen operaattoria voidaan käyttää (1) reunan paikallistamiseen tarkkailemalla operaattorin vasteen merkin vaihtumista tai (2) sen selvittämiseen, onko piste reunan tummalla vai vaalealla puolella. Reunan paikallistamisessa Laplacen operaattoriin yhdistetään yleensä tasoitus kohinan vaikutuksen vähentämiseksi. Tutkitaan Gaussin funktiota h(r) = e r2 2σ 2, ( )

106 REUNOJEN YHDISTELY 103 Kuva 10.3 Laplacian of Gaussian (LoG) -funktio. Vasemmalta ylhäältä: 1. Funktion 3- ulotteinen kuvaaja 2. Funktion kuva, jossa valkoinen vastaa positiivisia ja musta negatiivisia arvoja. 3. Funktion poikkileikkaus. 4. Funktiota approksimoiva 5 5-maski. jossa r 2 = x 2 + y 2. Tämän funktion ja kuvan konvoluutio sumentaa kuvaa, ja parametri σ määrää sumentumisen voimakkuuden. Laskemalla funktion toinen derivaatta saadaan ( r 2 2 σ 2 ) h(r) = e r2 2σ 2. ( ) Tätä kutsutaan Laplacian of Gaussian (LoG)-funktioksi. Kuvassa 10.3 on tämän funktion kuva ja poikkileikkaus sekä 5 5-maski, joka approksimoi LoG-funktiota. Toinen derivaatta on lineaarinen operaattori, joten kuvan konvoluutio Gaussin funktion kanssa ja Laplace-operaattorin soveltaminen tulokseen tuottaa saman tuloksen kuin kuvan konvoluutio 2 h-funktion kanssa. Tasoittava Gaussin funktio poistaa kuvasta kohinaa, joten LoG-funktio on vähemmän herkkä kohinalle kuin pelkkä Laplaceoperaattori. σ REUNOJEN YHDISTELY Edellä kuvatut reunojenilmaisutekniikat eivät yleensä tuota täydellistä lopputulosta: kohina, epätasainen valaistus jne aiheuttavat reunojen ilmaisun tulokseen erilaisia häiriöitä kuten vääriä tunnistettuja reunoja tai reunoissa olevia katkoksia. Näitä häiriöitä pyritään poistamaan menetelmillä, jotka yhdistelevät reunapisteitä merkityksellisiksi reunoiksi.

107 104 KUVAN SEGMENTOINTI Paikallinen käsittely Yksinkertainen tapa reunapisteiden yhdistelyyn on tutkia jokaisen reunapisteeksi merkityn pikselin naapurustoa (esim. 3 3 tai 5 5) ja leimata kaksi pikseliä samaan reunaan kuuluviksi jos ne ovat riittävän samanlaisia määrättyjen kriteerien mukaan. Tämä voidaan tehdä tutkimalla gradientin magnitudia ja suuntaa reunapisteissä. Täsmällisemmin ilmaistuna pikseli (x 0, y 0 ) pikselin (x, y) määrätyssä naapurustossa merkitään samaan reunaan kuuluvaksi jos gradientin magnitudit ja suunnat näissä pisteissä ovat riittävän samanlaiset eli ja f(x, y) f(x 0, y 0 ) E (10.2-1) α(x, y) α(x 0, y 0 ) < A, (10.2-2) joissa E ja A ovat ennalta määrätyt rajat. Tämä menettely toistetaan kuvan jokaisessa pikselissä, jolloin tuloksena saadaan joukko reunoja, jotka koostuvat toisiinsa yhdistetyistä reunapisteistä. Hough-muunnos Hough-muunnosta voidaan käyttää erilaisten parametristen käyrien kuten suorien tai ympyröiden etsimiseen kuvasta. Muunnos esitellään tässä kappaleessa käyttäen suoria esimerkkinä, mutta se soveltuu myös muunlaisten käyrien etsintään. Tutkitaan kuvapistettä (x i, y i ). Kaikki tämän pisteen kautta kulkevat suorat toteuttavat yhtälön y i = ax i + b, jossa a ja b ovat suoran parametrit. Kirjoitetaan yhtälö muotoon b = x i a + y i, jolloin huomataan, että kaikki yhtälön toteuttavat (a, b)- parit muodostavat suoran (ab)-tasossa eli parametriavaruudessa. Toisen kuvapisteen (x j, y j ) kautta kulkevat suorat vastaavat toista suoraa parametriavaruudessa. Nämä kaksi parametriavaruuden suoraa leikkaavat pisteessä (a, b ), jossa a ja b ovat kuvapisteiden (x i, y i ) ja (x j, y j ) kautta kulkevan suoran kulmakerroin ja vakiotermi. Kun otetaan mikä tahansa piste (x, y) suoralta y = a x+b ja piirretään tätä pistettä vastaava suora (ab)-tasossa, suora kulkee pisteen (a, b ) kautta. Tämä on havainnollistettu kuvassa Kun Hough-muunnosta käytetään suorien etsimiseen, parametriavaruus kvantisoidaan eli jaetaan laskurisoluihin (accumulator cells). Solu (i, j), jota vastaa laskurin arvo A(i, j) on suorakaiteen muotoinen alue parametriavaruuden pisteen (a i, b j ) ympärillä. Alussa kaikkien laskureiden arvo on 0. Tämän jälkeen jokaisessa kuvan reunapisteessä (x k, y k ) käydään läpi kaikki a:n kvantisoidut arvot a p, ratkaistaan vastaava b = x k a p + y k, pyöristetään se lähimpään kvantisoituun arvoon b q ja kasvatetaan laskurin A(p, q) arvoa yhdellä. Kun kaikki reunapisteet on käyty läpi, laskurin A(i, j) arvo kertoo, kuinka monta suoralla y = a i x + b j olevaa reunapistettä kuvassa on. Suoran yhtälössä y = ax+b ongelmana on, että kulmakerroin a lähestyy ääretöntä kun suora lähestyy pystysuoraa. Siksi Hough-muunnoksessa suoran yhtälö esitetään usein normaalimuodossa xcosθ + y sin θ = ρ, (10.2-3)

108 REUNOJEN YHDISTELY 105 Kuva 10.4 Vasen: xy-taso. Oikea: parametriavaruus eli ab-taso. Kuva 10.5 Suoran normaalimuodon x cos θ + y sin θ = ρ parametrien geometrinen tulkinta jossa θ ja ρ ovat suoran parametrit, joiden geometrinen tulkinta on esitetty kuvassa Nyt Hough-muunnoksessa (θρ)-parametriavaruus jaetaan laskurisoluihin ja muunnos tehdään edellä esitetyllä periaatteella. Kuten kappaleen alussa mainittiin, Hough-muunnosta voi käyttää myös muiden käyrien etsimiseen. Esimerkiksi ympyröitä (x c 1 ) 2 + (y c 2 ) 2 = c 2 3 (10.2-4) voidaan etsiä samalla menettelyllä. Nyt parametriavaruus on 3-ulotteinen ja laskurisolut (i, j, k) suorakulmaisen särmiön muotoisia. Muunnoksessa jokaisen pikselin kohdalla käydään läpi kaikki (c 1, c 2 )-parit, ratkaistaan paria vastaava c 3 ja kasvatetaan kolmikkoa vastaavaa laskuria A(i, j, k). Reunojen yhdistelyssä Hough-muunnosta käytetään seuraavasti: 1. Lasketaan kuvan gradientti ja kynnystetään se, jolloin saadaan binäärikuva 2. Jaetaan ρθ-taso laskurisoluihin 3. Etsitään laskurisoluista maksimikohtia

109 106 KUVAN SEGMENTOINTI Kuva 10.6 Harmaasävyhistogrammit joiden perusteella kohde voidaan erottaa taustasta yhtä tai useampaa raja-arvoa käyttäen. 4. Tutkitaan valittua solua vastaavan suoran jatkuvuutta. Suuria katkoksia sisältävät suorat voidaan hylätä ja pienet katkokset voidaan täyttää KYNNYSTÄMINEN Kynnystäminen (thresholding) on yksi tärkeimpiä segmentointimenetelmiä. Kuvassa 10.6 on esitetty harmaasävyhistogrammi kuvasta, jossa on vaaleita kohteita tummalla taustalla. Jos kohteet ovat erotettavissa taustasta pelkän harmaasävyn perusteella, voidaan valita kynnys T ja leimata kuvapikselit siten että piste (x, y) leimataan kohteeseen kuuluvaksi jos f(x, y) > T ja taustaan kuuluvaksi muulloin. Kuvassa 10.6 oikealla on harmaasävyhistogrammi kuvasta, jossa on kahteen eri luokkaan kuuluvia kohteita ja kohteet ovat erotettavissa sekä toisistaan että taustasta pelkän harmaasävyn perusteella. Tällöin voidaan käyttää monitasoista kynnystämistä: Pikseli leimataan taustaan kuuluvaksi, jos f(x, y) T 1, kohteeseen 1 kuuluvaksi jos T 1 < f(x, y) T 2 ja kohteeseen 2 kuuluvaksi jos f(x, y) > T 2. Yleisemmin kynnystäminen on operaatio, jossa jokaisen pikselin arvoa verrataan funktion T arvoon. T on muotoa T = T[x, y, p(x, y), f(x, y)], (10.3-1) jossa f(x, y) on pikselin (x, y) harmaasävy ja p(x, y) on jokin pisteen (x, y) ympäristön ominaisuus, esimerkiksi pisteen naapuruston keskimääräinen harmaasävy. Kynnystetty kuva g(x, y) on g(x, y) = { 1, kun f(x, y) > T 0, kun f(x, y) T. (10.3-2) Jos T riippuu vain f(x, y):stä, kynnystäminen on globaalia. Jos T riippuu sekä f(x, y):stä että p(x, y):stä, kynnystämistä on paikallista ja jos T lisäksi riippuu koordinaateista x ja y, kynnystämistä sanotaan dynaamiseksi tai adaptiiviseksi.

110 KYNNYSTÄMINEN 107 Kuva 10.7 (a) Tietokoneella generoidun kuvan heijastuskomponentti. (b) Heijastuskomponentin histogrammi. (c) Valaistuskomponentti. (d) Heijastus- ja valaistuskomponentin tulona saatava kuva. (e) Tulokuvan histogrammi. Valaistuksen vaikutus Kappaleessa 2.3 esitettiin, että kuva f(x, y) muodostuu heijastuskomponentin r(x, y) ja valaistuskomponentin i(x, y) tulona. Kuvassa 10.7 on esimerkki, kuinka tämä vaikuttaa globaaliin kynnystykseen. Kuvassa on (a) tietokoneella generoidun kuvan heijastuskomponentti r(x, y) ja (b) tämän histogrammi: tässä vaiheessa kohde on erotettavissa taustasta yksinkertaisella globaalilla kynnystyksellä. Kun heijastuskomponentti kerrotaan kuvassa esitetyllä valaistuskomponentilla (c), tuloskuvan (d) histogrammista (e) nähdään, että tuloskuvassa kohde ja tausta eivät enää ole erotettavissa globaalilla kynnystyksellä. Epätasaisen valaistuksen aiheuttamia ongelmia voidaan osittain korjata käyttämällä paikallista kynnystystä. Toinen vaihtoehto on kuvata tasainen vaalea levy samoissa valaistusolosuhteissa joissa alkuperäinen kuva on otettu. Tällöin saadaan kuva g(x, y) = ki(x, y), jossa k on pinnan heijastusominaisuutta kuvaava vakio. Nyt jakamalla f(x, y) kuvalla g(x, y) ja sijoittamalla f:n ja g:n lausekkeet saadaan

111 108 KUVAN SEGMENTOINTI h(x, y) = f(x, y)/g(x, y) = r(x, y)i(x, y)/ki(x, y) = r(x, y)/k, jolloin epätasaisen valaistuksen vaikutus on saatu poistettua. Globaali kynnystäminen Yksinkertaisin kynnystämismenetelmä on jakaa histogrammi kahteen osaan käyttäen globaalia kynnysarvoa T. Käyttäjä voi valita kynnysarvon histogrammia tarkastelemalla tai kynnysarvon määrämiseen voidaan käyttää seuraavaa iteratiivista algoritmia: 1. Valitse T :lle alkuarvaus. 2. Segmentoi kuva kahteen osaan käyttäen T :tä kynnysarvona: G 1 :een kuuluvat pikselit, joiden harmaasävy on suurempi kuin T ja G 2 :een pikselit, joiden harmaasävy on sama tai pienempi kuin T. 3. Laske G 1 :een ja G 2 :een kuuluvien pikseleiden keskimääräiset harmaasävyt µ 1 ja µ Laske uusi kynnysarvo T = 1 2 (µ 1 + µ 2 ). 5. Jos T :n muutos edellisessä kohdassa oli pienempi kuin ennalta asetettu raja T 0, lopeta. Muuten palaa kohtaan 2. Jos tausta ja segmentoitavat kohteet ovat kuvassa pinta-alaltaan suurin piirtein saman kokoisia, hyvä alkuarvaus T :lle on kuvan keskimääräinen harmaasävy. Mikäli jompikumpi on pinta-alataan selvästi toista suurempi, kannattaa alkuarvauksena käyttää kuvan minimi- ja maksimiharmaasävyn puoliväliä. Kuvassa 10.8 on esimerkki sormenjälkeä esittävästä harmaasävykuvasta ja tämän histogrammista. Edellä esitellyllä iteratiivisella algoritmilla saatiin globaaliin kynnystykseen kynnysarvo 125,4 kun käytettiin pysäytyskriteeriä T 0 = 0 ja keskimääräistä harmaasävyä alkuarvauksena. Kynnystys tällä arvolla tuottaa varsin hyvän binäärikuvan. Optimaalinen kynnystäminen Oletetaan, että kuvassa on kaksi harmaasävyaluetta (esim. kohde ja tausta) ja merkitään mielivaltaisen pikselin harmaasävyä z:lla. Koko kuvan harmaasävyt noudattavat jakaumaa p(z), joka on kohteen ja taustan harmaasävyjakaumien painotettu summa. Jos nämä harmaasävyjakaumat tunnetaan tai voidaan estimoida riittävän hyvin, voidaan laskea kynnysasrvo joka johtaa pienimpään mahdolliseen keskimääräiseen kynnystysvirheeseen. Kuvassa 10.9 on esimerkki harmaasävykuvan kohteen ja taustan harmaasävyjakaumista. Merkitään p 1 (z):lla kohteen harmaasävyjakaumaa ja P 1 :llä kohteeseen kuuluvien pikselien suhteellista määrää kuvassa eli todennäköisyyttä, että kuvasta

112 KYNNYSTÄMINEN 109 Kuva 10.8 Sormenjälkeä esittävä harmaasävykuva, tämän histogrammi ja globaalilla kynnystyksellä saatu binäärikuva. Kuva 10.9 Harmaasävykuvan kahden alueen harmaasävyjakaumat.

113 110 KUVAN SEGMENTOINTI satunnaisesti valittu pikseli kuuluu kohteeseen. Vastaavastu p 2 (z):lla ja P 2 :lla merkitään taustan harmaasävyjakaumaa ja taustapikselien suhteellista määrää. Nyt koko kuvan harmaasävyjakauma on p(z) = P 1 p 1 (z) + P 2 p 2 (z). (10.3-5) Oletetaan, että kuvan kaikki pikselit kuuluvat joko kohteeseen tai taustaan jolloin P 1 + P 2 = 1. (10.3-6) Kynnystetään kuva siten, että kaikki pikselit joiden harmaasävy on suurempi kuin T leimataan taustaan kuuluviksi. Tarkoitus on valita T siten että keskimääräinen virheen todennäköisyys minimoituu. Nyt todennäköisyys, että taustan pikseli leimataan virheellisesti kohteeseen kuuluvaksi, on E 1 (T) = T p 2 (z)dz. (10.3-7) Tämä arvo vastaa p 2 (z):n alle jäävän alueen pinta-alaa T :n vasemmalla puolella. Vastaavasti todennäköisyys, että kohteen pikseli leimataan virheellisesti taustaan kuuluvaksi on E 2 (T) = T p 1 (z)dz, (10.3-8) joka vastaa p 1 (z):n alle jäävän alueen pinta-alaa T :n oikealla puolella. Nyt kynnystysvirheen kokonaistodennäköisyys on E(T) = P 2 E 1 (T) + P 1 E 2 (T). (10.3-9) E(T):n minimikohta löydetään derivoimalla se T :n suhteen ja määräämällä derivaatta nollaksi. Tästä saadaan P 1 p 1 (T) = P 2 p 2 (T). ( ) Optimaalinen kynnysarvo saadaan ratkaisemalla yhtälö T :n suhteen. Yhtälön analyyttinen ratkaiseminen edellyttää, että kohteen ja taustan harmaasävyjen todennäköisyysjakaumien lausekkeet tunnetaan. Jos sekä kohteen että taustan harmaasävyt ovat normaalijakautuneet keskiarvoilla µ 1 ja µ 2 ja variansseilla σ 2 1 ja σ 2 2 eli yhtälö saadaan muotoon jossa p(z) = P (z µ 1 ) 2 1 2σ e P (z µ 2 ) 2 2 2σ e 2 2, ( ) 2πσ1 2πσ2 AT 2 + BT + C = 0, ( ) A = σ 2 1 σ2 2 B = 2(µ 1 σ 2 2 µ 2 σ 2 1) ( ) C = σ 2 1 µ2 2 σ2 2 µ σ2 1 σ2 2 ln(σ 2P 1 /σ 1 P 2 ).

114 ALUELÄHTÖINEN SEGMENTOINTI 111 Kuva Esimerkki optimaalisesta kynnystämisestä. Kuvassa on esimerkki optimaalisesta kynnystyksestä. Tavoitteena on sydämen kammioiden automaattinen rajaaminen röntgenkuvista, joissa on käytetty varjoainetta. Kuvassa vasemmalla on alkuperäinen röntgenkuva. Tälle suoritettiin esikäsittelytoimenpiteinä harmaasävyjen logaritminen kuvaus, ilman varjoainetta otetun kuvan vähennys ja usean kuvan keskiarvon laskeminen kohinan vähentämiseksi. Esikäsitelty kuva on kuvassa keskellä. Esikäsitelty kuva jaettiin osittain päällekkäin meneviin pikselin ikkunoihin (esim A ja B). Jatkoon valittiin ne ikkunat, joiden harmaasävyhistogrammi on kaksihuippuinen. Valituille ikkunoille etsittiin optimaaliset kynnykset olettamalla harmaasävyjakauma kahden normaalijakauman painotetuksi summaksi ja muille ikkunoille kynnykset interpoloitiin lähimpien kaksihuippuisten ikkunoiden kynnysarvoista. Lopuksi jokaiselle pikselille (x, y) interpoloitiin oma kynnysarvo T xy. Näillä kynnysarvoilla saatiin kuvassa oikealla oleva segmentointi. Huomaa, että koska kynnysarvo T riippuu koordinaateista (x, y), kyseessä on adaptiivinen kynnystäminen ALUELÄHTÖINEN SEGMENTOINTI Aikaisemmissa kappaleissa on käsitelty kuvan segmentoimista reunoja etsimällä tai harmaasävyjä kynnystämällä. Tässä kappaleessa käsitellään aluelähtöisiä segmentointimenetelmiä, jotka perustuvat alueiden kasvattamiseen tai jakamiseen siten, että pidetään huoli, että syntyneet alueet ovat yhtenäisiä ja homogeenisia. Merkitään R:llä koko kuva-aluetta. Segmentointi voidaan käsittää prosessiksi, jossa R jaetaan osiin R 1, R 2,..., R n siten, että 1. n i=1 R i = R. 2. R i on liittynyt alue kaikilla i. 3. R i R j = kaikilla i ja j, i j. 4. P(R i ) = TOSI kaikilla i 5. P(R i R j ) = EPÄTOSI kaikilla i j

115 112 KUVAN SEGMENTOINTI Kuva Esimerkki segmentoinnista alueen kasvatus -algoritmilla. Vasemmalta ylhäältä: 1. Alkuperäinen kuva. 2. Siemenpisteet. 3. Tuloksena saatu segmentointi. 4. Tuloksena saatu segmentointi ja alkuperäinen kuva yhdistettynä. Kahdessa viimeisessä kohdassa P(R i ) tarkoittaa alueen R i homogeenisuutta mittaavaa ehtoa, esim. P(R i ) = TOSI kun kaikkien R i :hin kuuluvien pikselin harmaasävy on sama. Alueen kasvatus Alueen kasvatuksessa aloitetaan segmentointi yksittäisistä siemenpikseleistä tai pienistä alueista, joihin liitetään homogeenisuusehdon täyttäviä naapuripikseleitä tai - alueita. Siemenpikselien valinta voi perustua ongelman luonteesta olevaan etukäteistietoon ongelmasta riippuen siemenpisteiksi voidaan valita esimerkiksi kuvan kirkkaimmat tai tummimmat pisteet. Toinen vaihtoehto on laskea alueita kuvaavat piirteet kuvan jokaisessa pikselissä, klusteroida saadut tulokset ja valita lähellä klustereiden keskipistettä olevat pikselit siemenpikseleiksi. Alueiden homogeenisuutta mittaavina piirteinä voidaan käyttää esimerkiksi harmaasävyjä, värejä tai seuraavassa luvussa esiteltäviä tekstuuri- tai muita piirteitä. Lisäksi alueiden liittyvyys ja yhtenäisyys tulee ottaa huomioon ongelmasta riippuen: yksittäinen tummempi pikseli kirkkaalla alueella voi olla yhdessä ongelmassa kohinan aiheuttama mutta toisessa ongelmassa merkityksellinen erillinen alue. Lisäksi algoritmille täytyy määrittää pystäyttämiskriteerit jotka määräävät, missä vaiheessa alueen kasvattaminen lopetetaan. Peruslähtökohtana tässä on, että alueen kasvattaminen lopetetaan kun alueen ympäristössä ei ole enää homogeenisuuskriteerin täyttäviä pikseleitä.

116 ALUEEN JAKAMINEN JA YHDISTÄMINEN 113 Kuva Kahdeksaan osaan jaettu kuva ja jakoa vastaava nelipuuesitys. Kuvassa on esimerkki alueen kasvatukseen perustuvasta segmentoinnista. Tavoitteena on etsiä virheitä (halkeamia ja huokoisia kohtia) juotoksesta otetusta röntgenkuvasta. Kuvassa juotoksen virheet ja tausta ovat harmaasävyltään osapuilleen samoja joten pelkkä harmaasävyjen kynnystys ei toimi. Tiedossa on, että juotoksen virheet näkyvät kuvassa kirkkaina, joten siemenpisteiksi valittiin pikselit joiden harmaasävy on 255. Tämän jälkeen suoritettiin alueen kasvatus -algoritmi, jossa alueeseen liitettiin sen 8-naapuri, jos uuden pikselin ja siemenpikselien harmaasävyn erotus on korkeintaan 65. Tuloskuvasta nähdään, että alueen kasvatuksella päästiin hyvään segmentointitulokseen ALUEEN JAKAMINEN JA YHDISTÄMINEN Edellä kuvattiin aluepohjainen segmentointimenetelmä, jossa segmentointi aloitetaan yksittäisistä pisteistä ja alueeseen liitetään naapuripikseleitä. Toinen vaihtoehto on aloittaa jollakin aluejaolla ja jakaa alueita pienempiin osiin tai yhdistellä vierekkäisiä alueita homogeenisuuskriteerin perusteella. Yleisin tapa on käyttää ns. nelipuuesitystapaa (quad tree), jossa kuva jaetaan neljään osaan, joista kukin edelleen neljään jne. niin kauan että alueille on voimassa P(R i ) = TOSI. Tuloksena saadaan esim. kuvan mukainen nelipuuesitys. Jakamisprosessin tuloksena saadaan pieniä alueita, joista vierekkäiset voivat olla hyvin samankaltaisia. Siksi tarvitaan yhdistelyvaihe jossa kaksi vierekkäistä aluetta yhdistetään, jos ne ovat riittävän samanlaiset. Yhdistämällä nämä kaksi vaihetta saadaan seuraava algoritmi: 1. Jaa neljään osaan alue R i jolle on voimassa P(R i ) = EPÄTOSI. 2. Yhdistä kaksi vierekkäistä aluetta R i ja R j, jos on voimassa P(R i R j ) = TOSI 3. Lopeta, kun mitään aluetta ei enää tarvitse jakaa eikä vierekkäisiä alueita voida yhdistää.

117 114 KUVAN SEGMENTOINTI 10.6 WATERSHED-MENETELMÄ SEGMENTOINNISSA Watershed (vesialue) -menetelmä on segmentointialgoritmi joka perustuu morfologisiin operaattoreihin. Toisin kuin reunanilmaisumenetelmät, se tuottaa aina jatkuvat rajat alueiden välille. Menetelmän toinen etu on, että sitä käytettäessä voidaan helposti hyödyntää käytettävissä olevaa a priori -tietoa segmentointiongelmasta. Watershed-menetelmässä kuva käsitetään kolmiulotteiseksi pinnaksi: x ja y ovat paikkakoordinaatteja ja harmaasävy f(x, y) kertoo ko. pisteen korkeuden. Nyt pinnan pisteet voidaan jakaa kolmeen luokkaan: 1. Paikallisiin minimeihin kuuluvat pisteet 2. Pisteet, joihin pudotettu vesipisara valuu aina tiettyyn paikalliseen minimikohtaan 3. Pisteet, joihin tiputettu vesipisara voi valua yhtä todennäköisesti useampaan eri minimikohtaan. Tyypin (1) pisteet vastaavat siis kuoppien pohjia. Tyypin (2) pisteet vastaavat rinteitä ja paikallinen minimi sekä kaikki siihen liittyvät tyypin (2) pisteet muodostavat yhden vesialueen (catchment basin, watershed). Tyypin (3) pisteet ovat harjanteita, vedenjakajia (watershed lines). Segmentoinnin tavoitteena on löytää kuvan vedenjakajat. Menetelmän perusidea on seuraava: Jokaisen paikallisen minimin pohjaan tehdään reikä joiden kautta pintaa lähdetään täyttämään vedellä alhaalta päin siten, että veden pinta on joka hetkellä samalla korkeudella kaikissa pinnan osissa. Juuri kun vesi on tulvimassa jonkin vedenjakajan yli, tulvimiskohtaan tehdään pato, joka on korkeampi kuin mikään pinnan piste. Kun veden pinta on nostettu riittävän korkealle, näkyvissä ovat enää nämä padot, jotka muodostavat kuvan segmentoinnin. Watershed-menetelmä soveltuu erityisen hyvin tasaisten alueiden erottelemiseen taustasta. Sitä sovelletaan usein alkuperäisen kuvan sijasta gradienttikuvaan. Watershed-menetelmän toteutuksen yksityiskohtia ei käsitellä tässä kurssissa. Kuvassa on esimerkki kuvasta jossa on tummia läiskiä vaalealla taustalla ja segmentointituloksesta, joka saadaan kun watershed-menetelmää sovelletaan gradienttikuvaan. Menetelmä aiheuttaa selvästi ylisegmentointia, mikä on tyypillistä watershed-algoritmille. Ongelmaa voidaan lievittää vähentämällä segmentoinnin kannalta turhia yksityiskohtia tasoittavalla suodatuksella ja nk. markkereiden käytöllä. Kuvaan määritellään kohteeseen kuuluvia (internal) ja taustaan kuuluvia (external) markkereita. Tämän esimerkin tapauksessa kohteeseen kuuluviksi markkereiksi määritellään alueet, jotka ovat liittyneitä, identtisiä harmaasävyltään ja ympäristöään tummempia. Tämän määritelmän mukaiset markkerit on esitetty kuvassa vasemmalla vaaleanharmaina alueina. Nyt watershed-segmentointi suoritetaan siten, että ainoastaan kohteeseen kuuluvat markkerit sallitaan paikallisiksi minimeiksi. Tämä tuottaa kuvassa vasemmalla olevan segmentoinnin. Kun nyt gradienttikuvalle suoritetaan watershed-segmentointi kussakin markkereiden määräämässä alueessa erikseen, saadaan kuvassa oikealla oleva segmentointitulos.

118 WATERSHED-MENETELMÄ SEGMENTOINNISSA 115 Kuva Vasen: segmentoitava kuva. Oikea: Gradienttikuvasta watershed-menetelmällä saatu segmentointitulos. Kuva Vasen: kohteeseen ja taustaan kuuluvat markkerit. Oikea: markkereita käyttämällä saatu segmentointitulos.

119 116 KUVAN SEGMENTOINTI Markkereiden valinnassa segmentointialgoritmia autetaan kyseistä segmentointiongelmaa koskevalla a priori -tiedolla. Markkereiden automaattiseen valintaan voidaan käyttää harmaasävyjä ja liittyvyyttä kuten edellä esitetyssä esimerkissä tai monimutkaisempia kuvaajia kuten alueiden kokoa, muotoa, etäisyyksiä, tekstuuria, jne LIIKKEEN KÄYTTÖ SEGMENTOINNISSA Jos käytettävissä on useita ajallisesti peräkkäisiä kuvia, joiden välillä kohde on liikkunut, liiketietoa voidaan käyttää segmentoinnissa. Olkoot f(x, y, t i ) ja f(x, y, t j ) kaksi kuvaa jotka on otettu ajanhetkillä t i ja t j. Kuvien välinen erotuskuva määritellään { 1 kun f(x, y, ti ) f(x, y, t d i,j (x, y) = j ) > T 0 muulloin, (10.6-1) jossa T on kynnysarvo. Tuloksena saatavassa kuvassa on siis arvo 1 niissä pisteissä, joiden harmaasävy on muuttunut yli T :n verran kuvien f(x, y, t i ) jaf(x, y, t j ) välillä. Erotuskuva on käyttökelpoinen sellaisenaan vain kun kamera ei ole liikkunut kuvien ottamisen välillä, valaistuksessa ei ole tapahtunut muutoksia ja kohina on vähäistä. Kohinan vaikutusta voidaan vähentää etsimällä erotuskuvasta 4- tai 8-liittyneet alueet ja poistamalla alueet jotka ovat pinta-alaltaan haluttua raja-arvoa pienempiä eli alueet jotka ovat todennäköisesti kohinan aiheuttamia. Useita erotuskuvia summaamalla saadaan näkyviin kohteen jälki kuvassa. Jos käytössä on kuvasekvenssi f(x, y, t 1 ),..., f(x, y, t n ) sekä referenssikuva R(x, y), voidaan määritellä absoluuttinen, positiivinen ja negatiivinen kertymäerotuskuva (accumulative difference image, ADI) seuraavasti: ja { Ak 1 (x, y) + 1 kun R(x, y) f(x, y, t A k (x, y) = k ) > T A k 1 (x, y) muulloin, { Pk 1 (x, y) + 1 kun R(x, y) f(x, y, t P k (x, y) = k ) > T P k 1 (x, y) muulloin { Nk 1 (x, y) + 1 kun R(x, y) f(x, y, t N k (x, y) = k ) < T N k 1 (x, y) muulloin. (10.6-2) (10.6-3) (10.6-4) Liikkeen analysointi on yksi keskeisimpiä konenäön tutkimuskohteita, ja siihen on kehitetty useita erilaisia menetelmiä. Tässä esitettyjen hyvin yksinkertaisten paikkatason menetelmien lisäksi kurssikirjassa esitellään taajuustason menetelmiä liikkeen analysointiin, mutta niitä ei käsitellä tässä kurssissa.

120 11 Esitystavat ja kuvaukset 11.1 ESITYSTAVAT Tässä kappaleessa käsitellään esitystapoja, joilla segmentoidun kuvan osat voidaan esittää kompaktimmassa muodossa. Ketjukoodit Ketjukoodeja (chain codes) käytettäessä kuvan komponentin rajaviiva esitetään jonona tietyn pituisia, erisuuntaisia janoja. Kunkin rajasegmentin suunta koodataan kuvassa 11.1 esitetyllä tavalla. Ketjukoodi muodostetaan aloittamalla jostain rajapisteestä, seuraamalla rajaa myötäpäivään ja koodaamalla rajasegmentit kuvassa 11.1 esitetyllä tavalla. Tämä menetelmä ei kuitenkaan ole monissa tapauksissa käyttökelpoinen sellaisenaan, koska tuloksena saatava ketjukoodi on varsin pitkä ja herkkä kohinasta tai epätäydellisestä segmentoinnista johtuville häiriöille. Usein parempi tulos saadaan näytteistämällä rajaviiva suuremmalla ristikolla. Tästä on esimerkki kuvassa Syntynyt ketjukoodi on riippuvainen näytteenottoristikon koosta ja rajaviivan seurannan aloituspisteestä. Ketjukoodi voidaan normalisoida aloituspisteen valinnasta riippumattomaksi käsittämällä koodi kiertäväksi (circular) ja valitsemalla koodin aloituspiste uudelleen siten, että tuloksena saatavan numerosekvenssin muodostama kokonaisluku saa pienimmän arvon. Normalisointi rotaation suhteen tehdään käyttämällä koodin ensimmäistä erotusta. Tämä tarkoittaa, että kukin luku sekvenssissä korvataan kahden peräkkäisen rajasegmentin suuntaerolla eli ko. luvun ja edellisen luvun erotuksella. Koodi käsitetään 117

121 118 ESITYSTAVAT JA KUVAUKSET Kuva 11.1 Erisuuntaisten rajasegmenttien koodaus ketjukoodissa käytettäessä 4- tai 8- liittyvyyttä. Kuva 11.2 Esimerkki rajaviivan koodauksesta ketjukoodauksella. Ylhäältä vasemmalta: 1. Alkuperäisen rajaviivan pisteet ja näytteistysristikko. 2. Alinäytteistyksen tulos. 3. Ketjukoodi käyttäen 4-liittyvyyttä. 3. Ketjukoodi käyttäen 8-liittyvyyttä.

122 ESITYSTAVAT 119 Kuva 11.3 Pienimmän ympärysmitan monikulmioapproksimaation muodostaminen. 1. Ympäröidään rajaviiva halutunkokoisella solukolla. 2. Kutistetaan rajaviivaa niin että se juuri mahtuu solukon sisään jolloin saadaan pienimmän ympärysmitan monikulmioapproksimaatio. kiertäväksi joten ensimmäinen luku korvataan ensimmäisen ja viimeisen luvun erotuksella. Näin esimerkiksi 4-suuntaisen koodin ensimmäiseksi erotukseksi saadaan Normalisointi koon suhteen voidaan tehdä käyttämällä erikokoisia näytteistysristikoita. Monikulmioapproksimaatiot Digitaalista rajaviivaa voidaan approksimoida monikulmiolla halutulla tarkkuudella. Suljetulle käyrälle approksimaatio on tarkka kun monikulmion segmenttien määrä on sama kuin rajaviivan pisteiden lukumäärä. Tavoitteena on säilyttää oleellinen tieto alueesta mahdollisimman pienellä segmenttien määrällä. Parhaan mahdollisen monikulmioapproksimaation löytäminen on kuitenkin vaikeaa. Pienimmän ympärysmitan monikulmioiden etsintä tapahtuu kuvassa 11.3 esitetyllä tavalla: rajaviiva ympäröidään valitunkokoisilla soluilla. Tämän jälkeen rajaviivaa lyhennetään siten, että saadaan lyhin mahdollinen rajaviiva joka juuri mahtuu solujen sisään. Tuloksena saatu rajaviiva on pienimmän ympärysmitan monikulmioapproksimaatio valitun solukon mielessä. Yhdistämismenetelmät (merging techniques) liittävät yhdeksi segmentiksi rajaviivan vierekkäisisä pisteitä kunnes approksimaatiovirhe tai muu kriteeri täyttyy. Kun kriteeri on täyttynyt, segmentin parametrit pannaan muistiin ja aloitetaan seuraavan segmentin muodostaminen. Menetelmän suurin ongelma on, että tuloksena saadun monikulmioapproksimaation kulmapisteet eivät ole tarkalleen samoissa kohdissa kuin alkuperäisessä rajaviivassa. Katkaisumenetelmät (splitting techniques) puolestaan aloittavat erittäin karkeasta approksimaatiosta ja jakavat rajaviivasegmenttejä pienempiin osiin kunnes annettu kriteeri täyttyy (esim. maksimi kohtisuora etäisyys alkuperäisen rajaviivan ja tarkasteltavan viivasegmentin välillä on pienempi kuin annettu kynnysarvo). Suljetulle

123 120 ESITYSTAVAT JA KUVAUKSET Kuva 11.4 Esimerkkejä signatuureista jotka on saatu mittaamalla rajaviivan etäisyys komponentin keskipisteestä kiertokulman funktiona. rajaviivalle sopivin aloitusapproksimaatio em. prosessille saadaan valitsemalla kaksi toisistaan kauimpana olevaa rajaviivan pistettä. Signatuurit Signatuuri on rajaviivan 1-ulotteinen esitystapa, jolla pyritään yksinkertaistamaan muodon analysointia. Yksinkertaisin tapa signatuurin muodostamiseen on mitata komponentin rajaviivan etäisyys keskipisteestä kiertokulman funktiona. Kuvassa 11.4 on kaksi esimerkkiä tällä tavoin saaduista signatuureista. Mainitut signatuurit ovat invariantteja translaatiolle eli komponentin siirrolle kuvassa, mutta riippuvaisia aloituspisteen valinnasta, rotaatiosta ja skaalauksesta. Normalisointi aloituspisteen valinnan ja rotaation suhteen voidaan tehdä valitsemalla aloituspisteeksi 1. kauimpana keskipisteestä oleva piste jos se on yksikäsitteinen 2. kauimpana pääominaisakselilla oleva piste (ominaisakselien laskentaa käsitellään myöhemmin tässä luvussa) tai 3. kappaleessa 11.1 kuvatulla tavalla normalisoitu ketjukoodin aloituspiste. Normalisointi koon suhteen voidaan tehdä skaalaamalla lopputulos siten, että kaikki arvot ovat välillä [0, 1]. Toinen tapa on jakaa kukin näyte signatuurin varianssilla. Näistä tavoista jälkimmäinen on yleensä vähemmän herkkä kohinalle, mutta siinä vaatimuksena on, että signatuurin varianssi on riittävän iso numeerisen epästabiilisuuden välttämiseksi. Etäisyys kulman funktiona ei ole ainoa tapa signatuurin laskemiseen. Signatuuri voidaan laskea myös esimerkiksi seuraamalla rajaviivaa ja laskemalla rajaviivan tangentin ja x-akselin välinen kulma rajapisteen sijaintipaikan funktiona.

124 ESITYSTAVAT 121 Kuva 11.5 Vasen: joukko S ja sen konveksi vajaus (merkitty harmaalla). Oikea: S:n rajaviivan jako segmentteihin konveksin vajauksen perusteella. Rajaviivan segmentit Rajaviivan jakaminen segmentteihin on hyödyllistä varsinkin jos raja sisältää merkittäviä koveria kohtia (convavities). Tällöin alueen konveksia verhoa (convex hull) ja konveksia vajausta (convex deficiency) voidaan käyttää rajaviivan jakamiseksi segmentteihin. Joukko on konveksi jos mikä tahansa suora leikkaa joukon rajaviivan korkeintaan kahdesti. Joukon S konveksi verho H on pienin konveksi joukko joka sisältää kokonaisuudessaan S:n ja näiden erotus H S on S:n konveksi vajaus. Nyt rajaviiva voidaan jakaa segmentteihin merkitsemällä ne kohdat joissa konveksi vajaus alkaa tai päättyy. Tästä on esimerkki kuvassa Käytännössä digitaalisista kuvista irotettujen komponenttien konveksi vajaus sisältää usein pieniä ja merkityksettömiä osia. Näitä voidaan vähentää rajaviivan esikäsittelyllä. Eräs vaihtoehto on käydä läpi rajaviivan kaikki pisteet ja korvata pisteen koordinaatit k:n lähimmän rajaviivaan kuuluvan pisteen koordinaattien keskiarvolla. Toinen vaihtoehto on laskea ensin rajaviivan monikulmioapproksimaatio ja tämän jälkeen monikulmion konveksi vajaus. Paitsi rajaviivan käsittelyssä konveksia verhoa ja vajausta voidaan käyttää myös alueen kuvaamisessa. Konveksin vajauksen pinta-alaa ja liittyneiden komponenttien lukumäärää ja suhteellisia sijainteja voidaan käyttää alueen kuvaajina. Alueen runko Alueen muoto voidaan esittää kompaktissa muodossa muodostamalla alueen runko (skeleton) ohennusmenetelmällä (thinning). Seuraavassa esitellään keskiakselimuunnos (Medial axis transform, MAT) alueen rungon määrittämiseen. Olkoon R alue, jonka runko halutaan määrittää ja B sen rajaviiva. Jokaiselle pisteelle p R etsitään lähin piste joka kuuluu B:hen. Jos tämä piste ei ole yksikäsitteinen eli jos on useampia lähimpiä pisteitä B:ssä jotka ovat samalla etäisyydellä p:stä, p kuuluu R:n keskiakseliin. Riippuen siitä, millaista etäisyysmittaa käytetään (ks. kappale 2.5), saadaan erilaisia keskiakseleita. Kuvassa 11.6 on esimerkkejä erilaisten alueiden keskiakseleista jotka on laskettu käyttäen euklidista etäisyyttä. Keskiakselimuunnoksen laskemiseksi pitää laskea alueen jokaisen sisäpisteen etäisyys alueen jokaiseen rajapisteeseen, joten keskiakselimuunnos on laskennallisesti

125 122 ESITYSTAVAT JA KUVAUKSET Kuva 11.6 Esimerkki kolmen erilaisen yksinkertaisen alueen keskiakselista (keskiakselit merkitty katkoviivalla). varsin raskas, eikä sitä siksi käytetä usein käytännön sovelluksissa. Kurssikirjassa esitellään laskennallisesti tehokkaampi menetelmä alueen rungon määrittämiseksi, mutta sitä ei käsitellä tarkemmin tässä kurssissa RAJAVIIVAN KUVAAJAT Yksinkertaisia kuvaajia Rajaviivan pituus on yksinkertaisimpia rajaviivan kuvaajia. Pituuden approksimaationa voidaan käyttää rajaviivaan kuuluvien pikselien lukumäärää. 8-liittyneestä ketjukoodiesityksestä pituuden approksimaatio saadaan laskemalla yhteen vaaka- ja pystysiirtymät sekä diagonaalisiirtymät 2:lla painotettuina. Rajaviivan halkaisija (diameter) on kauimpana toisistaan olevien rajapisteiden etäisyys: Diam(B) = max [D(p i, p j )], (11.2-1) i,j jossa D on jokin etäisyysmitta ja p i ja p j ovat pisteitä rajaviivalla. Kauimpana toisistaan olevia rajapisteitä yhdistävää janaa kutsutaan pääakseliksi (major axis). Pääakselia vastaan kohtisuora jana on rajaviivan sivuakseli (minor axis). Sivuakselin pituus määritellään siten, että rajaviiva mahtuu juuri ja juuri pää- ja sivuakselin virittämän suorakaiteen sisään. Tätä suorakaidetta kutsutaan rajaviivan perussuorakaiteeksi. Pääja sivuakselien pituuksien suhdetta kutsutaan rajaviivan eksentrisyydeksi. Kaarevuus (curvature) tarkoittaa rajaviivan kaltevuuden (slope) muutosnopeutta tietyssä pisteessä. Digitaalinen rajaviiva on epäjatkuva, mikä pitää ottaa huomioon kaltevuutta ja kaarevuutta laskettaessa. Tätä ongelmaa on havainnollistettu kuvassa Jos rajaviiva esitetään jonona viivasuoria segmenttejä, kaarevuuden approksimaatio saadaan peräkkäisten segmenttien kaltevuuksien erotuksesta. On syytä pitää mielessä, että segmenttien pituus vaikuttaa tuloksiin. Jos rajaviivaa kierretään myötäpäivään, kulmapisteen p sanotaan olevan rajaviivan konveksissa osassa jos kaarevuus pisteessä p on ei-negatiivinen ja konkaavissa osassa jos kaarevuus on negatiivinen.

126 RAJAVIIVAN KUVAAJAT Kuva 11.7 Esimerkki kaltevuudesta digitaalisessa kuvassa. Kuvassa olevassa digitaalisessa suorassa joissain pisteissä kaltevuus on 0 ja joissain pisteissä 45. Oikea kaltevuus on arctan 1/3 kaikissa pisteissä. Kuva 11.8 Esimerkki rajaviivan muodostavasta pistejoukosta ja sen kompleksisesta tulkinnasta sekä mielivaltaisesti valittu aloituspiste (x 0, y 0) sekä rajaviivalla sitä seuraava piste (x 1, y 1). Muotonumerot Kappaleessa 11.1 esitettiin, kuinka ketjukoodi voidaan normalisoida aloituspisteestä riippumattomaksi. Rajaviivan 4-suuntaiseen ketjukoodiin perustuva muotonumero (shape number) on suuruudeltaan pienin ketjukoodin ensimmäinen erotus. Muotonumeron kertaluku n tarkoittaa esitettävien koodinumeroiden lukumäärää. Jos rajaviiva on suljettu, n on parillinen. Ketjukoodin ensimmäinen erotus on rotaatiosta riippumaton, mutta rajaviivan ketjukoodi riippuu näytteistysristikon orientaatiosta. Tästä johtuvaa virhettä voidaan pienentää asettamalla näytteistysristikko rajaviivan perussuorakaiteen suuntaiseksi. Tuloksena saatavan muotonumeron kertalukuun voidaan vaikuttaa käyttämällä harvempaa tai tiheämpää näytteistysristikkoa.

127 124 ESITYSTAVAT JA KUVAUKSET Fourier-kuvaajat Kuvassa 11.8 on esimerkki rajaviivan muodostavasta pistejoukosta xy-tasossa. Näiden pisteiden voidaan ajatella muodostavan jonon s(k) = [x(k), y(k)], jossa k = 0, 1, 2,..., K 1. Jos pisteet ajatellaan kompleksitason pisteiksi jonolle voidaan tehdä diskreetti Fourier-muunnos s(k) = x(k) + jy(k), (11.2-2) a(u) = 1 K K 1 k=0 s(k)e j2πuk/k, (11.2-3) jossa u = 0, 1, 2,..., K 1. Kompleksisia kertoimia a(u) kutsutaan rajaviivan Fourier-kuvaajiksi (Fourier descriptors). Alkuperäinen rajaviiva voidaan palauttaa käänteisellä diskreetillä Fourier-muunnoksella. Jos käänteisessä muunnoksessa käytetään vain P :tä ensimmäistä kerrointa, saadaan approksimaatio ŝ(k) = P 1 u=0 a(u)e j2πuk/k, (11.2-5) jossa k = 0, 1, 2,..., K 1. Huomaa, että rajaviivan pisteitä ŝ(k) saadaan yhtä monta kuin niitä alun perinkin oli, mutta palauttamiseen käytetään vain P :tä kerrointa. Fourier-muunnoksen luonteen vuoksi ensimmäiset Fourier-kuvaajat, matalataajuiset komponentit, määräävät rajaviivan perusmuodon kun taas korkeataajuiset komponentit sisältävät tietoa rajaviivan yksityiskohdista. Taulukko 11.1 Fourier-kuvaajien ominaisuuksia Muunnos Rajaviiva Fourier-kuvaajat Ei muunnosta s(k) a(u) Rotaatio s r (k) = s(k)e jθ a r (u) = a(u)e jθ Translaatio s t (k) = s(k) + xy a t (u) = a(u) + xy δ(u) Skaalaus s s (k) = αs(k) a s (u) = αa(u) Aloituspiste s p (k) = s(k k 0 ) a p (u) = a(u)e j2πk0u/k Taulukossa 11.1 on kuvattu, kuinka erilaiset muutokset rajaviivassa vaikuttavat Fourier-kertoimiin. Taulukosta huomataan, että Fourier-kertoimien normalisointi translaation ja skaalauksen suhteen on varsin helppoa: translaatio vaikuttaa ainoastaan ensimmäiseen Fourier-kertoimeen, ja normalisointi skaalauksen suhteen voidaan tehdä esim. jakamalla kaikki kertoimet suurimman kertoimen magnitudilla. Fourierkertoimista voidaan johtaa myös kaikille taulukossa mainituille muunnoksille invariantit versiot, mutta tämä on monimutkaisempaa eikä sitä käsitellä tässä kurssissa.

128 RAJAVIIVAN KUVAAJAT 125 Kuva 11.9 Rajaviivasegmentti ja sen tulkinta 1-ulotteiseksi funktioksi g(r). Tilastolliset momentit Rajaviivasegmenttien (ja signatuurien) muoto voidaan esittää kvantitatiivisesti momenttien avulla. Tarkastellaan kuvan 11.9 rajaviivasegmenttiä. Segmentin kaksi pistettä yhdistetään janalla ja tämä jana käännetään x-akselin suuntaiseksi ja muut segmentin pisteet käännetään vastaavasti. Kierron tulos voidaan ajatella yksiulotteiseksi diskreetiksi funktioksi g(r). Kun g(r):n arvo (amplitudi) tulkitaan satunnaismuuttujaksi, sille voidaan laskea histogrammi p(v i ), i = 0, 1, 2,..., A 1, jossa A on diskreettien amplitudiinkrementtien lukumäärä. Nyt v:n n:s momentti saadaan kaavasta jossa A 1 µ n (v) = (v i m) n p(v i ), (11.2-9) m = i=0 A 1 i=0 v i p(v i ). ( ) Arvo m on v:n keskiarvo ja toinen momentti µ 2 on sen varianssi. Yleensä pari ensimmäistä momenttia riittää erilaisten signatuurien erottamiseen. Toinen vaihtoehto on normalisoida g(r) siten että sen summa on 1 ja tulkita g(r) todennäköisyysjakaumaksi. Nyt tämän jakauman momentit voidaan laskea kaavalla jossa K 1 µ n (r) = (r i m) n g(r i ), ( ) m = i=0 K 1 i=0 r i g(r i ). ( ) Esitetyillä menetelmillä rajaviivan kuvaaminen saadaan yksinkertaistettua 1-ulotteisten funktioiden kuvaamiseksi. Tilastolliset momentit ovat eniten käytetty menetelmä funktioiden kuvaamiseen, mutta myös muita menetelmiä on olemassa. Esimerkiksi funktion g(r) diskreetin Fourier-muunnoksen muutamaa ensimmäistä kerrointa voidaan käyttää kuvaajina.

129 126 ESITYSTAVAT JA KUVAUKSET Kuva Vasen: kompleksinen alue. Oikea: kompakti alue ALUEIDEN KUVAAJAT Yksinkertaisia kuvaajia Alueen pinta-ala (area) on siihen kuuluvien pikselien lukumäärä ja sen ympärysmitta (perimeter) on sen rajaviivan pituus. Alueen kompaktisuus määritellään ympärysmitan neliön ja pinta-alan suhteena. Se on periaatteessa invariantti skaalan ja orientaation muutoksille mutta käytännön digitaalisissa kuvissa näytteistämisen takia täydellistä invarianttisuutta ei voida taata. Pienin kompaktisuus on ympyränmuotoisella kiekolla. Kompaktisuuden vastakohta on alueen kompleksisuus. Esimerkki kompaktista ja kompleksisesta alueesta on kuvassa Muita yksinkertaisia alueen kuvaajia ovat harmaasävyjen keskiarvo ja mediaani, minimi- ja maksimiharmaasävyt sekä harmaasävyltään keskiarvon ylä- ja alapuolella olevien pikselien lukumäärä. Topologisia kuvaajia Topologiset ominaisuudet eivät muutu sellaisissa kuvan muunnoksissa joissa kuvan osia ei revitä tai yhdistellä kuten venytyksessä, pyörityksessä jne (rubber-sheet distortions). Alueessa olevien aukkojen lukumäärä H ja liittyneiden komponenttien lukumäärä C ovat yksinkertaisimpia topologisia kuvaajia. Näiden erotusta kutsutaan Eulerin luvuksi E E = C H (11.3-1) Esimerkiksi isossa A-kirjaimessa on yksi liittynyt komponentti ja yksi aukko. B- kirjaimessa on yksi liittynyt komponentti ja kaksi aukkoa, joten näiden muotojen Eulerin luvut ovat 0 ja -1. Tekstuuri Tekstuuri on epämääräistä mutta tietyllä tavalla säännöllistä kuviointia. Kuvassa on esimerkkejä erilaisista tekstuureista. Tekstuurin kuvaamiseen käytetyt menetelmät voidaan jakaa kolmeen pääluokkaan: tilastollisiin, rakenteellisiin ja spektriin perustuviin menetelmiin.

130 ALUEIDEN KUVAAJAT 127 Kuva Esimerkkejä erilaisista luonnollisista tekstuureista. Tilastolliset menetelmät. Eräs yksinkertaisimmista tekstuurin kuvaamiseen käytetyistä tilastollisista menetelmistä on momenttien laskeminen alueen harmaasävyhistogrammista. Momentit lasketaan histogrammista kaavalla Toinen momentti, varianssi, kuvaa tekstuurin kontrastia. Kolmas momentti mittaa histogrammin vinoutta (skewness) ja neljäs momentti suhteellista tasaisuutta (flatness). Histogrammista lasketut kuvaajat eivät kerro mitään eri harmaasävyjen sijainneista toisiinsa nähden. Suhteellista paikkatietoa voidaan säilyttää laskemalla alueen nk. cooccurrence-matriisi. Sitä varten tarvitaan paikkaoperaattori P (esim. yksi alas ja yksi oikealle ). Määritellään k k matriisi A, jonka elementti a ij kertoo, kuinka monta kertaa kuvassa esiintyy P :n erottamana harmaasävypari z i, z j. Esimerkiksi kuvasta saadaan käyttäen paikkaoperaattoria yksi alas ja yksi oikealle A = Esimerkiksi matriisin elementti a 13 = 1 kertoo, että harmaasävy z 1 = 0 esiintyy kuvassa 1 kerran yhden pikselin verran alapuolella ja oikealla harmaasävystä z 3 = 2. A:n koko määräytyy kuvassa olevien harmaasävyjen määrästä. Usein kuvan harmaasävyt kannattaa kvantisoida suhteellisen pieneen määrään, jotta matriisin koko pysyisi kohtuullisena. Olkoon n niiden pikselien lukumäärä kuvassa, joissa P on määritelty. Kuvan cooccurrence-matriisi C saadaan jakamalla A:n elementit n:llä. Valitsemalla operaattori P eri suuntiin ja eri etäisyyksille voidaan mitata eri suunnissa olevia ja eri resoluutiota edustavia kuvioita tekstuurista. Co-occurrence-matriisista voidaan laskea edelleen mm. seuraavat piirteet: 1. Suurin todennäköisyys max i,j (c ij)

Näytä lisää