TOPI SANTAKIVI OBJEKTIIVINEN KUVAN LAADUN ARVIOINTI Kandidaatintyö Tarkastaja: Lehtori Heikki Huttunen Jätetty tarkastettavaksi 19.01.2008
I TAMPEREEN TEKNILLINEN YLIOPISTO Automaatiotekniikan koulutusohjelma SANTAKIVI, TOPI: Objektiivinen kuvan laadun arviointi Tekniikan kandidaatintyö, 16 sivua, 5 sivua liitteitä Tammikuu 2008 Pääaine: Signaalinkäsittely Työn tarkastaja: Lehtori Heikki Huttunen Avainsanat: kuvan laatu, objektiiviset menetelmät Tämän kirjallisuusselvityksen tarkoituksena on antaa lukijalle yleiskuva objektiivisesta kuvan laadun arvioinnista, sitä suorittavista menetelmistä, niiden taustalla olevasta teoriasta ja mahdollisista sovelluskohteista. Esitettävien asioiden pohjana on käytetty muutamaa aihetta käsittelevää yleisteosta ja yksittäisistä menetelmistä kertovia tieteellisiä julkaisuja. Objektiivisia kuvan laadun arviointimenetelmiä on olemassa paljon. Ne pohjautuvat erityyppisiin näkökulmiin ja tarvitsevat arviointiin vaihtelevan määrän informaatiota. Suurin osa niistä pyrkii antamaan tutkittavasta kuvasta yksittäisen luvun, joka kuvaa sen laatua. Menetelmien välillä suoritettu testaus tukee kirjoittajan intuitiivista käsitystä siitä, että objektiivisilla menetelmillä ei voida syrjäyttää ihmistä kuvan laadun arvioinnin asiantuntijana. Objektiivinen kuvan laadun arviointi onkin tehokkaimmillaan, kun menetelmät räätälöidään tarkoin määriteltyjä sovelluksia, kuten kuvanpakkauksen optimointia varten.
II ALKUSANAT Tämä tekniikan kandidaatintyö on tehty Tampereen teknillisen yliopiston signaalinkäsittelyn laitokselle. Kiitokset työnantajalleni PacketVideo Finland Oy:lle, jossa kesällä 2007 työskennellessäni sain idean alkaa tutustua tämän työn käsittelemään aiheeseen. Haluan kiittää myös kandidaatintyöseminaarin vetäjiä Konsta Koppista ja Heikki Huttusta, jotka avustivat työn etenemisessä antamalla lukuisia hyödyllisiä neuvoja, sekä isääni Pekka Santakiveä, joka parinkymmenen vuoden äidinkielenopettajan kokemuksella tarjoutui oikolukemaan työni. Suurimmat kiitokseni kuuluvat kuitenkin rakkaalle avovaimolleni Lindalle, jonka avulla jaksoin läpi kiireisen syksyn. Tampereella, 17. tammikuuta 2008 Topi Santakivi
III SISÄLLYS 1. Johdanto... 1 2. Puuttuvan ja osittaisen referenssin menetelmät... 3 3. Täyden referenssin menetelmät... 4 3.1. Vastinpikselien vertailu... 4 3.2. Näköjärjestelmän mallintaminen... 5 3.2.1. Ihmisen näköjärjestelmä ja sen mallintaminen... 5 3.2.2. Menetelmien esittelyä... 7 3.3. Rakenteellinen samankaltaisuus... 9 3.4. Tilastollinen mallintaminen... 10 4. Menetelmien vertailu... 12 4.1. Yleiset metriikat... 12 4.2. Testaus... 12 5. Pohdintaa... 16 Lähteet... 17 Liite 1... 20
IV LYHENTEET JA MERKINNÄT (a, b) reaalilukuväli h(x) differentiaalinen entropia x vektori σ x keskihajonta σ 2 x varianssi σ xy kovarianssi µ x keskiarvo ACR ANSI DCT DSIS GSM MSE MSSIM MOS NTIA PSNR SSIM UQI VDP VIF VQEG WVDP Absolute Category Rating American National Standards Institute Diskreetti kosinimuunnos (Discrete Cosine Transform) Double Stimulus Impairment Scale Gaussian Scale Mixtures Keskineliövirhe (Mean Squared Error) Mean Structural Similarity Index Mean Opinion Score National Telecommunications and Information Administration Peak signal-to-noise ratio Structural Similarity Index Universal Quality Index Visible Differences Predictor Visual Information Fidelity Video Quality Experts Group Wavelet Visible Differences Predictor
1 1. JOHDANTO Digitaalista kuvaa käsittelevien järjestelmien yleistyminen analogisten ratkaisujen vähetessä on nostanut esiin uusia haasteita: kuinka vertailla niitä keskenään sekä mitata ja optimoida niiden suorituskykyä? Järjestelmät on luotu ihmisiä varten, joten luotettavimmat tulokset saadaan subjektiivisilla kokeilla. Näissä kokeissa esimerkiksi arvioidaan jonkin järjestelmän, vaikkapa digitaalisen kameran, tuottaman kuvamateriaalin laatua näyttämällä sitä joukolle ihmisiä ja keräämällä heidän mielipiteensä. Jotta tulokset olisivat mahdollisimman luotettavat, pyritään kokeet suorittamaan vakio-olosuhteissa, kuten esittämällä kuvia ennalta määrätyltä katseluetäisyydeltä ja tietyssä valaistuksessa. Tavallisimmin käytettyjä subjektiivisia koemenettelyitä ovat muun muassa Absolute Category Rating (ACR) ja Double Stimulus Impairment Scale (DSIS). ACR:ssa koehenkilölle näytetään yksittäisiä kuvia ja hänen tehtävänään on antaa jokaiselle kuvalle arvosana viisiportaiselta asteikolta. DSIS:ssa koehenkilön tehtävänä arvioida erilaisia häiriöitä sisältäviä kuvia antamalla arvosana ACR:n tapaan viisiportaiselta asteikolta, mutta vertaamalla niitä referenssinä toimivaan kuvaan. Jokaisella portaalla on molemmissa menetelmissä oma kielellinen merkityksensä vaihdellen virheettömästä kuvasta laadultaan todella häiritsevään. Subjektiivisten kokeiden jälkeen voidaan kullekin testikuvalle laskea yksittäinen arvosana ottamalla tuloksista keskiarvo eli Mean Opinion Score (MOS). [1.] Vaikka subjektiivisilla kokeilla saatuja tuloksia voidaankin pitää luotettavimpina, on subjektiivinen testaaminen käytännössä työlästä ja hintavaa. Lisäksi digitaalinen signaali on pakattua ja se tuo mukanaan kuviin uudentyyppisiä häiriöitä. On siis olemassa tarve kehittää tapoja arvioida digitaalisten kuvien häiriöitä ja laatua objektiivisesti. Objektiiviset kuvanlaadun mittausmenetelmät ovat matemaattisia algoritmeja, joiden tavoitteena on jäljitellä ihmisen kykyä arvioida kuvien laatua. Ne voidaan jakaa arviointitavan perusteella kolmeen ryhmään: puuttuvan, osittaisen ja täyden referenssin menetelmiin. Kappaleessa 2 esitellään lyhyesti puuttuvan ja osittaisen referenssin käytön toimintaperiaate. Pääaiheena ovat kappaleessa 3 käsiteltävät täyden referenssin menetelmät, joita lähestytään eri näkökulmista. Ensimmäisenä esitellään yksinkertaisten vastinpikselimenetelmien, kuten keskineliövirheen idea ja osoitetaan näiden soveltumattomuus ihmisen havaitseman kuvan laadun arviointiin. Vastinpikselimenetelmien jälkeen tarkastellaan menetelmiä, jotka pyrkivät luotettavampaan kuvan laadun arviointiin näköjärjestelmää mallintamalla. Niille esitellään yhteinen perusrakenne ja käydään läpi muutaman toiminta. Kappaleessa Rakenteellinen samankaltaisuus tarkastellaan näköjärjestelmän mallintamiselle vastakkaista ajattelutapaa ja siihen perustuvaa toteutusta. Viimeisenä käydään läpi kuvien tilastolliseen mallintamiseen perustuva menetelmä.
Kappaleessa 4 esitellään muutama yleinen metriikka, joilla vertaillaan objektiivisten menetelmien paremmuutta. Lisäksi testataan täyttä referenssiä käyttävien toteutusten soveltuvuutta yleiseen kuvan laadun arviointiin luomalla joukko testikuvia ja vertailemalla eri menetelmien niille antamia laatuarvioita keskenään. Lopuksi pohditaan objektiivisen kuvan laadun arvioinnin soveltuvuutta eri tehtäviin. 2
3 2. PUUTTUVAN JA OSITTAISEN REFERENSSIN MENETELMÄT Kuvan laatua arvioitaessa ei aina tarvitse olla saatavilla referenssiä, johon vertaamalla arviointi suoritetaan. Puuttuvan referenssin menetelmät mittaavat laatua tekemällä oletuksia kuvissa esiintyvistä häiriöistä ja tutkittavien kuvien ominaisuuksista. Ne mittaavat tavallisesti kuvista vain tiettyjä häiriötyyppejä, kuten pikselöitymistä (engl. blocking effect) ja sumeutta. Vaikka referenssi puuttuukin, voivat ne tiettyyn tehtävään räätälöitynä toimia usein sovellusalueellaan paremmin kuin jotkin yleiseen kuvan laadun arviointiin luodut, referenssiä käyttävät menetelmät. Osittaisen referenssin käyttäminen sijoittuu puuttuvan ja täyden referenssin käytön välimaastoon. Puuttuvan referenssin menetelmien tapaan ne voivat hyödyntää tietoja tutkittavista häiriöistä. Referenssikuvaa ei sellaisenaan käytetä, vaan siitä voidaan ottaa kuvan laadun tarkastelua varten talteen vain olennaisimpia ominaisuuksia. [2.] Marziliano et al. kehittivät vuonna 2002 puuttuvan referenssin menetelmän, jolla mitataan kuvan sumeutta [3]. Menetelmä on laskennallisesti kevyt ja sitä voidaan hyödyntää esimerkiksi kameran automaattisessa tarkentamisessa. Julkaisussa kuvataan sumeuden mittaaminen pystyreunoille ja se toimii vaakasuunnassa samalla periaatteella. Ensin tutkittavasta kuvasta etsitään reunat Sobel-operaattorilla. Sumeuden mittaaminen perustuu siihen, että kuvan sumentuessa sen reunat leviävät, ja menetelmä määrittää kuvan sumeuden reunojen leveyden perusteella. Mittaaminen tapahtuu tutkimalla kuvan kullakin vaakarivillä Sobel-operaattorin avulla löydettyjen reunojen paikkoja ja pikseliarvojen vaihtelua niiden ympäristössä. Levinneen reunan rajoina pidetään paikallisia ääriarvoja, joiden välisestä etäisyydestä saadaan arvio sumeudesta (kuva 2.1). Koko kuvan sumeus lasketaan paikallisten arvioiden keskiarvona. Kuva 2.1. Sumean reunan tutkiminen. a) on Sobel-operaattorilla löydetyn sumentuneen pystyreunan keskikohta, b) ja c) paikalliset ääriarvot ja d) sumentuneen reunan leveys eli paikallinen arvio sumeudesta.
4 3. TÄYDEN REFERENSSIN MENETELMÄT Täyden referenssin menetelmät arvioivat laatua käyttämällä kahta kuvaa. Alkuperäinen, virheettömäksi oletettu kuva toimii referenssinä, johon verrataan arvioitavana olevaa, häiriöitä sisältävää kuvaa. Täyden referenssin käyttäminen voidaan jakaa lähestymistavan mukaan neljään ryhmään: vastinpikselien erotuksen mittaamiseen, näköjärjestelmän mallintamiseen, rakenteellisen samankaltaisuuden mittaamiseen ja tilastolliseen mallintamiseen. Osa menetelmistä pyrkii yleiseen kuvan laadun arviointiin ja osa hyödyntää puuttuvan ja osittaisen referenssin menetelmien tapaan tietoja kuvissa esiintyvistä häiriöistä. 3.1. Vastinpikselien vertailu Yleisimpiä kuvien vertailussa käytettäviä objektiivisia menetelmiä ovat yksinkertaiset matemaattiset laskukaavat, kuten keskineliövirhe ja PSNR (Peak Signal-to-Noise Ratio). Niitä käytetään paljon, sillä niiden laskeminen on nopeaa ja esimerkiksi neliövirheen minimointiin on olemassa runsaasti valmiita työkaluja. Kahden kuvan välinen keskineliövirhe (MSE, Mean Squared Error) määritetään laskemalla kuvien vastinpikselien erotukset, korottamalla ne toiseen potenssiin ja ottamalla niistä keskiarvo: MSE= MN M 1 N 1 1 m= 0 n= 0 2 [ I( m, n) J ( m, n) ] (3.1) I(m,n) ja J(m,n) ovat kahden kuvan vastinpikselit, M kuvan korkeus ja N leveys. Mitä pienempi on keskineliövirhe, sitä paremmin alkuperäinen ja häiriöitä sisältävä kuva vastaavat toisiaan. PSNR on kuvan suurimman intensiteettiarvon ja keskineliövirheen suhde desibeleinä: 2 MAX ( I) 10log10 PSNR= MSE (3.2) PSNR:n arvo on sitä suurempi, mitä parempana se pitää tutkittavan kuvan laatua. Koska PSNR riippuu keskineliövirheestä, siihen pätevät samat heikkoudet kuin keskineliövirheeseenkin. Jos esimerkiksi otetaan kaksi identtistä kuvaa, siirretään toista pikselin verran oikealle, kuvien välinen keskineliövirhe kasvaa ja PSNR pienenee. Ihmissilmä puolestaan havainnoi suurempia kokonaisuuksia eikä tämän vuoksi havaitse kuvien välillä mitään eroa. On myös yksinkertaista luoda kuvia, joiden keskineliövirhe alkuperäiseen kuvaan verrattuna on sama, mutta ihmissilmä havaitsee niiden välillä selviä laatueroja (kuva 3.1). [1.]
5 Kuva 3.1. Keskineliövirheen soveltumattomuus ihmisen havaitseman kuvan laadun arviointiin. a) Alkuperäinen kuva, b) Keskiarvosuodatettu kuva, MSE = 188.61, c) Kuvaan lisätty suola-pippuri -kohinaa, MSE = 188.88, d) Kuvaan lisätty normaalijakautunutta kohinaa, MSE = 188.69. Esimerkiksi kappaleessa 4.3 käsiteltävän, rakenteellista samankaltaisuutta mittaavan SSIM:n kuville antamat laatuarvot olivat 0.95 b:lle, 0.82 c:lle ja 0.45 d:lle arvosanan yksi tarkoittaessa laadultaan alkuperäisen veroista kuvaa. 3.2. Näköjärjestelmän mallintaminen Koska pelkkiä pikseliarvojen erotuksia laskemalla ei voida arvioida subjektiivista laatua kovinkaan luotettavasti, on asiaan otettu edistyneempi näkökulma tutkimalla tarkemmin näköjärjestelmän ominaisuuksia ja käyttämällä niitä uusien menetelmien perustana. Tässä kappaleessa esitetyt näköjärjestelmän ominaisuudet ja niiden mallintamiseen liittyvät periaatteet pohjautuvat lähteisiin [1], [2], [4] ja [5]. 3.2.1. Ihmisen näköjärjestelmä ja sen mallintaminen Näköjärjestelmää mallintavat kuvan laadun mittausmenetelmät pyrkivät simuloimaan ihmisen arviointikykyä hyödyntämällä näköaistin toiminnasta luotuja matemaattisia malleja ja tietoja näköhavaintoa eri olosuhteissa rajoittavista tekijöistä. Ne noudattavat pääosin toimintarakennetta, joka voidaan jakaa viiteen vaiheeseen: esikäsittely, kuvien jako taajuuskanaviin, kontrastiherkkyysfunktion soveltaminen, peittoilmiöiden huomiointi ja virheiden yhdistäminen.
6 Alkuperäinen ja arvioitava kuva täytyy esikäsitellä ennen varsinaisen mallin soveltamista. Kuvien tulee olla kohdistettuja keskenään, jotta varmistutaan siitä, että mallia tullaan soveltamaan vastinpikseleihin. Jos menetelmä vertailee värikuvia, kuvat voidaan muuntaa väriavaruuteen, jonka väriskaala kuvaa paremmin ihmisen eri olosuhteissa näkemiä värejä. Eri tutkimuksissa on esitetty (varhaisimpana Campbell ja Robson vuonna 1968 [6]), että näköärsykkeiden käsittely aivoissa tapahtuu osissa eri taajuuksille ja orientaatioille herkillä kanavilla. Tässä työssä taajuudella tarkoitetaan kuvissa esiintyvää taajuutta eli pikseliarvojen vaihtelunopeutta. Käsitystä kanavarakenteesta mallinnetaan jakamalla alkuperäinen ja häiriöinen kuva taajuuskanaviin menetelmästä riippuen sopivalla muunnoksella (kuva 3.2), kuten wavelet-muunnoksella, diskreetillä kosinimuunnoksella (DCT) tai cortex-muunnoksella ja suorittamalla laadun arviointi jokaisella kanavalla erikseen. DCT jakaa taajuusalueen keskenään samankokoisiin kanaviin. Waveletmuunnoksessa puolestaan yksittäinen kanava käsittää sitä enemmän taajuuksia, mitä korkeampia taajuuksia sisältävää aluetta jaetaan osiin. Cortex-muunnoksessa taajuuskanavan koko riippuu taajuusalueesta samalla tavalla kuin wavelet-muunnoksessa, mutta taajuusalue jaetaan osittamalla se sisäkkäisiin ympyröihin ja paloittelemalla ympyrät sektoreilla kanaviksi. Kuva 3.2. Taajuuskanaviin jakamisessa käytettyjä muunnoksia kaksiulotteisessa taajuustasossa. Nollataajuus sijaitsee muunnosten keskipisteissä. Vasemmalla waveletmuunnos, keskellä DCT-muunnos ja oikealla cortex-muunnos. [3, kuva 41.4] Taajuuskanaviin jaon jälkeen kunkin kanavan sisältämään informaatioon sovelletaan kontrastiherkkyysfunktiota. Kontrastiherkkyysfunktio kuvaa ihmisen kykyä havaita intensiteetin muutoksia eri taajuuksilla. Sen avulla määritetään kullekin taajuuskanavalle peruskynnysarvo, joka kertoo, kuinka suuri intensiteetin vaihtelun ärsykkeessä täytyy olla, jotta se voitaisiin havaita. Kontrastiherkkyysfunktio muistuttaa muodoltaan kaistanpäästösuodinta, ja jotkin mallit (esimerkiksi [7]) ottavatkin sen huomioon suodatusoperaationa. Kontrastiherkkyyttä sovelletaan tavallisesti harmaasävyarvoille, mutta siitä on luotu malleja myös värikanaville [8]. Kontrastipeitto tarkoittaa, että kuvassa lähekkäin olevat yksityiskohdat vaikuttavat toistensa näkyvyyteen (kuva 3.3). Yleensä ilmiö esiintyy niin päin, että yksityiskohdan
7 havaitseminen vaikeutuu toisen vaikutuksesta. Kuvan laadun tarkkailun kannalta kontrastipeiton merkitys on se, että kuvassa esiintyvät häiriöt erottuvat paremmin tasaisilla kuin epätasaisilla alueilla. Mallinnuksessa kontrastipeitto otetaan tavallisesti huomioon muokkaamalla, yleensä siis nostamalla, virheen näkyvyyden peruskynnysarvoja. Kontrastipeiton lisäksi voidaan käyttää myös luminanssipeittoa. Luminanssipeiton idea on samanlainen kuin kontrastipeitossa, mutta siinä yksityiskohdan näkyvyyteen vaikuttaa taustan kirkkaus. Kuva 3.3. Kontrastipeitto. Molempiin kuviin on lisätty samanlainen pintakuvio. Vasemmanpuoleisen kuvan yläosassa taivaan päällä oleva kuvio näkyy selvästi, kun taas oikeanpuoleisessa alareunaan lisättynä sama kuvio peittyy nurmikon ja metsän yksityiskohtien sekaan. [1 s.29, kuva 2.16] Lopuksi virheet normalisoidaan esimerkiksi välille (0, 1) ja muodostetaan niistä yksittäinen luku kuvan laadusta. Yleisesti käytössä on esimerkiksi paikallisten arvioiden keskiarvottaminen tai Minkowskin metriikka: E Kaavassa (3.3) e i,j on virhesignaalin j:s kerroin taajuuskanavalla i ja β yleensä väliltä (1, 4) valittava vakiotermi, jonka avulla voidaan säätää virheiden keskinäistä vaikutusta metriikkaan. Esimerkiksi β:n arvolla 4 suurempien virheiden merkitys korostuu enemmän, ja arvolla 1 kaikki virheet vaikuttavat metriikkaan suhteessa yhtä paljon, koska niitä ei koroteta potenssiin. 3.2.2. Menetelmien esittelyä = i j β e i, j (3.3) Bradleyn Wavelet Visible Differences Predictor (WVDP) [9] on yksinkertaistettu versio Scott Dalyn vuonna 1993 kehittämästä Visible Differences Predictorista (VDP) [10, s.47-49]. Dalyn VDP laskee kahden kuvan perusteella kartan, joka on arvio virheiden havaitsemisen todennäköisyydestä häiriöisen kuvan paikallisilla alueilla. VDP:ssä kuvat esikäsitellään ja otetaan huomioon luminanssipeitto pisteoperaationa muokkaamalla pikseliarvoja paikallisen taustan kirkkauden mukaan. Ennen taajuuskanaviin jakamista kuviin sovelletaan kontrastiherkkyysfunktiota, minkä jälkeen taajuuskanaviksi jako teh- 1 β
8 dään cortex-muunnoksella. Varsinainen häiriöiden arviointi suoritetaan jokaisella taajuuskanavalla erikseen, mutta muuntamalla kukin taajuuskanava ensin takaisin tilatasoon. Tilatasossa huomioidaan kontrastipeittoilmiön vaikutus ja tämän jälkeen lasketaan todennäköisyyskartta. Kynnysarvona on todennäköisyys 0.75, jota suuremmat todennäköisyydet virheen näkymiselle tulkitaan näkyviksi virheiksi. Yksittäinen lukuarvo kuvan laadusta saadaan laskemalla näkyvien virhepikselien osuus koko kuvassa. WVDP:ssä on tehty yksinkertaistuksia VDP:hen verrattuna. Se ei ota huomioon luminanssipeittoa ja cortex-muunnos on vaihdettu wavelet-muunnokseen. Lisäksi kontrastiherkkyysfunktiota sovelletaan taajuuskanavilla wavelet-kertoimiin sen sijaan, että se tehtäisiin ennen kanaviin jakoa. Huonona puolena WVDP:ssä on, että mallin yksinkertaistaminen heikentää sen arviointikykyä. Ponomarenkon et al. PSNR-HVS [11] on PSNR:n muunneltu versio, jossa otetaan huomioon näköjärjestelmän ominaisuuksia virheiden havaitsemiselle. Erona PSNR:ään on, että keskineliövirheestä käytetään muokattua versiota: 2 255 PSNR HVS = 10log (3.4) MSEH MSE H määritetään laskemalla alkuperäisen ja häiriöisen kuvan DCTvastinkomponenttien väliset erotukset ja painottamalla niitä korjausmatriisin perusteella. Korjausmatriisi määrittää ärsykkeiden näkyvyyden peruskynnysarvot eri taajuuksilla eli se toimii kontrastiherkkyysfunktion toteutuksena. Korjausmatriisina on käytetty JPEGstandardissa ehdotettua kvantisointimatriisia [11, katso [5] ]. Egiazarianin et al. PSNR- HVS-M [12] on PSNR-HVS:sta kehitetty versio, joka kontrastiherkkyysfunktion huomioimisen lisäksi sisältää mallin kontrastipeittoilmiöstä. Mallia sovelletaan DCTvastinkomponentteihin, minkä jälkeen määritetään MSE H ja lasketaan PSNR-HVS kuten edellä. Watsonin 1993 kehittämä DCTune [13] otti kantaa JPEG-standardista puuttuneeseen kvantisointimatriisin määrittelyyn. Ihmisen näkemä informaatio kuvissa keskittyy matalammille taajuuksille ja kvantisointimatriisin avulla määritetään, kuinka suurella pakkauskertoimella kuvan eri taajuuskomponentit pakataan. Ennen DCTunea pakkauksessa käytettiin samoja kvantisointimatriiseja kaikille kuville esimerkiksi määrittämällä niitä subjektiivisten kokeiden perusteella. DCTunessa jokaiselle kuvalle muodostetaan oma kvantisointimatriisi kuvan sisällön perusteella ottamalla huomioon luminanssi- ja kontrastipeiton vaikutukset yksityiskohtien näkyvyyteen eri taajuuskanavilla. Tällä pyritään saavuttamaan optimaalinen kuvan laatu käytetyllä bittinopeudella. Optimaalisen kvantisointimatriisin määrittämisen lisäksi DCTunea voidaan käyttää laadun arviointimenetelmänä. Se antaa hyvälaatuisille kuville pieniä ja huonolaatuisille suurempia arvoja. Karunasekeran ja Kingsburyn vuonna 1995 kehittämä menetelmä [14] mittaa kuvista pikselöitymistä. Julkaisussa kuvataan pystysuuntaisilla reunoilla olevien pikselöitymisvirheiden arviointi ja vaakasuuntaisilla reunoilla se suoritetaan vastaavalla tavalla. Pystysuuntainen reuna vastaa korkeaa taajuutta vaakasuunnassa ja matalaa taajuutta pystysuunnassa. Ensin pystysuuntaiset reunat korostetaan ylipäästösuodattamalla virhe-
9 kuva vaakasuunnassa ja tämän jälkeen vähennetään satunnaisten virheiden osuutta alipäästösuodattamalla se pystysuunnassa. Suodatuksen tulokselle lasketaan paikallisesti peittoilmiöiden vaikutus. Huomioon otetaan sekä luminanssi- että kontrastipeitto. Koska näköjärjestelmä on epälineaarinen, suoritetaan lopuksi muunnos p e 0 t = e (3.5) m jossa muuttuja e m on peittoilmiöiden mukaan muokattu virhesignaali ja p 0 valitaan siten, että muunnoksen vaikutus approksimoi näköjärjestelmän epälineaarisuutta. Muunnoksen jälkeen lopullinen virhearvio lasketaan ottamalla keskiarvo virhesignaalien e t itseisarvoista. 3.3. Rakenteellinen samankaltaisuus Wang et al. ovat esittäneet objektiiviseen kuvan laadun arviointiin näköjärjestelmän mallintamisesta poikkeavan näkökulman [15]. Heidän mukaansa näköjärjestelmää mallintavissa menetelmissä on ominaisuuksia, jotka eivät välttämättä edistä niiden luotettavuutta. Niiden sisältämät näköjärjestelmän mallit mittaavat laatua usein määrittämällä näkyvyyskynnyksiä, joiden yläpuolella olevat ärsykkeet kyetään juuri ja juuri havaitsemaan. Ei kuitenkaan ole varmuutta siitä, että näköjärjestelmä käsittelee selvemmin näkyviä ärsykkeitä samalla tavalla. Toiseksi, menetelmät toimivat yleensä synteettisillä kuvilla hyvin, mutta luonnollisia kuvia arvioitaessa niiden suorituskyky laskee. Myöskään Minkowskin metriikka ei ole ihanteellinen tapa yhdistää virheitä, sillä se ei säilytä virheiden rakennetta [4]. Lisäksi Wang et al. esittävät, että referenssikuvan ja häiriöisen kuvan vastinpikselien välillä esiintyviä eroja ei voida selvästi rinnastaa kuvan laadun puutteeseen. Uuden lähestymistavan idea on, että ihmisen näköjärjestelmä on erikoistunut erottelemaan kuvista rakenteellista informaatiota, joten alkuperäisen ja häiriöisen kuvan välillä olevien rakenteellisten erojen mittaaminen antaa hyvän arvion subjektiivisesta laadusta. Tämän lähestymistavan pohjalta luotiin ensin matemaattisesti yksinkertainen Universal Quality Index (UQI) [16]. UQI:ssa mallinnetaan kuvissa esiintyviä rakenteellisia eroja korrelaation puutteen sekä luminanssi- ja kontrastierojen perusteella. UQI kahden samankokoisen signaalin x ja y välillä lasketaan kaavalla σ xy 2µ xµ y 2σ xσ y 4σ xyµ xµ y UQI = = 2 2 2 2 2 2 σ σ µ + µ σ + σ ( σ + σ ) x y x y x 2 2 [ µ + µ ] (3.6) jossa σ x ja σ y ovat signaalien keskihajonnat, σ 2 x ja σ 2 y vastaavat varianssit, µ x ja µ y keskiarvot ja σ xy on kovarianssi. Kaavasta (3.6) nähdään, että UQI koostuu kolmen komponentin tulosta. Komponenteista ensimmäinen mittaa x:n ja y:n välistä korrelaatiota ja se saa arvoja välillä (-1, 1). Toinen komponentti mittaa x:n ja y:n luminanssikeskiarvojen eroa toisistaan. Sen arvot ovat välillä (0, 1) ja se saa arvon 1 vain, jos luminanssien keskiarvot ovat samat. Signaalien keskihajonnat rinnastetaan arvioiksi niiden kontrasteista. Välillä (0, 1) vaihteleva kolmas komponentti mittaa kontrastieroja ja saa luminanssikomponentin tavoin arvon 1 y x y x y
10 vain, jos kontrastit ovat samat. Kaavaa (3.6) sovelletaan ensin paikallisesti käyttämällä NxN kokoista ikkunaa. Tästä saadaan laatukartta, jonka keskiarvona voidaan laskea UQI:n antama laatuarvio, joka on luku väliltä (-1,1). UQI:n pohjalta rakennettiin yleistetty versio, Structural Similarity Index (SSIM) [17], joka koostuu UQI:n tavoin luminanssi-, kontrasti- ja korrelaatiokomponentista: SSIM ( x, y) 2µ xµ y + C1 = 2 2 µ x + µ y = l = α β ( x, y) c( x, y) s( x, y) ( 2µ xµ y + C1 )( 2σ xy + C2 ) 2 2 2 2 ( µ x + µ + C )( σ x + σ y + C ) y α 1 2σ xσ y + C2 2 2 σ x + σ y + C γ 2 σ xy + C3 x y C σ σ + 3 2 β γ (3.7) (3.8) (3.9) Parametreilla α, β, ja γ voidaan säätää komponenttien keskinäistä vaikutusta SSIM:n antamaan arvioon. Yksinkertaistuksen vuoksi näille parametreille on annettu arvo yksi. Vakiotermit C i ovat mukana tasapainottamassa menetelmän toimintaa nollan läheisyydessä. SSIM lasketaan ensin paikallisesti NxN-kokoisessa ikkunassa. Ottamalla paikallisten arvioiden keskiarvo saadaan yhtenä lukuna kuvan laatua kuvaava MSSIM (Mean Structural Similarity Index). MSSIM:n arvot vaihtelevat UQI:n tavoin välillä (-1, 1) arvon 1 tarkoittaessa parhaimmanlaatuista kuvaa. 3.4. Tilastollinen mallintaminen Sheikhin ja Bovikin lähestymistapa eroaa näköjärjestelmän mallintamisesta ja rakenteellisesta samankaltaisuudesta siten, että siinä pyritään mallintamaan kuvia hyödyntämällä niiden tilastollisia ominaisuuksia. Tilastolliseen mallintamiseen pohjautuva Visual Information Fidelity (VIF) [18] on monimutkainen täyden referenssin menetelmä, joka käsitellään tässä yhteydessä vain pintapuolisesti. Perustana kuvien vertailulle on ajatus siitä, että referenssikuva menee sellaisenaan näköjärjestelmän läpi ja aivot erottelevat siitä oleellisen informaation. Häiriöinen kuva on kuin referenssikuva, mutta se sisältää myös tietynlaisen häiriömallin vaikutuksen, joka vähentää kuvasta saatavaa informaatiota. VIF:n tarkoituksena on verrata, kuinka paljon häiriöisen kuvan informaatiota jää jäljelle verrattuna referenssistä saatavaan informaatioon. VIF käyttää kuvien mallintamiseen normaalijakautuneista Gaussian Scale Mixtures(GSM) satunnaisvektoreista rakennettuja satunnaiskenttiä, joita yhdistelemällä voidaan mallintaa luonnollisia kuvia wavelet-tasossa [19]. Kuvan häiriöiden mittaamiseen käytetään mallia D i = g i C i + V i (3.10)
11 jossa D i on häiriöisen ja C i referenssikuvan yksittäistä wavelet-kanavaa kuvaava satunnaiskenttä. V i on satunaiskenttä, joka sisältää valkoista normaalijakautunutta kohinaa ja g painovektori, jolla tutkitaan häiriöisen kuvan sumeutta ja kontrastin muutoksia. Sovittamalla painovektorin ja kohinamallin parametrit häiriöisen ja referenssikuvan perusteella saadaan arvio kuvan sisältämistä häiriöistä. Sheikh ja Bovik perustelevat mallin (3.10) valintaa sillä, että vaikka kaikkia todellisissa järjestelmissä esiintyviä virheitä ei voidakaan sitä käyttämällä mallintaa täysin, sumeus- ja kohinakomponenttien avulla niiden häiritsevyyttä voidaan paikallisesti approksimoida. Häiriömallin lisäksi VIF käyttää yksinkertaista kohinamallia kuvaamaan näköjärjestelmän vaikutusta kuvista saatavan informaation vähenemiseen: E i = C i + N i (3.11) F i = D i + N i (3.12) Kaavassa (3.11) E i on näköjärjestelmän läpi menneen referenssikuvan yksittäistä wavelet-kanavaa kuvaava satunnaiskenttä, (3.12):ssa F i on näköjärjestelmän läpi menneen häiriöisen kuvan vastaavaa wavelet-kanavaa kuvaava satunnaiskenttä ja N i satunnaiskenttä, joka sisältää normaalijakautunutta valkoista kohinaa. Kuvista saatava informaatio lasketaan käyttämällä differentiaalista entropiaa ja edellä esiteltyjä malleja. Entropia on tilastollinen muuttuja, jonka avulla kuvataan satunnaismuuttujien epäjärjestystä. Kun signaalin entropia on suuri, sen satunnaisuus kasvaa ja siitä saatavan informaation määrä pienenee. Differentiaalinen entropia on suure, joka laajentaa entropian käsitteen todennäköisyysjakaumille. [20] Referenssikuvasta saatava informaatio lasketaan referenssikuvan wavelet-kanavia esittävien satunnaiskenttien C i, näköjärjestelmää kuvaavan kohinamallin satunnaiskenttien N i sekä differentiaalisen entropian h(x) avulla: M I = h( C referenssi i= 1 i + N ) h( N ) i i (3.13) Häiriöisen kuvan informaatio lasketaan vastaavalla tavalla, mutta käyttämällä häiriömallia (3.10): M I h( g C + V + N ) h( V + N ) häiriöinen = i= 1 i i i i i i (3.14) Häiriöisestä kuvasta saatavan informaation suhde referenssistä saatavaan informaatioon on VIF:in arvio kuvan laadusta. VIF:ssä voidaan laskea yksi luku koko kuvalle tai ikkunoida, jolloin saadaan laatukartta häiriöisen kuvan laadusta. VIF on alhaalta rajoitettu nollalla. Jos alkuperäinen kuva ja häiriöinen kuva ovat identtiset, VIF saa arvon yksi.
12 4. MENETELMIEN VERTAILU 4.1. Yleiset metriikat Objektiivisten kuvan laadun mittausmenetelmien paremmuutta mitataan vertaamalla niiden antamia tuloksia subjektiivisista kokeista saatuihin tuloksiin. Mitä paremmin objektiiviset tulokset korreloivat subjektiivisten kanssa, sitä paremmin menetelmä osaa ennustaa subjektiivista laatua. Korrelaatiokertoimilla mitataan menetelmien tarkkuutta ja monotonisuutta. Lisäksi mitataan johdonmukaisuutta. Tarkkuus tarkoittaa menetelmän kykyä ennustaa subjektiivisia koetuloksia pienellä virheellä ja sitä mitataan Pearsonin korrelaatiokertoimella. Pearsonin korrelaatio vektorien x ja y välillä saadaan kaavasta r p = ( xi µ x )( yi µ y ) 2 ( x µ ) ( y µ ) i x i y 2 (4.1) jossa x i ja y i ovat subjektiivisilla kokeilla ja jollakin objektiivisella menetelmällä yksittäiselle kuvalle saadut arvot sekä µ x ja µ y kaikkien arvioiden keskiarvot. Monotonisuutta mitataan Spearmanin korrelaatiokertoimella, joka kertoo, kuinka hyvin menetelmä osaa asettaa kuvat laadun mukaan samaan järjestykseen kuin subjektiivisissa kokeissa. Spearmanin korrelaatio lasketaan niin ikään kaavasta r s = ( si µ s )( ti µ t ) 2 ( s µ ) ( t µ ) i s i t 2 (4.2) jossa s i ja t i ovat subjektiivisten kokeiden ja jonkin objektiivisen menetelmän yksittäiselle kuvalle antamat järjestysluvut ja µ s sekä µ t ovat keskiarvoja. Menetelmän johdonmukaisuutta mitataan outlier ratiolla, joka kertoo, kuinka suuri osa sen laatuarvioista on tilastollisesti merkityksettömiä. Tilastollisesti merkityksettömänä pidetään tulosta, joka sijoittuu yleisen vaihteluvälin ulkopuolelle. Rajana voidaan esimerkiksi käyttää Video Quality Experts Groupin ehdottamaa 2xsubjektiivisten tulosten keskihajontaa [21]. [1; 2.] 4.2. Testaus Sen sijaan, että menetelmien vertailua varten olisi kerätty subjektiivista referenssidataa, tässä yhteydessä rajoitutaan tarkastelemaan objektiivisia laatuarvioita keskenään ja pyritään osoittamaan, että jo melko yksinkertaisella järjestelyllä saadaan aikaan tilanteita, joista kaikki menetelmät eivät suoriudu.
13 Testausta varten referenssinä toimineesta 512x512 pikselin kokoisesta kuvasta (kuva 4.1) luotiin 16 kappaletta 512x512 kokoisia testikuvia, jotka sisälsivät eri tyyppisiä häiriöitä: normaalijakautunutta, Poisson-jakautunutta ja suola-pippuri kohinaa, keskiarvosuodatuksella sumennetun ja liikesuodatetun kuvan sekä viisi JPEG-kuvaa pakattuna eri laatuparametrin arvoilla. Testatut menetelmät olivat DCTune, PSNR- HVS-M, SSIM ja VIF. Kuville laskettiin myös keskineliövirheet, mutta keskineliövirheen antamiin tuloksiin ei oteta kantaa, sillä sen soveltumattomuus subjektiivisen laadun ennustamiseen osoitettiin jo kappaleessa 3.1. Menetelmistä tehdyt toteutukset, joita voidaan käyttää oppimis- ja tutkimustarkoituksiin, löytyvät lähteistä [22]-[25]. VIF:n toteutus tarvitsee toimiakseen myös Steerable Pyramid Toolboxin [26]. Kuva 4.1. Testauksen referenssikuva skaalattuna noin 70 prosenttiin alkuperäisestä koosta. Testikuvat, kuvaukset niiden ominaisuuksista ja menetelmien testikuville antamat laatuarviot ovat liitteessä 1. Seuraavaksi esitellään testituloksista muutama esimerkkitapaus, jossa objektiiviset arviot ovat ristiriidassa ihmisen havaitseman laadun kanssa. Kussakin tapauksessa tarkastellaan menetelmien kykyä luokitella kuvia paremmuusjärjestykseen vertaamalla kahdelle testikuvalle annettuja arvioita. Esimerkeissä esitettävät kuvat on skaalattu noin neljäsosaan niiden todellisesta koosta. Ensimmäisenä on tilanne, jossa PSNR-HVS-M ja DCTune eivät täysin onnistu arvioinnissa. Vertailtavana ovat kuvat 8 ja 12 (kuva 4.2). Kuva 8 simuloi ylivalottunutta kuvaa ja kuva 12 on pakattu JPEG:llä käyttäen laatuparametria nolla. PSNR-HVS-M antaa kuvalle 8 arvon 9.68 ja kuvalle 12 arvon 19.40, DCTune puolestaan kuvalle 8 arvon 161.83 ja kuvalle 12 arvon 56.54. PSNR-HVS-M ja DCTune siis pitävät kuvaa 12 parempilaatuisena. SSIM:n ja VIF:n mukaan kuva 8 on parempilaatuinen.
14 Kuva 4.2. Kuvat, joiden vertailussa PSNR-HVS-M ja DCTune eivät onnistu. Toisena esimerkkinä vertaillaan kuvia 2 ja 12 (kuva 4.3). Kuva 2 sisältää normaalijakautunutta kohinaa keskiarvolla nolla ja varianssilla 0.01 ja kuva 12 on sama kuin edellisessä esimerkissä. SSIM:n antamat arvot ovat 0.35 kuvalle 2 ja 0.55 kuvalle 12. Se pitää siis kuvaa 12 parempilaatuisena. Muut vertailussa käytetyt menetelmät pitävät kuvaa 2 parempana. Kuva 4.3. Kuvat, joiden vertailussa SSIM ei onnistu. Kolmannessa esimerkissä vertaillaan jo edellä ollutta kuvaa 8, sekä kuvaa 1, joka sisältää normaalijakautunutta kohinaa keskiarvolla nolla ja varianssilla 0.01 (kuva 4.4). SSIM antaa kuvalle 1 arvon 0.76 ja kuvalle 8 arvon 0.80, eli se pitää ylivalottunutta kuvaa parempilaatuisena. Samoin tekee myös VIF, joka antaa kuvalle 1 arvon 0.59 ja kuvalle 8 arvon 0.85. DCTunen ja PSNR-HVS-M:n perusteella kuva 1 on parempilaatuinen.
15 Kuva 4.4. Kuvat, joiden vertailussa SSIM ja VIF eivät onnistu. Viimeisessä esimerkissä tarkasteltavana ovat kuvat 6 ja 7 (kuva 4.5). Kuvan 6 yläosa ja kuvan 7 alaosa sisältävät Poisson-jakautunutta kohinaa. DCTune ja VIF pitävät kuvaa 6 parempilaatuisena. DCTunen arvot kuville 6 ja 7 ovat 15.92 ja 27.04. VIF antaa kuville arvot 0.80 ja 0.72. PSNR-HVS-M ja SSIM pitävät kuvaa 7 parempilaatuisena. Kuva 4.5. Kuvat, joiden vertailussa DCTune ja VIF eivät onnistu.
16 5. POHDINTAA Edellä esitettyjen yksinkertaisten esimerkkien valossa voidaan olettaa, ettei ole olemassa objektiivista menetelmää, joka kaikissa mahdollisissa tilanteissa arvioisi kuvan laatua ihmisen tavoin. Näköjärjestelmän mallintaminen rajoittuu näköhavainnon hyvin tunnettujen, varhaisten prosessien tarkasteluun. Rakenteellinen samankaltaisuus on käytännössä vain teoreettinen hypoteesi siitä, että korrelaation, luminanssin ja kontrastin avulla saataisiin arvio ihmisen havaitsemasta laadusta. Ja siitä huolimatta, että tilastollisen mallintamisen avulla käsitellään luonnollisten kuvien ominaisuuksia, on sekin vain approksimointia. Objektiivisten menetelmien sisältämien oletusten ja rajoitusten vuoksi ei niiden paikka välttämättä ole subjektiivisten kokeiden korvaajina. Yleisessä kuvan laadun arvioinnissa niitä voidaan käyttää, jos tarkkuusvaatimus ei ole liian korkea. Erityisesti SSIM vaikuttaa sopivan hyvin keskineliövirheen kaltaisten menetelmien korvaajiksi, sillä se ei ole juurikaan näitä monimutkaisempi, mutta toimii paremmin. Koska monet menetelmät ovat erikoistuneet etsimään tiettyjä digitaalisissa kuvissa esiintyviä häiriöitä, voidaan niitä hyödyntää luokittelemaan kuvia yksittäisten ominaisuuksien perusteella. Suurin osa sovellusalueista on kuitenkin yleistä arviointia rajatumpia ja usein sellaisia, joihin ei edes voi soveltaa subjektiivista arviointia. Hyvä esimerkki tästä on kuvanpakkausalgoritmien optimointi, jossa objektiivisten menetelmien sisältämillä tiedoilla saadaan aikaan toimivia tuloksia. Objektiivista arviointia on laajennettu myös videoille soveltamalla sitä yksittäisille videoruuduille ja huomioimalla peräkkäisten ruutujen välillä esiintyviä ilmiöitä. Näin luoduilla menetelmillä voidaan esimerkiksi valvoa siirrettävän videokuvan, kuten digitaalisen televisiolähetyksen laatua ja ehkäistä vaikkapa siirtotekniikoista johtuvia häiriöitä. Muun muassa Wang et al. ovat tehneet SSIM:istä version videoita varten [27]. Koska objektiivisten menetelmien kirjo on niin laaja ja yksittäiset menetelmät luodaan usein tiettyjä sovelluskohteita varten, menetelmien mahdollinen standardointi on vaikeaa. Hyödyllisiä tuloksia luo kuitenkin vuonna 1997 perustettu Video Quality Experts Group (VQEG). VQEG on asiantuntijaryhmä, jonka tehtävänä on evaluoida eri järjestelmien, kuten teräväpiirtotelevision testaamiseen parhaiten soveltuvia objektiivisia menetelmiä. Vuosina 2000 ja 2003 se testasi joukon objektiivisesti videon laatua mittaavia menetelmiä. Tulokset ovat saatavilla VQEG:n kotisivuilta [28] valitsemalla Projects ja FRTV Phase I sekä FRTV Phase II. Testien perusteella American National Standards Institute (ANSI) valitsi National Telecommunications and Information Administrationin (NTIA) kehittämän menetelmän standardoitavaksi vuonna 2004 [29].
17 LÄHTEET [1] Winkler, S., Digital Video Quality - Vision Models and Metrics, John Wiley & Sons, January 2005. [2] Wu, H.R., Rao, K.R., Digital Video Image Quality and Perceptual Coding, CRC Press, 2006 [3] Marziliano, P., Dufaux, F., Winkler, S., Ebrahimi, T., A no-reference perceptual blur metric, Proceedings on IEEE International Conference on Image Processing, vol. 3, pp. 57-60, 2002 [4] Wang, Z., Sheikh, H.R., Bovik, A.C., "Objective video quality assessment, Handbook of Video Databases: Design and Applications, pp. 1041-1078, CRC Press, September 2003 [5] Pappas, T.N., Safranek, R.J., "Perceptual Criteria for Image Quality Evaluation", Handbook of Image and Video Processing, pp. 669-684, Academic Press, San Diego, 2000 [6] Campbell, F.W., Robson, J.G., Application of fourier analysis to the visibility of gratings, Journal of Physiology, vol. 197, pp. 551-566, 1968 [7] Mannos, J., Sakrison, D., The effects of a visual fidelity criterion of the encoding of images, IEEE Transactions on Information Theory, vol. 20, no. 4, pp. 525-536. [8] Faugeras, O.D., "Digital Color Image Processing Within the Framework of a Human Visual Model", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 27, No. 4, pp. 380-393, August 1979 [9] Bradley, A.P., "A wavelet visible difference predictor", IEEE Transactions on Image Processing, vol. 8, no.5, pp.717-730, May 1999 [10] Chalmers, A., McNamara, A., Daly, S., Myszkowski, K., Troscianko, T., Image Quality Metrics, ACM SIGGRAPH, July 2000 [WWW][viitattu 28.10.2007]. Saatavissa: http://www.cs.bris.ac.uk/publications/papers/1000473.pdf
18 [11] Egiazarian, K., Astola, J., Ponomarenko, N., Lukin, V., Battisti, F., Carli, M., New full-reference quality metrics based on HVS, CD-ROM Proceedings of the Second International Workshop on Video Processing and Quality Metrics, Scottsdale, USA, 2006, 4 p. [12] Ponomarenko, N., Silvestri, F., Egiazarian, K., Carli, M., Lukin, V., On Between-Coefficient Contrast Masking of DCT Basis Functions, CD- ROM proceedings of Third International Workshop on Video Processing and Quality Metrics for Consumer Electronics, VPQM-07, January, 2007, 4p. [13] Watson, A.B., DCTune: A technique for visual optimization of DCT quantization matrices for individual images, Society for Information Display Digest of Technical Papers XXIV, pp. 946-949, 1993 [14] Karunasekera, S.A, Kingsbury, N.G., A distortion measure for blocking artifacts in images based on human visual sensitivity, IEEE Transactions on Image Processing, vol. 4, no. 6, pp. 713-724, June 1995. [15] Wang, Z., Bovik, A.C., Lu, L., "Why is image quality assessment so difficult?", IEEE International Conference on Acoustics, Speech, & Signal Processing, vol, 4, pp. 3313-3316, May 2002. [16] Wang, Z., Bovik, A.C., "A universal image quality index," IEEE Signal Processing Letters, vol. 9, no. 3, pp. 81-84, March 2002. [17] Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P., "Image quality assessment: From error visibility to structural similarity", IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600-612, April 2004. [18] Sheikh, H.R., Bovik, A.C., "Image Information and Visual Quality", IEEE Transactions on Image Processing, vol. 15, no. 2, pp. 430-444, February 2006 [19] Wainwright, M.J., Simoncelli, E.P., Wilsky, A.S., Random cascades on wavelet trees and their use in analyzing and modeling natural images, Applied and Computational Harmonic Analysis, vol. 11, pp. 89 123, 2001. [20] Cover, T.M., Thomas, J.A., Elements of Information Theory, Wiley- Interscience, New York, 1991.
19 [21] ITU-T, Objective perceptual assessment of video quality: Full reference television, 2004 [WWW]. [viitattu 16.11.2007] Saatavissa: http://www.itu.int/dms_pub/itu-t/opb/tut/t-tut-opavq.04-2004-pdf- E.pdf [22] Watson, A.B., DCTunen toteutus [WWW]. [viitattu 24.11.2007]. Saatavissa: http://vision.arc.nasa.gov/dctune/dctune2.0.install.exe, http://vision.arc.nasa.gov/dctune/dctune2.0.sea.hqx, http://vision.arc.nasa.gov/dctune/dctune2.0.tar.gz [23] Ponomarenko, N., PSNR-HVS-M:n Matlab-toteutus [WWW]. [viitattu 24.11.2007]. Saatavissa: http://www.cs.tut.fi/~ponom/psnrhvsm.m [24] Wang, Z., SSIM:n Matlab-toteutus [WWW]. [viitattu 24.11.2007]. Saatavissa: http://www.ece.uwaterloo.ca/~z70wang/research/ssim/ssim_index.m [25] Sheikh, H.R., Bovik, A.C., VIF:n Matlab-toteutus [WWW]. [viitattu 24.11.2007]. Saatavissa: http://live.ece.utexas.edu/research/quality/vifvec_release.zip. [26] Simoncelli, E.P., Steerable Pyramid Toolbox [WWW]. [viitattu 24.11.2007]. Saatavissa: http://www.cns.nyu.edu/pub/eero/matlabpyrtools.tar.gz, http://www.cns.nyu.edu/pub/eero/matlabpyrtools.sea.hqx [27] Wang, Z., Lu, L., Bovik, A.C., Video quality assessment based on structural distortion measurement, Signal Processing: Image Communication, vol. 19, no. 2, pp. 121-132, February 2004. [WWW] [viitattu 5.1.2008]. Saatavissa: http://www.cns.nyu.edu/~zwang/files/papers/vssim.pdf [28] Video Quality Experts Group [WWW]. [viitattu 6.1.2008]. Saatavissa: http://www.its.bldrdoc.gov/vqeg/ [29] Pinson, M.H., Wolf, S., A new standardized method for objectively measuring video quality, IEEE Transactions on Broadcasting, vol. 50, no. 3, pp. 312-322, September 2004. [WWW] [viitattu 13.1.2008]. Saatavissa: http://www.its.bldrdoc.gov/pub/n3/video/ieee04.pdf
20 LIITE 1 Kuvissa L1-L4 ovat testausta varten luodut 512x512 kokoiset kuvat, jotka on pienennetty sivuille sopiviksi. Tarkempi kuvaus niiden ominaisuuksista löytyy taulukosta 1 ja menetelmien antamat arviot kuville taulukosta 2. Kuva L1. Testikuvat 1-4
Kuva L2. Testikuvat 5-8 21
Kuva L3. Testikuvat 9-12 22
Kuva L4. Testikuvat 13-16 23
24 Taulukko 1. Testikuvien ominaisuudet Kuva Kuvan muokkaustapa 1 Normaalijakautunutta kohinaa, µ = 0, σ = 0.001 2 Normaalijakautunutta kohinaa, µ = 0, σ = 0.01 3 Normaalijakautunutta kohinaa, µ =, σ = localvar 4 Suola-pippuri kohinaa, tiheys = 0.02 5 Suola-pippuri kohinaa, tiheys = 0.1 6 Kuvan yläosassa Poisson-jakautunutta kohinaa 7 Kuvan alaosassa Poisson-jakautunutta kohinaa 8 Ylivalottunut kuva, pikseliarvot kerrottu 1.5:llä 9 Alivalottunut kuva, pikseliarvot kerrottu 0.6:lla 10 Keskiarvosuodatettu kuva, ikkunan koko 5x5 11 Liikesuodatettu kuva, Matlab: fspecial ( motion, 20, 20) 12 JPEG-pakattu kuva, laatuparametri 0 13 JPEG-pakattu kuva, laatuparametri 15 14 JPEG-pakattu kuva, laatuparametri 25 15 JPEG-pakattu kuva, laatuparametri 40 16 JPEG-pakattu kuva, laatuparametri 75 Taulukko 2. Menetelmien testikuville antamat arviot järjestyksessä parhaimmasta huonompaan. MSE DCTune PSNR-HVS-M SSIM VIF Kuva Arvio Kuva Arvio Kuva Arvio Kuva Arvio Kuva Arvio 16 25.30 16 4.19 16 49.97 16 0.94 8 0.85 7 34.10 15 7.66 15 41.31 7 0.93 16 0.83 15 51.00 14 9.85 7 37.54 15 0.89 6 0.80 1 62.00 1 12.49 14 36.46 14 0.86 9 0.73 14 67.50 13 13.17 1 33.86 9 0.83 7 0.72 6 79.50 6 15.92 13 31.43 13 0.82 15 0.63 13 92.50 10 24.19 6 31.31 8 0.80 1 0.59 10 164.80 7 27.04 10 24.50 1 0.76 14 0.51 12 313.20 3 35.87 4 24.26 6 0.74 13 0.39 11 354.40 2 36.30 2 22.75 10 0.73 4 0.32 4 427.00 4 43.76 3 22.72 4 0.66 10 0.28 2 577.00 12 56.54 12 19.40 11 0.61 2 0.26 3 577.70 11 61.84 11 18.28 12 0.55 3 0.26 5 2201.00 5 93.14 5 16.55 2 0.35 5 0.14 8 2713.30 9 149.14 8 9.68 3 0.35 11 0.10 9 3468.40 8 161.83 9 8.60 5 0.21 12 0.07