Projekti: Dokumentti: Tiivistelmä: Kohtaaminen TKK:n sisällöntuotannon erikoiskurssi T-110.070 Taustan poisto yhdellä stationäärisellä kameralla kuvatusta videosekvenssistä Ongelman asettelu ja Yleisiä tarkasteluja Dokumentissa kuvataan yleisellä tasolla niitä ongelmia ja toteutusvaihtoehtoja mitä tulee esille kun halutaan Kohtaaminen installaatiossa eliminoida toinen, tausta, seinä Versio: 0.1 Päiväys: 29.11.2004 Tunnus: KOH-008 Tila: Luonnos Laati: Jussi Hanhijärvi Puutteita: Kielivirheitä Sivu 1/5
Versiohistoria: Versio päiväys Laati Kommentti 0.1 13.11.2004 JKH Dokumenttirungon luonti Sisällysluettelo: 1.0 Tiivistelmä... 2 2.0 Johdanto... 2 3.0 Keskeisiä ongelmia... 3 4.0 Pikseliprosessit ja kuvan semantiikka... 4 5.0 Eräitä ehdotettuja menetelmiä... 4 1.0 Tiivistelmä Täydennetään tuonnempana 2.0 Johdanto Eräs keskeinen ongelma videon käsittelyssä on taustan ongelma. Usein halutaan korvata tausta jollain muulla, joko keinotekoisella luomuksella tai toisenlaisella videosekvenssillä. Halutaan, että pääkohde, näyttelijä; esiintyy tässä toisenlaisessa ympäristössä kuin mitä tausta ediustaa. Jo kauan on (jopa analogisissa) televisiostudioissa käytetty ns. chroma key tekniikkaa. Tässä studion seinät on väritetty tasavärisesti sellaisella värillä, jota näyttelijöiden ei oleteta kantavan, kuten asusteissa koruissa jne. Tavallisimmin käytetään sellaista sinistä väriä, joka luonnostaan tulee eliminoitua varsinaisessa TV lähetesignaalista. Joskus käytetään vihreätä tai jopa punaista. Tosin punainen on toisinaan koettu häiritseväksi. Videotekniikan digitalisoituessa herää kysymys voidaanko tämä chroma key tausta korvata luonnollisella taustalla. Erityisesti silloin kun kamera pysyy paikallaan, ei zoomaa eikä panoroi. Lisäksi pitäisi voida käyttää joukkoa opetuskuvia. Opetuskuvilla tarkoitetaan sellaista sekvenssiä missä varsinaista näyttelijää ei vielä ole. Ongelma on näennäisesti melko yksinkertainen. Kuvittelisi riittävän sen, että kuvasekvenssistä vähennetään voin joku opetuskuva. Kaikki Sivu 2/5
ne pikselit, jotka eroavat riittävän paljon merkitään etualan pikseleiksi muiden ollessa taustoja. Siis kullekin värikanavalle tietty pel 1 kuuluu etualaan kun I ( x, y) I ( x, y) m (1.1) t, k o kynnys missä Itk, ( xy, ) on pisteessä (x,y) kuvassa k oleva pel:n arvo ja Io( xy, ) on vastaavassa positiossa olevan opetuskuvan pel:n arvo ja kynnysarvo. m kynnys on kiinteä Tässä yksinkertaisessa ratkaisussa on vain muutama ongelma. Ensinnäkin menettely toimii kohtalaisen hyvin kun tausta on tasavärinen ja siihen ei heijastu varjoja. Toiseksi pienetkin valaistuksen muutokset (kuten auringon laskeminen tai painuminen pilven taakse) paljastuvat heti. Kolmanneksi kameran heilahtaminen muutaman pikselin verran tai pieni tuulenvire puuston oksistossa näkyy myös välittömästi vääränä etualatulkintana. Neljänneksi laskennan kompleksisuus on verrannollinen kuvan kokoon siis O( p r t) missä p on väritasojen lukumäärä sekä r ja t kuvan pituus ja korkeus. 3.0 Keskeisiä ongelmia Valitettavasti yhtään täysin ihanteellista taustan häivytysratkaisua ei ole toistaiseksi löydetty 2. Ihanteellisen taustanhäivytysalgoritmin pitäisi kyetä hallitsemaan mm. seuraavat seikat: 1. Taustalla olevat pienet liikkeet, näitä ovat esimerkiksi kadulla kulkevat autot, puun lehvästön huojumiset, kameran tärähdykset, taivaan pilvet jne. 2. Valaistuksen nopeat tai hitaat muutokset. Näitä ovat esimerkiksi yhtäkkinen lampun sammuttaminen tai päälle kytkeminen ja auringon (yllättävän nopea) painuminen horisontin tai pilven taakse. 3. Etualan pel voidaan tulkita taustan peliksi sen samanvärisyyden vuoksi. 4. Bootstrapping eli ei voida muodostaa sellaista opetussekvenssiä, missä esiintyy tulevaan etualan kuuluvaksi katsottua asiaa, kuten vilkkaasti liikennöity katu. 5. Nukkuva henkilö. Etualan hahmo nukkuu ja yhtäkkisesti herää. Tällöin nukkuva hahmo helposti tulkitaan taustaksi. 6. Varjot tulkitaan väärin etualaan kuuluviksi. 1 Termillä pel tarkoitetaan pienintä osoitettavissa olevaa kuvan komponenttia. Yksi RGB pikseli siis sisältää 3 pel:iä. 2 Lukuunottamatta ehkä stereokameralla kuvattua sekvenssiä. Tässä kun määritellään jokaisen taustalla olevan esineen tai asian täsmällinen geometrinen sijainti 3D avaruudessa. Sivu 3/5
4.0 Pikseliprosessit ja kuvan semantiikka Täydennetään tuonnempana 5.0 Eräitä ehdotettuja menetelmiä Tässä työssä tarkastellaan otettujen testisekvenssien valoissa seuraavia menetelmiä ja niiden hyvyyttä ratkaista edellä mainitut ongelmat. Kukin menetelmä ja muodostetut videosekvenssit esitellään erillisissä sivuissa. Näissä kullekin väritason pelille esitetään kuuluvatko ne etualaan (arvoltaan 255) vai taustaan (arvoltaan 0). Mitään normalisointia esimerkiksi laskennan nopeuttamiseksi ei näissä kokeissa ole tehty. Seuraavat menetelmiä tarkasteltiin: 1. Yksinkertainen kynnys (em. kaava (1.1) ). 2. Keskiarvo ja kovarianssi. Opetusjoukon peleille lasketaan keskiarvo ja kovarianssi. Etualan pelit määrätään ns. Mahalaboin etäisyydellä. 3. Gaussin jakauma, Muodostetaan 3 gaussin mallia ja painotetaan sillä esiintymisfrekvenssillä millä malli selittää ( ± 2 σ ) oletetun taustan. 4. Normalisoitu lohkokorrelaatio. Kuva on jaettu lohkoihin. Kullekin lohkolle lasketaan edusta mediaani ja standardi poikkeama. Mikäli esiintyvän kuvan lohko poikkea merkittävästi opetuskuvien mediaanista katsotaan lohkon kuuluvan etualaan. 5. Temporaalinen derivaatta. Opetusvaiheessa lasketaan kunkin kuvan pelin ajallinen frame by frame derivaatta. Jos tarkasteltavan pelin derivaatta poikkeaa opetusjoukon vastaavasta derivaatasta (on siis pienempi tai suurempi kuin tallennettu maksimi tai minimi) niin pel katsotaan kuuluvan etualaan. 6. Bayesilainen päättely, Pelin todennäköisyystiheys yli useamman framen esitetään histogrammina. Pelin kuuluminen taustaan määrätään suoraviivaisesti a posteriori kriteerillä. 7. Eigentausta, Liikkumattoman taustan kuvista lasketaan PCA:lla (principle component analysis) keskiarvot ja varianssit koko opetusjoukosta. Tarkasteltavat kuvat projisoidaan PCA:n aliavaruudelle. Jos projektion ja varsinaisen kuvan pelien erot ovat suuremmat kuin kynnysarvo niin katsotaan pelin kuuluvan etualaan. 8. Lineaarinen ennuste. Kullekin pelille lasketaan ennuste wiener suodattimen avulla. Mikäli aktuaalinen pel on suurempi kuin ennustearvo niin pel:n katsotaan kuuluvan etualaan. Sivu 4/5
9. Wallflower, algoritmi on moniosainen, jossa varsinaisen pikselin prosessin lisäksi tarkastellaan alueellisia ja kuvan kokoalaan liittyviä muutoksia. 10. HMM on myös sekä pikseliprosessiin että kuvasegmentteihin keskittynyt piilotettuja Markov Malleja (HMM) käyttävä menetelmä. Sivu 5/5