Monikameratuotannon automaattinen editointi

HELSINKI UNIVERSITY OF TECHNOLOGY 22.12.2006 Tietoliikenneohjelmistojen ja multimedian laboratorio T-111.5080 syksy 2006 - Sisällöntuotannon seminaari Monikameratuotannon automaattinen editointi Jaakko Alajoki (o.s. Välikylä) 62645C

Monikameratuotannon automaattinen editointi Jaakko Alajoki (o.s. Välikylä) TKK, Tietoliikenneohjelmistojen ja multimedian laboratorio jaakko.alajoki@tkk.fi Tiivistelmä Tässä seminaarityössä pohditaan monikameratuotannon täysin automaattista leikkausta. Automaattinen leikkaus koostuu kahdesta työvaiheesta. Ensin analysoidaan lähdemateriaali. Materiaalista tulkitaan kelvoton kuvamateriaali ja kuvakoko. Sen jälkeen sovelletaan leikkauksen perussäännöstöä kuvan valintaan. Esimerkkinä työssä on käytetty teatteriesityksen taltiointia. 1 MONIKAMERATUOTANTO Teatteriesitys on parhaimmillaan paikan päällä seurattuna. Usein kuitenkin halutaan taltioida esitys videolle esimerkiksi arkistointia varten. Erilaisissa hajautetuissa teatteriesityksissä näytös voidaan myös videoida ja lähettää suorana toisaalle. Teatteriesityksen taltiointi edellyttää käytännössä useamman kameran käyttöä. Useamman kameran avulla lisätään todennäköisyytä, että lavan tapahtumat saadaan tallennettua. Useamman kameran avulla saadaan myös vaihtelua kuvakulmiin, mikä tekee videon seuraamisesta mielekkäämpää. Jotta esityksen seuraaminen olisi katsojalle kiinnostavaa, kameroiden kuvista on valittava katsojalle näytettäväksi sellainen, joka välittää esityksen kannalta relevanttia informaatiota (Sumec, 2004). Perinteisesti kameran valinnan on tehnyt ihminen, mutta prosessi on myös mahdollista automatisoida. Automaattinen videon leikkaus perustuu kuvan analysointiin ja automaattiseen valintaan, sekä leikkauksen perusteoriaan. 2 LEIKKAUSSÄÄNNÖT Videon leikkaukseen ei ole olemassa yhtä ja oikeaa tapaa. Videon rytmitys ja tunnelma määräytyvät pitkälle leikkauksen perusteella ja erilaisia tyylejä haettassa voidaan soveltaa hyvinkin erilaisia leikkauksia. Hyvin usein oikeanlainen rytmi muodostuu 1

leikkaajan subjektiivisen näkemyksen perusteella kokeilun ja kokemuksen kautta. Ei ole olemassa absoluuttisen oikeita leikkaussääntöjä, joiden avulla syntyy täydellinen video. Kun puhutaan keinotekoisesta järjestelmästä, joka jäljittelee ihmiskäden jälkeä, on kuitenkin määriteltävä säännöstö, jonka perusteella automaatti toimii. Kumano et al. (2002) määrittelevät tutkimuksessaan ns. videon kieliopin, eli joukon sääntöjä, jotka määrittelevät, mitkä videon otot voidaan liittää toisiinsa. Säännöt muistuttavat perinteisiä kielioppisääntöjä, mutta sanojen sijasta sääntöjä sovelletaan ottoihin. Kielioppia voidaan soveltaa videon automaattisessa leikkauksessa. Otolla tarkoitetaan tässä yhteydessä yksikäsitteistä jatkuvaa videon osaa, jossa kameran työskentely ja rajaus pysyvät vakiona. On syytä huomata, että Kumano et al. (2002) esittävät vain neljä sääntöä. Nämä eivät ole ainoita oikeita mahdollisia tapoja leikata videota ja käytännössä voidaan määrittää muitakin sääntöjä. Kumano et al. (2002) käyttävät leikkaussääntöjensä perustana kolmea erilaista kuvakokoa. Kuvakoot kertovat kuinka suuri osa kuvattavasta kohteesta, kuten esimerkiksi ihmisestä, mahtuu kuvaan. Kuvakoot ovat: Loose shot (LS) Medium shot (MS) 2

Tight shot (TS) Sananmukaisesti LS on kolmesta vaihtoehdosta laajin ja TS lähin. Lisäksi on olemassa vielä erityinen kokokuva, jossa kohde näkyy kokonaan. Kokokuvaa voidaan käyttää leikkauksessa master-kuvana, eli sellaisena kuvana, johon on aina turvallista leikata. Soveltaen edellä mainittuja kuvakokoja voidaan määrittää seuraavat yksinkertaiset leikkaussäännöt: 1. Kahta ottoa ei voi yhdistää toisiinsa, jos kuvakoko vaihtuu liikaa. Esimerkiksi LS-kuvasta ei voi leikata TS-kuvaan. 2. Videon alussa pitää olla aina laajin kokokuva. Laajalla kuvalla esitellään katsojalle yleiskuva tilanteesta. 3. Ottojen kestoissa on noudatettava karkeasti seuraavaa kaavaa: LS MS TS 6 sekuntia 4 sekuntia 2,5 sekuntia. Oton kestoon vaikuttaa olennaisesti kuvassa olevien yksityiskohtien määrä. Mitä enemmän kuvassa on yksityiskohtia kuten laajassa kuvassa sitä pidempään sitä on näytettävä. Täysin vastaavasti yksinkertaista kuvaa ei tarvitse näyttää niin pitkään. Myös kameran liike vaikuttaa kohtauksen kestoon. Jos kamera liikkuu hitaasti, on otosta leikattava lyhyempi, tai katsojat kyllästyvät. Jos kuvassa taas on paljon liikettä, on katsojille jätettävä aikaa ymmärtää, mitä kuvassa tapahtuu. 4. Kameran panoroinnin ja polttovälin muuttamisen (zoom) jälkeen on vähintään 1 sekunnin mittainen kuva, jossa kamera ei liiku. Kameran panoroinnilla tarkoitetaan kameran kääntämistä vaakasuunnassa. Kameran liikkeiden jälkeen on hyvä olla paikallaan olevaa videokuvaa, jotta lopputulos ei olisi liian rauhaton. 3

Jotta leikkaussääntöjä voidaan soveltaa, on ensin analysoitava kuvamateriaali. Yksinkertaisinta analyysissa on lähteä siitä, että pudotetaan pois käyttökelvoton kuvamateriaali. Kelvottomaksi liikkeeksi luokitellaan esimerkiksi korjausliikkeet, kuten tärähtelyt, nopeat käännökset ja polttovälin muutokset. 3 KAMERAN TÄRINÄN TUNNISTAMINEN Kameran tärinän tunnistaminen on tärkeä osa kuvamateriaalin analysointia, sillä tärinää ei tulisi leikata valmiiseen videoon. Erityisesti amatöörikuvaajien videoissa esiintyy paljon kameran tärinää (Dobashi et al., 2001). Kameran tärinä voidaan tunnistaa MHI eli motion history images -menetelmällä (Capin et al., 2006). MHI on alunperin kehitetty eleiden tunnistamiseen, mutta se soveltuu tähän käyttötarkoitukseen myös mainiosti. MHI:n toiminta perustuu perättäisiin mustavalkoisiin ruutukaappauksiin, joista voidaan havaita yksinkertaisia liikkeitä kevyellä laskennalla. Liikkeentunnistuksessa vertaillaan kahta perättäistä mustavalkoista kuvaa vähentämällä niiden intensiteettiarvot toisistaan. Liikehistoriaan merkitään ne kohdat, joissa havaitaan pikseleiden arvojen muutosta, kuten kuvassa 1 on esitetty. Näin historiaan tallentuu tieto liikkeestä videosekvenssin aikana. Laskemalla keskiarvot liikehistoriaan tallennetuista intensiteettiarvoista, voidaan kameran liike päätellä. Kameran liike taas voidaan edelleen tulkita tärinäksi, jolloin videota ei kelpuuteta mukaan lopulliseen leikkaukseen. Kuva 1. Kuvassa on ote liikehistoriasta. Punaiset pisteet ovat nykyisestä kuvasta tunnistettuja kohteita ja vihreät edellisestä kuvasta tunnistetut kohdat. Yhdistämällä yksittäisten kohteiden liiketiedot voidaan päätellä kameran liike. 4 POLTTOVÄLIN MUUTOKSEN TUNNISTAMINEN Kameran tärinän ohella polttovälin muutoksen tunnistaminen on tärkeää. Polttovälin muuttaminen kuvauksen aikana, eli niinsanottu zoomaaminen, on kameraoperaatio, jota 4

tulisi välttää. Ihmisen oma silmä ei kykene polttovälin muutoksiin, ja siksi se näyttää myös videolla luonnottomalta. Zoomauksen tunnistamiseen voidaan käyttää yhdessä sekä 2DST eli 2D spatio-temporal -menetelmää ja multilayer perceptron -menetelmää (MLP) (Lee et al., 1998). Menetelmässä luodaan aluksi 2DST-kuvat annetulla ajanjaksolla. Kuvissa on tietynlainen tekstuuri, mikäli pikselit liikkuvat samaan suuntaan. Kameraoperaatiot voidaan saada selville analysoimalla näitä 2DST tekstuureita. 2D Discrete Fast Fourier Transform -menetelmää (2DFFT) ja power spectrum - menetelmää käytetään kuvan analysointiin. 2DST-kuvan suunta k saada seuraavan yhtälön avulla: p( k ) > p( i ) (i k, i,k = 0,..., ) missä p() on määritelty p() = r P(r,). P(r,) on power spectrum polaarikoordinaattimuodossa. Tekstuurien analysointiin sovelletaan MLP:tä. Menetelmän avulla videokuvasta saadaan aikaan halutunkokoinen vektorikenttä, josta kameran liikkeet voidaan päätellä. Analyysi on tehtävä erikseen sekä horisontaalisesti että vertikaalisesti. Kuva 2. Multilayer perception -menetelmän aikaansaamien vektorikenttien avulla voidaan päätellä kameran liikkeet. Kameran polttovälin muutos näkyy siten, että vektorikentän laidoilla vektorit ovat suunnattuna joko toisiaan kohti tai vastakkaisiin suuntiin, ks. kuva 2. Tätä menetelmää voidaan käyttää myös edellä mainitussa tärinän tunnistamisessa. Mikäli liike on riittävän nopeaa, tulkitaan kameran kuva käyttökelvottomaksi. 5 KUVAKOON TUNNISTAMINEN Kuvakoot määritellään usein erilaisina ihmiskehon rajauksina. Esimerkiksi MS-kuvassa näytetään ihmisestä puolet ja TS-kuvassa vain kasvot. Näinollen kuvakoon tunnistamisessa on luontevinta käyttää ihmisen kasvojen paikan ja koon tunnistavaa algoritmia. Kun kasvot on tunnistettu, voidaan laskea kasvojen ja koko kuva-alan koon suhde ja siten päätellä käytetty kuvakoko. Kasvojen tunnistaminen on haastavaa seuraavien tekiöiden vuoksi (Yang et al., 2002): 5

Kuvakulma. Kasvot voivat olla kuvattuna monesta suunnasta (suoraan edestä, etuviistosta, sivulta, ylösalaisin). Tietyt kasvojen osat, kuten nenä tai korvat, saattavat jäädä kokonaan peittoon. Poikkeavuudet kasvoissa. Ihmisellä voi kasvojen peittona olla esimerkiksi silmälasit tai viikset. Nämä esteet voivat olla hyvinkin eri näköisiä. Kasvonilmeet. Ihmisen ilme vaikuttaa paljon kasvojen muotoon ja ulkonäköön ja sitä kautta tunnistettavuuteen. Peittävyys. Kasvot voivat olla joko kokonaan tai osittain edessä olevien objektien, kuten toisten ihmisten, peittämiä. Kuvan kallistus. Kasvokuvat vaihtelevat kameran kallistuksen mukaan. Kuvausolosuhteet. Valaistus, ympäristö ja kameran ominaisuudet vaikuttavat kuvaan. Scheiderman et al. (2000) ovat tutkineet Pittsburgin yliopistossa objektien, kuten kasvojen, tunnistamista kuvasta. He ovat kehittäneet luotettavan kasvontunnistustavan, joka osaa tunnistaa kasvot katsottuna eri suunnista monenlaisissa olosuhteissa. Kuva 3. Esimerkkejä referenssikuvista. Kasvojen tunnistamiseen Scheiderman et al. (2000) ovat käyttäneet kolmea kuvaa, sivuprofiilikuva peilattiin. Auton luotettava tunnistaminen edellyttää kahdeksan kuvan käyttöä. Menetelmän perustana ovat referenssikuvat (kuva 3), eli niinsanotut detektorit, joiden avulla algoritmille opetetaan objektien ulkomuoto. Referenssikuvista sekä taustasta luodaan tilastolliset mallit. Objekti etsitään vertaamalla malleja keskenään. Objekti voi olla kuvassa missä tahansa kohdassa minkä tahansa kokoisena. Tämän vuoksi vertailu objektin ja taustan välillä tehdään jokaiseen mahdolliseen kohtaan käyttäen kaikkia mahdollisia kokoja. Käytetään tilastollisesta mallista merkintää P. Analysoitaessa kuvaa objektin malli on siis P(image object) ja taustan malli on P(image non-object). Seuraavan yhtälön avulla päätetään, onko objekti kuvassa vai ei: P( image object) > P( image non object) P( non object) P( object) Yhtälön avulla verrataan siis kuvasta analysoitua tietoa tilastolliseen taustatietoon. 6

Tilastollinen malli voidaan muodostaa monella eri tavalla. Scheiderman et al. (2000) ovat päätyneet käyttämään histogrammeja. Histogrammin etu on, että sen muodostaminen on käytännössä triviaalia. Histogrammin haittapuoli on, että se ei ole järin tarkka toisin sanoen se ei kuvaa objektia riittävän yksiselitteisesti. Tunnistustarkkuuden parantamiseksi on tarpeen laskea useita histogrammeja kuvan eri kohdista. Kuva 4. Tilastollinen kuvantunnistusmenetelmä on luotettava. Se tunnistaa kasvonpiirteet ihon väristä ja pään asennosta välittämättä. Se osaa jopa tunnistaa kasvoja muistuttavan kalliomuodostelman. Algoritmia voi kokeilla itse omilla kuvillaan internetissä osoitteessa http://demo.pittpatt.com/ 6 KÄYTÄNNÖN SOVELLUS Käytännön esimerkkinä käsitellään teatteriesityksen taltiointia kolmella kameralla. Kuvassa 5 on esitetty kameroiden asettelu sekä tehtävät. Kuva 5. Esimerkissä käsitellään teatteriesityksen taltiointia kolmella kameralla. Kaksi kameraa kuvaa lähikuvia esityksestä ja kolmas laajaa yleiskuvaa. 7

Kamera A on sijoitettu lavan läheisyyteen sivulle. Kamera B on sijoitettu myös lavan lähelle, mutta toiselle puolelle. Molempia kameroita käsittelee kameraoperaattori. Kameroilla pyritään kuvaamaan mahdollisuuksien mukaan kaikkia kolmea kuvakokoa (LS, MS ja TS). Kahden eri puolille sijoitetun kameran avulla saadaan todennäköisimmin puhujan kasvot näkyviin. Lisäksi kahden lähikuvakameran avulla todennäköisyys saada onnistunutta kuvaa kasvaa. Salin takaosaan on sijoitettu kamera C, joka on miehittämätön. Kamera kuvaa laajaa kuvaa, eli niin sanottua master-kuvaa. Kameran kuvassa näkyy esiintymislava kokonaisuudessaan. Tämän kameran kuvaa voidaan näyttää missä tahansa tilanteessa, silloinkin, kun molemmat kamerat A ja B ovat poissa pelistä. Järjestelmä analysoi jatkuvasti kameroiden A ja B kuvaa. Analyysin perusteella tulkitaan kuva ensin joko kelvolliseksi tai kelvottomaksi. Sen jälkeen leikkaussääntöjen avulla automaattinen leikkausohjelmisto valitsee lähetykseen kuvan. Videokuvan analyysi perustuu edellä kuvattuihin menetelmiin, jossa kuvasta tulkitaan seuraavat asiat: 1. Kuvan tärinä 2. Kameraoperaatiot 3. Kuvan koko Kuvavirrasta hylätään automaattisesti kohtien 1 ja 2 mukaiset kuvat, eli tärähtelevä kuva, tai sellainen kuva, jossa kameraa liikutetaan. Jäljelle jäävistä kuvavirroista analysoidaan kuvan koko. Tämän jälkeen leikkausohjelmisto soveltaa leikkauksen säännöstöä kuvan valintaan. Esimerkiksi jos kameramies potkaisee vahingossa kameran B jalustaa, kamera tärähtää. Tällöin leikkausohjelmisto hylkää kuvan ja lähetykseen laitetaan joko kameran A kuvaa tai sitten turvallista kameran C master-kuvaa. Jos taas kameramies B hukkaa kuvasta puheenvuorossa olevan näyttelijän ja alkaa käännellä kameraa sekä muuttaa polttoväliä (zoomaa) etsiäkseen näyttelijän uudelleen kuvaan, leikkausohjelmisto tulkitsee kuvan käyttökelvottomaksi. Jälleen ollaan tilanteessa, jossa voidaan käyttää vain kameroiden A tai C kuvia. 8

Kuva 6. Kuvassa on esitetty esimerkki kameroiden tuottamista kuvista. Kamera A kuvaa lähikuvaa (TS). Kamera B kuvaa puolikuvaa (MS) ja kamera C kaukaa turvallista master-kuvaa. Kuvat: http://www.lordi.fi Jos molemmat kamerat kuvaavat kelvollista kuvaa, kuten kuvassa 6 on esitetty, käytössä on kaikkien kolmen kameran tuottama kuvavirta. Ajatellaan, että kamera A kuvaa lähikuvaa ja kamera B puolikuvaa. Leikkausohjelmisto aloittaa videon näyttämällä laajinta kuvaa C, soveltaen alussa esitettyä leikkaussääntöä 2, jonka mukaan kohtauksen alussa pitää olla laajaa kuvaa. Kuvaa näytetään noin kuusi sekuntia säännön 3 mukaisesti, joka jälkeen leikataan kuvaan B säännön yksi mukaisesti. Sääntö yksi sanoo, että kuvakoko ei saa vaihtua liikaa. Kuvaa B näytetään noin neljä sekuntia taas kerran säännön 3 mukaisesti, jonka jälkeen leikataan kuvaan A. Jos kaikkien kameroiden kuvat pysyvät käyttökelpoisina, vaihdetaan kuvakulmaa säännöllisesti säännön 3 määrittämien aikojen puitteissa. Jos jonkin kameran kuva yhtäkkiä muuttuu kelvottomaksi, siihen ei enää leikata. 7 YHTEENVETO Yksinkertaisimmillaan taltioinnin leikkaus on kelvottoman kuvamateriaalin karsintaa ja jäljelle jääneen kuvavirran valintaa. Sekä kelvollisen kuvamateriaalin suodatus että kamerakulman vaihto on mahdollista yrittää automatisoida nykytekniikan keinoin. Modernit kuvantunnistusmenetelmät tarjoavat järjestelmälle pohjan. Niiden avulla voidaan analysoida kuvamateriaali ja tunnistaa kuvasta kameraoperaatiot kuten panoroinnit ja polttovälin muutokset. Analyysi tarjoaa metatiedon varsinaiselle leikkausprosessille. Itse leikkaus suoritetaan keinotekoisen semanttisen säännöstön mukaisesti. Taltioinnin leikkauksen perusperiaatteet voidaan yksinkertaistaa hyvinkin suoraviivaiseksi säännöstöksi, jonka perusteella voidaan tuottaa lopullinen video. Tässä työssä on esitetty täysin teoreettisella tasolla periaate automaattiselle videon leikkaukselle. Käytännön toteutuksessa kohdattaisiin varmasti paljon ongelmia, joista automaatio ei tällaisenaan pysty selviämään. Tutkimuskohde on kuitenkin hyvin mielenkiintoinen ja tulevaisuudessa tulemme varmasti näkemään toimivia automaattisia leikkaussovelluksia. 9

Lähteet Kentaro Dobashi, Akihisa Kodate ja Hideyoshi Tominaga, 2001, CAMERA WORKING PARAMETER EXTRACTION FOR CONSTRUCTING VIDEO CONSIDRING CAMERA SHAKE, WASEDA University Dept. of Global Information Telecommunication Instiute and Studies, Tokio, Japani. Stanislav Sumec, 2004, Multi Camera Automatic Video Editing, Brno University of Technolohy, Brno, Tsekki. Masahito Kumano, Yasuo Ariki, Miki Amano, Kuniaki Uehara, Kenji Shunto, Kiyoshi Tsudaka, 2002, Video editing support system based on video grammar and content analysis. Capin, T., Haro, A., Setlur, V., ja Wilkinson, S., 2006, Camera-Based Virtual Environment Interaction on Mobile Devices, 21st International Symposium on Computer and Information Sciences (ISCIS). Mee-Sook Lee, Bon-Woo Hwang, Sanghoon Sull ja Seong-Whan Lee, 1998, Automatic video parsing using shot boundary detection and camera, Center for Artificial Vision Research, Korea University, Seoul, Korea. Ming-Hsuan Yang, David J. Kriegman ja Narendra Ahuja, 2002, Detecting Faces in Images: A Survey, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 24, NO. 1, JANUARY 2002. H. Schneiderman, T. Kanade, 2000, A histogram-based method for detection of faces and cars, Proceedings of the 2000 International Conference on Image Processing (ICIP '00), Vol. 3, September, 2000, pp. 504 507. 10