Kokousmuistio 8/2013 DIGITOINTITYÖRYHMÄN KOKOUS Onkapannu 2 Maanantai 23.10.2013 klo 10.00 Läsnä: Poissa: Heikki Hanka, puheenjohtaja Mustonen Anu Närhi Markku Viitala Ilpo Aro Mikko Auer Antti Vuorinen Pirjo Hiltunen Visa Jani Hartonen, sihteeri Olsbo Pekka 1. Kokouksen avaus Kokous aloitettiin skanneritilassa n. klo 10.10. 2. Edellisen kokouksen muistio Edellisen kokouksen muistio hyväksyttiin. 3. Esityslistan hyväksyminen Esityslista hyväksyttiin. 4. Skannerin toimintaan tutustuminen Kokous aloitettiin tutustumalla kirjaskannerin toimintaan. Skannerilaite ja tähän kytketyt järjestelmät on saatu toimintakuntoon ja koeskannauksia tehty. Skannerilla saatuja tuotoksia ja kirjoihin liitettyjä metatietoja on arvioitu muun muassa JYXin kannalta Pekka Olsbon toimesta. a) tilat Jarno Viikki esitteli työryhmälle laitteen toimintaa testiskannauksella. Ilpo Viitala mainitsi, että skanneritoiminta pyritään saamaan käyntiin mahdollisimman intensiivisesti viikon 44 jälkeen. Tuolloin Mattilanniemessä vielä tällä hetkellä olevat optisen tallennuksen palvelut olisivat myös toiminnassa Savelan tilassa. Viimeistelyä kuitenkin vielä tarvitaan.
Yliopiston Savelasta vuokraamat tilat koostuvat kahdesta huoneesta sekä yhteiskäytävästä, jossa on pieni keittiö. Skannauslaite on sijoitettuna pienempään huoneeseen ja tästä väliseinällä erotetussa isommassa huoneessa on jälkikäsittelytila työpisteineen. Lisäksi tiloihin lukeutuu kaksi varastohuonetta. Ilpo Viitala mainitsi varastointitilojen kuitenkin olevan hyvin rajalliset. Tilojen riittävyys arvioitiin mahdolliseksi ongelmaksi, sillä yhdellä kertaa ei tilaan mahdu kovinkaan suurta määrää aineistoa. Lisäksi skannerihuoneeseen sijoitetaan monitoimikone irtosivujen A4- skannausta varten. Materiaalin kierto on suunniteltu toteutettavaksi siten, että skannaushuoneeseen tulee kulku vain ulkokäytävästä ja skannaustilaan yhteiskäytävästä johtava ovi suljetaan. Näin ollen mahdollinen ongelmamateriaali ei kulkeudu jälkikäsittelytilaan eikä henkilöstön virkistystilaan. Ilmastointia ei tilaan ollut vielä tehtynä. LVI-töiden on määrä alkaa viikolla 44, mutta varsinainen toteutus oli vielä ratkaisematta. Ilman ilmanpoistoon liittyviä ratkaisuja on tilassa mahdollisuus käsitellä vain puhdasta aineistoa. Skannerilaitteen ylle on suunniteltu huuvaa sekä lisäksi tilaan vetokaappia, jossa kirjat voitaisiin puhdistaa paineilmalla ennen digitointia. Skannerissa on itsessään suodattimet, jotka puhdistavat laitteen läpi liikkuvaa ilmaa, joka kuitenkin päätyy kierron jälkeen samaan huoneeseen. Työprosessiin kuuluu suodattimien ja prismojen puhdistus päivittäin. b) työprosessi Koneen suorittaman testiskannauksen yhteydessä todettiin, että skannerin toimintaa joutuu vahtimaan melko paljon. Laite osaa suorittaa laadullisia tehtäviä, esimerkiksi tuplasivujen poistaminen ja vinojen sivujen korjaaminen onnistuu, mutta esimerkiksi paksuja kirjoja joudutaan siirtelemään skannauksen edetessä. Skannaustyö onnistuu parhaiten kooltaan ja sivumateriaaliltaan samankaltaisten kirjasarjojen osalta, mutta useasti kirjat ovat toisistaan täysin poikkeavia ja tämä hidastaa työtä. Erityisen herkälle aineistolle skanneri ei sovellu. Skannaustyön aloittaminen vaatii jokaisen kirjan osalta alkuasetuksien määrittämistä, joihin menee yhden kirjan osalta 5 10 minuuttia. Skannerilaite kuvaa lisäksi ainoastaan sisäsivut, joten kirjan kannet ja päädyt skannataan manuaalisesti tasoskannerilla. Laitteen vieressä seisomisen sijaan nousi esille mahdollisuus kiinnittää kattoon skannerin toimintaa kuvaava kamera, jonka kautta skannerin toimintaa voitaisiin valvoa jälkikäsittelytilasta käsin. Tästä sekä mahdollisista muista skannaukseen liittyvien toimintavaiheiden automatisoinneista uskottiin syntyvän tarkempaa näkemystä, kunhan työprosessista karttuu enemmän käytännön kokemusta. Kokemuksen karttumisen myötä uskottiin kehittyvän myös realistinen käsitys aiheutuvista kustannuksista ja tämän myötä ajatus siitä, mitä ylipäänsä kannattaa digitoida. Työn kustannuksen minimoiminen nähtiin kuitenkin tärkeäksi, mikäli kone vaatii aktiivista tarkkailua ja työn manuaalista ohjaamista. Tällöin mielekkäämmäksi ratkaisuksi arvioitiin, että sormenpitäjänä olisi esimerkiksi tutkimusavustaja, jonka tehtävänä olisi hoitaa
skannaustehtäviä. Digitointikeskuksen varsinainen henkilöstö hoitaisi muita asiantuntemusta vaativia tehtäviä. Asiantuntemus siitä, että digitointityö tehdään oikein, on tärkeää ja voi olla hyvinkin vaativaa. Roolien rajojen löytäminen ja työprosessin kehittäminen nähtiin tärkeäksi kustannusten minimoimisen kannalta. Ilpo Viitala kertoi, että tähän mennessä koneen käyttäjiä on koulutettuna kolme. Tarkoitus on, että nämä kouluttavat myöhemmin seuraavia käyttäjiä. c) tekniset yksityiskohdat Skanneri tuottaa pakkaamattomia tiff-tiedostoja, joiden tiedostokoko on keskimäärin noin 33 megatavua / sivu. Värikuvat vievät tilaa lähemmäs 100 megatavua / sivu. Tavanomainen noin satasivuisen kirjan tilatarve on näin ollen suurin piirtein 3 gigatavua. Skannauksen valmistuttua kuvat siirtyvät palvelimelle, joka huolehtii siirroista laitteiden välillä. Palvelin siirtää skannatut tiedostot eteenpäin tekstintunnistusta (OCR) varten toiselle koneelle, josta lopputuloksena syntyy luettava pdf-tiedosto. Metatiedot syötetään käsin pdf-tiedostoon jälkikäsittelyssä. Itse skanneriin liittyvässä ohjelmistossa metatietoja on käytettävissä vähän. Skannauksen yhteydessä jokainen työ saa myös oman identifioivan tunnisteen, URN:n. Varsinaiseen tallennusstorageen tiedostot menevät vasta lopuksi, sekä valmiina pdftiedostona, että myös muokkaamattomana tiff-tiedostona. Erityisesti tiff-tiedostojen säilyttämisestä nousi esille kysymys, sillä nämä rasittavat käytettävissä olevaa tallennuskapasiteettia melkoisesti. Toistaiseksi nämä kuitenkin myös säilytetään. d) digitaaliset kokoelmat, pitkäaikaissäilyttäminen Säilytysajan päättäminen ja rajanveto tämän osalta koettiin tärkeäksi, sillä digitointityö muodostunee päällekkäiseksi ja laitteella digitoidaan todennäköisesti myös kappaleita, joista digitaaliset kappaleet olisivat jo käytettävissä. Tämä on vaarana varsinkin, jos tarkempaa kartoitustyötä ei tehdä. Asia tulisi ratkaista erittelemällä pitkäaikaissäilytettäviin lukeutuvat skannaukset sekä ns. digitoidut lukukappaleet, joita säilytetään siihen saakka kunnes alkuperäinen digitaalinen versio saadaan jostain maailmalta. Pitkäaikaissäilytyksen osalta kannatettavana rajana pidettiin ehdotusta, että jos originaali on yliopiston omistama ja se on JYKDOKissa luetteloituna, säilytettäisiin nämä lähtökohtaisesti ikuisesti. Kartoitustyön avulla tulisi selvittää miten paljon nyt skannattavaksi aiotusta aineistosta olisi saatavissa suoraan kustantajalta. Kirjan uudelleen hankinta arvioitiin edullisemmaksi huomioiden skannauksen tila- ja työkustannukset. Kirjasto nähtiin tässä asiantuntijuuden kannalta tärkeässä asemassa. Pohdittiin myös kysymystä siitä, että riittääkö meille, että yksittäinen kirja on käytettävissä jossakin avaruudessa, vai pitääkö sen yksiselitteisesti olla meidän palvelimella ja kokoelmissa. Eli tuottaako se jotain lisäarvoa, että kirja on löydettävissä JYKDOKista googlettamisen sijaan? Lähtökohtaisesti ajateltiin, ettei meidän kannata tehdä itsellemme digitaalisia kopioita maailman kirjallisuudesta vaan lähtökohtaisesti
käyttää niitä kopioita, jotka ovat jo olemassa. Voidaanko meidän hakujärjestelmiin liittää hakutieto siitä, missä fyysinen kopio on käytettävissä. Trendinä on, että kirjastot siirtyvät yhä enemmän fyysisistä kappaleista digitaalisiin kappaleisiin. Tämä on siten myös osa yliopiston kirjaston strategista suunnittelua. Todettiin, että pitkäaikaissäilyttämiseen ei yliopistolla ole teknistä ratkaisua, eikä osaamistakaan sinällään. Aktiivisen datan säilyttäminen on lisäksi kallista. Jos aineiston pitää olla aktiivisesti käytössä, laitteistoja joudutaan uusimaan ja laajentamaan muutaman vuoden sykleissä, pysyvästi säilytettävän aineiston kuorman kasvaessa. Mikäli pitkäaikaissäilytystä tavoitellaan, tulisi laatia jonkinlainen laskelma säilytyskustannuksesta tiedoston elinkaaren osalta. e) ulkoinen palvelu, tekijänoikeuskysymykset Jakeluun ja tekijänoikeuksiin liittyvien kysymysten selvittäminen nähtiin myös merkittävästi työaikaa vievänä osa-alueena. Kirjojen vapaa käyttö koettiin ongelmalliseksi, sillä kirjoilla saattaa olla useita tekijöitä ja edelleen kuvilla ja kuvituksella eri tekijänsä. Jos nämä skannataan, tieto tästä voitaisiin viedä metatietoihin, mutta ongelma on, että näiden selvittäminen vie merkittävästi työaikaa. Digitaalisten kirjojen jakelussa nähtiin mielekkääksi hyödyntää valmiita ratkaisuja. Esim. kappale, joka on kirjaston kokoelmissa, on käytettävissä vain kirjaston tiloissa. Arvioitiin, että yliopiston tulee määrittää yleinen politiikka skannaukselle sekä sovellettaville laatumäärityksille. Mahdollisesti toteutettavan ulkoisen palvelun osalta toimintapolitiikka tulisi myös määritellä. Ratkaistavaksi tulisi bisnesmallin miettiminen sekä edelleen myös juridinen puoli. Kyse ei olisi enää omaan käyttöön valmistamisesta vaan liiketoiminnasta. Mikäli asiakas tulisi skannauttamaan teoksen, jäisikö digitaalinen kappale myös meille. Skannaustyötä ei tarvitsisi tällöin suorittaa uudelleen, mikäli toinen henkilö tulisi teettämään samaa työtä. Varmimmaksi tavaksi arvioitiin kuitenkin tehdä työ uudelleen kerta kerralla. 5. Hankesuunnitelman työstäminen Hankesuunnitelman osalta todettiin, että suunnitelma on tiiviissä muodossa yliopistopalveluiden TTS:ssa, ei sisällä yleisessä rakenteessa, vaan erillisenä hankkeena. Budjetti on ajateltu kolmelle vuodelle (100 000 /vuosi). On kuitenkin vielä epävarmaa, kuinka hanke tulee lopulliseen tts:aan. Mikäli hanke ei mahtuisi yliopistopalvelujen budjettiin niin olisiko tässä tapauksessa mahdollisuus saada se yliopiston yhteisiin.
Keskusteltiin työryhmän loppuvuodesta ja todettiin työn keskittyvän loppuraportin laatimiseen. Loppuraportin työstämistä jatketaan erityisesti wiki-alustalla. Loppuraporttiin nousevia asioita ovat mm.: - teknisen informaation purkaminen prosessikuvaukseksi - arvio toiminnan volyymistä, kustannuksista ja kannattavuudesta - arvio mahdollisuuksista tarjota palvelua yliopiston ulkopuolelle - kustannusarvio av-pajan perustamisesta, mikä tulisi yksikköhinnaksi. - juridiset kysymykset - prioriteetit, kiireellisyysjärjestys Todettiin, että nykyisen työryhmän työskentelyssä on ollut olennaista se, että digitointikeskus on saatu perustettua. Vastaisuudessakin työryhmän olisi hyvä toimia taustalla, sillä toiminta on kasvavaa ja nyt ollaan vasta aivan alussa. 6. Muut asiat Museolla on noussut esille tarve kuva-arkiston digitoimisesta edessä olevan muuton vuoksi. Muutto tapahtuu Villa Ranaan vuonna 2015. Iso osa kuva-aineistosta on vielä digitoimatta. 7. Seuraava kokous Seuraava kokous B338 (kirjasto) 27.11. klo 8.30, 8. Kokouksen päätös Kokous päättyi klo 11.45.