Suurtehoskannereiden nopeudet, häiriöt ja käyttöasteet syyskuussa 2004

Transkriptio

1 Teknillinen Korkeakoulu Mat Sovelletun matematiikan erikoistyöt Jaakko Lehtinen A, TFY III Suurtehoskannereiden nopeudet, häiriöt ja käyttöasteet syyskuussa 2004 Data Management Services Julkinen versio. Kaikki työssä esitettävät nopeustulokset on kerrottu samalla, kerran arvotulla satunnaisluvulla. Skannereiden mallit ja töiden nimet on korvattu kirjain- ja numerotunnuksilla. Yksittäisiä merkintöjä on jouduttu mustaamaan. Muuten työ vastaa täysin virallista versiota. Kaikki tulokset on saatu työssä esiteltyjä menetelmiä käyttäen. 1

2 I Johdanto 3 II Tietojen kerääminen ja käsittely 4 III Matemaattiset menetelmät 5 Skannausnopeus 5 Keskeinen raja-arvolause 5 Normaalipaperi ja Shapiro-Wilkin W-testi 6 Luottamusväli ja havaintojen painottaminen 9 Epälineaarinen regressio 10 Skannausnopeuksien arviointi ekstrapoloimalla 11 IV Tulokset ja johtopäätökset 13 Epälineaarinen regressiomalli skannereille A ja I 14 Nopeusarviot skannereille A, B ja C 15 Skannerit D ja E 15 Skanneri F 16 Nopeusarviot skannereille G, H ja I 16 Skannereiden nopeudet normaalissa työkäytössä verrattuna valmistajan ilmoittamiin teoreettisiin arvoihin 17 Nykyisten töiden skannausnopeuksia 18 Häiriöt, tauot ja käyttöasteet 20 V Yhteenveto 21 VI Lähteet 23 2

3 I Johdanto Atkos on Suomen johtava sähköisen liiketoiminnan, tulostuspalvelujen ja suoramarkkinoinnin kokonaisratkaisujen tuottaja. Data Management Services -osaston (DMS) tehtävänä on hoitaa yritysten palautteenkäsittely tehokkaasti ja virheettömästi. Palautteenkäsittely voi tässä yhteydessä merkitä mitä tahansa kyselytutkimuksen tietojen tallentamisesta lehtitilauslomakkeen käsittelemiseen. Lisäksi DMS siirtää suuria paperisia arkistoja toimivampiin ja modernimpiin formaatteihin, kuten kuva-arkistoiksi DVD-levyille. DMS:ssä skannataan päivittäin jopa lomaketta yhdeksällä suurtehoskannerilla. Tässä tutkimuksessa on tarkoitus selvittää nykyisin DMS:ssä käytössä olevien suurtehoskannereiden tehokkuutta. Toisin sanoen on tarkoitus selvittää skannereiden todelliset skannausnopeudet suurissa, jatkuvissa töissä sekä yleisillä paperikooilla. Lisäksi pyritään laatimaan jonkinlainen työkalu, jolla skannaukseen kuluvaa aikaa voidaan jatkossa arvioida työn tyypin tai lomakkeen koon sekä lomakkeiden lukumäärän perusteella. Tutkimukseen otettiin mukaan kaikki Atkos Data Management Services in suurtehoskannerit. Tietoturvasyistä skannerimerkkejä ei tässä julkisessa versiossa nimetä, vaan niille annetaan tunnistekirjaimet A-I. Samoin työt on nimeämisen sijaan numeroitu asiakassuhteiden luottamuksellisuuden vuoksi. Skannereista toimintamekanismeiltaan samankaltaisia ovat A, B ja C. Lähes samanlaisia keskenään ovat skanneripari D ja E sekä kolmikko G, H ja I. Skanneri F on koekäytössä, ja sen kilpailukykyisyys muihin verrattuna kiinnostaa. Suurin huomio on tarkoitus kiinnittää nykyisiin isoihin töihin kuluvaan aikaan eli käytännössä kyseisten töiden keskimääräisiin skannausnopeuksiin. Tietoa voidaan käyttää hyväksi esimerkiksi arvioitaessa laitteistotarpeiden muuttumista lomakemäärien kasvaessa tai pienentyessä merkittävästi. Lisäksi mahdollisten uusien asiakkaiden töihin vaadittavaa vapaata skannausaikaa voidaan arvioida nykyisiin töihin kuluvan ajan perusteella. Tarkoitus on myös selvittää tällä hetkellä myynnissä olevien kahden eri hintaluokan skannereiden tehokkuuseroja. Nopeusarvioinnin lisäksi kiinnitetään huomiota yleisimpiin häiriöihin ja perushuoltoihin (tukokset, putsaukset) kuluvaan aikaan sekä niiden eroihin eri skannereilla. Lopuksi pyritään selvittämään, kuinka suuren osan ajasta skannerit tällä hetkellä ovat vapaana. Näin saadaan näkemys siitä, kuinka paljon työmäärää voidaan vielä kasvattaa nykyisellä laitteistolla. 3

4 II Tietojen kerääminen ja käsittely Tutkimusta varten kerättiin tietoja kuukauden ajan. Tarkastelukuukaudeksi valittiin syyskuu, joka on hiljaisten kesäkuukausien jälkeen ensimmäinen työntekijä- ja lomakemääriltään normaali kuukausi. Jokainen skanneria käyttävä työntekijä täytti koko kuukauden ajan päiväkirjaa, johon merkittiin mm. työn nimi, aloitus- ja lopetusajat, skannattujen lomakkeiden lukumäärä, erilaiset ongelmat ja niihin kulunut aika sekä muut tauot työnteossa. Työn lopussa on esimerkki skanneripäiväkirjasta (liite 1). Jokaiselle skannerille pidettiin omaa päiväkirjaa. Lisäksi erillisellä päiväkirjalla seurattiin skannereiden pitkäaikaisia häiriöitä ja huoltokatkoksia. Koska harvinaisista pitkistä häiriöistä ei kuukauden perusteella voi vielä tehdä mitään johtopäätöksiä, jatkuu seuranta edelleen, eikä tuloksia saada vielä tämän työn yhteyteen. Paperilta päiväkirjat siirrettiin sähköiseen muotoon Atkos DMS:n OCR- eli tekstintunnistusohjelmistoa hyödyntäen. Lomakkeet skannattiin ja tallennuksessa apuna käytettiin ohjelmiston automaattista tekstin tulkitsemista. Lopputuloksena oli data, jossa eri skannauskerrat oli eroteltu rivivaihdoilla ja kentät puolipisteillä. Lisäksi jokaisen rivin alkuun lisättiin kenttä, johon automaattisesti tallennettiin skannerin nimi. Jo tallennusvaiheessa jaettiin kenttä Skannerin toimintahäiriöihin kulunut aika (min) ja kuvaus toimintahäiriöstä neljään osaan: Putsaukseen kulunut aika (min), Tukoksiin kulunut aika (min), Kuvaus muusta häiriöstä ja Muuhun häiriöön kulunut aika (min). Tällä oli tarkoitus nopeuttaa tietojen analysointia jatkossa. Lisäksi muihin häiriöihin merkittyjä täysin skannerista riippumattomia skannauskatkoksia (esim. lomakkeiden esikäsittely) siirrettiin taukoihin. Syntynyt data tuotiin import-toiminnolla Exceliin, jossa lajittelu esim. työn nimen tai keston mukaan oli helppoa. Excelin kaavatoimintoja hyödyntäen laskettiin mm. aloitus- ja lopetusaikojen perusteella skannaukseen käytetty aika minuutteina sekä jokaiselle skannauskerralle erikseen skannausnopeus (sivua/min). Ongelmaksi muodostui joidenkin työntekijöiden tapa kirjata skannaustapahtumia päiväkirjaan. Esim. oltiin skannattu työtä 1 10:00-13:00, mutta seuraavalla rivillä oli merkintä työn 2 skannaamisesta 11:20-11:35. Tällaiset virheelliset merkinnät etsittiin automaattisesti Excelin kaavoja hyödyntäen ja skannausten kestot korjattiin manuaalisesti oikeiksi. Samalla jätettiin ne merkinnät entiselleen, joissa ensin aloittanut skannaaja oli selvästi merkinnyt olleensa tauolla, kun toinen työntekijä oli hetkeksi keskeyttänyt ensimmäisenä aloittaneen työnteon. Lisäksi aineistosta hylättiin merkintöjä, jotka olivat selvästi puutteellisia. Esimerkiksi taukojen ja skannerin häiriöihin kuluneen ajan summan ollessa suurempi kuin koko skannausaika, hylättiin merkintä virheellisenä. Samoin hylättiin puutteelliset merkinnät, kuten muistiinpanot, 4

5 joista puuttui lomakkeiden lukumäärä tai lopetusaika. Muut hylkäykset jätettiin tietojen analysointivaiheeseen. Lopuksi aineisto luokiteltiin eri tyyppeihin. Ensimmäinen lajittelu tehtiin skannerimallin perusteella. Syntyneiden luokkien sisällä lajiteltiin aineisto vielä paperikoon tai työn laadun mukaan (esim. A3, A4, A4 kylki edellä, jokin muu yleinen lomake) eri osiin. Koska tilastollisella analyysillä ei saada läheskään kaikille paperikooille järkeviä ennusteita, oli keksittävä myös muita keinoja nopeuden arviointiin. Kahdelle skannerille (A ja I) mitattiin optimaaliset maksimiskannausnopeudet simuloimalla oikeaa skannausta siten, etteivät virheet ja häiriöt, syötettävän paperin loppuminen tai muut hidasteet vaikuttaneet nopeuteen. Nopeus mitattiin kolmella eri paperikoolla (A4, A4K eli A5 ja A5K) siten, että jokaisella koolla skannattiin kaksi eripaksuista nippua paperia kahteen kertaan. Nippukoon lisäksi kirjattiin muistiin skannauksen kesto, joka mitattiin käsin sekuntikellolla. Aineistoa analysoitiin ja tunnuslukuja laskettiin Excelin lisäksi NCSS Test ohjelmistolla. III Matemaattiset menetelmät Skannausnopeus Puhuttaessa skannausnopeudesta (ppm) tässä työssä, tarkoitetaan nopeutta, joka on saatu laskemalla Skannausnopeus Skannattujen sivujen lukumäärä Lopetusaika Aloitusaika Pidetyttauot. (1) Skannerin lyhyet häiriöt skannatessa vaikuttavat hidastavasti skannausnopeuteen, koska oletettavasti vastaavia häiriöitä esiintyy jatkossakin. Työntekijän omat tauot taas eivät vaikuta skannausnopeuteen. Jotta aineistolle olisi mielekästä laskea tunnuslukuja ja esittää saatujen tietojen perusteella yleistäviä arvioita, on datan ensin täytettävä tietyt ehdot. Keskeinen raja-arvolause Käytettävien menetelmien sopivuutta perustelee parhaiten keskeinen raja-arvolause. Sen mukaan samasta jakaumasta poimittujen toisistaan riippumattomien satunnaismuuttujien (tässä skannausnopeus) keskiarvon jakauma lähestyy normaalijakaumaa, kun otosten lukumäärä kasvaa. Nyt voidaan niitä nopeuksia, jotka on saatu skannattaessa samankaltaisia töitä samanmallisilla skannereilla, pitää poimittuna yksittäisestä, samasta jakaumasta. Keskeisen raja-arvolauseen mukaan edellä kerrotun mukaisesti luokitellun aineiston jokaisen luokan pitäisi olla normaalijakautunut. 5

6 Dataa tutkimalla voidaan kuitenkin todeta, ettei väite kaikissa tapauksissa päde. Syitä siihen voi olla useita. Ensimmäinen syy voi olla riittämätön havaintojen lukumäärä. Ei ole järkevää arvioida A3- papereiden skannausnopeutta analysoimalla A3-skannausten tietoja, jos esim. skannauskertoja on vain kaksi. Tällöin on järkevämpää tehdä arviot muilla tavoilla tai jättää ne kokonaan tekemättä. Toinen vääränlaisia jakaumia aiheuttava tekijä ja järkevin perustelu poikkeaville mittaustuloksille on kuitenkin ihmisten huolimattomuus. Virheitä on saattanut syntyä seurantalomakkeita täytettäessä. Lomakkeiden lukumäärä on esim. saatettu merkitä väärin, unohdettu merkitä taukojen pituudet tai on voinut tapahtua tallennusvirhe tietoja paperilta dataksi siirrettäessä. Normaalipaperi ja Shapiro-Wilkin W-testi Inhimillisten virheiden mahdollisuuden vuoksi on järkevää olettaa, että luokiteltujen tulosten tulisi olla normaalijakautuneita siitä riippumatta, miltä aineisto aluksi näyttää. Normaalijakaumasta selvästi poikkeavat havainnot onkin syytä hylätä virheellisinä. Samoin hylätään tapahtumat, joista kirjatut tiedot ovat selkeästi puutteellisia (esim. merkitty samaksi tapahtumaksi usean erityyppisen työn skannaus). Histogram of TYÖ_15_NOPEUDET Count TYÖ_15_NOPEUDET Kuva 1. Aineisto voisi olla normaalijakautunut, mutta yksi havaintosarjan nopeuksista on liian kaukana histogrammin huipusta. 6

7 Tulokset on kirjannut ihminen, eikä tarkka mittalaite. Siksi ei välttämättä kannata käyttää tulosten hylkäyksessä tarkkoja matemaattisia menetelmiä. Kätevin tapa suhteellisen epätarkkojen tulosten hylkäämiseen lienee ns. normaalipaperi eli Q Q kuvaaja. Kuvaajassa normaalijakautuneen aineiston havainnot asettuvat jotakuinkin suoralle. Normaalijakaumasta poikkeavat havainnot erottuvat yksinäisinä pisteinä kaukana suorasta. Nämä pisteet pyritään havaitsemaan silmämääräisesti ja hylkäämään virheellisinä. Lisäksi on esim. histogrammilla tarkastettava, että aineisto ylipäänsä näyttää normaalijakautuneelta. Myöhemmin näkyviin tuloksiin on merkitty myös P-arvo aineiston normaalisuudelle. Se on saatu Shapiro-Wilkin W-testillä [1], joka on todettu monissa tilanteissa parhaaksi tavaksi tarkastella aineiston normaalisuutta ja tarvittaessa hylätä se. Aineisto on sitä lähempänä normaalia, mitä lähempänä P-arvo on lukua 1. Aineiston normaalisuus hylätään, kun P-arvo on alle Shapiro- Wilkin W-testi on pätevä, kun tutkittavan satunnaismuuttujan (tässä skannausnopeus) otoskoko on väliltä ja näinhän luonnollisesti on. On kuitenkin muistettava, ettei pelkkä toteamus P-arvo 0.05 riitä. Nollahypoteesin hylkäystä voidaan pitää toteamuksena siitä, ettei aineisto ole normaalinen, mutta toisin päin testi ei toimi. Testillä voidaan vain todeta, ettei nollahypoteesia voida hylätä. Lisäksi on siis ehdottomasti käytettävä edellä mainittuja menetelmiä aineiston normalisoimiseksi ja normaalisuuden toteamiseksi. Normal Probability Plot of TYÖ_15_NOPEUDET TYÖ_15_NOPEUDET Expected Normals Kuva 2. Saman aineiston normaalipaperissa havaitaan kaukana suorasta yksi yksinäinen piste. 7

8 Histogram of TYÖ_15_NOPEUDET Count TYÖ_15_NOPEUDET Kuva 3. Histogrammi samasta aineistosta, kun epäkäypiä pisteitä on hylätty. Aineisto vaikuttaa jo normaalijakautuneelta, vaikkei täydellistä symmetrisyyttä huipun suhteen saavutettukaan. Normal Probability Plot of TYÖ_15_NOPEUDET TYÖ_15_NOPEUDET Expected Normals Kuva 4. Myös normaalipaperilla kaikki havaintopisteet asettuvat jotakuinkin samalle suoralle. Pientä käyryyttä on havaittavissa suoran molemmin puolin, mutta hyväksytään aineisto normaaliksi. Shapiro-Wilkin W-testikään ei hylkää nollahypoteesia jakauman normaalisuudesta. 8

9 Normal Probability Plot of TYÖ_32_NOPEUDET Histogram of TYÖ_32_NOPEUDET TYÖ_32_NOPEUDET Expected Normals Count TYÖ_32_NOPEUDET Kuva 5. Aineiston normaalisuutta tarkastellessa pitää aina muistaa tutkia asiaa useasta eri näkökulmasta. Kuvan aineisto on Shapiro-Wilkin W-testin mukaan normaalijakautunut. Myös normaalipaperi tukee ainakin jossain määrin oletusta. Histogrammi paljastaa kuitenkin totuuden. Jos aineistolla on kaksi erillistä huippua, ei se voi olla normaalijakautunut. Huiput ovat todennäköisesti seurausta kahden eri skannaajan tehokkuuseroista tai liian paljon toisistaan eroavien töiden luokittelusta samanlaisiksi. Luottamusväli ja havaintojen painottaminen Kun virheelliset havainnot on hylätty, ja luokitellut tulokset ovat normaalijakautuneita, voidaan luottamusvälit laskea tutuilla menetelmillä, jotka perustuvat tietoon aineiston keskiarvosta ja keskihajonnasta. Koska kerätty data koostuu huomattavasti toisistaan poikkeavista tapahtumista, on tunnuslukuja laskettaessa aiheellista antaa tapahtumille painokertoimia. Esim. jos samaa työtä on skannattu samalla skannerilla ensin viisi minuuttia ja saatu nopeuden keskiarvoksi 30 sivua/min ja seuraavaksi viisi tuntia keskiarvolla 100 sivua/min, ei todennäköisesti ole järkevää tehdä johtopäätöstä, jonka mukaan keskinopeus olisi ½(30+100) sivua/min, vaan on syytä painottaa pidempään kestänyttä tapahtumaa. Painotettu keskiarvo saadaan kaavalla x w N i1w i x i N i1 w i. (2) Yksittäisen tapahtuman painokertoimena voidaan käyttää kyseiseen skannaukseen käytettyä aikaa (tauot vähennettyinä). Saman tapahtuman keskiskannausnopeutta (sivua / min) kuvaa x i. N on kirjattujen tapahtumien lukumäärä. 9

10 Esim. jos on skannattu sivua paperia ja muut tiedot ovat: Aloitus = 10:00 Lopetus = 13:30 Häiriöihin kulunut aika = 15 min Tauot = 20 min, saadaan arvot w k = 190 min ja x k = 100 sivua/min. Luottamusvälejä laskettaessa tarvitaan tietoa saatujen tulosten varianssista. Lasketaan myös varianssi painotettuna kaavalla s 2 w N i1w i x i x w 2 N1N i1 w i N [2]. (3) Kun painotettu varianssi ja keskiarvo ovat tiedossa, saadaan 100(1-α) %:n luottamusväliksi w w x w z 2, x w z 2 N N, (4) missä w s 2 w (5) ja z α/2 :n arvot voidaan lukea esim. MAOL-taulukoista [3]. Epälineaarinen regressio Aineiston perusteella pyrittiin laatimaan skannerin optimaaliselle nopeudelle malli, jossa selittäjänä on skannattavien lomakkeiden pituus. Luonnollisesti, kun lomakkeen pituus kasvaa, skannausnopeus pienenee. Suhde ei kuitenkaan ole lineaarinen, sillä muuten skannausnopeus muuttuisi jopa negatiiviseksi lomakkeen pituuden kasvaessa. Sovitteeksi kokeiltiin epälineaarista regressiomallia Nopeus = A + B/Pituus, joka osoittautuikin päteväksi. Selitysaste on yksi muuttujista, joilla voi kuvata laaditun mallin pätevyyttä. Selitysaste saa arvoja väliltä 0 1, ja jos regressiomalli on täydellinen, saa muuttuja arvon 1. Mallit laadittiin kahdelle eri skannerille. Molemmissa malleissa selitysaste oli yli Myös mallin residuaaleja on syytä tarkastella, ennen kuin malli voidaan hyväksyä. Residuaalit ovat mallin avulla piirretyn käyrän etäisyyksiä tunnetuista pisteistä. Molemmille selitettäville nopeuksille saatiin mallit, joissa residuaalit pysyivät kohtuullisina eivätkä selvästikään korreloineet lomakkeen pituuden kanssa. Lisäksi tarkoitus oli arvioida regressiolla, kuinka skannauksen kesto vaikuttaa skannauskerran keskinopeuteen. Kuitenkaan yhteyttä suureiden välillä ei havaittu. 10

11 Skannausnopeuksien arviointi ekstrapoloimalla Suurin osa skannauksessa kuluvasta hukka-ajasta koostuu tunnistamattomien lomakkeiden aiheuttamista katkoksista ja tukoksista. Jos putsaukset ja harvinaisemmat ongelmat jätetään huomioimatta, voidaan arvioida, että yhtä lomaketta kohti kuluu keskimäärin yhtä paljon hukkaaikaa paperin koosta riippumatta. Oletuksen voidaan arvioida pätevän ainakin, jos lomake on enintään A4:n pituinen. Tässä siis hukka-ajalla tarkoitetaan ylimääräistä taukoa, jonka aikana skanneri ei ole käytössä. Esimerkiksi, jos jollakin skannerilla tunnetaan ainoastaan A4-lomakkeiden todellinen, tilastollisella analyysillä saatu keskinopeus ja muut on arvioitava laskemalla, saataisiin ilman edellä mainittuja huomioita vx T297 R297 Rx. (6) Tässä siis v(x) on ennustettava nopeus, T(x) on toteutunut, tilastollisella analyysillä saatu tulos ja R(x) regressiomallin antama ennuste ideaalille nopeudelle, kun lomakkeen pituus on x (mm). Ajassa t siis skannataan lomakkeita n T297 R297 Rxt kpl. (7) Tämän lomakemäärän skannaamiseen pitäisi ideaalimallin mukaan kulua aikaa n Rx T297 R297 t min. (8) Todellisuudessa skannauksen kesto on t. Aikaa on siis kulunut hukkaan t 1 T297 R297 min. (9) Yhtä A4-lomaketta kohti hukka-aikaa on syntynyt t1 T297 R297 T297t (10) 1 T297 R297 T297. (11) 11

12 Skannataan (minkä tahansa pituisia) lomakkeita x kpl. Jos uskotaan oletukseen lomakekohtainen hukka-aika on lomakkeen koosta riippumatta sama, kuluu hukka-aikaa x1 T297 R297 T297 min, (12) missä x on skannattujen lomakkeiden lukumäärä. Aikaa siis kuluu yhteensä T297 R297 x1 x Rs T297 (13) x 1 T297 1 Rs 1 R297 missä s on skannattujen lomakkeiden pituus., (14) Minuutissa skannataan siten T297 Rs R297 lomaketta. (15) Yleistetään saatu kaava. Yksittäiseltä skannerilta tunnetaan yllä esitelty epälineaarinen regressiomalli R(s) skannausnopeudelle (lomakkeen pituus s muuttuja) sekä tilastollisella analyysillä saatu nopeus T(L) lomakkeille, joiden pituus on L. Voidaan arvioida, että skannausnopeus lomakkeelle, jonka pituus on s on vs TL Rs RL. (16) Sama pätee muiden skannereiden nopeuksia arvioitaessa. Esimerkiksi, jos tunnetaan skannerin A skannausnopeudet (analysoidut tai kaavalla (16) arvioidut) sekä samantyylisten skannereiden A ja B optimaaliset skannausnopeudet (joko valmistajan ilmoittamina tai itse mittaamalla ja regressiomallin laatimalla), voidaan hukka-ajan vaikutusta arvioida kuten edellä. Perusideana on yhä, että lomaketta kohti kuluu aikaa hukkaan keskimäärin yhtä paljon. v B s R BL 1 R A L 1 v As v Bsv A s 1 v AL 2 v A L 2 R A L 2 (17) Kaavassa siis R B (L 1 ) on joko valmistajan ilmoittama L 1 -pituisen lomakkeen optimaalinen skannausnopeus tai aiemmin laaditun regressiomallin antama ennuste. 12

13 Tästä voidaan ratkaista arvio skannausnopeudelle: v B s v AsR A L 1 R A L 2 v A L 2 R A L 2 v A L 2 R B L 1 R A L 1 R A L 2 R A L 2 1v A L 2. (18) Sekavalta näyttävä kaava toimii siis silloin, kun tunnetaan todelliset skannausnopeudet v A skannerille A sekä regressiomallit tai valmistajan antamat ennusteet R A ja R B skannereille A ja B. IV Tulokset ja johtopäätökset Tuloksia laskettaessa ja arvioita laadittaessa törmättiin lukuisiin erilaisiin ongelmiin. Loppujen lopuksi yksittäisellä skannerilla ei kuukaudessakaan kerry kaikissa töissä niin paljon skannauskertoja, että uskottavia arvioita voitaisiin esittää. Esimerkiksi kerran päivässä skannatusta työstä kertyy kuukaudessa vain hieman yli 20 havaintoa, mikä on lähellä ehdotonta minimimäärää, jos arvioista halutaan luotettavia. Siksi suuri määrä töitä ja/tai paperikokoja jätettiin kokonaan tilastollisesti analysoimatta ja nopeusarviot on pyritty laatimaan muilla menetelmillä. Joissakin töissä jouduttiin suhteellisen suuri määrä havaintopisteitä hylkäämään aineiston normalisoimiseksi, mikä tietenkin vaikuttaa saatuihin tuloksiin. Osaa aineistosta ei saatu normaaliksi pakottamallakaan. Näissä tapauksissa katsottiin järkevämmäksi jättää ennuste tekemättä kuin tehdä se suurella virheriskillä. Kyseiset työt on myös koottu tulostaulukkoon. Jälkikäteen on helppo todeta, että päiväkirjassa olisi pitänyt saada työntekijät erotettua toisistaan, mikä olisi ollut yksinkertaista toteuttaa täysin anonyymistikin. Tällöin olisi selviydytty esimerkiksi kuvan 5 kaltaisista kaksoishuipuista, jotka johtunevat kahden eri skannaajan tehokkuuseroista. Tällaisissa tilanteissa aineisto koostunee käytännössä kahdesta eri normaalijakaumasta. Eräässä työssä hylättiin suuri määrä tuloksia lomakkeiden virheellisen painatuksen vuoksi. Lomakkeiden tunnistamisongelmien syyskuussa aiheuttama nopeuden lasku ei olisi antanut oikeaa kuvaa työn skannausnopeudesta tulevaisuudessa. Lisäksi tietyissä töissä skannausnopeutta arvioitaessa jouduttiin hylkäämään kymmeniä havaintoja, sillä päiväkirjaan ei oltu merkitty skannaajien lukumäärää. 13

14 Epälineaarinen regressiomalli skannereille A ja I Skannereiden optimaalisille skannausnopeuksille laadittiin epälineaariset mallit, joita pyritään hyödyntämään todellisia nopeuksia arvioitaessa. Tässä optimaalinen skannausnopeus tarkoittaa maksiminopeutta, mihin päästään, kun skannaus on täysin keskeytymätöntä ja virheetöntä. A-skannerille saatiin epälineaarinen regressiomalli optimaaliselle skannausnopeudelle resoluutiolla 200 dpi, kun lomakkeen pituus on s R A s s. (19) Mallin selitysaste on R 2 A = eli erinomainen. Vastaava malli resoluutiolla 200 dpi laadittiin myös skannerille I: R I s s. (20) Mallin selitysasteeksi saatiin R 2 I = 0.994, mikä myös on erittäin hyvä. Nopeus ppm 200 Skanneri A:n optimaalinen skannausnopeus 200 dpi mm Pituus Kuvaaja 1. Skanneri A:n optimaalinen skannausnopeus 200 dpi:llä lomakkeen pituuden funktiona. Nopeus ppm 400 Skanneri I:n optimaalinen skannausnopeus 200 dpi mm Pituus Kuvaaja 2. Skanneri I:n optimaalinen skannausnopeus 200 dpi:llä lomakkeen pituuden funktiona. 14

15 Nopeusarviot skannereille A, B ja C Taulukko 1. A-, B- ja C-skannereiden arvioidut skannausnopeudet. Skannerin A arvoista A4-skannausnopeus on saatu tilastollisella analyysillä. Muut A:n nopeudet on arvioitu epälineaarista regressiota sekä kaavaa (16) käyttäen. Muut nopeudet on arvioitu kaavan (18) avulla. Varauksella on suhtauduttava A3-lomakkeiden nopeusarvioihin mahdollisten lomakkeiden syöttöongelmien takia. Skanneri A B C Paperi / Resoluutio 200 dpi 200 dpi 300 dpi 200 dpi 300 dpi A3 15 ppm 17 ppm 9 ppm 26 ppm 23 ppm A4 19 ppm 22 ppm 11 ppm 32 ppm 29 ppm A4K, A5 24 ppm 26 ppm 14 ppm 40 ppm 36 ppm A5K 28 ppm 32 ppm 16 ppm 48 ppm 42 ppm Nopeus ppm Skannereiden A, B ja C todellinen skannausnopeus 200 dpi, arvio C B A mm Pituus Kuvaaja 3. Skannereiden A, B ja C todellinen skannausnopeus resoluutiolla 200 dpi on arvioitu kaavoilla (16) ja (18). On muistettava, etteivät yllä olevat arviot välttämättä ole päteviä suurilla s:n arvoilla (esim. A3) paperin syöttövaikeuksien lisääntyessä. Myös skannattavan materiaalin laatu vaikuttaa nopeuteen. Saadut nopeudet ovatkin tässä vain suuntaa antavia arvioita. Skannerit D ja E Tällä hetkellä skannereita käytetään vain erikoislaatuisissa töissä (esim. jokainen lomake syötettävä yksitellen tai lajiteltava skannatessa), eikä niiden perusteella voida tehdä minkäänlaisia arvioita 15

16 esim. A5-lomakkeiden skannausnopeudesta. Nykyisten töiden skannausnopeuksia on koottu taulukkoon 3 sekä työkaluun, jolla voi arvioida nykyisiä skannausnopeuksia. Skanneri F Koska skanneri on tällä hetkellä vain koekäytössä, ei sille kuukauden aikana kertynyt tarpeeksi tilastollista aineistoa, jonka perusteella voitaisiin luotettavasti arvioida skannerin nopeutta tai tehokkuutta. Koska skannerin nopeus suhteessa muihin on kuitenkin tulevaisuuden hankintoja arvioidessa kiinnostavaa tietoa, jatketaan tietojen keräämistä kyseisellä skannerilla, jotta arviot saadaan myöhemmin esitettyä. Nopeusarviot skannereille G, H ja I Taulukko 2. Skannereiden G, H ja I arvioidut skannausnopeudet. A4K-skannausnopeus 200 dpi:llä on saatu tilastollisella analyysillä. Muut nopeudet on arvioitu kaavan (16) avulla. Nopeudet ovat 240 ja 300 dpi:llä samat, sillä kyseisillä resoluutioilla valmistajan ilmoittama optimaalinen skannausnopeus on sama. Varauksella on suhtauduttava A3-lomakkeiden nopeusarvioihin mahdollisten lomakkeiden syöttöongelmien takia. Paperi/Resoluutio 200 dpi 240 dpi 300 dpi 400 dpi A3 40 ppm 27 ppm 27 ppm 15 ppm A4 47 ppm 32 ppm 32 ppm 18 ppm A4K, A5 55 ppm 38 ppm 38 ppm 21 ppm A5K 65 ppm 44 ppm 44 ppm 25 ppm Nopeus ppm 200 Skannereiden G, H ja I todellinen skannausnopeus 200 dpi, arvio mm Pituus Kuvaaja 4. Skannereiden G, H ja I todellinen skannausnopeus resoluutiolla 200 dpi on arvioitu kaavoilla (16) ja (18). On kuitenkin muistettava, ettei arvio välttämättä ole pätevä suurilla s:n arvoilla (esim. A3) tai huonoilla materiaaleilla (esim. ohut tai toisiinsa tarttuva lomake). 16

17 Saatuihin tietoihin on syytä suhtautua pienellä varauksella. Esimerkiksi A3-lomakkeissa usein oleva taite aiheuttaa lomakkeiden tarrautumista toisiinsa, mikä vaikeuttaa skannausta. Lisäksi materiaalin huono laatu voi hidastaa skannaajan työtä. Jos yllä olevalla käyrällä pyritään määrittämään eräiden nykyisten töiden skannausaikoja, huomataan, että todelliset nopeudet ovat pääosin kuvaajan 4 antamaa arviota huomattavasti hitaampia. Huono materiaali on todennäköisesti pääsyy eroihin. Taulukkoon ja kuvaajaan voidaan luottaa paremmin, kun tiedetään paperin olevan jotakuinkin normaalia, taitteetonta ja toisiinsa tarttumatonta. Skannereiden nopeudet normaalissa työkäytössä verrattuna valmistajan ilmoittamiin teoreettisiin arvoihin Taulukko 3. Skannereiden todellisten keskinopeuksien vertailu valmistajan ilmoittamiin nopeuksiin. Nämä tulokset on kerrottu eri satunnaisluvulla kuin varsinaiset nopeustulokset. Skanneri Resoluutio Paperikoko Nopeus, % valmistajan ilmoittamasta A 200 dpi A % 200 dpi A4K 45.8 % B 200 dpi A % 200 dpi A4K 68.1 % 300 dpi A % 300 dpi A4K 56.2 % C 200 dpi A % 200 dpi A4K 68.0 % 300 dpi A % 300 dpi A4K 68.0 % D ja E 200 dpi A4K 39.0 % 300 dpi A4K Ei tiedossa F 200 dpi A4K Ei tiedossa G, H ja I 200 dpi A4K 70.3 % 240 dpi A4K 72.0 % 300 dpi A4K 72.0 % 400 dpi A4K 72.3 % Yllä olevasta taulukosta nähdään, ettei maksiminopeuksia oikeasti työskennellessä saavuteta, eikä yhdelläkään skannerilla päästä edes lähelle teoreettisia arvoja. Tämä on tietenkin täysin odotettavissa, kun aikaa kuluu mm. putsauksiin, häiriöihin ja tunnistamattomien lomakkeiden uudelleen skannaamiseen. Kuitenkin D- ja E-skannereilla ei päästä kuin hieman yli kolmannekseen luvatusta nopeudesta. Lähinnä huonon materiaalin skannaamiseen käytetyt skannerit eivät siten tämän tilaston perusteella sovellu suurien lomakemäärien tehokkaaseen lukemiseen. 17

18 Nykyisten töiden skannausnopeuksia Taulukko 4. Erittely töistä, joiden skannausnopeudet pyrittiin määrittämään tilastollisilla testeillä. K-kirjain paperikoon perässä tarkoittaa kylki edellä skannausta. Hyväksyttyjen havaintojen lukumäärän kasvaessa testin luotettavuus paranee. Shapiro-Wilkin W-testin P-arvo on sitä lähempänä arvoa 1, mitä lähempänä aineisto on normaalijakaumaa. Suuri P-arvo on siten yksi testin luotettavuutta kuvaavista arvoista. Jos P-arvo on alle 0.05, skannausnopeutta ei voida arvioida edellä kuvatulla tavalla. Skannausnopeus ja sen luottamusväli kuvaavat sitä väliä, jolle skannausnopeuden keskiarvo pitkällä aikavälillä todennäköisesti asettuu. Yleisimmin tilastollisessa analyysissä käytetään 95 %:n luottamusväliä, jolloin yksi 20:stä ennusteesta epäonnistuu. On kuitenkin muistettava, että esim. työntekijän, olosuhteiden tai skannausohjelmiston vaihto voi muuttaa tulevaisuuden tuloksia. Skanneri Paperi / Työn nimi Skannausnopeus (ppm) Havaintojen lkm S-W:n P-arvo Luot.väli Alaraja Yläraja 90 % A % % % A % A 99 % % A5 tai pienempi % % Tulokset A5K eivät norm.jak. Tulokset Työ 32 eivät norm.jak. 90 % Työ % % % D ja E A4K % % % Työ 10, 1 skannaaja % % % Työ 10, 2 skannaajaa % % Tulokset A4K eivät B norm.jak. 90 % Työ % %

19 Taulukko 4. (jatkoa) Skanneri Paperi / Työn nimi Skannausnopeus (ppm) Havaintojen lkm S-W:n P-arvo Luot.väli Alaraja Yläraja 90 % Työ % C 99 % % Lipukekoko % % % A % F 99 % Tulokset A4 eivät norm.jak. 90 % A4K % % % Työ % % Työ % (kannet eivät % mukana sivumäärissä) 99 % % Työ % G, H ja I 99 % % Työ % % % Työ % % % Työ % % Työ % (kannet mukana % sivumäärissä) 99 % Esimerkiksi skannerilla G työn 27 skannausnopeuden keskiarvo pitkällä aikavälillä (esim. 3 kuukautta) asettuu 95 %:n todennäköisyydellä välille sivua minuutissa. Shapiro-Wilkin P-arvo lupaa myös hyvää arviota, vaikka havaintojen lukumäärä on melko alhainen. Vaikka kohtuullinen määrä pisteitä hylättäisiinkin, ei aineistoa kaikkien töiden osalta millään saada normaalijakautuneeksi. 19

20 Mukaan on malliksi laitettu myös arvio A-skannerin A3-skannausnopeudesta. Yhdeksän havainnon perusteella arvioitu 99 %:n luottamusväli on todella leveä (yläraja > 2*alaraja), eikä siihenkään välttämättä kannata luottaa. Varauksella on suhtauduttava myös ainoaan F-skannerille saatuun tulokseen havaintojen jakauman ja lukumäärän takia. Yhtäkään havaintoa ei vähäisen aineiston takia voitu hylätä. Skannereilla G, H ja I huima ero samantyylisten töiden 20 ja 27 skannausnopeuksissa aiheutuu ainakin osittain siitä, että työssä 27 skannattujen lomakkeiden kappalemääriin on laskettu mukaan lajiteltujen nippujen välissä olevat kannet. Työssä 20 kannet eivät kasvata ohjelmiston ilmoittamien skannattujen lomakkeiden lukumäärää. Siten nopeuslukemat eivät ole keskenään vertailukelpoisia, mutta molempia arvoja voidaan hyödyntää, kunhan edellä mainitut tekijät muistetaan huomioida. Huomiota kannattaa kiinnittää myös työn 8 nopeuteen C-skannerilla ja verrata sitä vastaavantyylisten lipukkeiden nopeuksiin teoreettisesti nopeammilla G-, H- ja I-skannereilla. Syitä nopeuseroon voidaan hakea materiaalieroista tai skannaajasta. Mahdollista on myös, että skanneri C yksinkertaisesti soveltuu paremmin pienten lipukkeiden skannaamiseen. Häiriöt, tauot ja käyttöasteet Taulukko 5. Erittely skannereiden nykyisestä käyttöasteesta sekä erilaisten häiriöiden osuuksista. Taulukkoa luettaessa on muistettava huomioida, että myös työntekijän ollessa tauolla tulkitaan skanneri varatuksi. Tietoturvasyistä skannausten ja ongelmien kestot on jouduttu julkisessa versiossa mustaamaan. Skanneri A B C D E F G H I Skanneri vapaana 106:25 95:02 104:18 90:55 40:38 56:24 26:50 16:15 73:26 Skanneri varattu 25:43 83:56 59:26 238:21 242:13 36:12 213:14 234:43 214:33 Työpäivien määrä Työpäivän keskipituus 5:30 7:27 7:07 14:19 12:18 4:52 11:26 11:24 13:05 Skanneri vapaana / pv, ka 4:26 3:58 4:32 3:57 1:46 2:58 1:17 0:44 3:20 Skanneri varattu / pv, ka 1:04 3:29 2:35 10:22 10:32 1:54 10:09 10:40 9:45 Putsaukset 2:31 7:53 0:52 9:31 5:18 0:33 2:45 2:02 8:01 Osuus skannausajasta 9.79 % 9.39 % 1.46 % 3.99 % 2.19 % 1.52 % 1.29 % 0.87 % 3.74 % Tukokset 0:18 0:13 0:00 2:05 5:23 0:47 2:25 3:13 2:17 Osuus skannausajasta 1.17 % 0.26 % 0.00 % 0.87 % 2.22 % 2.16 % 1.13 % 1.37 % 1.06 % Muut viat ja häiriöt 0:56 0:30 0:52 2:39 1:38 1:51 3:40 2:56 1:45 Osuus skannausajasta 3.63 % 0.60 % 1.46 % 1.11 % 0.67 % 5.11 % 1.72 % 1.25 % 0.82 % Tauot (myös välttämättömät, skannaajasta riippumattomat 1:32 13:35 8:54 32:21 37:42 5:10 41:02 39:18 25:36 tauot, esim. viikkopalaveri) Osuus skannausajasta 5.96 % % % % % % % % % Varsinaisen skannauksen osuus ajasta, jonka skanneri on ollut % % % % % % % % % varattu Skanneri vapaana % % % % % % % 6.47 % % 20

21 Työpäivän pituus tarkoittaa taulukossa aikaa aamun ensimmäisestä illan viimeiseen skannaukseen. Työpäivien määrä on niiden päivien lukumäärä, joina skanneria on käytetty. Kovimmassa käytössä ovat skannerit D ja E sekä G, H ja I. Käytännössä siis miltei pelkkään työn 10 skannaamiseen tarvitaan täyspäiväisesti kahta tehokasta skanneria. Noin 20 % ajasta, jonka skanneri on varattu, kuluu taukoihin ja erilaisiin häiriöihin. Putsaukseen kuluu eniten aikaan vanhoilla A- ja B-skannereilla. B-skannerilla on huomioitava, että osa sillä skannattavista töistä on poikkeuksellisen likaavia. F-skannerilla tarkemmin määrittelemättömien häiriöiden osuus on muita suurempi lähinnä multi feed ongelmista johtuen. Tukokset eivät ole kovin suuri tekijä skannauksen hidastamisessa. Eniten vaivaa ne aiheuttavat D- ja E-skannereilla, mutta syynä tähänkin on skannereilla skannattavien töiden poikkeuksellisuus. Koska tukoksen poistaminen on usein nopea toimenpide, ei kaikkia tukoksia ole välttämättä päiväkirjaan merkitty. Tilastojen mukaan C-skannerilla ei epäilyttävästi ole yli 59 tunnissa tullut yhtäkään tukosta. Taukoja pidetään G-skannerilla lähes kaksi kertaa niin paljon kuin samankaltaisella I:llä, vaikka molemmat skannerit ovat päivässä yhtä pitkään varattuja. On kuitenkin muistettava, että luvuissa ovat mukana myös välttämättömät, skannaajasta riippumattomat tauot kuten lomakkeiden esikäsittely sekä odottelu, joka on kulunut skannerin ollessa lainassa toiselle työntekijälle. Skannereista useimmin vapaina ovat vanhimmat skannerit A, B ja C. V Yhteenveto Tällä hetkellä monen skannerin käyttöaste on melko korkea. Uusimmilla skannereilla työpäivän keskipituus lähenee ja osin jopa ylittää puoli vuorokautta. Siitä ajasta skanneri seisoo täysin käyttämättömänä vain noin tunnin. Skannerilla I näyttäisi vielä olevan jonkin verran vapaata aikaa. Eniten lisää skanneriaikaa saadaan irti kaikkein vanhimmista laitteista. Tietysti tehokkainta onkin käyttää nopeimpia laitteita mahdollisimman paljon. Tällä hetkellä näyttäisi siltä, että suuria uusia töitä otettaessa merkittävästi lisää skannausaikaa saadaan vain uutta laitteistoa tai ilta- ja yötöitä lisäämällä. Yksi vaihtoehto on palata käyttämään enemmän myös vanhoja skannereita A, B ja C. Näistä etenkin skanneri C näyttäisi edelleen olevan jossain määrin kilpailukykyinen skannerikolmikkoon G-I verrattuna. Halvempaan hintaluokkaan kuuluvien F-skannereiden vertailu skannereihin G, H ja I on käytettävissä olevan aineiston avulla vaikeaa. Koekäytössä olevasta F:stä tarvitaan huomattavasti lisää havaintoja, ennen kuin järkeviä päätelmiä voidaan esittää. 21

22 Sama pätee myös pitkiin toimintahäiriöihin, jotka ovat melko harvinaisia. Päiväkirjaa isoista huolloista ja pitkään kestäneistä jaksoista, jolloin skanneria ei ole voitu käyttää pidetään edelleen. Tämän raportin lisäksi on laadittu Excel-työkalu, jolla voidaan arvioida skannaukseen kuluvaa aikaa eri skannereilla ja resoluutioilla lomakkeiden koon ja lukumäärän funktiona. Vaihtoehtoisesti voidaan myös arvioida nykyisiin töihin kuluvaa aikaa lomakkeiden lukumäärän perusteella. Alla vielä yhteenvetona eri skannereiden skannausnopeuksia koottuna samaan taulukkoon. Taulukko 6. Nykyisien töiden tilastollisella analyysillä arvioituja skannausnopeuksia. Skanneri Paperikoko / Työn nimi Keskiskannausnopeus A A ppm A5 tai pienempi 21.6 ppm B Työ ppm C Työ ppm Lipukekoko 26.0 ppm D ja E A4K 16.2 ppm Työ 10, 1 skannaaja 8.2 ppm Työ 10, 2 skannaajaa 14.1 ppm Työ ppm F A ppm G, H ja I A4K 55.2 ppm Työ ppm Työ 20 (kannet eivät mukana sivumäärissä) 9.2 ppm Työ ppm Työ ppm Työ ppm Työ ppm Työ 27 (kannet mukana sivumäärissä) 20.5 ppm Taulukko 7. Skannereille kaavoilla (16) ja (18) arvioituja keskinopeuksia. Varauksella on suhtauduttava A3- nopeuksiin mahdollisten lomakkeiden syöttöongelmien vuoksi. Skannereille D, E ja F ei käytettävissä olevan aineiston avulla voida esittää perusteltuja nopeusarvioita. Skanneri A B C G, H ja I Paperi/Resoluutio 200 dpi 200 dpi 300 dpi 200 dpi 300 dpi 200 dpi 240 dpi 300 dpi 400 dpi A3 15 ppm 17 ppm 9 ppm 26 ppm 23 ppm 40 ppm 27 ppm 27 ppm 15 ppm A4 19 ppm 22 ppm 11 ppm 32 ppm 29 ppm 47 ppm 32 ppm 32 ppm 18 ppm A4K, A5 24 ppm 26 ppm 14 ppm 40 ppm 36 ppm 55 ppm 38 ppm 38 ppm 21 ppm A5K 28 ppm 32 ppm 16 ppm 48 ppm 42 ppm 65 ppm 44 ppm 44 ppm 25 ppm 22

24 Liite 1. Esimerkki skannauspäiväkirjasta. Tietoturvasyistä osa merkinnöistä on jouduttu peittämään. 24