Suomi.fi-palvelutietovarannon tekstintarkastus Suomi.fi-toimitustyöryhmän kokous 16.5.2019
Taustaa Suomi.fi-palvelutietovaranto sisältää suuren määrän kuvauksia palveluista ja asiointikanavista Noin 33 000 palvelua Noin 145 000 asiointikanavaa Palvelutietovarantoon kuvatut palvelut näkyvät esimerkiksi Suomi.fiverkkopalvelussa Kuvauksia ylläpitää suuri joukko ihmisiä eri virastoissa, kunnissa, järjestöissä, jne. Noin 2500 käyttäjää
Taustaa On tärkeää, että PTV-kuvaukset ovat laadukkaita ja ymmärrettäviä Saako asiakas kuvauksesta kaiken tarpeellisen tiedon? Onko kuvausten teksti ymmärrettävää ja helppolukuista kieltä? Onko PTV:n tietomallia noudatettu? Eli ovatko esimerkiksi yhteystiedot ja palveluajat niille kuuluvissa kentissä? Kun tietomallia noudatetaan, kuvaukset ovat koneellisesti hyödynnettävissä. Verkkotoimitus tarkkailee kuvausten laatua, mutta se on aikaa vievää Keväällä 2018 PoC-vaihe, jossa tutkittiin voisiko palvelukuvausten laatua tarkistaa koneellisin menetelmin: Millaisia laatupoikkeamia voidaan koneellisesti tunnistaa? Miten poikkeamista voidaan huomauttaa tekstien laatijoille? Toteuttaja: Lingsoft 3
Palvelutietovarannon tekstintarkastus Suomi.fi-palvelutietovarannon käyttöliittymän toiminnallisuus Otettu käyttöön marraskuun 2018 lopussa Tarkastaa palvelutietovarantoon käyttöliittymän kautta syötetyn tekstin Palvelujen ja asiointikanavien tiedot Rajapinnan kautta tulevia sisältöjä ei ainakaan toistaiseksi tarkasteta Koostuu useista erilaisista säännöistä ja niiden pohjalta tehtävistä tarkastuksista Sääntöjen taustalla on verkkotoimituksen tekemät havainnot PTVkuvausten laadusta
Palvelutietovarannon tekstintarkastus Käyttäjän syöttämä teksti tarkistetaan automaattisesti ja reaaliaikaisesti palvelun tai kanavan lisäämisen ja päivittämisen aikana Jos syötetty tieto ei mene tarkastuksesta läpi, saa käyttäjä tästä heti palautteen Työkalu ei siis itsenäisesti muokkaa tai korjaa tekstejä Havaitut virheet eivät pääsääntöisesti estä kuvauksen julkaisua Raportoinnin kautta tulossa tietoa työkalun käytöstä, sen havaitsemista virheistä ja niiden määristä
Miten toiminnallisuus näkyy käyttäjälle? Huomautukset näytetään käyttäjän valitsemalla käyttöliittymän kielellä (suomi, ruotsi tai englanti) Poikkeuksena kielioppivirheiden huomautukset, joiden kieli on sama kuin tarkastettava teksti (samoin kuin esim. Microsoft Wordissa) Tekstiä tarkastetaan samaan aikaan kun käyttäjä kirjoittaa sitä. Esimerkiksi alla olevat huomautukset häviävät näkyvistä sitä mukaa kun käyttäjä korjaa niissä mainitut asiat Väärin kirjoitettu sana on korostettu tekstikentässä.
Tekstintarkastuksen tarkoitus Parantaa Palvelutietovarannossa olevien kuvausten laatua ja sitä kautta auttaa esimerkiksi Suomi.fi-verkkopalvelun ja muiden PTVtietoja hyödyntävien palvelujen käyttäjiä Helpottaa PTV-ylläpitäjien työtä kannustaa luomaan parempaa tekstiä auttaa kiinnittämään huomiota tekstin vaikeisiin rakenteisiin auttaa noudattamaan tietomallia Vähentää verkkotoimituksen tekemän laaduntarkkailun tarvetta ja sitä kautta vapauttaa resursseja muuhun työhön Selkeä ja ymmärrettävä kieli parantaa sisällön saavutettavuutta
Mikä ei ole tekstintarkastuksen tarkoitus? Toimia pelkkänä punakynänä Kriteerit eivät saa olla liian tiukat Käyttäjällä on oltava mahdollisuus onnistua eli päästä läpi ilman virheitä Saada käyttäjää ärsyyntymään, nolostumaan tai keskeyttämään kuvauksen tekoa (kuva: Taidevandalismi)
Mitä asioita teksteistä tarkastetaan? Tällä hetkellä määritelty 19 tarkastussääntöä Näistä kieliopintarkastus pitää sisällään vielä n. 170 erikseen määriteltyä sääntöä suomenkieliselle sisällölle. Ruotsin- ja englannin kieliopintarkastukset sisältävät vähemmän sääntöjä. Osa säännöistä hyödyntää suoraan toimittajana olevan kielitoimiston osaamista Esimerkiksi kielioppivirheet ja kirjoitusvirheet, lauseenvastikkeiden ja passiivien tunnistaminen Osan säännöistä on määritelty verkkotoimituksessa. Niitä on hiottu yhdessä toimittajan kanssa Esimerkiksi kun halusimme vähentää kapulakielisyyttä, piti ensin pohtia, mitkä koneellisesti tunnistettavissa olevat tekstin piirteet voisivat kieliä kapulakielisyydestä.
Mitä asioita teksteistä tarkastetaan? Osa tarkistuksista tehdään PTV:ssä, osan tekee Lingsoft. Tämä ero ei näy loppukäyttäjälle. Tarkastusten raja-arvoja voidaan tarvittaessa muokata, tai voidaan myös luoda kokonaan uusia tarkastuksia tarpeen mukaan Esimerkiksi voidaan muokata sitä, miten paljon lauseenvastikkeita sallitaan ennen huomautuksen näyttämistä
Mitä asioita teksteistä tarkastetaan? Tekstintarkastus huomauttaa, jos tekstikentissä on esimerkiksi: Paljon passiivimuotoisia verbejä hävittää tekijän ja voi siksi tehdä tekstistä monitulkintaista Paljon lauseenvastikkeita tai pitkiä virkkeitä tekee tekstistä vaikeaselkoista Viittauksia lakipykäliin lakiviittausten sijaan on parempi kirjoittaa asia yleiskielellä auki. Lisäksi lakilinkkiä varten on oma kenttä. Kirjoitusvirheitä tai kielioppivirheitä Henkilöiden nimiä suositeltavaa käyttää mieluummin työ- tai virkanimikettä
Mitä asioita teksteistä tarkastetaan? Väärissä kentissä olevat www-osoitteet, sähköpostiosoitteet, käyntiosoitteet, puhelinnumerot ja aukioloajat PTV:ssä on lähes jokaiselle tiedolle oma paikkansa. Jos tietomallia ei noudateta, tietojen koneellinen hyödynnettävyys heikkenee. Pohjakuvauksesta kopioitu teksti Turhaa toistoa lukijalle. Lisäksi keskitetysti ylläpidettävien pohjakuvausten muutokset eivät päivity kopioituihin teksteihin. Jos tiivistelmässä kerrotaan eri asiat kuin kuvauksessa Tiivistelmä näkyy vain hakutuloksissa, joten siinä mainitut tiedot tulee kertoa myös itse kuvauksessa.
Mitä asioita teksteistä tarkastetaan? Jos kuvausteksti on hyvin lyhyt tai jos toimintaohjeet-kenttä on tyhjä Antaako teksti tarpeeksi tietoa lukijalle? Osaako lukija toimia kuvauksen perusteella? Jos teksti alkaa bullet-listalla tai sisältää hyvin pitkiä listoja Listaa tulisi edeltää jokin selventävä virke. Jos tiivistelmä on kopio palvelun nimestä Tiivistelmä ja nimi näkyvät molemmat hakutuloksissa, joten ne eivät saa olla samat. Tämän korjaamatta jättäminen estää kuvauksen julkaisun. Lisäksi metatiedoista: Jos palveluluokituksesta on valittu vain pääluokkia Vähintään yksi alaluokka on valittava. Mahdollisimman tarkka alaluokka mahdollistaa palvelun näyttämisen Suomi.fi-verkkopalvelussa oikeassa kohdassa Lisäksi työkalun käyttöönoton yhteydessä tehtiin myös rajoitukset valittavien asiasanojen ja palveluluokkien määriin.
Ensimmäisiä kokemuksia Tilastotietoa tarkastuksista (marraskuu 2018 tammikuu 2019) 20 000 tarkistettua palvelukuvausta tai kanavan kuvausta 25 000 laatupoikkeamaa (eli ei-läpäistyä kriteeriä. Yksi tarkastuskriteeri voi sisältää monta yksittäistä virhettä) 350 000 yksittäistä virhettä 24 % kuvauksista läpäisi seulan ilman virheilmoituksia Kirjoitus- ja kielioppivirheitä 74 % virheistä Helmikuu huhtikuu 2019 13 000 tarkastettua palvelun tai kanavan kuvausta 40 000 laatupoikkeamaa (määrä suhteessa noussut) Kirjoitus- ja kielioppivirheiden prosentuaalinen määrä oli hieman laskenut Ennakkoon PTV-ylläpitäjien mielipiteitä ja odotuksia kysyttiin PTV-kehittäjäyhteisössä, jossa työkalua pidettiin hyödyllisenä Palautetta tullut melko vähän. Palautteiden aiheita: sanat, joita tarkastus ei tunnista. (Esim. jotkut verkkopalvelujen ja rakennusten nimet.) Näitä pystytään leksikalisoimaan eli lisäämään tunnistettaviksi. Huomautusten poistumisessa virheen korjaamisen jälkeen saattaa joskus olla pientä viivettä
Kiitos!
Liite: Lista tarkastuskohteista
Verkkosivun osoite merkkijono, jonka perusteella verkko-osoite voidaan tunnistaa, esim. http:// tai www. Sähköpostiosoite merkkijono, jonka perusteella sähköpostiosoite voidaan tunnistaa, esim. @ tai [at] Passiivimuotoiset verbit Jos kenttä sisältää yli 2 kpl passiivimuotoisia verbejä 500 merkkiä kohden, tai kaikki verbit ovat passiivissa Lauseenvastikkeet Jos kenttä sisältää yli 1 kpl lauseenvastikkeita 500 merkkiä kohden. Tiivistelmä eroaa kuvauksesta ja pohjakuvauksesta Tunnistaa paljonko tiivistelmässä sekä verrattavissa kentissä on samoja substantiiveja. Kuvauskenttään kopioitu pohjakuvauksen tekstiä Tunnistaa paljonko kuvauksen ja pohjakuvauksen teksteissä on samoja substantiiveja.
Pitkät virkkeet Suomenkielinen teksti: 25 sanaa tai yli Ruotsi ja englanti: 35 sanaa tai yli. Viittaukset lakeihin merkkijono, jonka perusteella viittaus lakiin voidaan tunnistaa, esim. tai artikl. Kielioppivirheet Tunnistaa erilaisia kielioppivirheitä Kirjoitusvirheet Tunnistamattomat sanat Käyntiosoitteet merkkijono, jonka perusteella osoite voidaan tunnistaa, eli tavallisimmat tavat kirjoittaa osoite Puhelinnumero Merkkijono, joka vaikuttaa viittaavan puhelinnumeron, eli tavallisimmat tavat kirjoittaa puhelinumero Henkilöiden nimet Kentässä esiintyy yksi tai useampi etu- tai sukunimi
Liian lyhyt kuvaus Kuvausteksti on vain yksi virke tai kuvausteksti on alle 150 merkkiä pitkä Listamuotoinen sisältö Jos kuvaus alkaa jollakin listaan viittaavalla merkillä, esim. *, - tai 1) Yli 10 kohtaa pitkät listat Tiivistelmä sama kuin palvelun nimi Jos kenttien sisältö on sama Toimintaohjeet-kenttä on tyhjä Tunnistaa tyhjäksi jätetyn kentän Palveluluokat Yhden valituista palveluluokista pitää olla alaluokka.