Valtion hankinnat esiin Miten ostolaskudataa käytetään hyväksi Tukihankintoja.fi -palvelussa Head of Digital Services and IT 1
2
Taustaa Hanselilla pitkät perinteet hankintatoimen analyyseista (BI) Mitä valtion organisaatiot hankkivat Hanselin sopimuksilla Valtiovarainministeriö on antanut Hanselille toimeksiannon hankintadatan avaamiseksi ja julkisen hankintadatapalvelun toteuttamiseksi. Valtion organisaatioiden kaikki ostot 3
Taustaa Tutkihankintoja.fi-palvelu on toteutettu osana valtion hankintojen digitalisoinnin toteutusohjelmaa, joka on valtiovarainministeriön omistama hanke (VM047:00/2016). Toimintatapojen uudistamisen ministerityöryhmä puolsi esitystä julkaista valtion hankintamenot 16. tammikuuta 2017. Valtiovarainministeriö antoi tehtävien toteutuksen toimeksiantona Hansel Oy:lle. Ensimmäinen versio Tutkihankintoja.fi - palvelusta julkaistiin syyskuussa 2017 4
Taustaa Valtion hankintatietojen julkaiseminen on avoimen hallinnon kannalta merkittävä toimenpide, sillä se lisää valtion rahankäytön ja toiminnan läpinäkyvyyttä kansalaisille ja yrityksille 5
Datalähteet ja julkaisukanavat Lähde 1 Lähde 2 Lähde 3 Lähde X Lähde 4 Lähde 5 Koneoppiminen ja analytiikka Datan yhdistäminen Analyysien ja raporttien julkaiseminen BI Tutkihankintoja Avoindata.fi www.hansel.fi Tunnistautuminen Tunnistautuminen Hanselin käyttäjät Kansalaiset Kumppanit 6
Miten temppu tehtiin? Hankintadatan keskeiseksi tietolähteeksi ostolaskuaineisto: Laskun otsikkotiedot Laskun tiliöintitiedot Laskun alkuperäinen XML-muotoinen rivitieto (Ei vielä hyödynnetä) Teknisesti suoraviivaista, haasteet tietosisällössä ja sen käsittelyssä Luottamuksellisen ja salassa pidettävän aineiston käsittely Henkilötietojen käsittely Hankintojen kategorisointi 7
Käsittelyn vaiheet Virasto Julkinen data Tutkihankoja. fi Lasku Ostolaskun lukitus Datan rajaaminen ja poiminta Takautuvan datan anonymisointi Toiminimi- /luonnollinen henkilö - käsittely Tarkastus ja julkaisu Ostolaskujen käsittely Via Avoindata.fi RONDO 8
9
Tulevaa Hankintojen kategorisointi Avoin API-rajanpinta 10
Haaste Hankintojen kategorisointi ostolaskujen tiliöintiin perustuen Mutta hankintatoimen ohjaamisen kannalta ostolaskudata tulisi kategorisoida tiliöintiä tarkemmalla tasolla? Voidaanko koneoppimista ja analytiikkaa käyttää hyödykseen tiedon rikastuttamisessa? 11
Haaste: miten luokitella valtavaa tietoaineistoa? 13 miljoonaa riviä vuosittain Toimittaja Hinta Tuote Onninen Oy 16 1731502, HOLKKITIIVISTE ASS 12 M12 CWT Finland Oy 23.59 05/04/2016 Lentolipun palvelumaksu Isku Interior Oy 262 ARCTIC PYSTYNAULAKKO SILVER/MUSTA Scandia rent Oy 53.23 Polttoaine Meira Nova Oy 8.8 KEVYTMAITO 2DL X20 SM/MK Tavoitteena ensisijaisesti tekstimuotoisen datan luokittelu määrämuotoiseen UNSPSC-hierarkiaan 12
Henkilötietojen käsittely Valtiokonttorin ohjeistuksen mukaan kirjanpitoyksikön tulee suojata henkilötietoja sisältävä aineisto lukolla, jota hyödynnetään aineiston poiminnassa ja anonymisoinnissa. Edellisestä huolimatta alkuperäisessä datassa henkilötietoja voi esiintyä Toimittajan nimi tai Y-tunnus kentissä Lisäksi datassa on paljon tapahtumia toiminimille, joiden erottaminen luonnollisista henkilöistä on haastavaa Hansel tekee aineistolle tarkastuksen, jossa varmistetaan henkilötietojen anonymisointi. Anonymisoinnin yhteydessä aineistosta poistetaan kenttien Y-tunnus ja Toimittajan nimi arvot ja korvataan ne arvolla "Toimittajatietoa ei julkaista". 13
Hansel / henkilötietojen salaaminen Löytyykö y- tunnus-kentän arvolla toimittajalle nimi YTJ:stä? Ei Löytyvätkö yrityksen tiedot y-tunnuksella Hanselin toimittajatietokannasta? Ei Täsmääkö yrityksen nimi tarkastuslistaan*? Ei Vastaako y- tunnus-kentän arvo kansainvälistä VAT-tunnusta? Ei Onko y- tunnus-kentän arvo muodoltaan kotimainen y- tunnus? Ei Salattava Kyllä OK! Kyllä OK! Kyllä OK! Kyllä OK! Kyllä OK! * Lista yritysten nimissä esiintyvistä yleisistä sanoista 14
Kiitos Hansel Oy 15
Uudet tarpeet & vanhat rajoitteet Eroon raporteista: miten automatisoidut dataanalyysit tuodaan saumattomaksi osaksi työntekijöiden jokapäiväisiä työtehtäviä? Päätelaiteriippumattomuus Responsiivisuus ja ylläpidon tehokkuus Tiedon ja analyysien avaaminen ulkopuolisille sidosryhmille! Asiakkaat, toimittajat, kansalaiset Uudet palvelut vs. Analyysien upottaminen nykyisiin palveluihin Syvempi analytiikka, koneoppiminen ja tekoäly 16
Haaste Hankintojen kategorisointi ostolaskujen tiliöintiin perustuen Mutta hankintatoimen ohjaamisen kannalta ostolaskudata tulisi kategorisoida tiliöintiä tarkemmalla tasolla? Voidaanko koneoppimista ja robotiikkaa käyttää hyödykseen tiedon rikastuttamisessa? 17
Haaste: miten luokitella valtavaa tietoaineistoa? 13 miljoonaa riviä vuosittain Toimittaja Hinta Tuote Onninen Oy 16 1731502, HOLKKITIIVISTE ASS 12 M12 CWT Finland Oy 23.59 05/04/2016 Lentolipun palvelumaksu Isku Interior Oy 262 ARCTIC PYSTYNAULAKKO SILVER/MUSTA Scandia rent Oy 53.23 Polttoaine Meira Nova Oy 8.8 KEVYTMAITO 2DL X20 SM/MK Tavoitteena ensisijaisesti tekstimuotoisen datan luokittelu määrämuotoiseen UNSPSC-hierarkiaan 18
Idea luokittelukoneesta The CAEN is a learning system utilizing some kind of artificial intelligence. This is necessary as there are no exact rules for categorization known a priori. The systems must adapt as necessary. 19
Mitä tapahtuu, kun yhdet harjaantuneet ihmisaivot taistelevat 1920 prosessoria ja 280 grafiikkaprosessoria vastaan lautapelissä, jossa on enemmän mahdollisia asetelmia kuin universumissa on atomeja? -Lee Sedol vastaan DeepMind-laboratorion kehittämä AlphaGo-tekoäly (Go-lautapeli) (Tivi, 10.6.2016) 20
Ongelma Idea Ratkaisu? Keskusteltiin hankintatoimen analyysipalveluita tarjoavien perinteisten yritysten kanssa (vahva substanssiosaaminen) Yksi piti ongelmaa mahdottomana Toisen hinta-arvio huimasi päätä Kolmas potentiaalinen Keskusteltiin tekoälyyn ja koneoppimiseen erikoistuneiden yritysten kanssa Mikä on hybetystä / mikä todellista? 21
Miten toimitaan, kun ei oikein tiedetä mikä on toimivin ratkaisu? Kokeillaan (MVP-periaate) POC 1 kk aikaa 5000 Kaksi toimittajaa tarttui haasteeseen Kuukauden jälkeen kummatkin toimittajat esittivät toimivaa demoa kategorisointityövälineestä ja sen luokittelulogiikasta sekä konseptia palvelun käyttöönottamisesta 22
Kustannustehokkuutta pilvipalveluilla ja avoimen lähdekoodin työkaluilla Microsoft Azure Machine Learning ja R Aloituskustannukset 0 Helposti skaalattavissa tuotantokäyttöön 23
Luokitellun opetusdatan puute ratkaistiin iteratiivisella opetusprosessilla Asiantuntijan mallisuoritukset Koneen avunpyynnöt 100 riviä viikottain 24
Kone oppi joka viikko paremmaksi Joka opetuskierroksella parantui: luokittelun kattavuus luokittelun tarkkuus koneen itseluottamus Viimeinen opetuskierros 26.1.2017 40000 riviä luokiteltavaa testidataa 20000 vaihtoehtoista UNSPSC-luokkaa 240 340 riviä opetusdataa 40% 51% 25
Mitä opimme Pilotti onnistui hyvin (etenee kilpailutukseen) Tiedämme, että ongelmamme on ratkaistavissa (ja nopeasti) voit opettaa koneen asiantuntijuutta vaativaan luokittelutyöhön tai muuhun rutiinityöhön Hanselin oma tietämys aiheesta kasvanut huomattavasti (vrs. raha, jota kokeiluun käytettiin) Olemme varmoja siitä, että tulemme tekemään järkevän ratkaisun, jolla voidaan tehostaa toimintaamme ja tuottaa uutta lisäarvoa sidosryhmillemme 26