TEKOÄLYN HYÖDYNTÄMINEN TERVEYTEEN, HYVINVOINTIIN JA TURVALLISUUSTEEN LIITTYVIEN ILMIÖIDEN ENNAKOINNISSA JA TUNNISTAMISESSA
TAVOITTEET JA AIKATAULU Tunnistaa laajasta turvallisuus- ja hyvinvointiaineistosta ilmiöitä, joiden perusteella voidaan ennakoida tulevia trendejä ja vahvistaa julkishallinnon tietoon perustuvaa johtamista ja päätöksentekoa Kehitetään uusia menetelmiä ja työkaluja, joiden avulla voidaan tunnistaa paremmin palvelutarpeita Arvio lainsäädännön uudistamistarpeista Toimijat: STM, SM, VM, Kuntaliitto ja THL VM:n rahoitus ajalle 1.2.-31.7.2019 2 5.11.2019 Etunimi Sukunimi
TUOTOKSET Tilannekuva julkisen hallinnon mahdollisuuksista ja valmiuksista (osaaminen, tekninen valmius, prosessit) hyödyntää tekoälyä osana hyvinvoinnin ja turvallisuuden tietojohtamista. Selvitys tekoälyn hyödyntämiseksi tarvittavien tietoaineistojen tasosta (laatu, riittävyys) ja yhdistettävyydestä. Kokeilu tekoälyn hyödyntämisestä hyvinvoinnin ja turvallisuuden ilmiöiden tunnistamisessa (prosessi, pilotin tuotos ja sen tuoma lisäarvo). Tutkitaan mahdollisuuksia tekoälyn avulla automatisoida kuntien hyvinvointikertomusten laadintaa ja automatisoida hyvinvointia ja turvallisuutta käsittelevän tiedon tuottaminen kuntien nettisivuille ja mahdollisesti muihin sähköisiin palveluihin. Esitys jatkotoimenpiteistä, joilla tekoälyn hyödyntämistä voidaan edistää hyvinvoinnin ja turvallisuuden tietojohtamisen kehittämisessä. 3 5.11.2019 Etunimi Sukunimi
Analytiikan askeleet Vaikuta Ennusta Ymmärrä Kuvaile Kerää Ilmiöön vaikuttaminen ja uusien toimintatapojen luominen Koneoppiminen ja tilastollinen mallintaminen Luokittelu ja tulevan ennustaminen Tilastolliset analyysit, korrelaatio, klusterointi Datan siivous, järjestely, yhdistely Yksinkertaisia raportteja ja kuvaajia Datan kerääminen 4
Datan kerääminen Yhdistetyt aineistot Sotkanet TEAviisari Pelastustoimi Hätäkeskus Poliisi Tilastokeskus o Kuntien avainluvut Tämän hetken aineistossa mukana n. 4300 muuttujaa o Maahanmuuttajien määrät ja osuudet alueittain o Paavo Postinumeroalueittainen avoin tieto o Toimipaikkalaskuri o Tieliikenneonnettomuuksissa kuolleet ja loukkaantuneet Vaalit (TK): eduskuntavaalit 2015 ja 2019, kuntavaalit 2017, presidentinvaalit 2018 o Äänestysprosentit kunnittain o Puolueiden kannatus kunnittain (ei PV 2018) Keva Move! Kuntien taloustiedot Nyt käsittelyssä Kuntaliitto: hyvinvointikertomukset STEA:n avustukset järjestöille Muut aineistot Kirjasto Kuntaliitto: tuottavuustiedot Yhteiskuntatieteellinen tietoarkisto Ajoneuvorekisteri Liiteri 5
Huomioita aineistoista Kunnan nimeen liittyvät Kuntanumero puuttuu Kunnan nimi on väärin eli ei ole virallisen kirjoitusasun mukainen Kunta on lakkautettu Useiden kuntien tietoja on yhdistetty (esim. kuntayhtymät) Laatuun liittyvät Puuttuvia arvoja on paljon ts. aineisto ei kata kaikkia kuntia Ahvenanmaa pois tarkastelusta Yhdistetyssä aineistossa on paljon samankaltaisia muuttujia. Miten havaitaan? Pelkästään Sotkanet-aineistossa useita kymmeniä mm. ikään ja ikäryhmiin, varhaiskasvatukseen, ikäihmisten ja kehitysvammaisten asumiseen sekä toimeentulotukeen liittyviä muuttujia Muita Aineisto ei ole koneluettavaa esim. monitasoisia sarakeotsikoita, väliotsikoita, värillisiä soluja tai muuta mikä aiheuttaa ylimääräistä työtä Puuttuvia arvoja merkitty monella tapaa Joissakin aineistoissa puuttuvia arvoja on mahdollisesti merkitty nollalla, mutta tätä on vaikea varmistaa 6
Huomioita aineistojen käsittelystä Aineistojen laatu o Aineistot ovat keskenään erimuotoisia miten yhdistetään? o Miten havaitaan mahdolliset virheet aineistossa? o Miten käsitellään puuttuvia arvoja? Miten aineisto kootaan kuntatasolle? o Miten käsitellään lakkautettuja kuntia? o Miten kyselytutkimukset otetaan mukaan kuntakohtaiseen tarkasteluun? Miten huomioidaan kuntien koko? o Helsingissä sattuu ja tapahtuu enemmän kuin Kiteellä. o Miten löydetään muuttujat, joissa asukasmäärällä on vaikutusta? Miten huomioidaan historia eli usean vuoden tiedot? 7
Analytiikan askeleet Vaikuta Ennusta Ymmärrä Kuvaile K-means klusterointi T-SNE Pääkomponenttianalyysi Korrelaatiokerroin Kerää 8
Korrelaatiokerroin THL:n sairastavuusindeksi, ikävakioitu (Sotkanet) Korrelaatiokerroin kuvaa kahden muuttujan välistä lineaarista riippuvuutta Mitä lähempänä korrelaatiokerroin on +1 tai -1, sitä suurempi on muuttujien välinen lineaarinen riippuvuus Korrelaatio ei ole merkki syyseuraus -suhteesta Kelan sairastavuusindeksi, ikävakioitu (-2017) (Sotkanet) 0,91 THLsairastavuusUusi (Sotkanet) 0,91 Kelan työkyvyttömyysindeksi, ikävakioitu (-2017) (Sotkanet) 0,90 Työkyvyttömyyseläkettä saavat 25-64-vuotiaat, % vastaavanikäisestä väestöstä (Sotkanet) 0,86 Mielenterveysindeksi, ikävakioimaton (Sotkanet) 0,84 Tuki- ja liikuntaelinten- sekä sidekudosten sairauksien vuoksi työkyvyttömyyseläkettä saavat, % 16-64-vuotiaista (Sotkanet) 0,83 Tuki- ja liikuntaelinsairausindeksi, ikävakioitu (Sotkanet) 0,81 Erityiskorvattaviin lääkkeisiin oikeutettuja 25-64-vuotiaita, % vastaavanikäisestä väestöstä (Sotkanet) 0,81 Erityiskorvattaviin lääkkeisiin oikeutettuja 40-64-vuotiaita, % vastaavanikäisestä väestöstä (Sotkanet) 0,81 Omaa eläkettä saavat 55-64-vuotiaat, % vastaavanikäisestä väestöstä (Sotkanet) 0,79 Tuki- ja liikuntaelinsairausindeksi, ikävakioimaton (Sotkanet) 0,79 Mielenterveyden ja käyttäytymisen häiriöiden vuoksi työkyvyttömyyseläkettä saavat 25-64-vuotiaat, % vastaavanikäisestä väestöstä (Sotkanet) 0,79 Kelan lääkekorvausoikeusindeksi, ikävakioitu (-2017) (Sotkanet) 0,78 Omaa eläkettä saavat 16-64-vuotiaat, % vastaavanikäisestä väestöstä (Sotkanet) 0,77 Eläkkeensaajien asumistukea saaneet, % asuntokunnista (Sotkanet) 0,77 Taloudellinen mediaanihuoltosuhde (TK avainluvut) 0,76 Taloudellinen huoltosuhde (Sotkanet) 0,76 Sairaalahoidon hoitojaksot 18-64-vuotiailla / 1 000 vastaavanikäistä (Sotkanet) 0,75 EV19 Äänestysprosentti Sukupuolet yhteensä (TK) -0,60 Korkea-asteen tutkinnon suorittaneiden mediaaniosuus 15 vuotta täyttäneistä, % (TK avainluvut) -0,60 Korkea-asteen koulutuksen saaneet, % 15 vuotta täyttäneistä (Sotkanet) -0,60 Ylimpään tuloluokkaan kuuluvat asukkaat, 2016 (HR), % kunnan väkiluvusta (Paavo) -0,60 Yksityisten lääkäripalvelujen käynnit (naistentaudit ja synnytykset) (Sotkanet) -0,60 Alueella asuvan työllisen työvoiman mediaanilukumäärä (% kunnan väestöstä) (TK avainluvut) -0,70 Mediaanityöllisyysaste, % (TK avainluvut) -0,76 9
Pääkomponenttianalyysi Muuttujien vähennysmenetelmä Tiivistää informaation pienempään määrään muuttujia o Wikipedian selitys: tavoitteena löytää monidimensioisesta datasta ne komponentit, joiden avulla sen keskeisimmät piirteet voidaan esittää ilman, että merkittävää informaatiota menee hukkaan. Vuokra-asunnoissa asuvat % Yksilön suojaan kohdistuva tehtävä Yleistä asumistukea saaneet % Vuokra-asunnoissa asuvat taloudet Perustoimeentulotukea saaneet kotitaloudet Rivi- ja pientaloissa asuvien mediaaniosuus % Äänestysaktiivisuus kuntavaaleissa Hlöitä keskimäärin toimeentulotukea saaneissa kotitalouksissa 10 Korkea-asteen tutkinnon suorittaneet % Väkiluvun mediaanimuutos Mediaanityöllisyysaste Lapsiperheet % perheistä Erityiskorv. lääkkeisiin oikeutetut Eläkkeensaajan hoituen saajat Valtionosuudet e/asukas Omaa eläkettä saavat Sairaalahoidon hoitojaksot
T-SNE Klusterointi- ja dimension vähennysmenetelmä Tehty 50 ensimmäiselle pääkomponentille Parametrin valinta vaikuttaa tulokseen Esimerkki t-sne-menetelmällä saadusta klusteroinnista parametriarvolla (perplexity) 20. Väritys maakuntien mukaan. 11
K-means klusterointi Klusterointimenetelmä, joka pyrkii ryhmittelemään aineiston k:hon klusteriin. Jokainen havainto (kunta) liittyy lähimpään klusteriin Ihminen voi yrittää löytää selityksiä klustereille 12
Analytiikan askeleet Vaikuta Ennusta Satunnaismetsä (päätöspuu) Ymmärrä Kuvaile Kerää 13
Sairastavuusindeksin tarkastelu satunnaismetsä-menetelmällä Satunnaismetsä (random forest) on koneoppimismenetelmä, jota tyypillisesti testataan ensimmäisenä ennen vaativimpiin menetelmiin siirtymistä Satunnaismetsän ajatuksena on luoda monia päätöspuita, joissa käytetyt muuttujat on valittu satunnaisesti. Lopulta kaikkien puiden keskiarvo on vähemmän virheherkkä kuin vain yksittäisen päätöspuun.
Sairastuvuutta kuvaavan mallin rakentaminen Koko aineisto (siistitty) 1914 muuttujaa Otetaan 2012-2014 mediaani selittävistä muuttujista Valitaan selitettäväksi 2016 sairastuvuus Poistetaan THL:n määrittelemät muuttujat Karsitaan yli 0.97 korrelaatio päällekkäisyydet 1489 muuttujaa Ajetaan 1000 opetuskierrosta Borutameneltelmää, jolla löydetään 2016 indeksiin vaikuttavat muuttujat 73 muuttujaa Muodostetaan satunnaismetsämalli selittämään vuoden 2016 sairastuvuusindeks i Satunnaismetsä -malli Testataan mallin ennustavuutta testijoukolla Arvot muuttujien vaikutukselle; ns. tärkeysjärjestys Ennusteet Ennustetarkkuus
Muuttujien vaikutus malliin Ns. ennustettavana muuttujana on vuoden 2016 THL:n sairastuvuusindeksi Selittävistä muuttujista karsittu THL:ltä saatu listaus osaindekseistä ja päällekkäisestä datasta Taulukossa listattu mallin eri muuttujille laskema tärkeysarvo Kaikki mallissa käytetyt 73 muuttujaa oli jo ennen mallin opetusta todettu sisältävän sairastavuusindeksiä kuvaavaa dataa koneoppimista hyödyntäen Selittävä muuttuja Suhteellinen tärkeys THL:n sairastavuusindeksi, ikävakioitu (Sotkanet) 22,93 Kelan työkyvyttömyysindeksi, ikävakioitu (-2017) (Sotkanet) 16,6 Erityiskorvattaviin lääkkeisiin oikeutettuja 40-64-vuotiaita, % vastaavanikäisestä väestöstä (Sotkanet) Työkyvyttömyyseläkettä saavat 25-64-vuotiaat, % vastaavanikäisestä väestöstä (Sotkanet) Maakunta 9,27 Eläkkeensaajien asumistukea saaneet, % asuntokunnista (Sotkanet) 9,2 Erityiskorvattaviin lääkkeisiin oikeutettuja 25-64-vuotiaita, % vastaavanikäisestä väestöstä (Sotkanet) Omaa eläkettä saavat 55-64-vuotiaat, % vastaavanikäisestä väestöstä (Sotkanet) 7,22 Hengen ja terv. suojaan kohd. tehtävä 6,57 Erityiskorvattaviin lääkkeisiin verenpainetaudin vuoksi oikeutettuja 40-64- vuotiaita, % vastaavanikäisestä väestöstä (Sotkanet) Sairaalahoidon hoitojaksot 18-64-vuotiailla / 1 000 vastaavanikäistä (Sotkanet) 6,36 PV18 Äänestysprosentti Yhteensä (TK) 5,58 Kelan lääkekorvausoikeusindeksi, ikävakioitu (-2017) (Sotkanet) 5,5 Sairaalahoidossa olleiden potilaiden hoitojaksojen ikä- ja sukupuolivakioitu indeksi (Sotkanet) Sairaus (ilmenee oireena) 4,81 Somaattisen erikoissairaanhoidon vuodeosastohoidon 18-64-vuotiaat potilaat / 1 000 vastaavanikäistä (Sotkanet) Sairaalahoidon hoitopäivät 18-64-vuotiailla / 1 000 vastaavanikäistä (Sotkanet) 4,68 10,6 9,39 7,64 6,39 5,46 4,8 Kelan kuolleisuusindeksi, ikävakioitu (-2017) (Sotkanet) 4,67
Tekstianalytiikka
Kuntien sähköinen hyvinvointikertomus Hyvinvointikertomus o Edellisen valtuustokauden arviointi ja tulevan kauden suunnittelu. o Vapaata tekstiä, kukin kappale omassa sarakkeessaan. o Saatavilla 216 organisaatiolta, joista 204 kuntia. o Loput kuntayhtymiä, sairaanhoitopiirejä yms. Hyvinvointisuunnitelma o Rakenteisessa muodossa eli kaikilla organisaatiolla samat sarakkeet (esim. tavoite, toimenpide, resurssit). o Nyt tarkasteluun: tavoite, toimenpide o Saatavilla 158 organisaatiolta, joista 150 kuntia. o Inkoo ja Raasepori ruotsinkielisiä. Ei oteta nyt tarkasteluun. 18
Aineiston esikäsittely Perusmuotoistaminen eli lemmatisointi (engl. lemmatization) o Sanan muuttaminen perusmuotoonsa eli siihen muotoon, jossa se esiintyy sanakirjassa. o Esimerkiksi sana on muuttuu muotoon olla ja sana koulutuksen muotoon koulutus. o Perusmuotoisia sanoja kutsutaan nimellä lemma. Huom. koneellinen lemmatisointi ei aina toimi oikein o Erityisesti erisnimet ja murresanat ovat vaikeita. Myös kirjoitusvirheet haittaavat. o Esim. Siun sote siu sote o Yhdyssanoista saattaa tulla hassuja: kehittämistyö kehittäminentyö o Osa hyvinvointisuunnitelman teksteistä koottu copy-paste-menetelmällä ja välilyönnit ovat unohtuneet. o Tämän saa koneellisesti korjattua: Työpaikkojen määrän kasvattaminenvuoden 2018 seurantatavoite o Mutta tätä ei kehittäminen kaupunkikeskukseksi turvallisuusnäkökohdathuomioiden Esikäsittelyssä aineistosta on poistettu o Välimerkit o Numerot o Alle kolme merkkiä pitkät sanat o Osa hyvin yleisistä sanoista kuten mutta ja olla 19
Analyysi: sanojen esiintymismäärät Kullekin organisaatiolle laskettu kaikkien sanojen (tarkemmin lemmojen) määrät o Verrattu kunkin sanan määrää muiden organisaatioiden dokumentissa olevaan sanamäärään Perusmuotoinen sana Kuinka monen organisaation hyvinvointisuunnitelmassa sana on Kuinka monta kertaa sana esiintyy kaikissa hyvinvointi-suunnitelmissa lastensuojelu 18 26 mielenterveys 40 84 mielenterveyspalvelu 12 17 muistisairaus 4 6 osallisuus 70 211 turvallisuus 50 125 turvallisuussuunnitelma 16 20 turvallisuustilanne 3 3 20
Analyysi: ominaiset sanat kunnittain Poimittu kunnittain sanat ojotka esiintyvät ainoastaan 1-3 kunnan dokumenteissa ojotka esiintyvät ainoastaan 4-5 kunnan dokumenteissa Kunta Sana esiintyy 1-3 kunnan hyvinvointisuunnitelmassa Sana esiintyy 4-5 kunnan hyvinvointisuunnitelmassa Kunta 1 kuntaosuus, opiskelijahuoltolaki alentaa, perheneuvonta, havaita, infrastruktuuri, käyttäjä, leikkikenttä, muodostaa, nollatoleranssi, opinto, oppilashuoltoryhmä, sivistystyö, tukioppilastoiminta, työmarkkinattuki, velvoite Kunta 2 harrastuspaikka, kutsuntaikäinen, palvelus perusturvalautakunta, oppilashuoltoryhmä, asiantuntijaryhmä, hoitaja, kasvatuskumppanuus, kunnon, käyttäjä, projekti, sisältyä, ulko Kunta 3 viihtyä, kieli hiihtolatu, infrastruktuuri liikuntatottumus, nuorisopoliittinen, pyörätie, ruokahuolto, ammatti, hoitopolku, kuvaus, liittää, poikkitoiminnallinen, toimenkuva, työvoimahallinto, Kunta 4 taloussuunnittelu täydennyskoulutus, vapaaehtoinentoimija Kunta 5 aivoterveys, harraste, ilma, joustavuus, liikuntaneuvoja, perheliikunta, taloussuunnittelu, terveyskasvatus, tyhy ikäryhmittää, liikuntasuunnitelma, erillinen, hallinnonala, liittää, muistisairaus, ravitsemuskasvatus, ravitsemustottumus, savuttomuus, tehokkuus, vuode, vuosikello, yhdistää Kunta 6 hyötyliikunta, aukioloaika, harraste, järkevä, luonti, ruokahuolto, terveyskasvatus, vauva turvapalvelu, elämäntapaohjaus, lain, palveluverkko, työllistäminentoiminta, vaari, virike Kunta 7 työllisyysaste, työnhakija ohjeistus, ravinto, työllisyyshoito 21
OPIT Aikaa varattava riittävästi aineistojen keräämiseen (ml. saatavuus) yhdistämiseen (ml. laatu) Aineiston analysointi Sisällön/muuttujien ymmärtäminen Menetelmien/analyysimallien ymmärtäminen Tulosten tulkinta Asiantuntijapaneelien hyödyntäminen 22 5.11.2019 Etunimi Sukunimi
JATKOTOIMENPITEET Analyysityön jatkaminen Ennustemallien kehittely ja kokeilu Hyvinvointikertomusten analysointi Asiantuntijapaneeli Työkalun (esim. dashboard) hyödyntämismahdollisuudet datan ja analyysien tarkasteluun Kokeilun tulosten ja aineiston hyödyntäminen Tavoitteiden ja jatkotoimenpiteiden määrittäminen 23
Yhteyshenkilöt Tiina Salminen tiina.salminen@stm.fi Heli Hätönen heli.hatonen@stm.fi