Tilastotuotantomallit - Tilastojen tuottamisen haasteet, Tietotekniikka- ja menetelmäpalvelut heikki.rouhuvirta@stat.fi SAS Forum Finland 2012
Tilastokeskus = Tilastotuotanto = säännöllisesti toistuva lähes 200:n tilaston sisältötuotanto 9.10.2012 2
Tilastotuotanto prosessina 9.10.2012 3
The Generic Business Process Model / Unece 9.10.2012 4
Tilastotuotantoprosessi tasot 1 ja 2, perusmalli 8.2.2012 Taso 1 Tiedontarpeen selvitys Määrittely ja suunnittelu Tuotantojärjestelmän rakentaminen Tiedon hankinta Datan muokkaus Analyysi Julkaiseminen & jakelu Prosessin arviointi 1 2 3 4 5 6 7 8 Ilmiöalueen peruskartoitus Tutkimusasetelman määrittely Tiedon hankintajärjest. rakentam.inen Tiedonkeruusuunnitelma Luokittelu, koodaus Alustavat tulokset Käyttäjätuki Mittari- ja palautetiedon koostaminen T a s o 2 Aineistojen saatavuusselvitys Käyttäjien tiedontarpei-- den selvitys Tilaston perustaminen Tietosisällön tarkentaminen Tiedonantajien kuuleminen Tiedonkeruupäätös Tuotantoprosessin kuvaus Vuosisuunnittelu Perusjoukon, otannan suunnittelu Vakiotaulukoiden, avoimen datan suunnittelu Metatietojen suunnittelu Tiedon muokkaus- & anal.j. rakentamiinen Työn kulkujen viimeistely Tuotantojärjestelmän testaus Prosessin toimivuuden testaus Tuotantojärjestelmän viimeistely Rekisteriaineistojen hankinta ja ylläpito Otoksen poiminta Esitäyttö Tiedonkeruun toteutus Aineíston vastaanotto Raakadatan tallennus ja arkistointi Aineistojen yhdistäminen Datan tarkastelu ja editointisuunnittelu Editointi Toimenpideja laatuarviointi. Uusien muuttujien luominen Uusien havaintoyksiköiden muodostam. Tulosten tarkistus Analyysi ja tulkinta Tietosuojan varmistus Lopulliset tulokset Julkaisupäätös Laatudokumenttien valmistaminen Kansain- Julkistamisväliset kalenteri tietotoimitukset Jakelutietokantojen päivitys Julkistaminen Kansainväliset tietotoimitukset Tietojen rutiinijakelu Arkistointi Prosessien ongelmien analysointi Kehittämisehdotukset Vain suora tiedonkeruu Kehittämisprojektiehdotukset Valmiin datan tallennus ja arkistointi Raporttien tallennus 9.10.2012 5
Prosessimallin rajoittuneisuus 1. Aineiston menetelmällinen muokkaus - miten? 2. Aineiston ja aineiston käsittelyn kuvaus miten? 9.10.2012 6
Aineiston muokkauksesta editointimaliin 9.10.2012 7
The Generic Business Process Model / Unece 9.10.2012 8
Tiedon menetelmällinen käsittely haalinta suora tiedonkeruu rekisterit raaka-aineisto = arkistodata (I) tilastoaineisto editointi editoitu aineisto = arkistodata (II) imputointi estimointi lopullinen aineisto = arkistodata (III) taulukointi muu laskenta 9.10.2012 9
Tilastoaineiston käsittelyvaiheet (täsmennys) Tilastotuotanto Suunnittelu Tiedon hankinta Havaintoaineiston muokkaus Aggregoidun aineiston tuottaminen Julkaiseminen jakelu Kehikon luonti Rekisteriaineiston sisäänluku Aineistojen yhdistäminen Summaformaattien haku / muodostaminen Px / XML -taulukoiden muodostaminen Otospoiminta Lähdedatojen vertailua Sähköisten tiedonkeruiden aineiston sisäänluku Aineiston alkuanalyysi Aineiston päivitys tietokantaan Aineistopoiminnat eri lähteistä Aineiston massatarkistus Editointi Imputointi estimointi Johdettujen muuttujien laskenta Laadun varmistus Aineiston analysointi Aineistojen summaus julkaisun esitystasolle Johdettujen muuttujien askenta Tietosuojan varmistus Formaattien / labelien kiinnitys Grafiikan muodostaminen Gesmes-toimitusten muodostaminen Muiden tiedostomuotojen muodostaminen Arkistointi 15.4.2009 / KN 9.10.2012 10
Editointimalli Osa 1
Editointimalli Osa 2
1 Aineistotarkastelut ja editoinnin suunnittelu Alkuanalyysi Toiminta Ohjelmallinen aineistokatsaus Aineistotarkastelu analyysivälinein (tutkijan kokemuksen avulla suuntautuva tarkastelu [havaintotaso, osajoukot, tunnusluvut, taulukot, graafinen tarkastelu]) Tuotokset Raaka-aineistoa kuvaavat indikaattorit Analyysin tuotokset (graafit, listaukset, taulukot) Alustavat virhemerkinnät Kommentit ym. Arvio aineistosta 9.10.2012 13
2 Aineistotarkastelut ja editoinnin suunnittelu Virhediagnostiikka Toiminta Kohdennettu alustava virheentunnistus (varmat virheet, tiedossa olevat ongelma-alueet) Virhediagnostiikka (Alkuanalyysillä saadun tiedon, aineistoarvion ja alustavan virheentunnistuksen sekä aiempien kokemuksien perusteella tehty diagnoosi siitä, minkälaisia virheitä aineistossa esiintyy ja onko mukana myös ennen toteamattomia ilmiöitä) Tuotokset Virhelogi 9.10.2012 14
3 Aineistotarkastelut ja editoinnin suunnittelu Editointisuunnitelma Toiminta Editointisuunnitelman hahmottelu Päätöksenteko sen suhteen, mitä virheentunnistus- ja virheenkorjaustoimia tehdään sekä missä järjestyksessä ja minkälaisin ehdoin (parametrein). Suunnittelussa otetaan huomioon myös aiemmat käytännöt. Tuotokset Päätös editointitoimenpiteistä - menetelmävalinnat (mukana määritys, rajataanko virheentunnistusta vain merkittäviin havaintoihin ja/tai virheisiin) - editointiparametrit (päätökset siitä, millä raja-arvoilla ja muilla numeerisilla valinnoilla eri vaiheiden proseduurit toteutetaan) 9.10.2012 15
4 Editointi Toiminta 4a 4b Virheen- ja puuttuvuuden tunnistus Virheen- ja puuttuvuuden korjaus Tuotokset Editoitu aineisto Toteutus- ja analyysitieto 9.10.2012 16
4a Virheen- ja puuttuvuuden tunnistus Päätös editointitoimenpiteistä -menetelmävalinnat (mukana määritys, rajataanko virheentunnistusta vain merkittäviin havaintoihin ja/tai virheisiin) -editointiparametrit Nykytilanne: Mikrotason tarkastelu Makrotason tarkastelu Havainnon muuttujasisällön tarkastelu Havaintoarvojen tarkastelu ajassa sekä referenssivertailu Editointisäännöt ja tarkastusohjelmat Virhelistaukset ja niiden tarkastelu Havaintotason mallinnus Poikkeavat arvot ja havainnot Graafinen tarkastelu Tunnusluvut, jakaumat ja taulukointi sekä aggregaatit mukana mahdollisesti havainnon ja / tai virheen merkittävyyden arviointi Varmojen virheiden tai virheellisiksi epäiltyjen arvojen identifioituminen Toteutus- ja analyysitieto 9.10.2012 17
4b Virheen- ja puuttuvuuden korjaus Varmojen virheiden tai virheellisiksi epäiltyjen arvojen identifioituminen Toteutus- ja analyysitieto Manuaalikorjaus Imputointi tilastollisella menetelmällä Arvon tiedustelu tiedontuottajalta Arvon sijoitus, päättely tai arviointi Automaattinen korjaus Keskiarvo- ja muu tunnuslukuimputointi Mallinnusimputointi Luovuttajaimputointi Jakaumaimputointi, summajako jakauman mukaan sekä balanssivirheen korjaus Massaimputointi sekä moniimputointi Editoitu aineisto Toteutus- ja analyysitieto 9.10.2012 18
5 Laatuanalyysi Toiminta ja tuotokset Laatuindikaattoreiden laskenta Laatuindikaattorit editointivaiheeseen Tuloslaskenta editoidusta aineistosta Arvio muokkaustoimien vaikutuksesta editointivaih. Yhteenveto editointitoimien laadusta Laatuarvio editointivaiheeseen Lopullinen aineisto 9.10.2012 19
. ja tilastoaineistoon tulee toteuttaa määritellyt editointisäännöt mahdollisimman vähäisellä määrällä muuttujanarvomuutoksia - FELLEGI-HOLT PERIAATE (970-luvulta) - Periaatteeseen liittyy olennaisena osana muuttujille määritellyt luotettavuuspainot (reliability weights). 9.10.2012 20
Prosessimallin rajoittuneisuus 1. Aineiston menetelmällinen muokkaus - miten? 2. Aineiston ja aineiston käsittelyn kuvaus miten? 9.10.2012 21
The Generic Business Process Model / Unece 9.10.2012 22
GSBPM and GSIM / Generic Statistical Information Model (GSIM) Specification (Version 0.8, September 2012) 9.10.2012 23
9.10.2012 24
Tilastollinen metatietomalli CoSSI (Common Structure of Statistical Information) 9.10.2012 26
Tilastollinen metatieto 9.10.2012 27
- luokitustieto 9.10.2012 28
Tiedon muuttujakeskeisyys spesification statmeta.dtd statmeta.dtd statmeta.dtd quality declaration.dtd concept/ meaning measurement description data quality survey data quality concept model variable 9.10.2012 29
määritykset CoSSI ----- modularisointi docmeta.dtd qualitymeta.dtd statmeta.dtd xyz_procmeta. dtd -taxmeta.dtd -vrkmeta.dtd. taltion yksilöintitieto aineiston laatuarviotieto numeerisen tilastotiedon sisältö prosessoinnin parametritieto numeerisen lähdetiedon sisältö käsitemalli tilastollinen informaatio tiedon organisointi KeysFormat matriisi taulukko kyselylomake julkaisu grafiikka KeysFormat.dtd matrix.dtd table.dtd question.dtd cxqf.dtd publication.dtd määritykset CoSSI --- osat ja kokonaisuus 9.10.2012 30
Xml -tiedosto 9.10.2012 31
Aineistokuvausten käyttöalueet tilaston tuotantoprosessissa 9.10.2012 32
Metatietojen käyttö tilastotuotantoprosessissa? 9.10.2012
Tekninen infrastruktuuri 9.10.2012 34
Statistics Finland SAS Software Deployment Architecture View Production Environment SAS 9.2 => 9.3 Datahakemistojen standardirakenne 9.10.2012 35
SAS-architecture - Virtualization Virtualized application servers 18 cores (excl. Metadataserver, WinProxy, demo) 384+128 Mb memory SASdemo 9.10.2012 36
SAS-architecture - Overview SAS -servers Two IBM P7 AIX-servers 64 bit enabled SAS metadataserver Statistical data 32 bit P5 Statistical data Win-Server (performance testing) Databases 5 SQL servers ~160 databases Statistical data exist XML Metadata of the statistical data 9.10.2012 37
Tietovarastot 9.10.2012 38
XIV-levyjärjestelmä SAS-palvelin 1 SAS-palvelin 2 SQL-Server 1 SQL-Server 2 Sähköpostipalvelin Verkkolevyt Jakelu- ja julkaisupalvelimet Tiedonkeruu, muut tukipalvelut Tilastotuotanto Hallinto- ja jakelu SVC -kerros Replikointi SVC-kerroksen kautta XIV 2 Käyttökapasitteeti 25TB 6 modulia à 12 TB Tilastotuotannon Primaaritaltio XIV Käyttökapasitteeti ~60TB 12 modulia à 12 TB Tilastotuotannon sekundaaritaltio ja muun primaari Replikointi suoraan XIV:ien välillä. 9.10.2012 39
SQL 2012 infra Uusi SQL 2012 Analysis Services 20 ydintä, paljon muistia Yhtsql2 Herttua Uusi Yhtsql Rubik Kehitysja testi Yhtsql-kannat siirretään enimmäkseen Rubikille ja loput Yhtsql2:lle SQL 2008 (ei päivitetä) Vanhainkoti (Sybase) 24 ydintä SQL 2008 -> SQL 2012 16 ydintä SQL 2012 40 ydintä? SQL 2005 ei päivitetä, poistuu käytöstä 8 ydintä SQL 2008 -> SQL 2012 16 ydintä SQL 2008 ja SQL 2012 virtuaalikoneita Mika Muttonen, Riitta Piela, Toni Räikkönen 9.10.2012 40
Integroitu mikrodatavarasto TK:n Tietolaari Tutkimusyhteisöt, yritykset, lehdistö ym. tutkimus/erityisselvitys-palveluja tarvisijat Kansalaiset ym. vakiotuotteiden ja -palvelujen käyttäjät Tietopalvelut-yksikkö Pääjohtaja ja pj:n sihteeristö Tutkimus-, mikrosimuointimalli- ja erityisselvityspalvelut Tietovarastojen hallinta-yksikkö Tuotevarasto Makrodatavarasto Mikrodatavarasto Raakadatan hankinta-yksikkö Hallinto-yksikkö Tilastotuotannon tuki-yksikkö Tilastoalueen z tilastotuotanto-yksikkö Tilastoalueen y tilastotuotanto-yksikkö Tilastoalueen x tilastotuotanto-yksikkö IT-palvelut-yksikkö Tiedonantajat 9.10.2012 41
Muut projektit 1. Jakelun prosessimalli - TK/jakelu 2. xcola - TK/TI 3. SAS-arkkitehtuuri 4. Hallinnollisten aineistojen vastaanotto 5. Hakemistorakenne 6. Muuttujaeditori 7. Luokituseditori 8. Arkistointi ja 9. OID:n käyttö 9.10.2012 42
Tilastotuotannon modernisointi 9.10.2012 43
Tilastotuotannon modernisointi (I) 9.10.2012 44
Modernisointiprosessin perusvaatimuksia 1. Muutoksen perussuunta on saavuttaa prosessimallin mukainen toimintatapa - tilastotiedon jalostusketju on katkeamaton - tilastotiedon jalostaminen tehokkaasti aineiston laadun ohjaamana - prosessimallin mukaiseen toimintatapaan ja sen hallintaan sopivat tietotekniset työvälineet 2. Modernisoinnilla tavoitellut vaikutukset tilastotuotannossa - tilastoaineistojen oikea ja tarkoituksenmukainen muokkaus - välinetuki, so. tietotekninen arkkitehtuuri, tukee toimintatapaa - tuotannollisten virheiden ennakollinen karsinta - tilastotiedon ja tuotannon dokumentoinnin tuottaminen ja käyttö - tilastotuotantoa ohjaamisessa tarvittavan informaation tuottaminen ja käyttö, esimerkinä tilastoaineiston laadun indikaattorit 9.10.2012 45
Tilastotuotannon modernisointi (II) 9.10.2012 46
Tavoite:. ja kaikki tämä tulisi olla toteutettuna vuonna 2017! 9.10.2012 47
Kiitos! 9.10.2012 48