Tilastotuotantomallit

Samankaltaiset tiedostot
Uusi Tilastokeskuksen sijaintitiedon viitearkkitehtuuri

Osaamisen johtaminen Tilastokeskuksessa

Findikaattori - Indikaattoripalvelu. Harri Lehtinen

Tilastollisen tutkimuksen vaiheet

Tilastotuotannon yleinen prosessimalli GSBPM. (Versio 5.0, joulukuu 2013)

Digitaalisten tietoaineistojen kansallinen kuvausjärjestelmä THL, Tilastokeskus, Tietoarkisto, Sitra

Suomen virallisen tilaston verkkoportaali - väylä luotettavaan tilastotietoon. Tilastokirjaston asiakasaamu

DI Studion käyttökokemuksia. Kaisu Ikonen, Tilastokeskus

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Kuntatilastotietopankki - Tilastokeskuksen kuntatilastopalvelu uudistuu

Valtiokonttorin Voimaraportointi. Tero Mäkinen

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Tiedon käyttö ja tiedon laadun arviointi / Tilastotiedot yhteiskunnan muutosten ja kriisien kuvaajana/ Storgårds

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

Tilastotieteen aihehakemisto

Tietopolitiikka, tietojohtaminen ja tilastot. Tulevaisuusvaliokunnan kokous Marjo Bruun, 7.11.

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ohjelmistotekniikka - Luento 2

Linja 4, Ratkaisu- ja tavoitearkkitehtuuri, kokonaisarkkitehtuurityö

Paikkatiedon mallinnus Dokumentoinnin ymmärtäminen. Lassi Lehto

Miten voin selvittää säästömahdollisuuteni ja pääsen hyötymään niistä?

Työkalujen merkitys mittaamisessa

INTERNET KYSELYN TOTEUTUS

Kvantitatiivisen aineiston analyysi

TIETOMALLI JA TIETOVARASTO PALVELUKONSEPTI

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ohjelmistotekniikka - Luento 2 Jouni Lappalainen

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

KODAK EIM & RIM VIParchive Ratkaisut

THL:N NÄKÖKULMIA TUTKIMUSAINEISTOJEN SÄILYTTÄMISEEN

Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.

Kuntatieto-ohjelma. Nykytilan analyysin tiivistelmä Versio: 1.0. Laatija: Pentti Kurki

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Imputoi puuttuvat kohdat

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

Health Intelligence - Parempaa informaatiota terveydenhuollon päätöksentekoon. Terveydenhuollon ATK päivät Sibelius Talo, Lahti

Sote-tietopakettien pilotointikokemukset Pohjois-Savosta

Kansallinen ASPAtietojärjestelmä

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Paikkatietotuotteen määrittely

Ohjelmistojen mallinnus, s2008 HY/TKTL, 28/10/2008. Harri Laine 1. Ohjelmisto

Mat Tilastollisen analyysin perusteet, kevät 2007

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Projektin suunnittelu

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Unelma tiedon hyödyntämisen kokonaisekosysteemistä

Viestinnän mentelmät I: sisällön erittely. Sisällönanalyysi/sisällön erittely. Sisällön erittely. Juha Herkman

Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat

KOTA-tietojärjestelmä Jukka Haapamäki

INSPIRE ArcGIS-tuotteilla. Ulla Järvinen ja Jussi Immonen INSPIRE-koulutuksessa

Inspire-prosessin tilannekatsaus 01 / 2012

Tilastollisten aineistojen kerääminen ja mittaaminen

Junaliikenteen häiriötilannetietojen tuottaminen ja tiedotus

Tietojärjestelmän osat

XDW-projektissa rakennetut palvelut

SAS:in uudet grafiikkaominaisuudet. Ari Toikka

Basware Financial Performance Management (FPM)

Maksuliiketilastojen uudistaminen

Ohjelmistojen mallinnus (OMa) - Johdatus ohjelmistotuotantoon Harri Laine 1

Laadun hallinta. Laatukustannukset. Laadun kustannuksista. Sami Kollanus TJTA330 Ohjelmistotuotanto

Laadun hallinta. Laatukustannukset. Sami Kollanus TJTA330 Ohjelmistotuotanto

Palveluverkkoselvitys - Mikkelin seudun sosiaali- ja terveystoimi

Envibase-hanke. Esittely KTKlle SYKE Saku Anttila Yrjö Sucksdorff

Ympäristöliiketoiminta 2010

Tekninen alusta. Tavoitteet ja näkökulmia maankäyttöpäätöksiin Jani Kylmäaho, osahankepäällikkö Maanmittauslaitos

Osa 2: Otokset, otosjakaumat ja estimointi

Teema 8: Parametrien estimointi ja luottamusvälit

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Paikkatietotuotteet ja niiden määrittely

Oppeja ja kokemuksia Pisararadan suunnittelun tiedonhallinnasta

Tilastokeskus.fi väylä

Talouskriisit, työhyvinvointi ja työurat -hanke ( )

TIETO HALTUUN ERILAISIN ARVIOINTIMENETELMIN

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Pitkäaikaissäilytyksen toiminta ja ylläpito

TeliaSonera Identity and Access Management

Paikkatiedon tulevaisuus

Kysyminen ja vastaaminen kommunikaationa. Petri Godenhjelm Metodifestivaalit 2015

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Osoitetiedot kuntoon!

pitkittäisaineistoissa

Tilastokeskus.fi väylä luotettavaan tilastotietoon Leena Jäntti

Kansallinen tulorekisteri - mitä ollaan tekemässä? Arto Leinonen Hankepäällikkö RTE-seminaari

Kanta-palvelujen käyttöönotto sosiaalihuollossa

Laatukustannukset. Laadun hallinta. Laadun kustannuksista

CSC Suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Virta-hanke (Järjestäjän sotetietojohtaminen) Jaakko Pentti

Johtaminen ja tiedon toissijainen käyttö

Projektisuunnitelma Viulu

Testit järjestysasteikollisille muuttujille

Tilastokeskus.fi väylä luotettavaan tilastotietoon Leena Jäntti

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Transkriptio:

Tilastotuotantomallit - Tilastojen tuottamisen haasteet, Tietotekniikka- ja menetelmäpalvelut heikki.rouhuvirta@stat.fi SAS Forum Finland 2012

Tilastokeskus = Tilastotuotanto = säännöllisesti toistuva lähes 200:n tilaston sisältötuotanto 9.10.2012 2

Tilastotuotanto prosessina 9.10.2012 3

The Generic Business Process Model / Unece 9.10.2012 4

Tilastotuotantoprosessi tasot 1 ja 2, perusmalli 8.2.2012 Taso 1 Tiedontarpeen selvitys Määrittely ja suunnittelu Tuotantojärjestelmän rakentaminen Tiedon hankinta Datan muokkaus Analyysi Julkaiseminen & jakelu Prosessin arviointi 1 2 3 4 5 6 7 8 Ilmiöalueen peruskartoitus Tutkimusasetelman määrittely Tiedon hankintajärjest. rakentam.inen Tiedonkeruusuunnitelma Luokittelu, koodaus Alustavat tulokset Käyttäjätuki Mittari- ja palautetiedon koostaminen T a s o 2 Aineistojen saatavuusselvitys Käyttäjien tiedontarpei-- den selvitys Tilaston perustaminen Tietosisällön tarkentaminen Tiedonantajien kuuleminen Tiedonkeruupäätös Tuotantoprosessin kuvaus Vuosisuunnittelu Perusjoukon, otannan suunnittelu Vakiotaulukoiden, avoimen datan suunnittelu Metatietojen suunnittelu Tiedon muokkaus- & anal.j. rakentamiinen Työn kulkujen viimeistely Tuotantojärjestelmän testaus Prosessin toimivuuden testaus Tuotantojärjestelmän viimeistely Rekisteriaineistojen hankinta ja ylläpito Otoksen poiminta Esitäyttö Tiedonkeruun toteutus Aineíston vastaanotto Raakadatan tallennus ja arkistointi Aineistojen yhdistäminen Datan tarkastelu ja editointisuunnittelu Editointi Toimenpideja laatuarviointi. Uusien muuttujien luominen Uusien havaintoyksiköiden muodostam. Tulosten tarkistus Analyysi ja tulkinta Tietosuojan varmistus Lopulliset tulokset Julkaisupäätös Laatudokumenttien valmistaminen Kansain- Julkistamisväliset kalenteri tietotoimitukset Jakelutietokantojen päivitys Julkistaminen Kansainväliset tietotoimitukset Tietojen rutiinijakelu Arkistointi Prosessien ongelmien analysointi Kehittämisehdotukset Vain suora tiedonkeruu Kehittämisprojektiehdotukset Valmiin datan tallennus ja arkistointi Raporttien tallennus 9.10.2012 5

Prosessimallin rajoittuneisuus 1. Aineiston menetelmällinen muokkaus - miten? 2. Aineiston ja aineiston käsittelyn kuvaus miten? 9.10.2012 6

Aineiston muokkauksesta editointimaliin 9.10.2012 7

The Generic Business Process Model / Unece 9.10.2012 8

Tiedon menetelmällinen käsittely haalinta suora tiedonkeruu rekisterit raaka-aineisto = arkistodata (I) tilastoaineisto editointi editoitu aineisto = arkistodata (II) imputointi estimointi lopullinen aineisto = arkistodata (III) taulukointi muu laskenta 9.10.2012 9

Tilastoaineiston käsittelyvaiheet (täsmennys) Tilastotuotanto Suunnittelu Tiedon hankinta Havaintoaineiston muokkaus Aggregoidun aineiston tuottaminen Julkaiseminen jakelu Kehikon luonti Rekisteriaineiston sisäänluku Aineistojen yhdistäminen Summaformaattien haku / muodostaminen Px / XML -taulukoiden muodostaminen Otospoiminta Lähdedatojen vertailua Sähköisten tiedonkeruiden aineiston sisäänluku Aineiston alkuanalyysi Aineiston päivitys tietokantaan Aineistopoiminnat eri lähteistä Aineiston massatarkistus Editointi Imputointi estimointi Johdettujen muuttujien laskenta Laadun varmistus Aineiston analysointi Aineistojen summaus julkaisun esitystasolle Johdettujen muuttujien askenta Tietosuojan varmistus Formaattien / labelien kiinnitys Grafiikan muodostaminen Gesmes-toimitusten muodostaminen Muiden tiedostomuotojen muodostaminen Arkistointi 15.4.2009 / KN 9.10.2012 10

Editointimalli Osa 1

Editointimalli Osa 2

1 Aineistotarkastelut ja editoinnin suunnittelu Alkuanalyysi Toiminta Ohjelmallinen aineistokatsaus Aineistotarkastelu analyysivälinein (tutkijan kokemuksen avulla suuntautuva tarkastelu [havaintotaso, osajoukot, tunnusluvut, taulukot, graafinen tarkastelu]) Tuotokset Raaka-aineistoa kuvaavat indikaattorit Analyysin tuotokset (graafit, listaukset, taulukot) Alustavat virhemerkinnät Kommentit ym. Arvio aineistosta 9.10.2012 13

2 Aineistotarkastelut ja editoinnin suunnittelu Virhediagnostiikka Toiminta Kohdennettu alustava virheentunnistus (varmat virheet, tiedossa olevat ongelma-alueet) Virhediagnostiikka (Alkuanalyysillä saadun tiedon, aineistoarvion ja alustavan virheentunnistuksen sekä aiempien kokemuksien perusteella tehty diagnoosi siitä, minkälaisia virheitä aineistossa esiintyy ja onko mukana myös ennen toteamattomia ilmiöitä) Tuotokset Virhelogi 9.10.2012 14

3 Aineistotarkastelut ja editoinnin suunnittelu Editointisuunnitelma Toiminta Editointisuunnitelman hahmottelu Päätöksenteko sen suhteen, mitä virheentunnistus- ja virheenkorjaustoimia tehdään sekä missä järjestyksessä ja minkälaisin ehdoin (parametrein). Suunnittelussa otetaan huomioon myös aiemmat käytännöt. Tuotokset Päätös editointitoimenpiteistä - menetelmävalinnat (mukana määritys, rajataanko virheentunnistusta vain merkittäviin havaintoihin ja/tai virheisiin) - editointiparametrit (päätökset siitä, millä raja-arvoilla ja muilla numeerisilla valinnoilla eri vaiheiden proseduurit toteutetaan) 9.10.2012 15

4 Editointi Toiminta 4a 4b Virheen- ja puuttuvuuden tunnistus Virheen- ja puuttuvuuden korjaus Tuotokset Editoitu aineisto Toteutus- ja analyysitieto 9.10.2012 16

4a Virheen- ja puuttuvuuden tunnistus Päätös editointitoimenpiteistä -menetelmävalinnat (mukana määritys, rajataanko virheentunnistusta vain merkittäviin havaintoihin ja/tai virheisiin) -editointiparametrit Nykytilanne: Mikrotason tarkastelu Makrotason tarkastelu Havainnon muuttujasisällön tarkastelu Havaintoarvojen tarkastelu ajassa sekä referenssivertailu Editointisäännöt ja tarkastusohjelmat Virhelistaukset ja niiden tarkastelu Havaintotason mallinnus Poikkeavat arvot ja havainnot Graafinen tarkastelu Tunnusluvut, jakaumat ja taulukointi sekä aggregaatit mukana mahdollisesti havainnon ja / tai virheen merkittävyyden arviointi Varmojen virheiden tai virheellisiksi epäiltyjen arvojen identifioituminen Toteutus- ja analyysitieto 9.10.2012 17

4b Virheen- ja puuttuvuuden korjaus Varmojen virheiden tai virheellisiksi epäiltyjen arvojen identifioituminen Toteutus- ja analyysitieto Manuaalikorjaus Imputointi tilastollisella menetelmällä Arvon tiedustelu tiedontuottajalta Arvon sijoitus, päättely tai arviointi Automaattinen korjaus Keskiarvo- ja muu tunnuslukuimputointi Mallinnusimputointi Luovuttajaimputointi Jakaumaimputointi, summajako jakauman mukaan sekä balanssivirheen korjaus Massaimputointi sekä moniimputointi Editoitu aineisto Toteutus- ja analyysitieto 9.10.2012 18

5 Laatuanalyysi Toiminta ja tuotokset Laatuindikaattoreiden laskenta Laatuindikaattorit editointivaiheeseen Tuloslaskenta editoidusta aineistosta Arvio muokkaustoimien vaikutuksesta editointivaih. Yhteenveto editointitoimien laadusta Laatuarvio editointivaiheeseen Lopullinen aineisto 9.10.2012 19

. ja tilastoaineistoon tulee toteuttaa määritellyt editointisäännöt mahdollisimman vähäisellä määrällä muuttujanarvomuutoksia - FELLEGI-HOLT PERIAATE (970-luvulta) - Periaatteeseen liittyy olennaisena osana muuttujille määritellyt luotettavuuspainot (reliability weights). 9.10.2012 20

Prosessimallin rajoittuneisuus 1. Aineiston menetelmällinen muokkaus - miten? 2. Aineiston ja aineiston käsittelyn kuvaus miten? 9.10.2012 21

The Generic Business Process Model / Unece 9.10.2012 22

GSBPM and GSIM / Generic Statistical Information Model (GSIM) Specification (Version 0.8, September 2012) 9.10.2012 23

9.10.2012 24

Tilastollinen metatietomalli CoSSI (Common Structure of Statistical Information) 9.10.2012 26

Tilastollinen metatieto 9.10.2012 27

- luokitustieto 9.10.2012 28

Tiedon muuttujakeskeisyys spesification statmeta.dtd statmeta.dtd statmeta.dtd quality declaration.dtd concept/ meaning measurement description data quality survey data quality concept model variable 9.10.2012 29

määritykset CoSSI ----- modularisointi docmeta.dtd qualitymeta.dtd statmeta.dtd xyz_procmeta. dtd -taxmeta.dtd -vrkmeta.dtd. taltion yksilöintitieto aineiston laatuarviotieto numeerisen tilastotiedon sisältö prosessoinnin parametritieto numeerisen lähdetiedon sisältö käsitemalli tilastollinen informaatio tiedon organisointi KeysFormat matriisi taulukko kyselylomake julkaisu grafiikka KeysFormat.dtd matrix.dtd table.dtd question.dtd cxqf.dtd publication.dtd määritykset CoSSI --- osat ja kokonaisuus 9.10.2012 30

Xml -tiedosto 9.10.2012 31

Aineistokuvausten käyttöalueet tilaston tuotantoprosessissa 9.10.2012 32

Metatietojen käyttö tilastotuotantoprosessissa? 9.10.2012

Tekninen infrastruktuuri 9.10.2012 34

Statistics Finland SAS Software Deployment Architecture View Production Environment SAS 9.2 => 9.3 Datahakemistojen standardirakenne 9.10.2012 35

SAS-architecture - Virtualization Virtualized application servers 18 cores (excl. Metadataserver, WinProxy, demo) 384+128 Mb memory SASdemo 9.10.2012 36

SAS-architecture - Overview SAS -servers Two IBM P7 AIX-servers 64 bit enabled SAS metadataserver Statistical data 32 bit P5 Statistical data Win-Server (performance testing) Databases 5 SQL servers ~160 databases Statistical data exist XML Metadata of the statistical data 9.10.2012 37

Tietovarastot 9.10.2012 38

XIV-levyjärjestelmä SAS-palvelin 1 SAS-palvelin 2 SQL-Server 1 SQL-Server 2 Sähköpostipalvelin Verkkolevyt Jakelu- ja julkaisupalvelimet Tiedonkeruu, muut tukipalvelut Tilastotuotanto Hallinto- ja jakelu SVC -kerros Replikointi SVC-kerroksen kautta XIV 2 Käyttökapasitteeti 25TB 6 modulia à 12 TB Tilastotuotannon Primaaritaltio XIV Käyttökapasitteeti ~60TB 12 modulia à 12 TB Tilastotuotannon sekundaaritaltio ja muun primaari Replikointi suoraan XIV:ien välillä. 9.10.2012 39

SQL 2012 infra Uusi SQL 2012 Analysis Services 20 ydintä, paljon muistia Yhtsql2 Herttua Uusi Yhtsql Rubik Kehitysja testi Yhtsql-kannat siirretään enimmäkseen Rubikille ja loput Yhtsql2:lle SQL 2008 (ei päivitetä) Vanhainkoti (Sybase) 24 ydintä SQL 2008 -> SQL 2012 16 ydintä SQL 2012 40 ydintä? SQL 2005 ei päivitetä, poistuu käytöstä 8 ydintä SQL 2008 -> SQL 2012 16 ydintä SQL 2008 ja SQL 2012 virtuaalikoneita Mika Muttonen, Riitta Piela, Toni Räikkönen 9.10.2012 40

Integroitu mikrodatavarasto TK:n Tietolaari Tutkimusyhteisöt, yritykset, lehdistö ym. tutkimus/erityisselvitys-palveluja tarvisijat Kansalaiset ym. vakiotuotteiden ja -palvelujen käyttäjät Tietopalvelut-yksikkö Pääjohtaja ja pj:n sihteeristö Tutkimus-, mikrosimuointimalli- ja erityisselvityspalvelut Tietovarastojen hallinta-yksikkö Tuotevarasto Makrodatavarasto Mikrodatavarasto Raakadatan hankinta-yksikkö Hallinto-yksikkö Tilastotuotannon tuki-yksikkö Tilastoalueen z tilastotuotanto-yksikkö Tilastoalueen y tilastotuotanto-yksikkö Tilastoalueen x tilastotuotanto-yksikkö IT-palvelut-yksikkö Tiedonantajat 9.10.2012 41

Muut projektit 1. Jakelun prosessimalli - TK/jakelu 2. xcola - TK/TI 3. SAS-arkkitehtuuri 4. Hallinnollisten aineistojen vastaanotto 5. Hakemistorakenne 6. Muuttujaeditori 7. Luokituseditori 8. Arkistointi ja 9. OID:n käyttö 9.10.2012 42

Tilastotuotannon modernisointi 9.10.2012 43

Tilastotuotannon modernisointi (I) 9.10.2012 44

Modernisointiprosessin perusvaatimuksia 1. Muutoksen perussuunta on saavuttaa prosessimallin mukainen toimintatapa - tilastotiedon jalostusketju on katkeamaton - tilastotiedon jalostaminen tehokkaasti aineiston laadun ohjaamana - prosessimallin mukaiseen toimintatapaan ja sen hallintaan sopivat tietotekniset työvälineet 2. Modernisoinnilla tavoitellut vaikutukset tilastotuotannossa - tilastoaineistojen oikea ja tarkoituksenmukainen muokkaus - välinetuki, so. tietotekninen arkkitehtuuri, tukee toimintatapaa - tuotannollisten virheiden ennakollinen karsinta - tilastotiedon ja tuotannon dokumentoinnin tuottaminen ja käyttö - tilastotuotantoa ohjaamisessa tarvittavan informaation tuottaminen ja käyttö, esimerkinä tilastoaineiston laadun indikaattorit 9.10.2012 45

Tilastotuotannon modernisointi (II) 9.10.2012 46

Tavoite:. ja kaikki tämä tulisi olla toteutettuna vuonna 2017! 9.10.2012 47

Kiitos! 9.10.2012 48