VIRTA-tiedon laadun tukeminen Fredrik Finnberg 31.8.2016
Tietojen Virta : 1. Korkeakoulu (KK) tuo uudet XML-tiedostot -> validoidaan ja viedään korkeakoulukohtaiseen tietokantaan 2. KK tiedot ladataan korkeakoulukohtaisesta yhteiseen Virta kantaan -> edellytys 1. vaihe onnistunut eikä liikaa puutteita mikä estää yhteiseen latauksen -> vanhat tiedot poistetaan 3. Tiedonsiirtojen tiheyteen sovitettu ajastetut kopiot vaiheen 1. xml-tiedoista lukurajapinnan Virtatietokantaan, ns. Ohituskaista-ajo (nyk. päivittäinen ajastus klo 6:30, 10:30, 14:30, 18:30, 22:30, 02:30) 4. Joka kolmas tunti otetaan kopio yhteisestä Virta kannasta (vaihe 2.) Tiedonkeruu palvelimelle. 5. Ajastetut tarkistustiedostot, tiedonkeruut ja tiedonsiirrot csv-tiedostoina VIRTASFTP hakemistoihin sekä tabulaari/kuutio palvelimille (extra.vipunen.fi) 2
Tiedonsiirto Virtaan esim. 1 Esim. HAMK tiedonsiirto Virtaan aamupäivällä klo 7 Vaihe 1: klo 7-7.20 XML tiedot relaatiokantaan Vaihe 2: klo 7:45 Yhteiseen Virta-kantaan lataus alkaa (TAMK ja CENTRIA edellä jonossa, "kaista vapautuu" klo 08:20, lataus valmistuu 8:30) Vaihe 3: klo 10:30-10:55 VirtaWS lukurajapintaan (XML muodossa). klo 7 tulleet tiedot ovat n. klo 11 Opintopolun, Oilin jne. käytettävissä Vaihe 4: klo 12 aamupäivällä ennen klo 10:30 Virta-kantaan tulleet tiedot tiedonkeruu palvelimella Vaihe 5: Ajastetut ajot, tiedonkeruut, poiminnat klo 23 alkaen koko yö 3
Tiedonsiirto Virtaan esim. 2 Esim. JY tiedonsiirto Virtaan iltapäivällä klo 15 Vaihe 1: klo 15-15:30 XML tiedot relaatiokantaan Vaihe 2: klo 15:45 Yhteisen Virta-kantaan lataus (ei muita edellä jonossa) lataus valmistuu klo 16:10 Vaihe 3: klo 18:30-18:55 VirtaWS lukurajapintaan (XML muodossa). klo 15 tulleet tiedot ovat n. klo 19 Opintopolun, Oilin jne. käytettävissä Vaihe 4: klo 21 ennen klo 18:30 Virta-kantaan tulleet tiedot tiedonkeruu palvelimella Vaihe 5: Ajastetut ajot, tiedonkeruut, poiminnat klo 23 alkaen ja koko yö 4
Tarkistustiedostoja Korkeakoulun SFTP hakemistossa on tavaraa: 5
Ajastukset - tarkistustiedostot Tiedonkeruu -> csv-tiedostoina VIRTASFTP hakemistoihin: Tilastokeskus tutkinnot klo 00:15 \aineistot Tilastokeskus opiskelijat klo 01:00 \aineistot Tarkistukset lehtitaso klo 01:00 \ Kela edistymisen seuranta klo 01:30 \kela YTHS klo 03:30 \yths CIMO klo 06:30 \aineistot Opettajat klo 19:15, 19:45, 21:00 \aineistot 55 op klo 23 03 \aineistot\viisviis CSV_Export.zip luodaan onnistuneen tiedonsiirron jälkeen \ (kaikki taulut 62 kpl, Tarkistukset _xxxx ) Tiedonkeruu => extra.vipunen.fi (tabulaari/kuutiot) Hakijat ja opiskeluoikeudet klo 23:00 Liikennevalot klo 23:15 Opintopisteet AMK ja YO klo 00:30 Opintopiste pvm klo 05:00 6
Tilastokeskus - uudet tarkistustiedostot tktutk2016_korkeakoulu_tarkistus.csv Tarkistus aineistolle tktutk2016_korkeakoulu.csv tkopisk2016_korkeakoulu_tarkistus.csv Tarkistus aineistolle tkopisk2016_korkeakoulu.csv https://confluence.csc.fi/display/virta/tilastokeskuksen+opiskelijatiedonkeruu+ammattikorkeakoulut#tilastokeskukse nopiskelijatiedonkeruuammattikorkeakoulut-tarkistus https://confluence.csc.fi/display/virta/tilastokeskuksen+opiskelijatiedonkeruu+yliopistot#tilastokeskuksenopiskelijati edonkeruuyliopistot-tarkistus https://confluence.csc.fi/display/virta/tilastokeskuksen+tutkintotiedonkeruu+ammattikorkeakoulut#tilastokeskuksen tutkintotiedonkeruuammattikorkeakoulut-tarkistus https://confluence.csc.fi/display/virta/tilastokeskuksen+tutkintotiedonkeruu+yliopistot#tilastokeskuksentutkintotiedo nkeruuyliopistot-tarkistus 7
Tarkistukset - virhetyypit TUNN = tunn (oppilaitostunnus) on virheellinen onko oppilaitostunnus jokin voimassaolevista 5 numeroisista tunnuksista KOULTYP1 = muuttujan arvo ei ole 1, 2, 3, 5 eikä 6 KOULTYP2 = erikoistumisopinnoissa ja opettajankoulutuksessa koodi on joko 3 tai 5, muuten 1, 2 tai 6 KOULTYP3= koulutusohjelma ei sallittu erikoistumisopinnoissa tai opettajankoulutuksessa SRHTUP =ilmoitus sairaanhoitajista, joilla myös kätilön, ensihoitajan tai terveydenhoitajan tutkinto (tuplasairaanhoitajat) KKIELI = kkieli (koulutuksen opetuskieli) koodiarvo on virheellinen KKUN2 = kkun2 (kunta) koodiarvo on virheellinen Verrataan voimassa olevaan kuntaluokitukseen ( koulutustyyppi 2, 3 ja 5 ). HT1 = Puutteelliset henkilötunnukset loppuosa puuttuu HT2 = henkilötunnukset, joiden jakojäännös ei täsmää loppuosa virheellinen HT3 = sukupuolitieto virheellinen AIKIELI = äidinkielitieto virheellinen verrataan äidinkieltä sallittujen kielten listaan ASKUN = asuinkuntatieto virheellinen verrataan kuntatietoa sallittujen kuntien listaan KANSAL = kansalaisuustieto virheellinen verrataan kansallisuustietoa sallittujen kansallisuuksien listaan KIRTUPV2 = kirjoihintulovuosi ei saa olla suurempi kuin tilastovuosi, kirjoihintulokuukausi saa arvon 1 12, päivä arvon 1 31 SUORAIK = tutkinnon suoritusajankohta on virheellinen tutkinnon suoritusvuoden täytyy olla sama kuin tilastovuosi, suorituskuukausi saa arvon 1 12, päivä arvon 1 31 TU1 = tarkistetaan onko joillakin havainnoilla samat arvot joka muuttujalla täydellinen tuplatietue TU2 = tarkistetaan onko joillakin havainnoilla samat oppilaitostunnus tutkinto ko sv kombinaatiot eli henkilöllä täsmälleen sama tutkinto aineistossa kahteen kertaan OP1 = omassa ammattikorkeakoulussa suoritetut opintopisteet OP2 = muissa ammattikorkeakouluissa suoritetut opintopisteet OP3 = yliopistoissa suoritetut opintopisteet OP4 = yleissivistävissä ja ammatillisissa oppilaitoksissa suoritetut opintopisteet OP5 = ulkomailla suoritetut opintopisteet OP6 = muualla suoritetut opintopisteet OP7 = opintopisteet yhteensä LASNALK = läsnä ja poissaololukukausissa virhe läsnä ja poissaolot yhteenlaskettua määrää verrataan ensimmäisen kirjoihintulon ja tutkinnonsuoritusajan perusteella laskettuihin käytettyihin kausiin. OPLAAJ1=muodollinen virhe (voi olla 1 300) KIRTU1PV = kirjoihintulokuukausi voi saada arvon 1 12, päivä arvon 1 31 KIRTU1P2 = ei voi olla suurempi kuin kirjoihintulo tähän tutkintoon tässä amk:ssa eikä suurempi kuin tilastovuosi OPETT1 = voi olla 1, 2, tai tyhjä. OPETT2 = opettajankoulutus ei ole sosionomi tutkinnolla RAHLAHDE = Rahoituslähde muodoltaan virheellinen voi olla joko 1, 2, 3, 4 tai 5 8
Tilastokeskus - uudet tarkistustiedostot Esimerkkipoimintoja uusista tarkistustiedostoista: o Puuttuvat ja puutteelliset tiedot: ht1;puutteellinen henkilötunnus - loppuosa puuttuu; lasnalk2;läsnä- tai poissaolokausia täytyy olla vähintään 1 o Väärä tieto: ht3;sukupuolitieto virheellinen; olotamm3;kevään läsnäolotieto voi olla vanhoilla opiskelijoilla joko 1 tai 2; koultyp1;koulutustyyppi on virheellinen; muuttujan arvo ei ole 1, 2, 3, 5 eikä 6;7 opker;opintopistekertymä liian suuri tai ed. kevät- ja syyslukukausien opintopisteet yhteensä ovat enemmän kuin kertymä plus yksi o Ei välttämättä virhe? op1;omassa ammattikorkeakoulussa suoritetuissa opintopisteissä tarkistettavaa (voi olla 0-300);350; op7;opintopisteet yhteensä tarkistettavaa (voi olla 0-300);380; 9
Tiedon laatu Latausraportti: https://confluence.csc.fi/display/virta/virta_latausraportti Puutetarkistuksien tulos: Tarkistukset_Puutetaulu.csv https://confluence.csc.fi/display/virta/virta_latausraportti+-+tarkistukset Liikennevalot: https://extra.vipunen.fi/opintotiedot/sivut/tiedon-laatu.aspx https://confluence.csc.fi/display/virta/tietosisallon+laadun+liikennevalot CSVExport.zip: https://confluence.csc.fi/display/virta/csv-aineistojen+ohje 10
Tiedon laatu Vähän tilastotietoja Virrasta: Opintosuorituksia: Joista hyväksiluettuja: Tutkintoja: Opiskelijoita: 65 053 302 kpl (345 343 063 op) 3 287 636 kpl ( 21 435 473 op) 1 136 316 kpl 2 434 727 kpl Hieman erikoista tilastoa: Suorituspäivämäärä tulevaisuudessa: 69 236 kpl (304 434 op edestä) Yli 1 v päästä: 68 507 kpl Yli 10 v päästä: 68 397 kpl Yli 100 v päästä: 140 kpl Yli 1000 v päästä: 14 kpl Ennätys pvm: 30.4.9797 Tavallisin on väärä vuosikymmen esim. 2099-03-11 Hyväksilukupvm tulevaisuudessa: Suorituspvm > hyväksilukupvm : 193 kpl 63 726 kpl (yllä olevissa näistä 6 144 kpl) Yksi tulevaisuuden opiskelija kirjattu jo, syntyy: 06.05.2080 11
Uusi 55 op Raportti (luonnos!): https://extra.vipunen.fi/opintotiedot/sivut/tiedon-laatu.aspx https://confluence.csc.fi/display/virta/55+op+laskennan+poimintakuvaus Työpaja aiheena 55 op 6.9.2016 klo 12 13:30: https://connect.funet.fi/virta (ACP nauhoitetaan) Työpajassa käsiteltäviä kysymyksiä kootaan sivulle https://confluence.csc.fi/display/virta/2016_9_6+tyopaja+55+op+laskennasta 12
KIITOS! virta@csc.fi fredrik.finnberg@csc.fi +358 (0)50 3818 499 13