Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.



Samankaltaiset tiedostot
ReplicaX työkalu avointen datakopioiden luomiseen

Henkilötietoja sisältävän datan käsittely ja avaaminen TIETOSUOJA TUTKIJAN ARJESSA HY ARJA KUULA-LUUMI

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Kvantitatiivisen aineiston anonymisointikeinot. Eliisa Haanpää, Tietoarkisto Tutkimusaineistojen anonymisointi -seminaari 5.4.

Kvantitatiiviset menetelmät

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

KVANTITATIIVNEN DATA JA SEN AVAAMINEN. Eliisa Haanpää, Tietoarkisto Metodifestivaali, Jyväskylä

pitkittäisaineistoissa

pitkittäisaineistoissa

OHJE 1 (5) VALMERI-KYSELYN KÄYTTÖOHJEET. Kyselyn sisältö ja tarkoitus

Oma nimesi Tehtävä (5)

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Työntekijöiden näkemyksiä työhyvinvoinnin kehittämisestä ja yhteistoiminnasta työpaikoilla. Toimihenkilökeskusjärjestö STTK 8.2.

Tilastolain muutoksen vaikutukset aineistojen tutkimuskäyttöön. Seminaari

Pääkaupunkiseudun yritysraportti

Diskriminanttianalyysi I

805306A Johdatus monimuuttujamenetelmiin, 5 op

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Sovellettu todennäköisyyslaskenta B

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Henkilötietolain (523/1999) 10 :n mukainen REKISTERISELOSTE

MONISTE 2 Kirjoittanut Elina Katainen

- Tilastoaineistoista vuodelle Satu Elho, Tilastopäällikkö

Uusyrityskeskuksien kokonaistilanne. Joulukuu Vastauksia huomisen kysymyksiin

Tuenhakija ja hanke. Yleiset indikaattorit

Matemaattinen Analyysi, k2012, L1

Henkilötietojen käsittelyn oikeusperuste on rekisterinpitäjän oikeutettu etu tai sopimuksen valmistelu tai sopimuksen täytäntöönpano.

Tehtävät 1/11. TAMPEREEN YLIOPISTO Informaatiotieteiden tiedekunta Valintakoe Matematiikka ja tilastotiede. Sukunimi (painokirjaimin)

Kirjastoasiointien tuottama hiilikuorma pääkaupunkiseudulla

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

vuotiaiden kokemuksellinen hyvinvointi

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

HPV-rokotuskattavuusraportti

Asiakas- ja markkinointirekisteri. Tietosuojaseloste. Tilitoimisto Likvidi Oy

Toiminnan monipuolistaminen Euroopan parlamentin ja neuvoston asetus (EU) N:o 508/2014, 30 artikla; 44 artikla 4 kohta. Tuenhakija ja hanke

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

HAKEMUS 1 (5) Pihlajan perheeksi. Perhehoitoyksikkö Pihlaja Hyvinkään kaupunki/perhe- ja sosiaalipalvelut PL Hyvinkää. Haluaisimme ryhtyä:

Perhehoitoyksikkö Pihlaja Hyvinkään kaupunki/perhe- ja sosiaalipalvelut Saapunut Pihlajaan pvm PL Hyvinkää

Tietosuoja tutkimuksessa. Arja Kuula-Luumi (Tietoarkisto) Tutkimusaineistojen anonymisointi -seminaari Tampereen yliopisto

Tietosuojaseloste: Markkinointirekisteri

Tilastokeskuksen Yritysrekisteri - monet mahdollisuudet. Tietopalvelusihteeri Tarja Kiviniemi

Asiakaskohtainen suhdannepalvelu - Suhdannetietoja toimialoista, yritysryhmistä ja alueista

Tietosuojaseloste Espoon kaupunki

Terveys ja turvallisuus kalastuksessa Euroopan parlamentin ja neuvoston asetus (EU) N:o 508/2014, 32 artikla; 44 artikla 1 kohta b alakohta.

Kuntalaiskysely. Kiihtelysvaara. Pasi Saukkonen

Varustekorttirekisteri - Tietosuojaseloste

6. laskuharjoitusten vastaukset (viikot 10 11)

Teema 5: Ristiintaulukointi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

OHJE YLEISEEN KÄYTTÖÖN TARKOITETTUJEN OHJELMISTOJEN HYÖDYNTÄMISESTÄ SOTE- PALVELUISSA

Tietosuojaseloste Espoon kaupunki

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Itä-Suomen seudulliset liikkumistutkimukset 2018

Luottamusvälit. Normaalijakauma johnkin kohtaan

Tietosuojaseloste Espoon kaupunki

Tilastokeskuksen Yritysrekisterin monet mahdollisuudet. Aluepäällikkö Pekka Kettunen

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

805306A Johdatus monimuuttujamenetelmiin, 5 op

4. Henkilötietojen käsittelyn tarkoitus ja peruste

Estimointi. Vilkkumaa / Kuusinen 1

Kannustinloukuista eroon oikeudenmukaisesti

Tilastokeskuksen käyttölupamenettely. Seminaari

ASIAKASKOHTAINEN SUHDANNEPALVELU. Lappeenranta Nopeat alueelliset ja toimialoittaiset suhdannetiedot

Aloittaneet ja lopettaneet yritykset

Keskustat ja kauppa yhdyskuntarakenteessa. Ville Helminen/Antti Rehunen/Arto Viinikka/Hanna Käyhkö SYKE/Rakennetun ympäristön yksikkö

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Valtion kuukausipalkat

TUTKIMUSLUPAHAKEMUS. Sosiaali- ja terveystoimi 1 (5) 1 TUTKIMUSLUVAN HAKIJA Nimi. Osoite. Tutkimuslaitos, oppilaitos tai muu organisaatio

Tutkijoiden ja kalastajien välinen kumppanuus Euroopan parlamentin ja neuvoston asetus (EU) N:o 508/2014, 28 artikla; 44 artikla 3 kohta

Tuenhakija ja hanke. Yleiset indikaattorit

Uusi Tilastokeskuksen sijaintitiedon viitearkkitehtuuri

Asiakaskohtainen suhdannepalvelu Nopeat toimialoittaiset ja alueittaiset suhdannetiedot yritysten toimintaympäristön seurantaan

Tietosuojaseloste Espoon kaupunki

Syötteen ainoalla rivillä on yksi positiivinen kokonaisluku, joka on alle = Luvussa ei esiinny missään kohtaa numeroa 0.

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Kestävyyskunto ja työkykyisyyden haasteet

YRITYSTEN JAKAMINEN SUHTEELLISIIN RISKILUOKKIIN

SUOJAA JA HALLINNOI MOBIILILAITTEITASI. Freedome for Business

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

AINEISTOJEN JAKAMISEN MYYTEISTÄ JA HAASTEISTA

Verkkorikollisuus tietoturvauhkana. Valmiusseminaari, ylitarkastaja Sari Kajantie, KRP/Tietotekniikkarikosyksikkö

Hyvinvointia työstä. Työterveyslaitos

Työelämän pelisäännöt

Ympäristöliiketoiminta 2010

Kandidaatintutkielman aineistonhankinta ja analyysi

SELVITYS: Sosiaali- ja terveyslautakunta pyytää selvitystä työttömien maksuvapautuksen vaikutuksista

Yrityksille tietoa TTT-asioista

Lisätiedot Pyydämme Teitä tarvittaessa esittämään tutkimukseen liittyviä kysymyksiä tutkijalle/tutkimuksesta vastaavalle henkilölle.

pisteet Frekvenssi frekvenssi Yhteensä

Batch means -menetelmä

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Tuenhakija ja hanke. Yleiset indikaattorit

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Betonin lujuuden määrittäminen rakenteesta. Betonitutkimusseminaari Risto Mannonen

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Transkriptio:

Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.2009

Tietosuoja - lähtökohdat! Periaatteena on estää yksiköiden suora ja epäsuora tunnistaminen! Suora tunnistaminen estetään poistamalla " tunnukset (henkilö- tai yritystunnus) " nimet " tarkat osoitteet tai koordinaatit! Epäsuoran tunnistamisen estäminen mahdotonta " varmistettava, ettei tunnistaminen ole mahdollista kohtuullisella vaivalla 2.3.2009 2

Tunnistamisen kannalta keskeisiä muuttujia! Aluetieto! Yksikköä kuvailevat muuttujat! Jatkuvan muuttujan arvot (varsinkin kun saatavilla muista lähteistä) 2.3.2009 3

Tunnistamisessa keskeisiä muuttujia! Yritys " sijainti " liikevaihto " tilikauden tulos " muut euromääräiset muuttujat " toimipaikkojen lukumäärä " henkilöstömäärä! Henkilö " asuinpaikka " työpaikan sijainti " sukupuoli " ikä " ammatti " koulutus " perheeseen liittyvät tiedot " tulotiedot 2.3.2009 4

Tietojen suojaamisessa otettava huomioon! Julkiset rekisterit " verotustiedot! Yritysten itse julkaisemat tiedot " tilinpäätös! Tutkijan omat aineistot " kyselyaineistot " muilta viranomaisilta saadut rekisteriaineistot 2.3.2009 5

Esimerkkitapaus! Tutkija on koonnut henkilöiden terveys- ja mielipidetietoja sisältävän aineiston.! Aineisto sisältää kyselyllä saatuja vastauksia terveystottumuksiin ja asenteisiin liittyen.! Aineistoa halutaan käyttää monissa tutkimushankkeissa ja siksi siihen halutaan yhdistää useita eri tietoja Tilastokeskuksen rekistereistä. 2.3.2009 6

Esimerkki - tutkijan aineisto! Tutkijan aineisto sisältää " perustietoja vastaajasta (esim. asuinkunta, sukupuoli, ikä, siviilisääty) " jatkuvia muuttujia, jotka kuvaavat vastaajan terveyden tilaa (esim. paino, pituus jne.) " edellisistä johdettuja muuttujia (esim. BMI) " yksittäisiä lukumäärätietoja, joissa poikkeavia havaintoja (esim. liikuntatunnit, savuke- ja alkoholiannokset viikossa, sairauksien lukumäärä) 2.3.2009 7

Esimerkki - Tilastokeskuksesta pyydetyt tiedot! Tilastokeskuksesta pyydetään " tietoja henkilöiden ja puolisoiden, esim. " koulutuksesta, ammatista ja työhistoriasta " palkoista " kotitaloutta kuvailevia tietoja, esim. " lasten syntymävuodet " työpaikkojen tietoja, esim. " tulostietoja " henkilöstöä kuvailevia tietoja 2.3.2009 8

Esimerkki - aineistoluovutuksen lähtökohdat! Tutkija haluaa pitää kopion alkuperäisestä aineistostaan myöhempää käyttöä varten.! Tutkijalle toimitettava aineisto tulee olla suojattu siten, ettei aineistoa voida yhdistää takaisin alkuperäiseen aineistoon.! Usein aineistoa voidaan käyttää vain Tilastokeskuksen tutkimuslaboratoriossa, koska tätä yhdistämistä on käytännössä mahdoton estää. 2.3.2009 9

Esimerkki - aineistoluovutuksen lähtökohdat! Esimerkkitapauksessamme aineisto sisältää yritystietoja, joiden avulla henkilö on helpompi tunnistaa. Lisäksi tutkijalle jää alkuperäinen aineisto, joten aineisto annetaan tutkijan käyttöön tutkimuslaboratoriossa.! Tutkija voi halutessaan antaa lopulliset tulokset Tilastokeskuksen henkilökunnan suoritettaviksi suojaamattomasta aineistosta. 2.3.2009 10

Esimerkki - suojaustoimenpiteet: tutkijan aineisto! Aluetiedot karkeistetaan maakuntatasolle.! Ikä luokitellaan viiden vuoden pituisiin luokkiin ja luokat laajennetaan jakauman ala- ja ylärajalla, joissa vähemmän havaintoja.! Jakaumatietoja tarkastelemalla todetaan, ettei muita henkilön perustietoja tarvitse karkeistaa, koska poikkeavia havaintoja ei ole. 2.3.2009 11

Esimerkki - suojaustoimenpiteet: tutkijan aineisto! Yksittäisen henkilön saamat jatkuvan muuttujan arvot pyöristetään riittävälle tarkkuudelle, siten, että kunkin arvon saajia on vähintään 5. Lisäksi luokkia laajennetaan jakauman ylä- ja alarajalla poikkeavien arvojen takia. (Esim. suuret ja pienet BMI-arvot)! Lukumäärätietoihin tehdään luokituksia, osittain käyttäen luokkien laajentamista lähinnä jakauman ylärajalla. (Esim. erittäin aktiivinen tupakointi) 2.3.2009 12

Esimerkki - suojaustoimenpiteet: Tilastokeskuksen tiedot! Henkilöiden luokitellut tiedot annetaan riittävän yleisellä tasolla " ammatti ja koulutus 3 numeroa! Henkilöiden palkkatiedot pyöristetään ja koodataan ylimmän persentiilin osalta luokan keskiarvoon. 2.3.2009 13

Esimerkki - suojaustoimenpiteet: Tilastokeskuksen tiedot! Kotitalouden kokoa kuvaavat muuttujat " lasten tietoja annetaan kuudesta lapsesta " kotitalouden koon raja-arvoksi valitaan 9! Yrityksen tulokseen liittyviin tietoihin lisätään kohinaa suoran tunnistamisen estämiseksi.! Yrityksen henkilöstömäärät luokitellaan. 2.3.2009 14

Esimerkki - suojauksen toteutuksen yhteenveto! Aineiston suora yhdistäminen kyselyaineistoon estettiin " pyöristämällä jatkuvien muuttujien arvoja " karkeistamalla luokitusta harvinaisten tapausten takia! Aineiston suora yhdistäminen muihin helposti saatavilla oleviin tietoihin estettiin " pyöristämällä tulotietojen arvoja ja uudelleenluokittelemalla muuttujan arvoja " lisäämällä kohinaa yritysten tulostietoihin 2.3.2009 15

Tietosuojamenetelmistä - Otanta! Otannan tavoitteena on tuoda epävarmuutta yksikön tunnistamiseen.! Otannan tuoman epävarmuuden takia muut aineiston suojauksen vaatimat muutokset ovat pienempiä.! Otanta on hyödyllinen henkilöaineistoissa.! Yritysaineistoissa otannalla ei voida vaikuttaa suuryritysten suojaamiseen, mutta sitä voidaan hyödyntää pk-yrityksiä sisältävän aineiston suojaamisessa. 2.3.2009 16

Tietosuojamenetelmistä - Luokituksen muuttaminen! Tietojen luokittelulla saadaan jatkuvan muuttujan ainutlaatuiset arvot suojattua.! Äärimmäiset havainnot on usein suojattava laajentamalla luokkia jakauman ylä- ja alarajoilla.! Valmiin luokituksen karkeistaminen on hyödyllisintä käytettäessä aidosti hierarkkisia luokituksia, kuten alue-, koulutus-, ammatti- tai toimialaluokitus.! Luokituksen karkeistaminen vähentää muuttujan tietosisältöä nopeasti. 2.3.2009 17

Tietosuojamenetelmistä - Pyöristäminen! Jatkuvan muuttujan arvoja voidaan suojata pyöristämällä arvoja sopivalla kantaluvulla.! Pyöristämisen tavoitteena on estää suora tunnistaminen hyödyntäen lisäinformaatiota (kuten verotustiedot).! Pyöristettäessä kantaluku valitaan riittävän suureksi siten, että useat yksiköt saavat saman pyöristetyn arvon.! Pyöristämällä menetetään joissain tapauksissa liikaa tarkkuutta. 2.3.2009 18

Tietosuojamenetelmistä - Kohinan lisääminen! Kohinan lisäämistä käytetään jatkuvan muuttujan arvojen suojaamisen, lähinnä estämään suora yhdistäminen ulkoiseen rekisteriin.! Kohinaa voidaan lisätä eri tavoin " valkoinen kohina säilyttää keskiarvot ja kovarianssit, muuttaa variansseja ja korrelaatiokertoimia " korreloitunut kohina: varianssit eivät muutu, mutta tuloksena harhaiset estimaatit 2.3.2009 19

Tietosuojamenetelmistä - Mikroaggregointi! Mikroaggregoinnilla voidaan suojata jatkuvan muuttujan arvoja julkaisemalla alkuperäisen arvon sijasta samankaltaisten yksiköiden muodostaman ryhmän keskiarvo.! Mikroaggregoinnin käyttö soveltuu lähinnä suoran tunnistamisen estämiseen.! Menetelmä säilyttää yleisimpien tunnuslukujen arvot likimain. 2.3.2009 20