Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.2009
Tietosuoja - lähtökohdat! Periaatteena on estää yksiköiden suora ja epäsuora tunnistaminen! Suora tunnistaminen estetään poistamalla " tunnukset (henkilö- tai yritystunnus) " nimet " tarkat osoitteet tai koordinaatit! Epäsuoran tunnistamisen estäminen mahdotonta " varmistettava, ettei tunnistaminen ole mahdollista kohtuullisella vaivalla 2.3.2009 2
Tunnistamisen kannalta keskeisiä muuttujia! Aluetieto! Yksikköä kuvailevat muuttujat! Jatkuvan muuttujan arvot (varsinkin kun saatavilla muista lähteistä) 2.3.2009 3
Tunnistamisessa keskeisiä muuttujia! Yritys " sijainti " liikevaihto " tilikauden tulos " muut euromääräiset muuttujat " toimipaikkojen lukumäärä " henkilöstömäärä! Henkilö " asuinpaikka " työpaikan sijainti " sukupuoli " ikä " ammatti " koulutus " perheeseen liittyvät tiedot " tulotiedot 2.3.2009 4
Tietojen suojaamisessa otettava huomioon! Julkiset rekisterit " verotustiedot! Yritysten itse julkaisemat tiedot " tilinpäätös! Tutkijan omat aineistot " kyselyaineistot " muilta viranomaisilta saadut rekisteriaineistot 2.3.2009 5
Esimerkkitapaus! Tutkija on koonnut henkilöiden terveys- ja mielipidetietoja sisältävän aineiston.! Aineisto sisältää kyselyllä saatuja vastauksia terveystottumuksiin ja asenteisiin liittyen.! Aineistoa halutaan käyttää monissa tutkimushankkeissa ja siksi siihen halutaan yhdistää useita eri tietoja Tilastokeskuksen rekistereistä. 2.3.2009 6
Esimerkki - tutkijan aineisto! Tutkijan aineisto sisältää " perustietoja vastaajasta (esim. asuinkunta, sukupuoli, ikä, siviilisääty) " jatkuvia muuttujia, jotka kuvaavat vastaajan terveyden tilaa (esim. paino, pituus jne.) " edellisistä johdettuja muuttujia (esim. BMI) " yksittäisiä lukumäärätietoja, joissa poikkeavia havaintoja (esim. liikuntatunnit, savuke- ja alkoholiannokset viikossa, sairauksien lukumäärä) 2.3.2009 7
Esimerkki - Tilastokeskuksesta pyydetyt tiedot! Tilastokeskuksesta pyydetään " tietoja henkilöiden ja puolisoiden, esim. " koulutuksesta, ammatista ja työhistoriasta " palkoista " kotitaloutta kuvailevia tietoja, esim. " lasten syntymävuodet " työpaikkojen tietoja, esim. " tulostietoja " henkilöstöä kuvailevia tietoja 2.3.2009 8
Esimerkki - aineistoluovutuksen lähtökohdat! Tutkija haluaa pitää kopion alkuperäisestä aineistostaan myöhempää käyttöä varten.! Tutkijalle toimitettava aineisto tulee olla suojattu siten, ettei aineistoa voida yhdistää takaisin alkuperäiseen aineistoon.! Usein aineistoa voidaan käyttää vain Tilastokeskuksen tutkimuslaboratoriossa, koska tätä yhdistämistä on käytännössä mahdoton estää. 2.3.2009 9
Esimerkki - aineistoluovutuksen lähtökohdat! Esimerkkitapauksessamme aineisto sisältää yritystietoja, joiden avulla henkilö on helpompi tunnistaa. Lisäksi tutkijalle jää alkuperäinen aineisto, joten aineisto annetaan tutkijan käyttöön tutkimuslaboratoriossa.! Tutkija voi halutessaan antaa lopulliset tulokset Tilastokeskuksen henkilökunnan suoritettaviksi suojaamattomasta aineistosta. 2.3.2009 10
Esimerkki - suojaustoimenpiteet: tutkijan aineisto! Aluetiedot karkeistetaan maakuntatasolle.! Ikä luokitellaan viiden vuoden pituisiin luokkiin ja luokat laajennetaan jakauman ala- ja ylärajalla, joissa vähemmän havaintoja.! Jakaumatietoja tarkastelemalla todetaan, ettei muita henkilön perustietoja tarvitse karkeistaa, koska poikkeavia havaintoja ei ole. 2.3.2009 11
Esimerkki - suojaustoimenpiteet: tutkijan aineisto! Yksittäisen henkilön saamat jatkuvan muuttujan arvot pyöristetään riittävälle tarkkuudelle, siten, että kunkin arvon saajia on vähintään 5. Lisäksi luokkia laajennetaan jakauman ylä- ja alarajalla poikkeavien arvojen takia. (Esim. suuret ja pienet BMI-arvot)! Lukumäärätietoihin tehdään luokituksia, osittain käyttäen luokkien laajentamista lähinnä jakauman ylärajalla. (Esim. erittäin aktiivinen tupakointi) 2.3.2009 12
Esimerkki - suojaustoimenpiteet: Tilastokeskuksen tiedot! Henkilöiden luokitellut tiedot annetaan riittävän yleisellä tasolla " ammatti ja koulutus 3 numeroa! Henkilöiden palkkatiedot pyöristetään ja koodataan ylimmän persentiilin osalta luokan keskiarvoon. 2.3.2009 13
Esimerkki - suojaustoimenpiteet: Tilastokeskuksen tiedot! Kotitalouden kokoa kuvaavat muuttujat " lasten tietoja annetaan kuudesta lapsesta " kotitalouden koon raja-arvoksi valitaan 9! Yrityksen tulokseen liittyviin tietoihin lisätään kohinaa suoran tunnistamisen estämiseksi.! Yrityksen henkilöstömäärät luokitellaan. 2.3.2009 14
Esimerkki - suojauksen toteutuksen yhteenveto! Aineiston suora yhdistäminen kyselyaineistoon estettiin " pyöristämällä jatkuvien muuttujien arvoja " karkeistamalla luokitusta harvinaisten tapausten takia! Aineiston suora yhdistäminen muihin helposti saatavilla oleviin tietoihin estettiin " pyöristämällä tulotietojen arvoja ja uudelleenluokittelemalla muuttujan arvoja " lisäämällä kohinaa yritysten tulostietoihin 2.3.2009 15
Tietosuojamenetelmistä - Otanta! Otannan tavoitteena on tuoda epävarmuutta yksikön tunnistamiseen.! Otannan tuoman epävarmuuden takia muut aineiston suojauksen vaatimat muutokset ovat pienempiä.! Otanta on hyödyllinen henkilöaineistoissa.! Yritysaineistoissa otannalla ei voida vaikuttaa suuryritysten suojaamiseen, mutta sitä voidaan hyödyntää pk-yrityksiä sisältävän aineiston suojaamisessa. 2.3.2009 16
Tietosuojamenetelmistä - Luokituksen muuttaminen! Tietojen luokittelulla saadaan jatkuvan muuttujan ainutlaatuiset arvot suojattua.! Äärimmäiset havainnot on usein suojattava laajentamalla luokkia jakauman ylä- ja alarajoilla.! Valmiin luokituksen karkeistaminen on hyödyllisintä käytettäessä aidosti hierarkkisia luokituksia, kuten alue-, koulutus-, ammatti- tai toimialaluokitus.! Luokituksen karkeistaminen vähentää muuttujan tietosisältöä nopeasti. 2.3.2009 17
Tietosuojamenetelmistä - Pyöristäminen! Jatkuvan muuttujan arvoja voidaan suojata pyöristämällä arvoja sopivalla kantaluvulla.! Pyöristämisen tavoitteena on estää suora tunnistaminen hyödyntäen lisäinformaatiota (kuten verotustiedot).! Pyöristettäessä kantaluku valitaan riittävän suureksi siten, että useat yksiköt saavat saman pyöristetyn arvon.! Pyöristämällä menetetään joissain tapauksissa liikaa tarkkuutta. 2.3.2009 18
Tietosuojamenetelmistä - Kohinan lisääminen! Kohinan lisäämistä käytetään jatkuvan muuttujan arvojen suojaamisen, lähinnä estämään suora yhdistäminen ulkoiseen rekisteriin.! Kohinaa voidaan lisätä eri tavoin " valkoinen kohina säilyttää keskiarvot ja kovarianssit, muuttaa variansseja ja korrelaatiokertoimia " korreloitunut kohina: varianssit eivät muutu, mutta tuloksena harhaiset estimaatit 2.3.2009 19
Tietosuojamenetelmistä - Mikroaggregointi! Mikroaggregoinnilla voidaan suojata jatkuvan muuttujan arvoja julkaisemalla alkuperäisen arvon sijasta samankaltaisten yksiköiden muodostaman ryhmän keskiarvo.! Mikroaggregoinnin käyttö soveltuu lähinnä suoran tunnistamisen estämiseen.! Menetelmä säilyttää yleisimpien tunnuslukujen arvot likimain. 2.3.2009 20