Aalto-yliopisto Perustieteiden korkeakoulu Tietotekniikan koulutusohjelma Yksityisyydensuoja internetin paikkatietoja hyödyntävissä palveluissa Kandidaatintyö 28. huhtikuuta 2013 Janne Paalijärvi
Aalto-yliopisto Perustieteiden korkeakoulu Tietotekniikan koulutusohjelma KANDIDAATINTYÖN TIIVISTELMÄ Tekijä: Työn nimi: Janne Paalijärvi Yksityisyydensuoja internetin paikkatietoja hyödyntävissä palveluissa Päiväys: 28. huhtikuuta 2013 Sivumäärä: Kirjoita tähän oikea määrä, tässä esimerkissä 23 Pääaine: Koodi: Vastuuopettaja: Tietoliikenneohjelmistot T3005 Professori N.N. Työn ohjaaja(t): Sanna Suoranta (Tietotekniikan laitos) Tiivistelmä on muusta työstä täysin irrallinen teksti, joka kirjoitetaan tiivistelmälomakkeelle vasta, kun koko työ on valmis. Se on suppea ja itsenäinen teksti, joka kuvaa olennaisen opinnäytteen sisällöstä. Tavoitteena selvittää työn merkitys lukijalle ja antaa yleiskuva työstä. Tiivistelmä markkinoi työtäsi potentiaalisille lukijoille, siksi tutkimusongelman ja tärkeimmät tulokset kannattaa kertoa selkeästi ja napakasti. Tiivistelmä kirjoitetaan hieman yleistajuisemmin kuin itse työ, koska teksti palvelee tiedonvälitystarkoituksessa laajaa yleisöä. Tiivistelmän rakenne: teksti jäsennetään kappaleisiin (3 5 kappaletta); ei väliotsikkoja; ei mitään työn ulkopuolelta; ei tekstiviitteitä tai lainauksia; vähän tai ei ollenkaan viittauksia työhön (ei ollenkaan: luvussa 3 tms., mutta koko työhön voi viitata esim. sanalla kandidaatintyössä ; ei kuvia ja taulukoita. Tiivistelmässä otetaan löysät pois : ei työn rakenteen esittelyä; ei itsestäänselvyyksiä; ei turhaa toistoa; älä jätä lukijaa nälkäiseksi, eli kerro asiasisältö, älä vihjaa, että työssä kerrotaan se. Tiivistelmän tyypillinen rakenne: (1) aihe, tavoite ja rajaus (heti alkuun, selkeästi ja napakasti, ei johdattelua); (2) aineisto ja menetelmät (erittäin lyhyesti); (3) tulokset (tälle enemmän painoarvoa); (4) johtopäätökset (tälle enemmän painoarvoa). Avainsanat: Kieli: paikkatieto, yksityisyys Suomi 2
Sisältö 1 Johdanto 4 2 Yleistä 4 2.1 Yksityisyyden määritelmä.......................... 4 2.2 Paikkatietopalvelun ja yksityisyyden dilemma............... 5 2.3 K-anonymiteetti................................ 5 2.4 A min...................................... 5 3 CliqueCloak 5 4 Casper 5 4.1 Yleistä Casperista............................... 5 4.2 Paikkatiedon anonymisoija.......................... 6 4.3 Pyyntökäsittelijä............................... 6 Lähteet 8 3
1 Johdanto Tämä kandidaatintyö käsittelee yksityisyydensuojaa internetin paikkatietoa hyödyntävissä palveluissa. Aihe on mielenkiintoinen, sillä tällaista palvelua käyttääkseen joutuu yleensä luopumaan ainakin osasta yksityisyyttään. Tyypillisesti pienempi yksityisyydensuoja on korreloinut paremman palvelun laadun kanssa. Tässä työssä paneudutaan erilaisiin teknisiin ratkaisuihin, jotka auttavat yksityisyydensuojan säilyttämisessä. Ratkaisut voivat olla konkreettisia toteutuksia tai teoreettisia malleja. Ratkaisut voivat sisältää palvelu-, siirtotie- tai päätelaitekomponetteja. Tutkimusongelmana on luoda katsaus erilaisiin yksityisyydensuojaa internetin paikkatietoa hyödyntävissä palveluissa parantaviin ratkaisuihin. Tutkimus on perusteltu, sillä kokoavaa ja ajantasaista artikkelia aiheesta ei ole. Työn tavoite on listata useita erilaisia tekniikoita tutkimuksen aihealueelta ja kertoa niiden toimintatavoista. Juridiset kysymykset ovat tarkastelun ulkopuolella. Menetelmänä työssä toimii kirjallisuuskatsaus alan artikkeleihin ja julkaisuihin. Spekulatiivista pohdiskelua: Työssä havaittiin, että moni yksityisyydensuojaa paikkatietopalveluissa parantava järjestelmä vaatii luotetun komponentin, joka vastaa oikeiden paikkatietojen sumentamisesta pienemmälle tarkkuudelle. Usein tämä komponentti sijaitsee läheisesti itse paikkatietotietokannan yhteydessä, jolloin voidaankin jossain määrin kyseenalaistaa yksityisyydensuojan toteutuminen palvelun tuottajan suuntaan. Tämä siksi, että mikään ei periaatteessa estä tuottajaa kaappaamasta tarkkaa paikkatietoa ja sen hyödyntämistä esimerkiksi mainostustarkoituksiin. Järkevin paikkatiedon anonymisointi tapahtuu päätelaitteessa, jolloin palvelun tuottajalla on pienemmät mahdollisuudet saada selville oikeat tiedot, joskin tässäkin tapauksessa joudutaan luottamaan palvelua käyttävän asiakasohjelman hyviin tarkoitusperiin. 2 Yleistä 2.1 Yksityisyyden määritelmä Yksityisyys tarkoittaa oikeutta määritellä se, milloin ja ketkä saavat saada tietoja itsestämme, ominaisuuksistamme ja omistuksistamme. [2, s. 281] Myös ihmisen sijaintitiedon voi rinnastaa kuuluvan yksityisyyden piiriin. Julkisessa ja kansoitetussa tilassa liikkuessaan ihminen voi tosin harvemmin salata oikean sijaintitietonsa; hän ei voi yhtäkkiä päättää ettei olekaan fyysisesti paikalla. Hän voi kuitenkin - ainakin teoriassa - määritellä, minkälaisia paikkatietoja hänen käyttämänsä päätelaitteet viestivät ulkomaailmaan. 4
2.2 Paikkatietopalvelun ja yksityisyyden dilemma Paikkatietoja käyttävä palvelu tunkeutuu käyttäjän yksityisyydensuojan alueelle. Mitä tarkemmin palvelu tietää käyttäjän sijainnin, sitä paremmin palvelu tyypillisesti toimii. Käyttäjä vaihtaa palveluissa yksityisyyttään parantuneeseen palvelun laatuun [1, s. 763]. Tämä tasapainottaminen on luonteeltaan nollasummapeliä. 2.3 K-anonymiteetti K-anonymiteetti on eräs keskeinen parametri yksityisyydensuojaa käsittelevässä tutkimuskirjallisuudessa. Jos jokin palvelu toteuttaa K-anonymiteetin, se tarkoittaa, että palvelun yksittäistä käyttäjää ei voida tunnistaa k-1 käyttäjän joukosta. K-anonymiteetti kehitettiin alunperin tietokanta-aineistojen anonymisointiin. [3] 2.4 A min A min on parametri, jota näkee käytettävän kirjallisuudessa puhuttaessa paikkatietoja hyödyntävistä palveluista ja yksityisyydensuojasta. Parametri A min tarkoittaa sitä, että käyttäjä on havaittavissa minimissään A min kokoisen geografisen karttaruudn (oikean tai jollain tavalla projisoidun) alueella. 3 CliqueCloak 4 Casper 4.1 Yleistä Casperista Casper on mobiilipäätelaitteita varten kehitetty yksityisyydensuojaa parantava järjestelmä. [1, s. 763]. Järjestelmä on kehitetty vuonna 2006, jolloin paikkatietopalvelujen kasvu oli jo räjähdysmäistä. Casper koostuu kahdesta pääkomponentista, jotka ovat paikkatiedon anonymisoija ja tätä tukeva pyyntökäsittelijä. Casper lupaa tarjota korkeatasoisen paikkatietopalvelukokemuksen ja säilyttävänsä samalla käyttäjän yksityisyyden. Järjestelmän kehittäjät Mokbel, Chow ja Aref tunnistavat pseudonymiteettiin pohjautuvien järjestelmien vaara-alttiuden esimerkiksi tilanteessa, jossa pseudonyymi käyttäjä haluaa etsiä lähimmän ruokalan. Casper on kehittäjiensä mukaan myös huomattavasti parempi järjestelmä kuin alan aikaisemmat toteutukset Spatio-Temporal Cloaking ja CliqueCloak [1, s. 764]. Järjestelmä tukee erilaisia kyselytyyppejä (yksityiset kyselyt julkisesta datasta, 5
julkiset kyselyt yksityisestä datasta ja yksityiset kyselyt yksityisestä datasta). Anonymisoinnin takia järjestelmä ei pysty palauttamaan käyttäjälle eksakteihin paikkatietoihin perustuvia vastauksia kyselyihin. Sen sijaan palvelu palauttaa kandidaattilistan mahdollisista vastauksista. Näiden vastausten lomasta päätelaite pystyy valitsemaan haluamansa tiedon. 4.2 Paikkatiedon anonymisoija Casperin yksinkertaisen paikkatiedon anonymisoijan tietorakenne on pyramidimainen tasoruudukko, jossa pidetään kirjaa kunkin ruudun tunnisteesta ja ruudun alueella olevien päätelaitteiden määrästä. Tasoja on useita, ja niistä korkein (nollataso) tarkoittaa koko geografista tarkastelualuetta. Kaikki käyttäjät pystyvät sijoittumaan tämän tasosoruudun alueelle. Mentäessä tasoille 1 ja eteenpäin aluetta kuvaavan tasoruudukon ruutujen määrä kasvaa (2x2, 4x4, 8x8 jne). Samalla käyttäjän sijaintitarkkuus paranee. Erillisessä hajautustaulussa on tietoalkiona käyttäjän tunniste, käyttäjän määrittelemä yksityisyysprofiili ja pyramiditasoruudun numero. Käyttäjä kertoo päätelaitteensa avustuksella yksityisyysprofiilinsa, jonka perusteella anonymisoija tekee työnsä. Profiilin parametrit ovat k-anonyymiys ja A min. [1, s. 765] Anonymisoija laskee käyttäjän koordinaateista hajautusfunktiolla arvon, joka kuvaa koordinaatin tasoruudukon alimpaan osaan. Arvo on uusi ruutunumero. Tämän jälkeen tehdään yksityisyysprofiilin perusteella käyttäjän sijaintitarkkuuden sumentaminen siten että palautettava ruutunumero on joko ruutu itse, ruutupari naapurin kanssa, tai jokin ruudun isäruudusta tietopyramidin huippua kohti (huippua kohdenhan tarkkuus heikentyi). [1, s. 766] Casper sisältää myös edistyneemmän anonymisoijan, joka toimii perusversiota nopeammin. Toiminta on muuten samanlaista, mutta siinä missä perusversiossa operointi aloitetaan pyramiditasoruudukon alimmasta kerroksesta, edistyneemmässä versiossa käytetään vain niitä osia tietorakenteesta, jotka on yksityisyysprofiilien nojalla sallittu. Voi ilmentyä esimerkiksi tilanne, jossa sumentamistarkkuus on kaikilla päätelaitteilla sellainen, ettei sitä voida sitoa tarkimman tasoruudukon resoluutioon. Tällöin kyseistä tasoa ei käytetä ollenkaan. Seurauksena on operaatioiden nopeutuminen. [1, s. 766] 4.3 Pyyntökäsittelijä Casperin pyyntökäsittelijä käyttää tietokannassa kahdentyyppisiä tietoalkioita, julkisia ja yksityisiä. Yksityinen paikkatieto on tallennettuna summittaisena, julkinen taas tarkasti. [1, s. 767] Tietokannasta tehtävät haut perustuvat tasoruudn ja sen lähialueiden (tarkkojen tai summittaisten) paikkatietojen geometrisiin suodatuksiin ja hakukandidaattilistan 6
palauttamiseen. Lopuksi päätelaite valitsee kandidaateista oman tarkan sijaintitietonsa avulla halutun vastauksen. 7
Lähteet [1] M.F. Mokbel, C.Y. Chow ja W.G. Aref. The new casper: query processing for location services without compromising privacy. Proceedings of the 32nd international conference on Very large data bases, sivut 763 774. VLDB Endowment, 2006. [2] Richard B Parker. Definition of privacy, a. Rutgers L. Rev., 27:275, 1973. [3] Latanya Sweeney. k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557 570, 2002. 8