Toki tiesit että se menisi jakoon melkoisella todennäköisyydellä siivottuna, anonyymina massadatana ja tarkoitus olisi palvella yleisesti terveysalan teknologista kehitystä. Se olisi sitä semmottista "big dataa", josta ei pysty jonkun hahmo x:kkösen terveytietoja yhdistämään tietyn herra Burb Jorma Örfelöisen (nimi on keksitty) sosiaaliturvatunnukseen ja henkilöön kirveelläkään.
Esim. lääkekehitys on aina vuosien juttu, nyt saataisiin sellaisiin + vastaaviin dataa suit sait sukkelaan ja mahdollisuuksia kehittää toimivia hoitomuotoja/lääkkeitä/välineitä huomattavasti nopeammin. Eli se palvelisi kaikkien meidän etua, eikä data siis olisi mikään tirkistelyn kohde, josta joku jossain yksityisessä firmassa naureskelisi hahmo X:n toistuvalle jalkasilsalle.
Jos se olisi yksilöityä dataa, sitten pitäisi olla hyvin hyvin paljon enemmän tietoa, kenelle ja miten se olisi tarkoitus luovuttaa. Suhtautuisin sellaiseen melkoisella varauksella, ensialkuun jopa kielteisesti.
On tietysti positiivista, että tarkastelet asiaa viattomasta näkökulmasta, hyötyihin keskittyen. Mä en pysty siihen, vaan lähden liikkeelle worst case scenaarioilla.
Siivottu big data sinällään kuulostaa kivalta, mutta kun homma ei jää siihen. Otetaan kaveriksi toinen big data, laitetaan kattilaan, kiehautetaan, ja plimps, kuin vahingossa, alkaakin jalkasilsahahmo X:n identiteetti paljastua.
Tällainen esimerkki:
Netflix ei ymmärtänyt julkaisevansa arkaluontoisia tietoja
Kun aivan eri tarkoituksiin kerättyjä datamassoja onnistutaan louhimaan, niistä voidaan löytää yllättäviä riippuvuuksia. Esimerkiksi vuonna 2006 yhdysvaltalainen suoratoistopalvelu Netflix käynnisti avoimen kilpailun, jossa joukkueiden tehtävänä oli parantaa elokuvien suosittelua Netflixin käyttäjille. Eli rakentaa kone, joka ymmärtää käyttäjän elokuvamaun.
Netflix laittoi lähes puolen miljoonan käyttäjän tekemät elokuva-arviot jakoon nimettöminä. Netflix oletti, ettei käyttäjiä voida tunnistaa ja kilpailu olisi harmiton, mutta toisin kävi. Teksasin yliopiston tutkijat vertailivat Netflixin kilpailua varten julkaisemaa datapakettia Internet Movie Databasen -sivuston käyttäjien julkisiin tietoihin. Tutkijat löysivät yhteyksiä Netflixin ja IMDb:n välillä ja osa Netiflix-käyttäjistä olisi voitu paljastaa.
Netflix joutui peruuttamaan suunnittelemansa toisen kilpailun. Ongelmana oli, että vaikka ihmiset arvioivat elokuvia IMDb:ssä julkisesti, Netflixin keräämät tiedot olivat yksityisiä. Ehkä joku käyttäjä on halunnut antaa elokuvamaustaan tietyn kuvan IMDb:ssä, mutta katsella ja arvostella salaa Netflixissä. Tämä kuvastaa sitä, miten salassa pidettävät, arkaluontoiset tiedotkin voivat paljastua, jos dataa yhdistellään taitavasti algoritmeillä.
Tuo siis pelkkä tutkijoiden pikku hiekkalaatikkoleikki yli kymmenen vuoden takaa.
Kuinka paljon kehittyneempiä datalouhijat ovatkaan tänään? Eikä heidän motiivinaan ole tutkimus, ja leikkikaluinaan harmittomat leffatykkäykset, vaan jotain ihan muuta.
On sanottu, että kerran nettiin laitettu pysyy siellä ikuisesti. Sama koskee tuollaisia tietoja. Kerran myytyä ei takaisin saa.
Vaikka Kelan big data juuri nyt tuottaisikaan ostajalle mitään, vuosien kuluttua sen voikin yht'äkkiä yhdistää johonkin toiseen big dataan jne.
Mahdollisten ostajien pääintressi ei ole lääketiede tai yksityisyyden suoja, vaan rahanteko.
Jos sitten taas siivotaan myytäviä tietoja hyvinkin yleiselle tasolle, niin eihän se enää poikkea vaikkapa Tilastokeskuksen tai THL:n julkaisuista. Nehän on saatavissa ilmaiseksi, ei tarvitse käydä kauppaa. Sipilän tarkoittamalla kaupankäynnillä mennään syvemmälle yksityiskohtiin. Helpottaa ja tarkentaa datalouhintaa.
Hakusanavinkki: re-identification