5. Suunnittelu ja toteutus

Tämän vaiheen voi toteuttaa esimerkiksi näin

Organisaation tiedon jakamista edistävä henkilö ja datan hallinnoija

arvioivat datan jakamismahdollisuuksia mm. käyttöoikeuksien osalta,
arvioivat datan jakamisesta koituvia hyötyjä, riskejä ja kustannuksia,
arvioivat tarvetta datan anonymisoinnille ja aggregoinnille,
arvioivat jaettavan datan laatua,
valitsevat lisenssin, jolla dataa aiotaan jakaa ja
päättävät datan avaamisesta.

Tietosuoja-asiantuntijaa

konsultoidaan tietoturva- ja tietosuojariskien tunnistamisessa ja
konsultoidaan anonymisoinnin ja aggregoinnin tarpeesta.

Organisaation IT-asiantuntijat sekä jaettavasta datasta vastaava henkilö

arvioivat datan jakamisen teknistä toteutusta, esimerkiksi jaetaanko data tiedostona vai rajapintana.

Avattavan tiedon määrittely

Kuva: Avattavan tiedon määrittelyn vaiheet

Tässä osiossa kuvataan asioita, joita organisaation on hyvä arvioida ja määritellä, kun organisaatio ryhtyy suunnittelemaan tiedon avaamista käytännössä. Samalla on hyvä myös pohtia, olisiko tietoaineiston avaamisen yhteydessä mahdollista avata myös tietoaineiston tuotantoprosessi (laskentasäännöt, algoritmit tms.).

Tietoa jo avanneissa organisaatioissa avattavan tiedon määrittely on toteutettu yleensä alla olevien vaiheiden mukaisesti. Lisätietoa aiheesta löydät data.europa.eu-palvelun oppaasta: Opas avoimen tiedon julkaisemiseen (englanniksi, pdf).

Organisaation tiedonhallintamalliin perehtyminen

Avattavan tiedon määrittely on hyvä aloittaa tunnistamalla,

kuka hallinnoi ja vastaa avattavaksi suunnitellusta tiedosta ja sen taustalla toimivasta tietojärjestelmästä sekä
mitkä ovat mahdollisia avattavan tiedon käyttötapauksia.

Apuna voi hyödyntää esimerkiksi oman organisaation tiedonhallintamallia, johon on kuvattu organisaation tietovarannot, tai tukeutua tiedon avaamiseen vastuutetun henkilön apuun, jos organisaatiossa on osoitettu tähän tehtävään resursseja. Lisätietoa tiedonhallintamallista löydät toimintamallin vaiheesta 4.

Tiedon jakamiseen vaikuttavien tekijöiden huomioiminen

Organisaation on käytännön tasolla tunnistettava, miten organisaation keräämä ja hallinnoima tieto on luotu sekä millaisia sopimuksia ja lainsäädäntöä tiedon osakokonaisuuksiin liittyy. Avattavaa tietoa määriteltäessä on huomioitava

tietoa mahdollisesti koskeva lainsäädäntö,
tietoaineiston omistajuuteen,
tekijänoikeuksiin,
tiedon luovutuksiin,
tietosuojaan,
tietoturvallisuuteen ja
tiedon kuvauksiin tai metatietoihin liittyvät tekijät.

Tiedon jakamista koskevasta lainsäädännöstä voit lukea lisää toimintamallin vaiheesta 2 Lainsäädäntö ja velvoitteet. Tietosuojan varmistamisesta voit lukea lisää myöhemmin tästä vaiheesta. Metatietojen kuvaamisesta on kerrottu toimintamallin vaiheessa 6 Julkaiseminen.

Jos edellä mainitut tekijät eivät rajoita tiedon jakamista, voidaan seuraavaksi selvittää tiedon hallinnoijan kanssa, miten tietoaineisto olisi käytännössä muodostettavissa ja jaettavissa teknisesti. Avattavan tietoaineiston kattavuus ja tarkkuustaso, jolla tietoaineiston voi avata, on myös hyvä määritellä, jotta tiedon hyötypotentiaali tai hyödynnettävyys eivät kärsi.

Standardien hyödyntäminen

Kun avattavaa tietoa määritellään, on hyvä selvittää, onko kyseisen tiedon avaamiseen (esimerkiksi tiedon mallinnukseen ja formaatteihin) olemassa kansallisia tai kansainvälisiä standardeja tai onko jo jokin toinen taho avannut vastaavanlaisen datan, jolloin sen tietomallia voi käyttää omassakin avauksessa. Kansainvälisiä standardeja käytettäessä kannattaa huomioida eri maiden lainsäädännön eroavaisuudet erityisesti tietosuojan osalta.

Esimerkiksi kansallisessa avoimen datan portaalissa eli Avoindatassa aineistojen metatietojen kuvailemiseen käytetään DCAT-AP-tietomallia, joka on Euroopan dataportaalin (EDP) määrittelemä sovellusprofiili DCAT-standardin käytöstä Euroopassa. DCAT-AP-tietomallin kuvaus löytyy myös Yhteentoimivuusalustalta.

Lisäksi Suomen kuusi suurinta kaupunkia ovat keränneet listaa muista kansainvälisistä standardeista (Google sheets, englanniksi), joiden mukaisesti Suomessa on jaettu tietoa.

Organisaatioiden vinkkejä

Helsinki Region Infosharen vinkkejä

Tiedon avaamiseen on tärkeää nimetä yksi selkeä taho (vastuutettu rooli), johon organisaation ulkopuoliset voivat olla yhteydessä avoimen datan asioissa. Lisäksi kannattaa järjestää esimerkiksi kehittäjätapaamisia, joissa voi kerätä palautetta jo ennen tiedon avaamista.

Ilmatieteen laitoksen vinkkejä

Tiedon hallinnoijan kannattaa huomioida, miten metadata ja sanallinen kuvaus tuotetaan aineistosta sekä miten vastataan mahdolliseen käyttäjätuen tarpeeseen julkaisun jälkeen.

Maanmittauslaitoksen vinkkejä

Tiedon hallinnoijan tulee käydä data yksityiskohtaisesti läpi tekijänoikeuksien osalta, jotta omistajuus on selvää. Mikäli data on aiemmin lisensoitu maksullisena, tulee siirtymäaika ja asiakasviestintä suunnitella huolellisesti. Lisäksi tulee varmistaa tietoliikennekapasiteetti.

Hyödyt, riskit ja kustannukset

Tässä osiossa kuvataan tiedon avaamisesta mahdollisesti syntyviä hyötyjä, riskejä ja kustannuksia, joita organisaation kannattaa arvioida ennen tiedon avaamista. Näiden osa-alueiden tunnistaminen ja arvioiminen on tarpeellista tiedon avaamisessa onnistumisen kannalta.

Tiedon avaamisesta on tutkimusten perusteella voitu tunnistaa useita yhteiskunnallisesti merkittäviä hyötyjä, jotka ovat syntyneet, kun tietoa uudelleenkäytetään. Tällaisia hyötyjä ovat esimerkiksi seuraavat:

julkisten palveluiden parantaminen ja kulujen hallinta,
kilpailun lisääminen ja uusien palveluiden syntyminen sekä
julkishallinnon toiminnan läpinäkyvyys ja tutkimusten tukeminen.

Kuva: Tiedon avaamisen hyödyt

Tiedon avaamisesta syntyviä hyötyjä voidaan myös tarkastella avatun tietoaineiston luoman arvon kautta. Tietoaineistojen arvon määrittämisestä voit lukea toimintamallin vaiheesta 4. Lisää tiedon avaamisen hyödyistä löytyy EDP:n julkaisemasta The Economic Benefits of Open Data -raportista (englanniksi, pdf).

Riskien tunnistaminen on tarpeellista tiedon avaamisen prosessissa, jotta niihin voidaan varautua ja niitä voidaan hallita. Keskeisiä tiedon avaamiseen ja jakamiseen liittyvä riskejä ovat jaetun tiedon tai jaetun tiedon ja siihen yhdistelemällä muita tietoja saadun tiedon mahdollinen käyttäminen yhteiskuntaa, kansalaisia tai viranomaisia vastaan haittaavasti tai vahingoittavasti. Esimerkkejä tällaisista tapauksista ovat

identiteettivarkaudet,
kiristykset tai huijaukset ja
yhteiskunnan infrastruktuurin kuten sähkö- tai tietoliikenneverkoston tai liikenneverkkojen ja -rakennusten fyysinen vahingoittaminen.

Tietoaineistojen avaamisesta syntyy usein kustannuksia, jotka kohdistuvat erityisesti ensimmäisten tietoaineistojen avaamiseen. Kustannukset voivat koostua esimerkiksi

teknologian hankkimisesta ja ylläpitämisestä,
tietoaineistojen ylläpitämisestä,
aineistojen poiminnasta tai irrottamisesta ja
tietoaineistojen käytön seuraamisesta sekä käyttäjien tukemisesta.

Tietoturvariskien hallinta

Tiedonhallintalautakunnan suositukset tietoturvallisuudesta

Tiedonhallintalautakunta on antanut suosituskokoelman tiettyjen tietoturvasäännösten soveltamisesta (valtiovarainministeriön julkaisuja 2021:65), jonka mukaan tietoriskien hallinta on jatkuvaa toimintaa, johon liittyvät tavoitteet, periaatteet, vastuut ja keskeiset menettelyt tiedonhallintayksikön on hyvä kuvata. Johdon vastuulla on tietoriskien hallinnan organisointi ja resursointi. Lisäksi tiedonhallintayksikkö ylläpitää riskiarvioiden tuloksista ja riskienkäsittelysuunnitelmista muodostuvaa tietoaineistoa sekä arvioi säännöllisesti, onko se osin tai kokonaan salassa pidettävä tai turvallisuusluokiteltava.

Tiedonhallintolautakunta on antanut myös suosituksen julkisen hallinnon tietoturvallisuuden arviointikriteeristöstä (Julkri), johon sisältyy ohjeistus sen käytöstä (valtiovarainministeriön julkaisuja 2022:43). Arviointikriteeristö tukee koko julkishallinnon tietoturvallisuuden kehittämisen ja arvioinnin tarpeita. Sitä voidaan käyttää apuna arvioitaessa tiedonhallintalakia, turvallisuusluokitteluasetusta sekä osin myös arvioitaessa tietosuoja-asetuksen säädettyjen tietoturvallisuutta koskevien vaatimusten täyttymistä.

Digitaalinen turvallisuus

Tiedon avaamisen suunnittelussa ja toteutuksessa on tärkeää varmistaa digitaalinen turvallisuus. Digitaalinen turvallisuus sisältää riskienhallintaan, toiminnan jatkuvuuden hallintaan ja varautumiseen sekä kyberturvallisuuteen, tietoturvallisuuteen ja tietosuojaan liittyviä asioita. Kansalaisten, yritysten ja yhteisöjen tulee voida luottaa eettisesti kestäviin, avointa ja läpinäkyvää toimintaa tukeviin ja turvallisiin julkisen hallinnon palveluihin myös digitaalisessa ympäristössä.

Valtioneuvoston periaatepäätöksessä julkisen hallinnon digitaalisesta turvallisuudesta (Valtiovarainministeriön julkaisuja 2020:23) määritetään kehittämisen periaatteet ja keskeiset palvelut turvallisuuden edistämiseksi digitaalisessa toimintaympäristössä. Valtiovarainministeriö on asettanut julkisen hallinnon digitaalisen turvallisuuden strategisen johtoryhmän digitalisoitumisen ja digitaalisen turvallisuuden tasapainoista edistämistä varten.

Tutustu tarkemmin digitaalisen turvallisuuden kehittämistä koskeviin toimiin ja materiaaleihin.

HRK-menetelmä

Tässä osiossa läpikäytyjä osa-alueita voit arvioida hyötyjen, riskien ja kustannusten arviointiin kehitetyn HRK-menetelmän avulla, joka tarjoaa suuntaa antavan koosteen näistä osa-alueista.

Menetelmä tiedon avaamisen hyötypotentiaalin, riskien ja kustannusten arviointiin

Osana tiedon jakamisen toimintamallia on kehitetty arviointimenetelmä, joka auttaa julkishallinnon organisaatioita arvioimaan omien tietoaineistojen avaamisen ja jakamisen hyötypotentiaalia sekä jakamiseen liittyviä riskejä ja kustannuksia. Arviointimenetelmää kutsutaan myös HRK-menetelmäksi (hyödyt, riskit ja kustannukset).

Lataa HRK-arviointityökalu (Excel-tiedosto)

HRK-työkalu on Excel-lomake, joka antaa yhteenvedon arvioinnin tuloksista täyttämiesi vastausten pohjalta. Vastausten perusteella tietoaineistolle määritetään hyötypotentiaali, riskiprofiili ja avaamisesta muodostuvat kustannukset. On hyvä huomioida, että vastausten perusteella saatava yhteenveto on ainoastaan suuntaa antava kooste eri huomioista – se ei ole suositus. Jokainen organisaatio tekee tiedon avaamista koskevat päätökset itsenäisesti huomioon ottaen lainsäädännön (mm. tiedon saantia ja luovutusta koskevat oikeudet), viralliset suositukset ja organisaation omat linjaukset. Yhteenvetoa voi hyödyntää esimerkiksi taustamateriaalina perusteltaessa tiedon jakamisen mahdollisia hyötyjä avaamisesta päättäville tahoille.

HRK-menetelmä perustuu suomalaisten ja ulkomaisten julkishallinnon organisaatioiden käyttämiin arviointimenetelmiin. Menetelmän ensimmäistä versiota ovat kehittäneet muun muassa National Institute of Standards and Technology, Washingtonin yliopisto, Harvardin yliopisto ja useat muut asiantuntijaorganisaatiot.

Arviointimenetelmän avulla voidaan:

priorisoida tietoaineistojen avaamisjärjestystä, kun resurssit ovat rajalliset
tunnistaa tietoaineistot, joiden avaamiseen liittyy erilaisia riskejä
hahmottaa tietoaineistojen avaamisesta syntyvät kustannukset
tunnistaa ulkoisille sidosryhmille (tiedon hyödyntäjät) eniten hyötypotentiaalia sisältävät tietoaineistot
kartoittaa mahdollisia tiedon jakamisesta syntyviä tuloja
tuoda systemaattisuutta tietoaineistojen avaamiseen ja jakamista koskevaan päätöksentekoon

Arviointimenetelmä on suunnattu organisaatioiden tiedon avaamisesta vastaaville henkilöille. Näitä voivat olla esimerkiksi tietoaineistojen vastuulliset, tietohallintopäälliköt tai tiedon avaamisen koordinaattorit. Lisäksi arvioinnin eri vaiheisiin kannattaa osallistaa kunkin osa-alueen asiantuntijoita aina teknisistä asiantuntijoista tietosuojavastaaviin.

Tietosuojan varmistaminen

Tässä osiossa kuvataan avattavan tietoaineiston aggregointi- ja anonymisointitarpeiden arviointia ja organisaatiokohtaisia käytänteitä avattavan tietoaineiston tietosuojan varmistamiseen sekä mahdollisesti tarvittavan aggregoinnin, anonymisoinnin tai pseudonymisoinnin toteuttamiseen.

Tässä vaiheessa on hyvä arvioida huolellisesti yhdessä tietosuojavastaavan kanssa, onko jaettavaksi suunniteltu tietoaineisto julkinen ja pitääkö se mahdollisesti sisällään henkilötietoja tai muuta yhteiskunnan toimivuuden kannalta kriittistä tietoa. Tässä yhteydessä kannattaa myös arvioida tarvitseeko avattavaa tietoa käsitellä niin, ettei esimerkiksi EU:n yleisen tietosuoja-asetuksen vaatimuksia rikota.

Anonymisointi, aggregointi ja pseudonymisointi

Anonymisointi tarkoittaa tietojen käsittelemistä niin, että henkilöiden tunnistaminen suoraan tai välillisesti ei enää ole mahdollista. Tunnistamisen täytyy estyä peruuttamattomasti ja siten, että rekisterinpitäjä tai muu ulkopuolinen taho ei voi enää hallussaan olevilla tiedoilla muuttaa tietoja takaisin tunnistettaviksi. Tunnistetiedot voidaan esimerkiksi poistaa tai yleistää (aggregoida) sellaiselle tasolle, ettei yksittäinen henkilö ole enää tunnistettavissa. Tunnistetietoja ovat esimerkiksi nimet, osoitteet, puhelinnumerot tai henkilötunnukset.

Aggregointi tarkoittaa tiedon uudelleenryhmittelyä yhden tai useamman tekijän perusteella karkeammalle tasolle. Tiedot voidaan yhdistää/karkeistaa yleiselle tasolle tai muuttaa tilastolliseen muotoon siten, etteivät yksittäistä henkilöä koskevat tiedot ole enää tunnistettavassa muodossa.

Pseudonymisointi tarkoittaa henkilötietojen käsittelemistä siten, että henkilötietoja ei voida enää yhdistää tiettyyn henkilöön ilman lisätietoja. Tällaiset lisätiedot täytyy säilyttää huolellisesti erillään henkilötiedoista.

Julkisuusperiaatteen huomioiminen tiedon avaamisessa

Julkisuusperiaatteen (julkisuuslaki 621/1999) mukaisesti viranomaisten asiakirjat ovat julkisia, jollei julkisuuslaissa tai muussa laissa erikseen toisin säädetä. On kuitenkin tärkeää huomioida, että julkinen asiakirja voi pitää sisällään henkilötietoja ja henkilötiedon luovuttaminen vaatii aina lain mukaisen perusteen, vaikka kyseessä olisikin julkinen asiakirja. Viranomaisen tulee arvioida, voidaanko asiakirjassa oleva henkilötieto luovuttaa. Julkinen tieto ei siis välttämättä tarkoita, että tiedon voi julkistaa, sillä julkisessa asiakirjassa voi olla henkilötietoa, jota ei voi julkistaa, vaikka kyse ei ole salassapidosta. Salassapito edellyttää julkisuuslain mukaista salassapitoperustetta ja salassapitosäännöksiä on myös erityislainsäädännössä.

EU:n yleisen tietosuoja-asetuksen noudattaminen

Niin pitkään, kun tietojen perusteella voidaan tunnistaa henkilö suoraan tai tiedot voidaan palauttaa takaisin tunnistettavaan muotoon, ne ovat yhä henkilötietoja ja niihin sovelletaan EU:n yleistä tietosuoja-asetusta.

EU:n yleisen tietosuoja-asetuksen mukaan tiettyjen rekisterinpitäjien ja henkilötietojen käsittelijöiden on nimitettävä tietosuojavastaava. Velvoite koskee kaikkia viranomaisia ja julkishallinnon elimiä. Tietosuojavastaava antaa neuvoja tietosuojaan liittyen rekisterinpitäjälle ja henkilötietoja käsitteleville työntekijöille. Hän seuraa asetuksen noudattamista sekä tietosuojaan liittyvän tiedottamisen ja koulutuksen toteutumista omassa organisaatiossaan. Tietosuojavastaava neuvoo vaikutustenarviointeihin liittyen ja toimii valvontaviranomaisen yhteyspisteenä.

Tietosuojavaltuutetun toimisto on kansallinen valvontaviranomainen, joka valvoo tietosuojalainsäädännön noudattamista. Tietosuojavaltuutettu ja apulaistietosuojavaltuutetut ovat tehtävässään itsenäisiä ja riippumattomia. Tietosuojavaltuutetun toimistoon on sijoitettu asiantuntijalautakunta (toimikausi on 1.10.2020–30.9.2023), jonka tehtävänä on antaa lausuntoja henkilötietojen käsittelyä koskevan lainsäädännön soveltamiseen liittyvistä merkittävistä kysymyksistä tietosuojavaltuutetun pyynnöstä. Lisätietoja tietosuojavaltuutetun toimiston verkkosivuilta.

Tutustu tarkemmin:

Data.europa.eu:n datan hallinnoinnin ja tietosuojan haasteista
Kyberturvallisuuskeskuksen raportti: Tunnisteet ja tietosuoja anonymisointi ja sen rajat (pdf)

Organisaatioiden käytänteitä

Alta voit lukea organisaatioiden tiedon avaamiseen liittyvistä tietosuojakäytänteistä, esimerkiksi aggregoinnista ja anonymisoinnista.

Valtiokonttorin käytänteitä

Valtiokonttorin analyytikot toteuttavat analyysejä toimeksiannosta. Analyyseissä käytetään pääasiallisesti valtion yhteistä tietoalustaa, jonne tuodaan toimeksiannossa määriteltyä ainestoa. Analyytikko määrittelee yhdessä toimeksiantajan kanssa analyysiin tarvittavat tietoalueet tietonavigaattorin avulla. Navigaattoriin on kuvattu valtion yhteisten palveluntuottajien järjestelmissä olevat tiedot. Kuvaukseen on määritelty voiko kenttä sisältää henkilö- tai salassa pidettävää tietoa yhdessä palveluntuottajan ja virastojen kanssa. Kuvatuille kentille muodostetaan ennalta määritelty tiedon maskaussäännöstö.

Analyytikko tilaa toimeksiannon mukaisen datan datainsinööriltä. Datainsinööri hakee toimeksiannon mukaan tarpeelliset sarakkeet palveluntuottajien järjestelmistä rajapintojen kautta poistaen aineistosta mahdolliset turhat sarakkeet tiedon minimoimiseksi ja maskaa tiedot säännöstön mukaisesti:

Mahdollisesti henkilötietoa sisältävät tekstikentät poistetaan
- Esim. talouden seurannan tiedoista seurantakohde 1 ja 2 selitetekstit poistetaan
- Esim. henkilönimiä tai sähköposteja sisältävät kentät poistetaan
Aineistossa henkilön yksilöivät tunnisteet salataan salausalgoritmilla niin, että alkuperäinen arvo ei ole tunnistettavissa kuitenkin säilyttäen tunnisteen yksilöivyys
- Esim. henkilötunnuksen sisältävien kenttien sisältö käsitellään kryptografisen tiivistefunktion avulla merkkijonoksi, josta alkuperäinen arvo ei ole suoraan johdettavissa
Valtiokonttorilla ei välttämättä ole oikeutta tietyn tarkkuustason tietoihin, mutta tiedoista tuotetut aggregaatit voivat olla julkisia. Näissä tapauksissa palveluntarjoaja karkeistaa (aggregoi) aineistoa yhdessä virastojen kanssa määritellylle julkiselle tasolle tapauskohtaisesti. Karkeistuksella/aggregoinnilla tarkoitetaan tässä yhteydessä tiedon uudelleenryhmittelyä yhden tai useamman tekijän perusteella karkeammalle tasolle.
- Esim. esitetään toimintayksikön sijasta kirjanpitoyksikkötason summa tai keskiarvo
- Esim. esitetään matkat eri mantereille yksittäisen maan sijaan

Maskattu, minimoitu tieto siirretään analyysialustalle analyytikon käyttöön. Analyytikko toteuttaa analyysin maskatun, suoraa henkilötietoa sisältämättömän datan perusteella. Mikäli analyytikko kuitenkin havaitsee datan mahdollisesti sisältävän suoraa henkilötietoa, ilmoittaa hän tästä datainsinöörille, jotta maskaussäännöstöä voidaan ko. kenttien osalta korjata eikä käsittele aineistoa ennen kuin korjaus on tehty ja data on henkilötiedotonta. Kun analyysi on toteutettu, karkeistaa analyytikko tulokset tilastolliselle tasolle ennen tulosten esittämistä toimeksiantajalle, eli varmistaa esitettävien ryhmien sisältävän vähintään viiden henkilön tiedot, jotta yksilö ei ole tunnistettavissa tuloksista.

Tilastokeskuksen käytänteitä

Tietoaineiston tietosuojan varmistamisessa on tarkastella sitä, ettei käsiteltävässä tietoaineistossa ole kohdeyksiköitä, joiden identiteetti tai ominaisuuksia on mahdollista suoraan tai välillisesti paljastaa. Suora tunnistaminen vaatii, että tietoaineistossa on mukana jokin kohdeyksikön yksikäsitteisesti erotteleva ominaisuus, esimerkiksi nimi, osoite, y-tunnus. Välillisestä tunnistamisesta on kyse silloin, kun kohdeyksikkö voidaan tunnistaa hyödyntämällä useampaa ominaisuutta, esimerkiksi ammattitietona kunnanjohtaja ja lisätietona kunta, jossa henkilö on töissä. Yksittäisen kohdeyksikön ominaisuuksia on mahdollista paljastua myös ilman kohdeyksikön identifioitumista sellaisessa tilanteessa, jossa isompi ryhmä, johon kohdeyksikkö kuuluu, jakaa joitain samoja ominaisuuksia. Esimerkiksi työhyvinvointia tutkivassa kyselyssä kaikki tietyn osaston henkilöt ovat vastanneet kyselyyn ja ilmaisseet tyytymättömyytensä fyysiseen työskentely-ympäristöön.

Paljastumisriskiä arvioitaessa on suuri ero siinä, puhutaanko yksikkötason aineistosta vai koostetusta eli jollain tapaa aggregoidusta tiedosta. Kun käsitellään yksikkötason aineistoa, jossa yksittäisen kohdeyksikön ominaisuuksia tarkastellaan kohdeyksikkökohtaisesti, voi välillinen paljastuminen olla edelleen mahdollista, vaikka tietoja olisi ominaisuuksittain karkeistettu. Hyvä esimerkki on pitkittäiset tietoaineistot, jossa tarkastellaan kohdeyksikön tilannetta pidemmällä aikavälillä. Henkilön muutto- tai työhistoria voi hyvin nopeasti johtaa tilanteeseen, jossa välillisen tunnistamisen mahdollisuutta ei voida sulkea pois, vaikka tietoja karkeistettaisiin jonkin verran. Yksikköaineistojen tapauksessa paljastumisriskiä tuleekin tarkastella laajasti useampia ominaisuuksia yhtä aikaa huomioon ottaen. Yleisesti yksikköaineistojen anonymisointi karkeistuksia ja tiedon rajaamista hyödyntäen johtaa pienten lähinnä esimerkkitarkoituksiin käytettävien tietoaineistojen tuottamiseen. Vaihtoehtoisia tietosuojamenetelmiä ovat esimerkiksi sotkevien tietosuojamenetelmien käyttö, (moni)imputointi tai synteettisten aineistojen tuottaminen.

Tilastokeskus on tuottanut opetuskäyttöön tarkoitettuja anonyymejä yksikkötason tietoaineistoja. Näistä aineistoista saatavat tulokset voivat olla suuntaa antavia, mutta ne eivät missään tapauksessa sovellu tilastollisiin selvityksiin tai tieteelliseen tutkimukseen. Lisätietoja opetusaineistoista.

Koostetun eli aggregoidun tiedon tapauksessa puhutaan tiedoista, joihin on koottu useamman kohdeyksikön saamia ominaisuuden arvoja. Nämä tiedot voidaan jakaa kohdeyksiköiden lukumäärää kuvaaviin frekvenssitaulukoihin ja ominaisuuksien arvoja kuvaaviin määrätaulukoihin, joissa kerrotaan esimerkiksi ominaisuuden summista tai keskiarvoista. Frekvenssitaulukoiden osalta paljastumisriski määritellään kunkin solun soluarvon mukaan kynnysarvona, jonka verran solussa on vähintään oltava kohdeyksiköitä. Kynnysarvo riippuu tarkasteltavista ominaisuuksista. Tilastokeskus tuottaa viralliset väestötilastot osin jopa yksittäiset henkilömäärät tilastoon sisällyttäen. Yleisesti kuitenkin suojaus vaatii vähintään kolmea kohdeyksikköä solussa. Tällä minimiarvolla vältetään tilanne, jossa kaksi samat ominaisuudet jakavaa kohdeyksikköä voisivat päätellä toistensa arvot julkaistusta tiedosta. Tilastokeskuksessa korkeampaa kynnysarvoa käytetään silloin, kun tarkastellaan kuntaa tarkemman aluetason tietoja (kynnysarvo voi nousta viiteenkymmeneen, kun tarkastellaan ruututietoja) ja yleensä kynnysarvo on kymmenen, jos kyseessä on tietosuoja-asetuksen mukaiset erityiset tietoryhmät tai rikostietoja.

Määrätaulukoiden tapauksessa pelkkä kynnysarvon tarkastelu ei riitä estämään toisen kohdeyksikön ominaisuuden arvojen päättelyä, jos kohdeyksiköt ovat samassa solussa. Tällöin Tilastokeskuksessa käytetään paljastumisriskissä olevien solujen tunnistamiseen lisäksi dominanssisääntöä, jolla suojattavaksi määräytyvät solut, joissa yksittäinen kohdeyksikkö tai useampi kohdeyksikkö yhdessä dominoi eli tuottaa suurimman osan solun arvosta. Esimerkiksi, jos solussa tarkastellaan yritysten liikevaihtoa toimialan ja alueen mukaan, niin ei haluta, että yksittäisen ison yrityksen arvo on mahdollista päätellä solusta, jossa muut yritykset ovat liikevaihdoltaan hyvin pieniä suhteessa suurimpaan.

Ensisijaiset paljastumisriskissä olevat solut on mahdollista määrittää kynnysarvon tai dominanssisäännön avulla. Jos tiedot poistetaan eli peitetään julkistettavasta tietoaineistosta, on näiden arvot helppo laskea uudelleen, jos tietoaineisto sisältää myös marginaalisummia eli summat yli rivien ja sarakkeiden. Tällöin tietojen suojaamisen varmistamiseksi on käytettävä täydentävää peittämistä. Täydentävän peittämisen osalta on olemassa erikoisohjelmistoja, jotka varmistavat riittävän suojauksen toissijaisen peittämisen soluja määritettäessä. Tällaisia erikoisohjelmistoja on esimerkiksi Tau-Argus ja R-paketti sdcTable. Lisätietoja ohjelmistoista GitHubissa.

Lisätietoja tietojen suojaamisesta Tilastokeskuksen tutkijoille suunnatusta materiaalista:

HRI:n ohje kyselydatojen aggregointi- ja anonymisointitarpeiden arviointiin

Helsinki Region Infoshare on luonut yhteistyössä Helsingin kaupungin tietosuojavastaavan kanssa ohjeet kyselydatojen (ja muiden henkilötietoa sisältävien datojen) avaamiseen.

VAHTI-työryhmien hyvät käytännöt, tukimateriaalit ja muut julkaisut

VAHTI on julkisen hallinnon digitaalisen turvallisuuden kehittämisestä ja keskeisten palveluiden tuottamisesta vastaavien organisaatioiden yhteistyö-, valmistelu- ja koordinaatioelin. Organisaatiot voivat hyödyntää parhaita käytäntöjä ja VAHTI-ohjeita turvallisuuden eri osa-alueiden kehittämiseen.

VAHTI-toiminta siirtyi Digi- ja väestötietovirastolle alkuvuodesta 2020.

Tietoa VAHTI-toiminnasta Digi- ja väestötietoviraston verkkosivuilla.
Vuosina 2001–2017 valmistellut VAHTI-ohjeet. Joissain ohjeissa viitataan vanhentuneeseen lainsäädäntöön.

Vanhentuneita suosituksia voidaan hyödyntää soveltamalla ja ottamalla huomioon muuttunut lainsäädäntö.

Digi- ja väestötietovirasto on toteuttanut useita Digiturvallinen elämä -koulutuksia eOppivassa, esimerkiksi Riskienhallinta digimaailmassa -verkkokoulutus sekä Tietosuojan ABC - Syvemmälle tietosuojaan -verkkokoulutus.

Jakelu- ja tiedostomuodon valinta

Tässä osiossa kuvataan, missä muodoissa tietoa voi jakaa ja mitä muotoa valittaessa kannattaa huomioida. Tähän osioon koottu hyödyllistä tietoa, jota jakelu- ja tiedostomuotoa valitessa kannattaa hyödyntää.

Tietoa voi jakaa tiedostoina, ohjelmointirajapintojen kautta tai latauspalvelun kautta. Tiedon jakamisen tekninen toteutus riippuu pitkälti siitä, minkälaisia jakeluratkaisuja tietojärjestelmään on kehitetty. Jos tietojärjestelmästä voidaan jakaa tietoja rajapintojen kautta, kannattaa rajapintojen suunnittelussa hyödyntää kansallisia API-periaatteita. Järjestelmästä voi saada tietoa ulos tiedostomuodossa eräajotyyppisenä raporttina ja/tai ohjelmointirajapinnan kautta. Vanhempiin tietojärjestelmiin on harvemmin kehitetty tai kehitettävissä ohjelmointirajapintaa, joten tiedon jakaminen voi olla mahdollista vain eräajotiedostoina.

Tietoaineisto on hyvä jakaa useammassa eri muodossa, jos se on mahdollista, eli esimerkiksi rajapinnan lisäksi voi tarjota myös ladattavan tiedoston. Avoimen datan julkaisemisessa ladattavana tiedostona on hyvä käyttää avoimia dataformaatteja eli tiedostomuotoja aina kun mahdollista. Lisää tiedostomuotojen luokittelusta voit lukea Tim Berners-Leen viiden tähden mallista (englanniksi).

Kuva: Tim Berners-Leen viiden tähden malli (mukailtu lähteestä: 5-star Open Data).

Mikä jakelutapa sopii millaisellekin datalle?

Valitessa tietoaineiston jakelutapaa on huomioitava tietojen saantioikeuksista, tietojen luovutuksista ja tietojen tarjoamisesta koneellisesti luettavassa muodossa säädetyt lait ja niiden asettamat velvoitteet, kuten tiedonhallintalain pykälät 22 ja 24. Lisäksi tulee huomioida tietoaineistoille mahdollisesti tarvittavat muokkaukset kuten pseudonymisointi tai anonymisointi, joita käsitellään edellisessä osiossa.

Tiedon jakaminen avoimessa tiedostomuodossa

Tiedosto soveltuu pienikokoisille ja erityisesti staattisille tietoaineistoille, joiden sisältämä tieto ei muutu usein. Laadukkaasti avattu data jaetaan avoimessa tiedostomuodossa, joka mahdollistaa yleensä ohjelmistoriippumattoman datan uudelleenkäsittelyn.

Avoimella tiedostomuodolla tarkoitetaan sellaista ei-kaupallista tiedostomuotoa, jota kuka tahansa voi hyödyntää maksutta. Avoimien tiedostomuotojen käyttöä eivät rajoita tekijänoikeudet, patentit, tavaramerkit tai muut rajoitukset. Esimerkiksi Microsoftin .docx- tai .xslx -tiedostomuodot eivät ole avoimia vaan kaupallisia, ja niiden käyttö ilmaisilla ohjelmistoilla on hankalaa. Tim Berners-Leen viiden tähden mallin (englanniksi) mukaan avoimessa tiedostoformaatissa julkaistu data saa vähintään 3/5 tähteä.

Alla olevassa listauksessa on vinkkejä erityyppisen tietoaineiston julkaisuun:

Tekstimuotoinen data: TXT. Helpoin ja varmin tiedostomuoto tekstin julkaisemiseen on .txt.
Taulukkomuotoinen data: CSV. Paras ja helpoin tiedostomuoto taulukoille on .csv (Comma-separated Values). CSV-muotoisia tiedostoja on helppo luoda yleisillä taulukkolaskentaohjelmilla kuten Microsoft Office Excelillä valitsemalla tallennusvaiheessa tiedostomuodoksi .csv.
Paikkatiedot, pieni vektoridata: GeoJSON, KML, Esri shapefile (shp) tai GeoPackage. Kahdessa ensimmäisessä koordinaattien kuvaamiseen käytetään maailmanlaajuista WGS84-koordinaatistoa, jota on helppo käsitellä useilla eri ohjelmilla ja työkaluilla. Shp-tiedosto puolestaan tukee useita koordinaatistoja, myös Suomen oloihin kehitettyjä.
Paikkatiedot, suuri rasteridata: GeoTIFF tai NetCDF. Datan voi julkaista rasterimuotoisena esimerkiksi GeoTIFF-tiedostomuodossa.

Jos tietoa jaetaan PDF-muodossa, on hyvä huomioida, mitä PDF-versiota käytetään ja huolehtia, että data on koneluettavassa muodossa. Adobe kehitti ja patentoi PDF:n 1990-luvulla kaupallisena tiedostomuotona. Vuonna 2008 sen versio 1.7 (ISO 32000-1) standardisoitiin lähes avoimeksi standardiksi, mutta osa sen ominaisuuksista oli edelleen vain Adoben omaisuutta (esimerkiksi Adobe XML Forms Architecture, Adobe JavaScript). Vuonna 2017 julkaistussa PDF 2.0 -versiossa (ISO-32000-2) kaikki ominaisuudet olivat kuitenkin avoimia. Lisätietoja avoimista tiedostomuodoista (englanniksi).

Tutustu Wikipedian kattavaan listaan avoimista tiedostomuodoista (englanniksi).

Tiedon jakaminen ohjelmointirajapinnan (API) kautta

Mikä on API?

Ohjelmointirajapinnat eli API:t (Application Programming Interface) ovat dokumentoituja rajapintoja, joiden avulla ohjelmistot, sovellukset tai järjestelmät voivat vaihtaa keskenään tietoa tai toimintoja. Ohjelmointirajapinta tarjoaa tietoa tai toimintoa koneluettavassa, dokumentoidussa muodossa siten, että jokin toinen ohjelmisto, sovellus tai järjestelmä voi sitä ohjelmallisesti hyödyntää. Esimerkiksi reittiopassovellus saa joukkoliikenteen ohjelmointirajapinnalta tiedon, milloin bussi saapuu pysäkille ja näyttää sen käyttäjälle.

Tässä toimintamallissa API:lla, ohjelmointirajapinnalla ja tiedonhallintalaissa määritellyllä teknisellä rajapinnalla tarkoitetaan samaa asiaa. Huomioitavaa on se, että ohjelmointirajapinnalla ei tarkoiteta loppukäyttäjille tarkoitettuja käyttöliittymärajapintoja, vaan ohjelmointirajapinnan hyödyntäjä on aina jokin toinen ohjelmisto, sovellus, sovelluskomponentti tai järjestelmä.

Miksi käyttää ohjelmointirajapintoja tiedon jakamiseen?

Tietojen jakaminen ohjelmointirajapintojen kautta on monella tapaa kannatettavaa ja hyödyllistä, varsinkin jos tietoa on hyvin paljon ja tieto päivittyy tiheästi tai reaaliaikaisesti eli se on niin sanottua dynaamista dataa. Esimerkiksi junien aikataulut tai säätiedot ovat tällaista dataa. On kuitenkin hyvä muistaa, että myös tiedostojakelu on hyödyllistä erityisesti niille henkilöille ja tahoille, jotka eivät osaa hyödyntää ohjelmointirajapintoja. Tiedostojakelu voi myös vaatia tiedon jakajalta vähemmän resursseja kuin uuden rajapinnan toteuttaminen ja ylläpitäminen, jos organisaatiossa ei ole muutenkaan käytössä rajapintoja.

Ohjelmointirajapinta voi olla web-pohjainen esimerkiksi REST, SOAP tai GraphQL -teknologioilla toteutettu tiedosto- tai tietokantapohjaisiin tai muihin protokolliin perustuva rajapinta. Olennaista on, että ohjelmointirajapinta tarjoaa tietoa koneluettavassa, dokumentoidussa muodossa siten, että jokin toinen ohjelmisto, sovellus tai järjestelmä voi sitä ohjelmallisesti hyödyntää. Tiedot on hyvä tarjota web-pohjaisten rajapintojen kautta, jos se on mahdollista ja käyttötarkoituksen mukaista.

Web-pohjaisia rajapintoja voidaan hyödyntää sekä sisäisissä että ulkoisissa rajapinnoissa ja niihin saadaan toteutettua laajasti erilaisia tietoturvakontrolleja. Jaettava tiedostomuoto riippuu tiedonsiirtoprotokollasta, esimerkiksi web-pohjaisissa rajapinnoissa hyödynnetään yleensä HTTP-pohjaista tiedonsiirtoprotokollaa tai -arkkitehtuuria kuten REST. API-rajapinnat soveltuvat hyvin myös tietokantamuotoisen tilastodatan jakamiseen. Tutustu esimerkiksi Tilastokeskuksen avoimien tietokanta-aineistojen materiaaleihin.

On tärkeää, että rajapinnat huomioidaan osana organisaation muuta tiedonhallintaa ja toimintaprosesseja sekä tiedolla johtamisen tavoitteita. Olennaista on määritellä, mitä tai millaisia tietoaineistoja tarjotaan tai hyödynnetään ohjelmointirajapintojen avulla sisäisesti ja ulkoisesti ja mitä tietoaineistoja tulisi saada käyttöön rajapintojen avulla. Sisäinen tarjoaminen ja hyödyntäminen voidaan tehdä sisäisten rajapintojen (sisäinen API) avulla. Ulkoinen tarjoaminen ja hyödyntäminen voidaan tehdä kumppanirajapintojen (kumppani API) tai julkisten rajapintojen (julkinen API) avulla tiedon luokituksen mukaan. Huomioithan, että jos tietoa ei voida tarjota avoimena tietona, voi sen jakaminen edellyttää Suomi.fi-palveluväylän käyttöä.

Ohjelmointirajapintojen suunnittelussa ja kehittämisessä kannattaa hyödyntää kansallisia API-periaatteita. Julkisen hallinnon API-periaatteet tarjoavat julkisen hallinnon toimijoille tukea ja ohjeita ohjelmointirajapintojen kehittämiseen, hallintaan ja tiedostomuotoihin. API-periaatteista saa tukea muun muassa ohjelmointirajapintojen määrittelyyn, vastuuttamiseen, yhteentoimivuuden edistämiseen, hankintaan, testaukseen ja käyttöönottoon. Rajapinnan suunnittelun yhteydessä on tärkeää määrittää muun muassa, miten rajapinnan elinkaarisuunnitelman tai palvelutason muutoksia hallitaan.

Lisätietoja ja tukimateriaalia ohjelmointirajapintojen kehittämiseen, hallintaan ja tiedostomuotoihin:

Julkisen hallinnon API-periaatteet
Tiedonhallintalautakunnan suositus teknisistä rajapinnoista ja katseluyhteyksistä (valtiovarainministeriön julkaisuja 2021:21)
Maanmittauslaitoksen ohje API-avaimen käyttöön

Tiedon jakelumuotojen vertailu

Alla olevan taulukon avulla voi arvioida sopivan jakelumuodon valintaa. Taulukossa pyritään tuomaan esiin eroja.

Tiedon jakelumuotojen vertailu
	Tiedosto	Rajapinta (API)
Käytön helppous hyödyntäjälle	Yleensä helpointa käyttää. Esim. pieniä CSV-tiedostoja saa avattua tavallisilla toimisto-ohjelmistoilla	Käytännössä rajapintaa käyttävät usein vain ohjelmointitaitoiset ihmiset. Rajapinnan suunnittelu vaikuttaa sen käytön helppouteen. Suunnittelussa on hyvä huomioida rajapinnan koko elinkaari.
Ylläpitäjältä vaadittu tekninen osaaminen	Ei vaadi erityistä teknistä osaamista.	Vaatii osaamista sekä rajapinnan kehittämisestä että ylläpidosta.
Tiedon määrä	Vähän tietoa	Paljon tietoa
Datan rajaaminen	Tiedostona julkaistusta datasta ladataan aina koko aineisto kerralla	Dataa rajataan kyselyn perusteella tai siitä on mahdollista hakea kaikki tiedot kerralla. Rajapinta voi tarjota myös tiedostoja.
Datan muutosvauhti	Tiedosto sopii ensisijaisesti hyvin vähän / harvoin muuttuvalle datalle. Jos data muuttuu, päivitetty versio täytyy jakaa erikseen.	Rajapintaa suositellaan usein muuttuvalle datalle.
Käytön seuranta	Haasteellista, koska tiedostoa voi kopioida helposti	Helppoa, koska rajapintakutsuista saa kerättyä analytiikkaa, esim. IP-osoite, kysely, kellonaika, päivämäärä, kysely-vastaus jne.
Käytännön esimerkki	Postinumerot, valtion budjetti, suosituimmat etunimet, pienet tilastot	Sää- ja aikataulutiedot, yritystiedot, liikkuminen

Esimerkkejä organisaatioiden jakelutavoista

Ilmatieteen laitoksen jakelutavat

Ilmatieteen laitos jakaa tietoaineistojaan omista rajapintapalveluista ja Amazonin avoimen datan palvelusta.

Helsinki Region Infosharen vinkkejä jakelutavan valintaan

Pääkaupunkiseudun kaupunkien Helsinki Region Infoshare -palvelu on koonnut vinkkejä teknisen toteutettavuuden arviointiin. Alla olevat kysymykset auttavat arvioinnissa.

Missä muodossa avata dataa?

Tiedostona:

Tiedosto, jossa data ylläpidetään (xlsx / csv / shp / …)
Otetaan tieto manuaalisesti ulos järjestelmästä
Otetaan tieto automatisoidusti ulos järjestelmästä
Yleensä nopea ja maksuton tapa avata dataa, mutta usein vaatii manuaalista ja muistinvaraista päivittämistä

Rajapinnan kautta:

Tehdään ohjelmointirajapinta järjestelmästä automatisoidusti ulos otettavaan tietoon
Tehdään järjestelmään / sen kopioon ohjelmointirajapinta
Alussa vaaditaan enemmän työtä ja resursseja, mutta ei vaadi erillistä päivittämistä

Kysymyksiä, joita on hyvä pohtia datan muotoa valittaessa:

Kuinka usein data päivittyy / päivitetään?
Kuinka suuri datamäärä on?
Onko data reaaliaikaista vai esim. vuosittaista tietoa?
Kuinka paljon käsityötä datan muokkaaminen vaatii?
Mihin dataa voisi käyttää?
Onko standardeja?
Onko jokin muu taho jo avannut vastaavan datan? Miten se on tehty? Olisiko data mahdollista avata vastaavassa muodossa?

Helsinki Region Infosharessa on otettu käyttöön Datasette-työkalu, joka mahdollistaa rajapinnan kautta tarjolla olevan datan julkaisemisen tiedostomuodossa. Lisätietoja Datasette-työkalusta HRI:n sivuilla.

HRI:n ohjeita tiedostomuodon valintaan.

Tiedon laadun määrittely

Tässä osiossa kuvataan, miten avattavan tietoaineiston laatua voi arvioida, määrittää ja kuvata.

Tietoaineiston laadun arvioinnissa ja kuvaamisessa voi hyödyntää julkishallinnon yhteisiä tiedon laatukriteereitä ja mittareita, jotka on kehitetty tukemaan julkisen hallinnon tiedon laadun parantamista.

Tietoaineiston kuvailu- eli metatiedoissa on hyvä kuvata arvio tietoaineiston sen hetkisestä laadusta mahdollisine heikkouksineen. Esimerkiksi Avoindata-palvelussa tiedon laatuarvion voi kirjoittaa tietoaineiston metatietojen Kuvaus-kenttään tai lisätä selvityksen erillisenä data-aineistona PDF-muodossa.

On tärkeää huomioida, että vaikka avattavan tietoaineiston laatu ei ole niin hyvä kuin tietoa hallinnoiva taho tai sidosryhmät toivovat, se ei välttämättä estä tiedon jakamista. Tietoaineiston voi jakaa korostaen metatiedoissa tiedon laatuun liittyviä heikkouksia.

Tiedon laatukriteerit

Tilastokeskuksen johdolla ja julkisen hallinnon laajalla yhteistyöllä on kehitetty yleistä Tiedon laatukehikkoa. Työtä on tehty osana valtiovarainministeriön Tiedon hyödyntämisen ja avaamisen hanketta. Tiedon laatukriteerit ja mittarit julkaistiin keväällä 2022.

Tiedon laatukriteerien avulla voidaan kuvata ja arvioida tietoaineistojen laatua. Ne auttavat myös tiedon käyttäjää arvioimaan, onko tietoaineisto tarpeeksi laadukas aiottuun käyttötarkoitukseen. Pidemmällä tähtäimellä laatukriteerit tukevat tietoaineistojen ja tietovarantojen laadun parannuksessa.

Laatukriteerit on tarkoitettu joustavaksi työkaluksi; kaikki kriteerit tai varsinkaan mittarit eivät välttämättä ole merkityksellisiä kaikissa tilanteissa tai tietoaineistoissa. Lisäksi on hyvä huomata, että tiedon käyttötarkoitus vaikuttaa siihen, millaista tasoa kultakin laatukriteeriltä tavoitellaan. Esimerkiksi ajantasaisuuden kannalta yhteen käyttötarkoitukseen tiedon pitäisi olla jatkuvasti päivittyvää (pandemian seuranta), kun taas toisen tiedon osalta vuosittainen tai harvempikin tarkastelu riittää (vanhojen rakennusten sijainti). Vaikka laatukriteerit mittareineen muodostavat hierarkkisen rakenteen, laatukriteerit ja mittarit vaikuttavat ja linkittyvät toisiinsa.

Laatukehikon laatukriteerit, ja erityisesti näiden mittarit, kohdistuvat rakenteiseen dataan. Tietoaineistojen laatukriteerit on järjestetty tiedon käyttäjän näkökulmaa ajatellen kolmen kysymyksen alle.

Miten tieto kuvaa todellisuutta?

Ajantasaisuus: Ajantasaisuus kuvaa tietoaineiston tietojen aikaulottuvuutta. Ajantasaisuus on sitä parempi mitä lähempänä tiedon viiteajankohta on nykyhetkeä. Viiteajankohta on se ajankohta, jota tieto koskee.
Johdonmukaisuus (säännönmukaisuus, tiedon looginen eheys): Johdonmukaisuus kertoo siitä, että tietoaineisto on yhtenäinen ja ristiriidaton. Johdonmukaisuudella voidaan kuvata myös eri tietoaineistojen keskinäistä johdonmukaisuutta.
Kattavuus (täydellisyys): Kattavuus kuvaa tietoaineiston tavoitellun ajallisen ja alueellisen kattavuuden sekä tavoitellut kohdeyksiköt ja ominaisuustiedot. Toisaalta kattavuus kertoo miltä osin tietoaineisto sisältää tavoiteltuja tietoja.
Oikeellisuus (virheettömyys): Oikeellisuus kuvaa sitä, miten tietoaineiston tiedot vastaavat todellisuutta. Tiedon oikeellisuutta tarkastelemalla voidaan saada kiinni myös systemaattisia vääristymiä tietoaineistossa.
Tarkkuus (harhattomuus): Tarkkuus kuvaa sitä, miten hyvin tietoaineiston tiedot vastaavat sitä mitä tavoitellaan ja kuinka tarkasti tieto osuu oikeaan.

Miten tieto on kuvattu?

Jäljitettävyys (kiistämättömyys): Jäljitettävyys kertoo siitä, että tietoaineistoon ja sen tietoihin tehdyt muutokset voidaan jäljittää. Tiedon alkuperä tunnetaan.
Ymmärrettävyys (tulkittavuus, käsitettävyys): Ymmärrettävyys kuvaa sitä, miten kattavasti tietoaineistolla on sellaisia metatietoja, jotka auttavat tiedon ymmärtämisessä sitä käytettäessä.
Suositustenmukaisuus (yhteensopivuus, semanttinen yhdenmukaisuus, yhdenmukaisuus): Suositustenmukaisuus kertoo siitä, että tietoaineisto ja sen ominaisuustiedot noudattavat tunnettuja standardeja, käytäntöjä ja säädöksiä ja ne ovat kerrottu tietoaineiston yhteydessä.

Miten tietoa voi käyttää?

Koneluettavuus: Koneluettavuus kuvaa, onko tietoaineisto rakenteistettu siten, että sitä voidaan käsitellä koneellisesti ja käsittely on mahdollista eri tietojärjestelmissä.
Täsmällisyys (oikea-aikaisuus): Täsmällisyys tarkoittaa sitä, että tietoaineisto on käytettävissä ilmoitettuna ajankohtana ja riittävän tiheästi tietoaineistossa tapahtuviin muutoksiin nähden.
Käyttöoikeudet: Käyttöoikeudet kuvaa sitä, miten tietoaineiston käyttöoikeus on määritelty ja mitä aineistolla voi tehdä eli mihin käyttötarkoituksiin tietoaineistoa voi hyödyntää.

Tutustu tarkemmin:

Käyttöoikeuksien määrittely

Tässä osiossa kuvataan, miten avattava tieto tulee lisensoida eli millaiset käyttöehdot avatun tiedon hyödyntämiselle tulee asettaa.

Avattavan tietoaineiston käyttöoikeuksien määrittelyyn ei ole olemassa virallisia suosituksia, mutta käytännössä tiedon avaaminen vaatii lisenssin. Lisensseille on olemassa valmiita vaihtoehtoja, joista voi valita omalle tietoaineistolle sopivimman.
Datan käyttöoikeudet määritellään

valitsemalla datalle sopiva lisenssi, joka kertoo datan hyödyntäjille, millä ehdoin julkaistua tietoa voi hyödyntää
kuvaamalla lisenssi julkaistavan tietoaineiston metatiedoissa.

Millainen käyttölupa avatulle tiedolle kannattaa valita?

Jotta jaettua tietoa voidaan pitää avoimena tietona, se vaatii avoimen lisenssin eli lisenssin, joka sallii tietoaineiston vapaan levittämisen, muokkauksen ja käytön kaikkiin, myös kaupallisiin, tarkoituksiin. Tämän lisäksi on hyvä pohtia, tuleeko datan alkuperää mainita.

Avoimena datana julkaistavat tietoaineistot lisensoidaan Creative Commonsin CC BY 4.0 tai CC0 -lisenssillä. Suomessa ei ole tällä hetkellä kansallista suositusta julkisen hallinnon avoimien tietoaineistojen lisensoinnille, mutta aiemmin käytössä ollut JHS-189 Avoimen tietoaineiston käyttölupa suositteli käytettäväksi CC BY 4.0 -lisenssiä.

Arvokkaat tietoaineistot tulee EU:n antaman arvokkaita tietoaineistoja koskevan asetuksen (2023/138) mukaan lisensoida Creative Commonsin CC BY 4.0 tai CC0 -lisenssillä tai jollain vähemmän rajoittavalla avoimella lisenssillä.

Creative Commons -lisenssejä kannattaa käyttää, koska niiden kanssa on etukäteen tiedossa, miten esimerkiksi erilaisissa datan käyttöoikeuksia koskevissa riitatilanteissa toimitaan. On tärkeää, ettei lisenssejä luoda itse, koska niiden oikeuskäytäntöä ei pysty ennalta arvaamaan.

Tunnettujen lisenssien käytöstä on hyötyä myös datan hyödyntäjille:

Creative Commons lisenssit ovat kansainvälisesti tunnettuja, joten ne mahdollistavat datan hyödyntämisen yli maaraajojen.
Datoja on helpompi yhdistellä ja uudelleenkäyttää, kun niillä on samanlaiset, tutut käyttöehdot.

Yleisimmät avoimen tiedon lisenssit

Creative Commons CC0 1.0 Universal

CC0-lisenssillä luovutaan datan kaikista tekijänoikeuksista. CC0-lisenssillä varustettu data on luovutettu täysin vapaaseen käyttöön sekä kaupallisiin että ei-kaupallisiin tarkoituksiin. Datan hyödyntäjän ei tarvitse kertoa datan alkuperää tai pyytää lupaa sen käyttöön.

Tietoaineistojen metatiedot ovat usein lisensoitu CC0-lisenssillä. Esimerkiksi hri.fi-palvelussa olevien datojen metatietojen käyttölupa on CC0, joka mahdollistaa metatietojen automaattisen kopioinnin Avoindata-palveluun.

Creative Commons Nimeä Kansainvälinen (CC BY 4.0)

CC BY 4.0 eli CC Nimeä 4.0 -lisenssi velvoittaa nimensä mukaisesti datan hyödyntäjän nimeämään datan alkuperän. Datan hyödyntäjän on mainittava lähde, tarjottava linkki lisenssiin sekä kerrottava, jos dataan on tehty muutoksia. CC BY 4.0 -lisenssillä varustettua dataa voi käyttää vapaasti.

Esimerkki lähdeviittauksesta

Helsinki Region Infoshare -palvelu suosittelee käyttämään palvelussa julkaistujen tietoaineistojen hyödyntämisessä seuraavanlaista lähdeviittausta: “Lähde: Helsingin kaupungin tulot ja menot. Aineiston ylläpitäjä on Helsingin kaupunginkanslia. Aineisto on ladattu Helsinki Region Infoshare -palvelusta 15.11.2021 lisenssillä Creative Commons Attribution 4.0.”

Lisätietoja Creative Commonsista

Creative Commons on kansainvälinen, ei-kaupallinen organisaatio, joka edistää luovuuden ja tiedon jakamista ja käyttöä maksuttomien lakityökalujen avulla. Creative Commonsin maksuttomat ja helppokäyttöiset tekijänoikeuslisenssit antavat helpon ja standardoidun tavan antaa yleisölle oikeudet jakaa ja jatkokäyttää luovia tuotoksia valituilla ehdoilla. CC-lisenssit eivät korvaa tekijänoikeuksia, vaan ne toimivat tekijänoikeuden rinnalla.

Lisätietoja Creative Commons Suomen toiminnasta.

Lisätietoja avoimen tiedon lisensoinnista (englanniksi) data.europa.eu-palvelussa.

Creative Commons tarjoaa apua sopivan lisenssin valintaan (osittain englanniksi).

Vastuun rajaaminen vastuuvapauslausekkeella

Joskus lisenssin lisäksi voi olla tarvetta rajata vastuuta datan hyödyntäjiin nähden vastuuvapauslausekkeella.

Esimerkki vastuuvapauslausekkeesta:

“[Organisaation nimi] ei ole vastuussa menetyksistä, oikeudenkäynneistä, vaateista, kanteista, vaatimuksista, tai kustannuksista taikka vahingosta, olivat ne mitä tahansa tai aiheutuivat ne sitten miten tahansa, jotka johtuvat joko suoraan tai välillisesti yhteydestä [Organisaation nimi] julkaisemaan avoimeen dataan tai [Organisaation nimi] julkaiseman avoimen datan käytöstä.”

Tiedon avaamisesta päättäminen

Tässä osiossa kuvataan, miten organisaatiossa voidaan menetellä tiedon avaamisesta päättämisessä.

Tietoaineistojen avaamisesta päättämiseen ei ole olemassa virallisia suosituksia, vaan organisaatiot menettelevät tässä omien prosessiensa mukaisesti. Esimerkiksi organisaation tiedon jakamista edistävä henkilö ja datan hallinnoija voivat tehdä lopullisen päätöksen jaettavan tietoaineiston avaamisesta.

Suomen lainsäädännön mukaan kunkin viranomaisen tietoaineistojen avaamisesta päättää se viranomaistaho, jolle on annettu lainsäädännössä tehtävä hallinnoida kyseistä tietoa. Esimerkiksi Terveyden ja hyvinvoinnin laitoksen (THL) hallinnoimien tietoaineistojen avaamisesta avoimena datana päättää THL. Suomessa ei ole keskitettyä tahoa, joka päättäisi keskitetysti koko hallinnon tietojen avoimuudesta.

Tietoa avataan, jotta sitä voidaan hyödyntää. Usein organisaatiot tietävät ainakin joitakin asiakkaita, jotka voisivat hyödyntää avattavaa tietoa ja näkevät siinä arvoa. Näiden mahdollisten tiedon hyödyntäjien kanssa kannattaa arvioida tiedon avaamisen luomia mahdollisuuksia esimerkiksi työpajassa. Pohjatiedoiksi tarvitaan kuvaus siitä, mitä tietoa organisaatio voisi avata. Organisaatioilla on usein paljon tietoa ja vain pieni osa tiedoista voidaan avata kerralla.

Samalla on hyvä päättää mahdollisten jäännösriskien hallinnasta. Jäännösriskillä tarkoitetaan riskiä tai riskin osaa, joka jää voimaan toimenpiteiden jälkeen tai jolle ei voida tai haluta tehdä toimenpiteitä. Lisätietoa jäännösriskeistä julkaisussa Riskienhallinnan käsikirja valtionhallinnon toimijoille (Valtiovarainministeriön julkaisuja 2023:54).

Jos organisaatio aikoo avata useita tietoaineistoja, voi organisaation olla tarpeen priorisoida tietoaineistojen avaamisjärjestystä ja kehitystoimia.

Organisaatioiden käytäntöjä

Helsinki Region Infosharen käytäntö

Helsingin kaupungilla avaamisesta ei tehdä virallista päätöstä, vaan datan omistajataho määrittelee avattavat datat ilman virallista päätöksentekoprosessia. Data-avauksia tulee HRI:hin sen verran vähän, ettei avauksia tarvitse priorisoida.

Ilmatieteen laitoksen käytäntö

Ilmatieteen laitoksessa tietoaineiston avaamisesta rajapintaan ja priorisoinnista päättää laitoksessa toimiva ohjausryhmä.

Avoindata-palvelun hyödyntäminen

Avoindata-palvelu on maksuton julkaisualusta Suomen alueella julkaistavalle avoimelle datalle. Palvelu toimii itsepalveluperiaatteella, jolloin jokainen viranomainen ja kansalainen voi hyödyntää sitä vapaasti osana datan avaamista ja hyödyntämistä.

Tukimateriaalia aiheeseen

Tästä osiosta löydät tukimateriaalia vaiheen aiheisiin liittyen.

Koulutuksia englanniksi data.europa.eu:n sivuilla:

Koulutuksia eOppivan sivuilla:

Päivitetty: 19.12.2023