Avoin data ja omadata

Avoin data ja omadata täydentävät toisiaan

Organisaation hallussa olevaa digitaalisessa muodossa olevaa tietoa tietojärjestelmien sisällä voidaan jäsentää eri tavoin. Avoin data ja omadata (engl. MyData) ovat kaksi erilaista tapaa jäsentää näiden tietojen osajoukkoja. Omadata on henkilötietojen osajoukko. Henkilötiedot määritellään lainsäädännössä ja niitä ovat kaikki tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön liittyvät tiedot. Avoin data on julkisen tiedon osajoukko. Nämä näkökulmat käsittelevät eri osia tietojärjestelmien sisältämistä tiedoista ja täydentävät toisiaan.

Näkökulmia tietoon on varmasti lähes yhtä paljon kuin ihmisiä. Tietojen semanttista yhteentoimivuutta on tavoiteltu ainakin siitä lähtien kun kirjoitustaito keksittiin ja todennäköisesti jo kauan ennen sitä. Jotta ihmiset voisivat ymmärtää toisiaan, on jonkinasteinen semanttinen yhteentoimivuus tarpeellinen. Tässä ’riittävän hyvä’ on avainsana. Täydellisyys on mahdotonta, koska tarkasti ajateltuna kaikki ihmiset kuitenkin tulkitsevat kieltä omalla tavallaan.

Avoimella datalla tarkoitetaan tietoa, joka on vapaasti hyödynnettävissä. Käytännössä sana ’avoin’ tarkoittaa sitä, että tiedon käytössä on mahdollisimman vähän mitään rajoituksia edelleen käytön suhteen. Data taas voi olla esimerkiksi kuvia, tekstejä, musiikkia, videoita, nuotteja, taulukoita ja karttoja. Usein avoimessa datassa puhutaan koneluettavuudesta, joka tarkoittaa sitä, että data on myös koneelle rakenteellisessa muodossa, eli ihmisen lisäksi myös tietokone ymmärtää datan rakennetta.

Avoin data on muun muassa lisännyt Suomessa tietoperusteista päätöksentekoa. Esimerkiksi taloudellinen kilpailu julkisissa hankinnoissa on lisääntynyt, kun valtion ja kuntien ostolaskut on avattu avoimena datana koko yhteiskunnan tarkasteltavaksi. Suomeen myös syntynyt uusia yrityksiä, palveluita ja tuotteita, jotka hyödyntävät avointa dataa osana tuotteitaan.

Omadatalla (engl. Mydata) tarkoitetaan sitä, että ihminen pystyy itse hallinnoimaan osaa omista henkilötiedoistaan. ’Henkilötieto’ tarkoittaa osaa kaikista tiedoista. Henkilötietolaissa oleva määritelmä merkitsee sitä, että lähtökohtaisesti kaikki luonnolliseen henkilöön liittyvät tiedot ovat henkilötietoja.

Avoimen datan ja omadatan yhteiset tavoitteet

  • Mahdollistaa digitaalisten tietojen mahdollisimman tehokas uudelleenkäyttö (tiedonhallinta)
  • Tehostaa tietoperusteista päätöksentekoa
  • Tehostaa yhteiskunnan prosesseja (uudistamalla niitä)
  • Luoda uusia mahdollisuuksia: Yritykset, tuotteet ja palvelut
  • Helpottaa kansalaisten arkea
  • Luoda yhä älykkäämpiä ja parempia digitaalisia palveluita
  • Uudistaa sekä julkisen sektorin että yritysten toimintaa

Kyseessä on kaksi erilaista näkökulmaa tietoihin.

Alla olevassa taulukossa vertaillaan avointa dataa ja omadataa keskenään.

OminaisuusAvoin dataOmadata (Mydata)
MääritelmäData, joka on kenen tahansa uudelleen käytettävissä maksutta, luvallisesti ja koneluettavassa muodossa (JHS-189)'MyDatalla' viitataan ilmiöön ja ajattelutavan muutokseen, jossa henkilötiedon hallintaa ja käsittelyä pyritään viemään nykyisestä organisaaatiokeskeisestä mallista ihmiskeskeiseksi. Toisaalta MyDatalla viitataan henkilötietoon resurssina, jota ihmiset voivat itse hyödyntää. (MyData – johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen 2018 (pdf)).
Mitä dataa sisältääAvointa dataa. Pääosin ei henkilötietoja.Henkilötietoja, jotka on "julkaistu" omadatana (osajoukko).
EsimerkkiKarttoja, tilastoja, lainsäädäntö/yksittäiset lait, yritysrekisteri, valtion budjetti, ostolaskut, valtion selvitykset/raportit, tutkimusaineisto (jos ei sisällä henkilötietoja)Omat terveystiedot, verotustiedot, opintotiedot, liikkumistiedot, rokotushistoria, osoitetiedot ja asumishistoria. MyData-julkaisu mainitsee ostos-, liikkumis-, talous- ja terveystiedot.
Datan tyyppiUsein summattua ja anonymisoitua tietoaYhtä henkilöä käsittelevää dataa. Jokainen henkilön tiedot ovat nähtävillä vain itselleen.
Kuka päättää tietojen julkistamisesta?Datan avaaja. Tyypillisesti rekisterin ylläpitäjä ja tiedon tuottaja.EU:n tietosuoja-asetuksen mukaan henkilö voi pyytää omia tietojansa. Tiedot voidaan luovuttaa tiedostona. Toisaalta MyDatan operaattorimalli lähtee siitä ajatuksesta, että tietojen luovutusta varten on rakennettu rajapinta, mitä kautta tietoja voi siirtää.
Kuka päättää tietojen käyttämisestä?Tietoja voi hyödyntää vapaasti kuka tahansa.Henkilö, jota tiedot käsittelevät päättää niiden käytöstä. Kenelle jakaa mitäkin omia tietoja. EU:n tietosuoja-asetus listaa kuusi perustetta henkilötietojen käsittelylle: suostumus, sopimus, lakisääteisen velvoitteen noudattaminen, elintärkeiden etujen suojaaminen, julkisen vallan käyttäminen ja oikeutettujen etujen toteuttaminen. Julkisessa hallinnossa kyseessä on pääosin tietojen toissijainen käyttö. Tietojen ensisijainen käyttö on "julkisen vallan käyttämistä" pääosin.
Keskeisin lainsäädäntö/ yleislainsäädäntöDirektiivi: avoin data ja julkisen sektorin hallussa olevien tietojen uudelleenkäyttö, julkisuuslakiEU:n tietosuoja-asetus
JakelutapaKatalogi, latauspalvelu, rajapinta ja tiedosto.Tiedosto ja rajapinta. Operaattorimallissa vain rajapinnat.
Sisältääkö anonymisoituja tietoja?KylläEi
Miten liittyvät toisiinsa?Omadataa voidaan anonymisoida ja esimerkiksi summata niin, että siitä tulee avointa dataa.Henkilö voi itse päättää julkaista omadatansa avoimena datana (sisältäen henkilötietoja) tai esim. anonymisoida sen avoimeksi dataksi.
Tietojen lisenssi/ käyttölupaSuositellaan Creative Commons BY 4/CC0 1.0-lisenssiHenkilö itse päättää tietojensa käytöstä. Käyttöluvista on olemassa erilaisia hahmotteluja.

Avoimen datan ja omadatan yhteisiä piirteitä

  • Tiedon tulisi olla koneluettavassa muodossa (myös koneet ymmärtävät tiedon rakennetta)
  • Tieto tulisi olla semanttisesti yhteentoimivaa (tiedon sisältö ymmärretään samalla tavalla)
  • Tieto tulisi olla avoimessa dataformaatissa (esim. CSV, XML, TXT)
  • Tiedon 'kitkaton' liikkuvuus on tärkeää

Tällä hetkellä tämän jaottelun ulkopuolelle jää esimerkiksi yritysten ja organisaation luottamukselliset tiedot. Niitä voisi hallita organisaatio itse. Tämän tyylisiä tietoja käsittelee julkisessa hallinnossa esimerkiksi Tilastokeskus, Business Finland ja Verohallinto. Tätä ajatusta ei ole haluttu ottaa osaksi omadata käsitettä. On siis olemassa muitakin tapoja jäsentää organisaation hallussa olevia digitaalisia tietoja. Näitä ovat esimerkiksi paikkatiedot, organisaation tiedot jne.