Valitse avattava data

Edellisten vaiheiden kartoitus on jo rajannut potentiaalisen avattavan datan määrää poistamalla sieltä esimerkiksi sellaisen datan, jota et voi julkaista. Voit kuitenkin edelleen rajata ja priorisoida avattavaa dataa erilaisten ominaisuuksien perusteella. Vaikka haluaisit avata kaiken datan, on sinun priorisoitava avattavaa dataa jollakin tavalla, sillä kaiken avaaminen kerralla ei ole kustannustehokasta tai edes mahdollista.

Avaamisessa kannattaa priorisoida paitsi hyödyntäjille tarpeellisinta dataa, myös arvokasta dataa. Datan arvoa voidaan mitata monin eri tavoin, eikä “arvokkaalle datalle” ole yksiselitteistä määritelmää.

Datan avaaminen kannattaa mahdollisuuksien mukaan aloittaa yksinkertaisista aineistoista, joista edetään laajempiin, monimutkaisempiin aineistoihin.

Datan luokittelu avattavuuden mukaan

Tietovarantojen luokittelu auttaa sinua selvittämään

  • Mitkä organisaatiosi tietovarannoista kannattaa avata
  • Missä järjestyksessä tietovarannot kannattaa avata
  • Kuinka paljon työtä avaaminen vaatii

Luokittelulla varmistetaan, että salassa pidettävää materiaalia ei päädy julkaistavaksi. Tietovarannot voidaan luokitella avattavuuden mukaan kolmeen eri pääluokkaan:

Tietovarannot, jotka voi avata sellaisenaan

Osa tietovarannoista voidaan avata ilman minkäänlaisia esteitä. Tällöin organisaatiollasi on datan tekijänoikeus tai muutoin riittävät oikeudet dataan, eikä data sisällä mitään salassa pidettävää materiaalia. Yleensä esimerkiksi organisaatiosi tuottamat taulukot, laskentamallit, raportit, tietomallit, kuvat, kartat, videot ja diaesitykset ovat tällaisia tietovarantoja.

Tietovarannot, joita tarvitsee muokata ennen avaamista

Osa tietovarannoista saattaa sisältää salassa pidettävää dataa, jolloin niitä ei voi julkaista sellaisenaan ilman datan muokkaamista. Useissa tilanteissa esimerkiksi henkilötiedot täytyy poistaa ennen datan avaamista. Se, kannattaako dataa muokata vai kannattaako salassa pidettävät osiot poistaa kokonaan riippuu tapauksesta. Valitse organisaatiosi ja datasi kannalta paras tapa.

Huolehdi, että osien poistamisen jälkeen jäljelle jää datan hyödyntäjälle arvokas kokonaisuus, joka kannattaa julkaista.

Esimerkki: Datan muokkaaminen julkaistavaan muotoon

Aineistosi sisältää elinkeinonharjoittajien ja yritysten tietoja. Elinkeinonharjoittajat ovat tunnistettavissa aineistosta, joten dataa ei voi julkaista sellaisenaan. Voit poistaa elinkeinonharjoittajia koskevat tiedot kokonaan tai poistaa tiedon siitä, ketä elinkeinonharjoittajaa tieto koski. Voit myös poistaa kaikki elinkeinonharjoittajia koskevat tiedot, mutta ilmoittaa niitä koskevan summatiedon, esimerkiksi näin: "Aineistosta on poistettu elinkeinonharjoittajia koskevat laskut. Näitä oli yhteensä 213 kappaletta kokonaisarvoltaan 1,7 miljoonaa euroa."

Tietovarannot, joita ei voi avata

Osaa tietovarannoista ei voi tai kannata avata missään muodossa. Esimerkiksi kansalliseen turvallisuuteen liittyvää dataa ei voi julkaista missään tilanteessa.

Kokenut tietoturvallisuuden johtaja julkisesta hallinnosta arvioi, että salassa pidettäviä tietoja on alle 1 % kaikesta tiedosta. Tämän lisäksi tulee huomioida myös tietosuojaa nauttivat henkilötiedot, joita ei pääsääntöisesti voi avata avoimena datana.

Huonolaatuista dataa tai dataa, joka ei salassa pidettävän materiaalin poistamisen jälkeen ole hyödyntäjälle arvokasta ei kannata avata.

Arvokas data

Avaamisprosessissa kannattaa priorisoida dataa, jolla on arvoa, sillä se maksaa avaamiskulunsa takaisin. Erityisesti sellainen data, jota voidaan hyödyntää sovelluskehityksessä on arvokasta.

Datan arvokkuutta voidaan arvioida kolmesta eri näkökulmasta. Huomioi kaikki näkökulmat avaamisprosessissa.

Datan uudelleenkäytettävyys

Arvokas data on uudelleenkäytettävää, eli sitä on helppo yhdistellä erilaisten data-aineistojen kanssa ja sitä voidaan käyttää esimerkiksi sovelluskehityksen pohjana. 

Käytä arvioinnin apuna Tim Berners-Leen 5 tähden mallia (englanniksi). Malli on tarkoitettu avoimen datan laadun arvioimiseen erityisesti sen uudelleenkäytettävyyden näkökulmasta.

Varmista, että datasi saa vähintään kolme tähteä

Laadukkaasti avatun ja arvokkaan avoimen datan tulisi saavuttaa vähintään 3 tähteä tässä mallissa, eli sen tulisi olla saatavilla avoimessa ja rakenteellisessa muodossa, ja sillä tulisi olla avoin lisenssi.

Viiden tähden malli
Laatu Kuvaus
★★★★★ Data sisältää linkityksen kokonaisuuden ulkopuolisiin datoihin.
★★★★ Data sisältää yksilöllisiä tunnisteita, joihin voi viitata (URI).
★★★ Data on saatavilla ei-kaupallisessa avoimessa muodossa (esim. CSV, JSON, XML).
★★ Data on rakenteellisessa muodossa (esim. Excel-taulukko).
Data on saatavilla verkossa missä tahansa muodossa avoimella lisenssillä (esim. skannattu kuva tai PDF).

Datan arvo omistajan näkökulmasta

Arvioi datan arvokkuutta myös datan omistajan näkökulmasta. Omistajan näkökulmasta data on arvokasta, kun se täyttää vähintään yhden seuraavista kriteereistä:

  • Datan avaaminen lisää läpinäkyvyyttä. Erityisesti julkisen hallinnon avaama data on arvokasta, kun sen julkaisu lisää hallinnon avoimuutta kansalaisille. Tällaista dataa on esimerkiksi tieto siitä, mihin valtio on käyttänyt budjettiaan.
  • Datan julkaisemiseen on laillinen velvoite. Toisinaan dataa on avattava lainsäädännön määräyksestä. Esimerkiksi EU:n direktiivi avoimesta datasta ja julkisen sektorin hallussa olevien tietojen uudelleenkäytöstä säätelee julkisen hallinnon datan avaamista.
  • Data liittyy omistajan julkiseen tehtävään. Data on arvokasta, kun sen avaaminen edistää sen omistajan julkista tehtävää. Esimerkiksi ilmastoaktivistiryhmä voisi avata ilmastoon liittyvää avointa dataa tavoitteenaan edistää tietoisuutta ilmastonmuutoksesta.
  • Datan avaaminen vähentää kuluja. Avattua dataa voidaan hyödyntää helposti ja maksuttomasti. Datan avaaminen vähentää tarvetta kopioida dataa eri järjestelmiin, ja siten vähentää kuluja ja edistää yhteentoimivuutta myös organisaation sisällä. Usein tarvittavan datan, esimerkiksi paikkatiedon, julkaiseminen vähentää datan hallinnointikuluja merkittävästi, koska jokainen käyttäjä voi vapaasti ladata tarvitsemansa datan käyttöönsä.

Datan todellinen arvo muodostuu pitkälti sen kysynnän ja uudelleenkäytettävyyden perusteella. Data on arvokasta, jos sillä on suuri kohdeyleisö ja sitä voidaan hyödyntää erilaisia palveluita rakennettaessa.

Datan arvo hyödyntäjän näkökulmasta

Hyödyntäjän kannalta datan arvo määräytyy lähinnä sen uudelleenkäyttömahdollisuuksien perusteella. Monet sovelluskehittäjät ja start-upit käyttävät avointa dataa ohjelmistoissaan ja palveluissaan, jotka eivät olisi mahdollisia ilman maksuttomasti saatavilla olevaa avointa dataa.

Hyödyntäjän näkökulmasta suurin osa avoimen datan arvosta tulee usein epäsuorien hyötyjen kautta. Avoin data esimerkiksi parantaa yritysten ja hallinnon palveluita ja edistää hallinnon läpinäkyvyyttä, mikä hyödyttää kaikkia kansalaisia.

Korkean lisäarvon data

Korkean lisäarvon datalla (engl. high value data) tarkoitetaan dataa, joka luo uutta taloudellista tai muuta merkittävää arvoa, joka olisi muuten jäänyt saamatta. Korkean lisäarvon datalla on korkea uudelleenkäyttöpotentiaali joko sellaisenaan tai muuhun dataan yhdistettynä. Datan tulee myös kuulua vähintään yhteen EU:n direktiivin avoimesta datasta ja julkisen sektorin hallussa olevien tietojen uudelleenkäytöstä määrittelemistä korkean lisäarvon datan kategorioista:

  • Paikkatiedot (esim. postinumeroalueet ja kartat)
  • Maan havainnointi- ja ympäristötiedot (esim. energiankulutus ja satelliittikuvat)
  • Säätiedot (esim. sääennusteet)
  • Tilastotiedot (esim. väestö- ja talousindikaattorit)
  • Yritystiedot ja yritysten omistustiedot
  • Liikkuvuustiedot (esim. liikenneväylät ja -merkit, reaaliaikainen tieto julkisten liikennevälineiden sijainnista).

Esimerkki: Nysse-sovellus

Nysse on monikäyttöinen reittiopas, joka toimii monessa eri kaupungissa. Sovellus käyttää monia erilaisia avoimen datan aineistoja, kuten karttatietoja, joukkoliikenteen aikataulutietoja sekä reaaliaikaisia sijaintitietoja, ja yhdistää ne yhdeksi sovellukseksi.