Kartoita tietovarannot

Ennen datan avaamista sinun täytyy selvittää, mitä dataa organisaatiollasi on. Helpoiten tämä onnistuu käymällä läpi organisaatiosi tietojärjestelmät ja niissä oleva tieto alla olevan ohjeen avulla. Kokoa kartoituksen perusteella tietojärjestelmäluettelo, jossa kuvaat organisaatiosi tietovarantoja ja datan ominaisuuksia. Selvitä ainakin seuraavat asiat:

  • Mitä tietoa organisaatiossasi ylipäätään on?
  • Mitä tietojärjestelmiä on olemassa?
  • Mitä dataa missäkin tietojärjestelmässä on?
  • Mikä osuus tästä datasta on koneluettavaa dataa?
  • Kuka mistäkin tietojärjestelmästä vastaa tai keneltä siitä saa lisätietoja?
  • Mikä on eri tietojärjestelmien datan kattavuus ja laatutaso (esimerkiksi oikeellisuus ja ajantasaisuus)? Lue lisää datan laadun arvioinnista oppaastamme.

Pidä mielessä, että datan avaaminen ja hyödyntäminen saattaa vaatia datan jatkokäsittelyä.

Tietovarantojen kartoittaminen

Kartoita tietovarannot

Yleensä kattavimman tiedon organisaatiosi tietovarannoista saat kokonaisarkkitehtuurin kuvauksista. Huomioi kuitenkin, että kuvauksen kattavuus ja ajantasaisuus vaikuttavat niiden sisältöön. Vaikka kokonaisarkkitehtuurikuvausta ei olisi tehty, on organisaatioilla yleensä olemassa jonkinlainen lista tietojärjestelmistään. Jos ei ole, sellainen kannattaa ehdottomasti luoda. Käytä tietojärjestelmäluetteloa kartoituksen pohjana, vaikka kaikki järjestelmien sisältämä data ei siitä selviäisikään.

Usein tietojärjestelmien kartoittaminen tehostaa lisäksi organisaation tiedonhallintaa. Esimerkiksi päällekkäisten tietojärjestelmähankintojen sekä -kustannusten poistaminen tehostaa tiedonhallintaa ja helpottaa työntekijöiden arkea.

Esimerkki: Helsingin kaupunki

Helsingin kaupunki on selvittänyt omien tietojärjestelmiensä kokonaistilanteen ja julkaissut sen avoindata.fi:ssä. Kaupungilla on lähes 900 erilaista tietojärjestelmää toiminnan tukena.
Helsingin kaupungilla yli 40 000 työntekijää tekee joka päivä töitä näiden tietojärjestelmien ja niiden sisältämien tietojen avulla. Tiedonhallinnan tehostaminen vaikuttaa merkittävästi siihen, miten organisaatio toimii, ja millaisia mahdollisuuksia se luo kaupunkilaisille ja yrityksille. Lisäksi lähes 900 tietojärjestelmään on kerätty valtava määrä erilaista tietoa, josta osa voisi olla arvokasta avoimena datana.

Kartoita data

Kun olet kartoittanut organisaatiosi tietojärjestelmät ja saanut kokonaiskuvan siitä, minkälaista dataa organisaatiollasi on, voit aloittaa varsinaisen datan kartoittamisen. Yritä samalla selvittää saatavilla olevan datan kattavuutta ja laatua — tämä helpottaa avattavan datan valintaa. Voit käyttää apuna alempana esiteltyä datan luokittelua.

Usein esimerkiksi tietosuojaselosteesta saa hyvän kuvan siitä, mitä dataa tietojärjestelmä sisältää. Voit myös miettiä sitä, millaisia palveluita organisaatiosi tuottaa ja millaista dataa nämä palvelut käsittelevät. Esimerkiksi karttapalveluja tuottavalla organisaatiolla on varmasti paljon karttoihin liittyvää dataa, jota voidaan avata. Muista myös, että merkittäviä määriä tietoa on nykyään esimerkiksi laskentataulukoissa, PowerPoint-esityksissä, Word-tiedostoissa sekä kuvina ja videoina. Myös näiden julkaisemista avoimena datana kannattaa harkita.

Esimerkki: Tilastokeskuksen SISU-mikrosimulointimalli

Tilastokeskus kehittää ja ylläpitää henkilöverotuksen ja sosiaaliturvalainsäädännön suunnitteluun, seurantaan ja arvioimiseen tarkoitettu laskentavälinettä, SISU-mikrosimulointimallia. Malli on ladattavissa Tilastokeskuksen sivuilta avoimena datana. Koska malli on julkaistu avoimena datana, Tilastokeskus on saanut siitä arvokasta palautetta muun muassa akateemisilta tutkijoilta. Lisäksi sen tuottama ennustedata ymmärretään paremmin, kun malli on läpinäkyvä.

Organisaation datan kuvaaminen

Jos organisaation resurssit riittävät, datan kartoituksen yhteydessä kannattaa kuvata organisaation tietojärjestelmät ja niiden sisältämä data mahdollisimman tarkasti. Tietojärjestelmien listaukseen kannattaa kirjata ylös, millaista dataa järjestelmät sisältävät ja kuvailla niiden käyttötarkoitus. Tietojärjestelmäluettelo toimii karttana, jonka avulla on helpompi koordinoida datan avaamista tulevaisuudessa. Avaamisprosessi nopeutuu ja avattavan datan valinta helpottuu, kun organisaation tuottama data on kuvattu selkeästi. Myös organisaation toiminta tehostuu, kun käsitys sen käyttämistä tietojärjestelmistä paranee. 

Tiedonhallintalaki (906/2019) velvoittaa joissain tapauksissa organisaatioita kuvaamaan omat tietojärjestelmänsä.

Mallintamisessa voi käyttää apuna esimerkiksi Suomi.fi-palvelun ilmaista yhteentoimivuustyökalua.

Luokittele data

Datan ominaisuudet vaikuttavat prosessin myöhempiin vaiheisiin. Samalla kun käyt läpi organisaatiosi tuottamaa dataa, luokittele data sen ominaisuuksien perusteella esimerkiksi seuraavanlaisesti. Voit käyttää tätä luokittelua apuna datan avaamisen priorisoinnissa.

Staattinen ja dynaaminen data

Staattinen data muuttuu harvoin ja vähän. Dataa saatetaan päivittää esimerkiksi kerran vuodessa tai muutaman vuoden välein riippuen siitä, minkälaisesta datasta on kyse. Esimerkiksi vuosittain päivitettävät tilinpäätöstiedot ovat staattista tietoa, samoin kuin hyvin harvoin muuttuvat postinumeroalueet. Staattista dataa sisältävän aineiston voi ladata kertaalleen, minkä jälkeen ladattua kopiota voi käyttää pitkään.

Dynaaminen data taas muuttuu usein tai jopa jatkuvasti. Datasta haetaan aina tuorein versio. Dynaamista dataa ovat esimerkiksi bussien ja junien reaaliaikaiset sijainnit sekä sääennusteet.

Järjestelmälle asetettavat tekniset laatuvaatimukset ovat staattisen datan kohdalla pienemmät kuin dynaamisen datan kohdalla. Jos vuosittain päivitettäviä tilinpäätöstietoja jakava palvelin on toisinaan muutaman tunnin ajan pois käytöstä, hyödyntäjälle aiheutuu usein vain vähäistä haittaa. Jos sen sijaan bussien reaaliaikaiset sijainnit lakkaavat päivittymästä, joukko muitakin palveluita muuttuu toimintakyvyttömiksi ja pahimmillaan koko kaupunki ruuhkautuu.

Myös riskitasoissa on eroja. Arkaluontoisen staattisen datan, kuten henkilökohtaisten sairaustietojen, jakamista vahingossa ei voi perua. Kerran ladattu data pysyy lataajilla. Jos taas dynaamista dataa julkaistaan vahingossa, tilanteen voi yleensä korjata sulkemalla dataa luovuttavan rajapinnan.

Julkaisuvalmis data ja raakadata

Julkaisuvalmis data on loogisiksi kokonaisuuksiksi koostettua dataa. Sitä käytetään usein jo johonkin tarkoitukseen organisaation sisällä.

Julkaisuvalmis data ei ole valmista avattavaksi

Vaikka data olisi jo käytössä organisaation sisällä, on silti hyvä käydä avaamisprosessi huolella läpi. Varmista datan laatu ja suodata pois arkaluontoinen materiaali ennen sen avaamista.

Raakadata taas on dataa, jota organisaatiollasi on, mutta jota ei ole vielä koottu yhteen paikkaan. Raakadatan avaaminen vaatii enemmän työtä kuin julkaisuvalmiin datan. 

Julkaisuvalmis data kannattaa yleensä avata ensin. Jos kuitenkin raakadata on julkaisuvalmista dataa paljon arvokkaampaa, on kannattavaa avata raakadata ensin.

Itse tuotettu data ja koostettu data

Osa organisaatiossasi käytössä olevasta datasta on syntynyt sen sisällä, kun taas osa koostuu ulkoisista lähteistä saaduista datoista, joita yhdistellään ja jatkojalostetaan. Varmista että saat jakaa muualta saatua dataa osana organisaatiosi datan avaamista. Varmista myös, että organisaatio, jolta saat dataa, ei jo jaa kyseistä dataa avoimena datana. Ei siis kannata avata uudestaan jo avattua dataa. Jos organisaatiosi yhdistelee jo avattua dataa oman datansa kanssa, kannattaa yhdistetty data julkaista, sillä datan yhdistely tuo lisäarvoa.

Esimerkki: Liikenneviraston onnettomuustilastot

Liikenneviraston onnettomuustilastot perustuvat poliisin kirjaamiin onnettomuustietoihin, joita täydennetään Liikenteen turvallisuusviraston sekä Tilastokeskuksen tiedoilla. Tietojen sisällöstä ja laadusta vastaa Tilastokeskus, josta onnettomuustiedot saadaan kerran kuukaudessa. Liikennevirastossa onnettomuustietoihin liitetään tierekisteristä tapahtumapaikan tie- ja liikenneoloja kuvaavat tiedot.

Julkaise tietojärjestelmäluettelo

Kun olet kartoittanut tietovarannot ja julkaise tietojärjestelmäluettelo esimerkiksi avoindata.fi:ssä yhteentoimivuuden kuvauksina ja ohjeina. 

Suomen kuntaliitto ry on julkaissut avoindata.fi:ssä tietojärjestelmäluettelon avaamisohjeen kunnille.

Jos tieto ei päädy yleisön saataville, yleisöltä jää puuttumaan kokonaiskuva olemassa olevista tietovarannoista. Kun yleisöllä on kokonaiskuva organisaatiosi datasta, he voivat esimerkiksi pyytää tiettyjä tietovarantoja avattaviksi. Data, jolle on kysyntää, on arvokasta.