keskiviikko 15. helmikuuta 2012

OpenSpending ja Helsingin tulot sekä menot 2009 - 2010


Luontevana jatkona tammikuussa avatulle The Data Hub Suomi avoimen datan portaalille tein projektin, jossa tarkoituksena oli viedä Open Knowledge Foundationin OpenSpending-alustalle Helsingin tulot ja menot vuosilta 2009-2010. Edellytyksenä oli että data oli saatavissa CSV-muodossa. Vuoden vaihteen tienoilla tämä data tulikin saataville ja löytyy Helsinki Region Infoshare sivustolta: Helsingin kaupungin tulot ja menot 2009 ja 2010. Ilman esikäsittelyä tuo data ei sellaisenaan ihan toiminut, josta myöhemmin lisää.

Miksi?

Suomessa avoimen datan hyödyntämiseen ja visualisointiin on tarpeen saada kustannustehokkaita ja yhteisövetoisesti kehitettäviä avoimen ohjelmakoodin ratkaisuja, jotka ovat riittävän helppokäyttöisiä ja monipuolisia. Tärkeää on myös se että me tavalliset kansalaiset koululaisesta data-ammattilaiseen pystymme tuottamaan julkista dataa helpommin ymmärrettävään muotoon. Idea olikin siis tutustua Helsinki Region Infoshare datalla tähän työkalupakkiin, kerätä kokemuksia ja jakaa kokemukset yleiseen käyttöön.

Rahankäytön visualisointiin on jo olemassa erityyppisiä työkaluja, mutta erityisen mielenkiintoisen OpenSpendingistä tekee sen että se on toteutettu käyttäen samoja Open Knowledge Foundation periaatteita kuin The Data Hub Suomi portaalin CKAN-ohjelmisto. Lisäksi OpenSpending on yhteensopiva CKAN ohjelmiston kanssa ja sen kehitys noudattelee samoja toimintaperiaatteita. Vaikka OpenSpending on vielä versiossa 0.11 (tätä kirjoittaessa 0.12 tuli ) niin se tarjoaa hyvinkin kattavan työkalupakin josta alla listattuna tärkeimpiä ja  lisätietoa OpenSpending wikistä .
  • yleiset ominaisuudet käyttäjille
    • pyritään mahdollistamaan mahdollisimman helppokäyttöiset työkalut joilla niin esimerkiksi koululainen kuin kehittynyt datahakkerikin pystyy tuomaan/tulkitsemaan talousdataa
    • vapaa sanahaku kaikkeen talusdatassa jne. sisältyvään tekstitietoon
    • erityyppiset visualisointinäkymät datalle (tällä hetkellä puu- sekä kuplatyyppiset näkymät)
    • listanäkymät datalle josta voi myös vertailla arvoja helposti esim. eri vuosien toteumia
  • ominaisuudet ylläpitäjälle
    • CSV-muotoisen datan testaaminen ja tuonti
    • data-aineiston perusmetatietojen hallinta (otsikko, rahayksikkö, kuvaus, maa ja kieli)
    • dimensioiden ja mittarien määrittely JSON-muotoiseksi tiedostoksi
    • datan visualisointinäkymien määrittely JSON-muotoisen

Mitä tehtiin?
  • käyttöliittymäkäännöksien ensimmäinen versio Suomen kielelle ja ne löytyvät Transifex-palvelusta. Nämä ovat jo mukana uusimmassa 0.12 versiossa.
  • CSV-tiedoston esikäsittely ja siivous sopivaksi OpenSpendingiin vietäväksi. Tämä vaati mm. puolipisteillä erotetun datan muuttamisen pilkuilla erotetuksi dataksi sekä tiedoston lopussa olevan viimeisen summarivin poistamisen. Tässä vaiheessa jouduttiin myös skandimerkit poistamaan kunnes saadaan selvitettyä OKF:lta millä tavoin tiedosto pitää enkoodata.
  • JSON muotoisen data mapping tiedoston määrittely jolla määritellään dimensiot, mittarit sekä näkymät visualisointia varten
  • manuaalinen tarkistus/pistokokeita sille että visualisoitu data vastaa alkuperäistä CSV-dataa
Alla ruutukaappaus tietoaineiston päähallintanäkymästä. Sen avulla voi testata csv tiedoston toimivuuden, tehdä testilatauksen datalle, lukea datan sisään OpenSpending tietokantaan ja julkaista/poistaa datan tai data-aineiston. Muita näkymiä ovat Dimensiot&Mittarit jolla määritellään csv sarakkeiden datan mäppäys JSON muodossa OpenSpending dimensioiksi. Visualisoinnit näkymässä luodaan JSON muotoinen määrittely eri näkymille/tasoille ja metatieto näkymästä hallitaan aineiston perus metatietoja kuten rahayksikkö, maa, kieli ja aineiston kuvaus.


Datan visualisoinnit

Kun data saatiin yrityksen ja erehdyksen jälkeen ladattua sisään ja JSON mallit luotua rupesikin jotain jo näkymään. Koska tämän datan suhteen täytyy vielä tehdä tarkistuksia ja saada esimerkiksi skandimerkistöt datassa toimimaan niin otin tähän muutaman kuvankaappauksen miltä visualisoinnit näyttävät. Online julkaisua ei vielä tällaisena kannata tehdä.

Huom. numeerinen tieto ruutukaappauksissa saattaa olla vielä virheellistä. Ideana on vain näyttää minkälaisia näkymiä OpenSpending tarjoaa.

Alla oleva on perus visualisointi joka näyttää pinta-aloina ko. porautumistason menot. Mikäli ko. tasolla on myös tuloja niin ne näkyvät taulukossa negatiivisena muttei visualisoinnissa. Klikkaamalla suorakaiteita pääsee aina porautumaan syvemmälle ja tulee vastaavanlainen näkymä. Riippuen alkuperäisdatan "syvyydestä" voidaan tasoja luoda haluttu määrä.



Toinen vaihtoehtoinen tapa luoda "kuplapuu" visualisointi on drag&drop hengessä valita dimensiot jotka näytetään. Tässä alla malli. Samalla tavalla kuplia klikkaamalla päästään aina porautumaan syvemmälle (riippuen tietenkin kuinka syväksi porautumisen on määritellyt)

 


Mitä seuraavaksi?

Online versio Helsinki tulot/menot 2009-2010 datasta julkaistaan heti ensitilassa kun tarvittavat korjaukset ja varmistukset datan osalta on saatu tehtyä. Sen jälkeen kuka vaan pääsee tutkimaan ja selaamaan dataa vapaasti.

Muun muassa Jyväskylään ja Tampereelle on muutaman aktiivin toimesta tehty tietopyyntöjä, jotta vastaavankaltaisessa muodossa saataisiin kaupungin talousdataa. Tämän jälkeen olisi olemassa jo kolme esimerkkiä Suomen kaupungeista mikä olisi varmasti hyvä ponnahduslauta tehdä kaupunkien tulot/menot datanavauksia/visualisointeja laajemminkin.