Siirry pääsisältöön

Aineistonhallinta hankkeissa

Aineiston kuvailu, dokumentointi ja metadata

Aineiston dokumentoinnilla ja kuvailulla tarkoitetaan usein samaa asiaa, eli kerrotaan miten tutkimus- tai kehittämisaineisto on tuotettu, mitä se sisältää ja miten sitä on käsitelty. Metadata tai kuvailutieto on dataa datasta, eli useimmiten standardoidussa muodossa olevaa tietoa aineistosta. Metadata voi olla avointa, vaikka dataa ei avattaisikaan.

Kuvailu aloitetaan hankkeen alussa: kuvailun edut

Projektipäällikkö huolehtii, että hankkeessa kerätyn aineiston kuvailutieto tulee tallennetuksi. Aineiston kuvailu ja metadatan kerääminen aloitetaan jo hankkeen alussa ja tallentaminen alkaa viimeistään aineistonkeruun ja käsittelyn alkaessa. Aineisto ja tulokset pysyvät paremmin järjestyksessä (tiedostonhallinta) ja aineistonkeruun ja käsittelyn yksityiskohdat paremmin muistissa.Hankkeen loppuvaiheessa voi tehdä osan metatiedoista, mutta aineistonkäsittelyn vaiheiden muistelu voi olla työlästä tässä vaiheessa.

Aineiston kuvailu auttaa myös tutkimuksen tulkintaa ja toistettavuutta, koska aineiston tulee olla tulkittavissa oikein myös muille: aineistoa saattaa käsitellä useampi henkilö tai projektipäällikkö saattaa vaihtua kesken tutkimuksen. Aineistoa tuntemattoman on ymmärrettävä mistä siinä on kyse, väärintulkinnan mahdollisuudet tekevät aineistosta epäluotettavan. Jos esimerkiksi excel-taulukkoon on tallennettu pelkkiä mittaustuloksia, ne ovat hyödyttömiä numeroita sisältäviä taulukoita, jos ei ole olemassa mitään tietoa siitä mitä on mitattu, millä välineillä ja millä asteikolla. Kuvailu tuo aineiston kontekstitiedon esiin. 

Miten aineiston kuvailua tehdään?

Kuvailutietojen tallentamiseen on useita erilaisia tapoja, joka riippuu mm. tuotetusta datatyypistä ja aineiston määrästä. Myös tutkimuksessa käytetty sovellus saattaa tallentaa kuvailutietoa. Tallenna tutkimukseen liittyvä aineisto, kuvailutieto sekä aineiston kerääjille ja käsittelijöille annetut ohjeet ja muut dokumentit, kirjoituspyynnöt, saatekirjeet, haastatelukysymykset, kyselylomakkeet ja haastattelurungot teksti- tai pdf-tiedostoina samaan hakemistoon. Kaikki kieliversiot tulee myös tallentaa. Dokumentaatiota voi tallentaa

  • erilliseen readme-tiedostoon aineiston yhteyteen esimerkiksi otsikolla dokumentaatio
  • datatiedoston sisälle - esimerkiksi haastattelun alkuun haastateltavan taustatiedot tai Excel-taulukon yhdelle välilehdelle muuttujien kuvaukset ja käytetyt koodit ja lyhenteet.
  • tutkimuspäiväkirjaan tai digitaalisen tutkimuspäiväkirjaan.

Jos kuvailtavia aineistoja tai kuvailutietoja on paljon, metadata kannattaa tallentaa Excel-taulukkoon tai jonkin metadataformaatin mukaisesti tietokantaan tai data-arkistoon. Suosittelemme erityisesti isoille dataseteille koneluettavien standardien käyttöä. Eri aloilla on käytössä erilaisia metadatastandardeja ja -formaatteja, joita kannattaa käyttää mikäli sopiva löytyy.

Tutustu metadatastandardeihin:

Aineiston kuvailu readme-tiedostoon

Readme-tiedosto on erillinen tekstitiedosto (.txt), jonne kuvailu kirjoitetaan ja joka tallennetaan aineiston yhteyteen tiedostorakenteesi juureen. Luo tiedosto heti hankkeen alussa ja päivitä hankkeen eri vaiheissa. Voit käyttää tekstieditoria (Notepad, Notepad++) .

Hyvä readme-tiedosto on mahdollisimman selkeä (älä käytä erikoiskieltä) ja tiedot tulisi olla samassa järjestyksessä, jotta tiedosto on helposti luettavissa ja hahmotettavissa. Hyvässä readme-tiedostossa on määritelty käytetyt termit ja lyhenteet käyttäen samaa terminologiaa sekä käytetty kuvaavia otsikoita ja avainsanoja. 

Voi olla tarkoituksenmukaista luoda yksi readme- tiedosto tietokokonaisuudelle, jossa on useita toisiinsa liittyviä, samankaltaisesti muotoiltuja tiedostoja tai yhteenryhmiteltyjä tiedostoja. Readme-tiedostoja voi olla myös useita eri kansioissa, jolloin ne toimivat kansion sisällysluettelona. Hyvä readme-tiedosto on hyvää datanhallintaa ja datan organisointia.

Perustiedot

 
Aineiston nimi Anna aineistolle mahdollisimman kuvaava nimi
Aineiston tieteenala Valitse aineistosi tieteenala TieteenAla 2010- luokituksesta (Tilastokeskus)
Abstrakti Sisällön tiivis kuvaus
Aineiston tekijät Henkilöt, jotka ovat vastuussa aineiston ajatuksellisen sisällön kehittelystä eli yleensä hankkeen vetäjät. Nimi, sähköposti. organisaatio ja yksikkö.
Muut aineiston kerääjät, tallentajat ja käsittelijät Nimi ja organisaatio
Rahoittajat Mitkä tahot tai organisaatiot ovat osallistuneet aineiston tuottamiseen hankkeen rahoittajina
Aineistonkeruun ajankohta Alkamis- ja päättymispäivät
Kieli Mikä on aineiston kieli
Aineiston määrä ja tiedostojen kuvailu Kuvaa miten paljon aineistoa on, kuvaile aineistoon kuuluvat tiedostot hakemistona: tiedoston nimi, formaatti ja mitä tiedosto sisältää, tiedostojen suhde toisiinsa esimerkiksi eri versiot, miten tiedostot on järjestetty kansioihin sekä nimetty.
Asiasanat Kuvaa aineistosi sisältö asiasanoilla (3-5 kpl). Etsi asiasanoja YSO-sanastosta.
Aineiston keräämiseen ja tulkintaan liittyvät tiedot   
Alkuperäinen käyttötarkoitus Tiedot hankkeesta, jota varten aineisto on kerätty, tiedot mahdollisesta teoreettisesta viitekehyksestä ja käytetyistä operationalisoinneista esim. miten käsitteet on määritelty muuttujiksi ja miten muuttujien arvoja on mitattu.
Mitä aineistoa on kerätty ja miten Kuvaa kerätty aineisto mahdollisimman infrormatiivisesti sekä aineistonkeruussa käytetty menetelmä (esim. haastattelu- tai kyselytutkimus). Kuvaa aineiston perusjoukko eli  se ihmis- tai asiaryhmä joka on tutkimuksen kohteena tai johon tutkimuksen tulokset viittaavat. Myös lista muuttujista ja niiden kuvaukset, mitta-asteikko, käytetyt merkinnät, lyhenteet ja koodaukset. Aineiston keräämiseen käytetyt ohjelmistot/laitteet, mahdolliset standardit ja kalibroinnit.
Aineiston muokkaus Kuvaa miten aineistoa on muokattu esim. litteraattien tarkkuus, anonymisointi, aineisto-osien tai muuttujien poisto jne.
Konteksti Kuvaa tutkimusaineiston tiedonkeruuhetkellä vallinneita ulkoisia olosuhteita ja tapahtumia, jotka ovat voineet vaikuttaa havaintoyksikköihin esimerkiksi, tutkittavien vastauksiin. Esimerkiksi taloudellinen tilanne, poliittiset tapahtumat, yhteiskunnalliset muutokset sekä luonnonmullistukset ja onnettomuudet
Aineiston jakamiseen ja saatavuuteen liittyvät tiedot  
Käyttöoikeudet Lisenssi määrittelee ehdot, joilla aineistoa saa käyttää uudelleen. Metropolia suosittelee avoimille aineistoille lisenssiä Creative Commons 4.0 (CC BY 4.0). Mainitse jos aineistolla on erityisiä käyttöehtoja sekä kuka antaa tarvittaessa lisätietoja.
Aineiston omistajuus Kuka omistaa aineiston. Yhteishankkeissa aineiston omistajuus on yleensä määritelty yhteistyösopimuksessa.
Aineiston sijainti ja saatavuus Minne aineisto on tallennettu ja mikä on aineiston saatavuus (avoin, embargo, kirjautuminen, rajattu, vaatii luvan). Jos aineisto pysyy perustellusta syystä rajatun pääsyn takana tai kokonaan suljettuna, kuvaile tämä. Jos aineistoa ei ole mahdollista avata, perustele miksi aineisto ei ole avoimesti saatavilla.
Tuotetut julkaisut Listaa julkaisut, jotka on tehty aineiston pohjalta.

Kvalitatiivisen aineiston kuvailu ja dokumentointi

Laadullisessa, kvalitatiivisessa tutkimuksessa on tuotettu aineistoa esim. havainnoimalla, kohderyhmiä tutkimalla tai analysoimalla jo tuotettua materiaalia (esim. päiväkirjat, muut dokumentit). Tuotettu aineisto saattaa olla esim. kenttä- tai havaintomuistiinpanoja, tutkimuspäiväkirjoja, haastatteluja, audio- ja videotallenteita, lehtileikkeitä. Jos kyseessä ei ole kysely- tai haastatteluaineisto, tallenna tiedot lähdeaineistoista, esim. kirjat, artikkelit ja rekisteritiedot, jotka ovat olleet aineiston lähteenä. 

Dokumentoi tiedot readme-tiedostoon ja tee selkeä tiedostorakenne.

Dokumentointia voi tehdä myös datatiedoston sisälle (datalista) - esimerkiksi haastattelun alkuun haastateltavan taustatiedot haastattelulitteraattiin sekä erilliseen datalistaan haastateltavan tunniste, kontekstitiedot (aihe, paikka, ajankohta), tiedon kerääjä, keruuinstrumentti tai Excel-taulukon yhdelle välilehdelle muuttujien kuvaukset ja käytetyt koodit ja lyhenteet. Esim. lehtileikkeestä lehden nimi, päivämäärä, jutun sijanti lehdessä, kirjoittaja ja otsikko.

  • tallentamisessa tuotettu tekninen metadata (kuva-, ääni- ja videotiedostot)

Kvantitatiivisen aineiston kuvailu

Kvantitatiivisessa tutkimuksessa kerätään määrällistä, numeerista dataa esim. kyselyllä, tekemällä kokeita, mittauksia, strukturoituja havaintoja. Tuotettu aineisto voi olla mittaustuloksia tai tilastollisin menetelmin luotua dataa.

Dokumentoi tiedot readme-tiedostoon ja tee selkeä tiedostorakenne.

 

  • Readme-tiedostoon.
  • Koodikirja tai datasanakirja, jossa selitetty käytetyt muuttujat, käytettyjen arvojen kuvaus. Ne varmistavat, että dataelementtien merkitys ja laatu ovat samat kaikille käyttäjille (esim. kvantitatiivisen aineiston muuttujat, kvalitatiivisesn aineiston aineistoyksikön tiedot). Kvantitatiivisen koodikirjan tarkoituksena on antaa ohjeita muuttujien arvojen koodaamiseen strukturoidussa aineistossa. Datasanakirja voidaan tehdä esim. taulukkomuotoon Excelillä tai tekstinkäsittelyohjelmalla tai tähän tarkoitetulla ohjelmistoilla esim. Nesstar PublisherColectica Designer tai DdiEditor.
    • muuttujien lukumäärä
    • muuttujien nimet, kuten ne ovat esim. taulukkolaskentaohjelmistossasi (Excel, SPSS)
    • ihmisluettava, selkokielinen muuttujan nimi (selite) ja sijainti tiedostossa
    • muuttujan määrittely: tapa jolla käytät termiä ja jolla selitetään muille mitä muuttuja tarkoittaa
    • mittayksiköt (aika, massa, tilavuus jne.)
    • tiedot käytetyistä luokituksista ja standardoinneista esimerkiksi "ammattiluokituksessa käytettiin ISCO-88:n pääluokkia tai maakoodit : kolminumeroinen ISO 3166".
    • käytettyjen lyhenteiden selitykset
    • muuttujan sallitut arvot: auttaa tunnistamaan tietojen syöttövirheet, minimi ja maksimiarvot
    • muuttujien suhteet toisiinsa
    • tyhjät arvot: mitä tarkoittaa datassa oleva tyhjä arvo
    • muuttujien muutokset: : Kirjaa tiedot dataan prosessoinnin yhteydessä tehdyistä muutoksista ja muokkauksista (esimerkiksi duplikaattien poistot, poikkeavien havaintojen poistot). Jos muuttujat tai muuttujien saamat arvot tai selitteet poikkevat kyselylomakkeen kysymyksistä tai vastausvaihtoehdoista, on poikkeavuudet selitettävä.
    • muuttujien suorat jakaumat
    • muuttujien muunnokset esimerkiksi painomuuttujien laskentakaavat, summamuuttujien muodostamisperiaatteet
    • tietosuojatoimenpiteet

Esimerkkejä datasanakirjoista:

 

Metropolian kirjasto- ja tietopalvelut | Saavutettavuusseloste