Siirry pääsisältöön

Kirjaston TKI-toiminnan tukipalvelut

Aineiston kuvailu, dokumentointi ja metadata

Aineiston dokumentoinnilla ja kuvailulla tarkoitetaan usein samaa asiaa, eli kerrotaan miten tutkimus- tai kehittämisaineisto on tuotettu, mitä se sisältää ja miten sitä on käsitelty. Metadata tai kuvailutieto on dataa datasta, eli useimmiten standardoidussa muodossa olevaa tietoa aineistosta. Käsitteet siis liittyvät yhteen ja toisinaan niitä käytetään myös synonyymeinä. 

Miksi aineistoa kuvaillaan?

Ilman riittävän tarkkaa tietoa kontekstista, tutkimusaineistot ovat usein hyödyttömiä. Ajatellaan vaikkapa excel-taulukkoon tallennettuja mittaustuloksia. Jos ei ole olemassa mitään tietoa siitä, mitä on mitattu, millä välineillä ja millä asteikolla, aineisto on pelkkiä numeroita taulukossa ja sitä on mahdotonta ymmärtää ja tulkita. Kuvailu tuo tämän kontekstitiedon esiin.

Projektipäällikkö huolehtii siitä, että hankkeessa kerätyn aineiston kuvailutieto tulee tallennetuksi asianmukaisella tavalla.

Aineiston kuvailu on tärkeää, koska:

  • muisti on lyhyt - kun aikaa kuluu, aineiston keruun ja käsittelyn yksityiskohdat unohtuvat, jos niitä ei merkitse muistiin
  • aineiston tulee olla tulkittavissa oikein myös muille - aineistoa saattaa käsitellä useampi henkilö tai projektipäällikkö saattaa vaihtua. Väärintulkinnan mahdollisuudet tekevät aineistosta epäluotettavan
  • siitä johdettujen tulosten tulee olla todennettavissa ja toistettavissa
  • jos aineistoa halutaan avata tai jatkokäyttää, kuvailun tulee olla erityisen laadukasta

Minne kuvailutiedot tallennetaan?

Kuvailutietojen tallentamiseen on useita erilaisia tapoja.

  • Readme-tiedostot - erillinen tekstitiedosto, jonne kuvailu kirjoitetaan ja joka tallennetaan aineiston yhteyteen. Readme-tiedostoja voi olla myös useita eri kansioissa, jolloin ne toimivat kansion sisällysluettelona.
  • Datatiedoston sisälle - esimerkiksi haastattelun alkuun haastateltavan taustatiedot tai Excel-taulukon yhdelle välilehdelle muuttujien kuvaukset ja käytetyt koodit ja lyhenteet.
  • Excel-taulukot ja tietokannat - toimivat usein tekstitiedostoa paremmin isoille aineistoille
  • Sovellukset, joita käytetään kuvailutiedon tallentamiseen
  • Tutkimuspäiväkirjat, digitaaliset tutkimuspäiväkirjat

Mitä tietoja kuvaillaan?

Kuvailuun ei ole olemassa yhtä kaikkiin aineistoihin sopivaa tapaa, vaan kuvailtavat tiedot kannattaa valita aineiston perusteella.

Tärkeitä tallennettavia tietoja ovat esimerkiksi:

  1. Projektitaso - mihin tarkoitukseen aineisto on kerätty, millä menetelmällä se on kerätty, miten aineistonkeruu on toteutettu, eli kuka, mistä, milloin ja millä välineellä, sekä aineiston pääsy- ja käyttöehdot. 
  2. Tiedostotaso -  tiedostojen ominaisuudet, kuten tiedostomuoto, koko ja nimi, tiedostojen suhde toisiin tiedostoihin (esim. eri versiot), miten tiedostot on järjestetty kansioihin ja miten kansiot on järjestetty ja nimetty. Tiedostojen kuvailu on osa tiedostojen hallintaa, jonka tarkoituksena on helpottaa oikean tiedon löytymistä ja tiedostojen eheyttä. 
  3. Muuttujataso - lista muuttujista ja niiden kuvaukset, mitta-asteikko, käytetyt merkinnät, lyhenteet ja koodaukset. Aineiston luotettavuuden ja eheyden varmistamiseksi on myös tärkeää kirjata ylös miten aineistoa on käsitelty ja muokattu. 

Eri aloilla on käytössä erilaisia metadatastandardeja ja -formaatteja, joita kannattaa käyttää mikäli sopiva löytyy. Vaihtoehtoisesti voit hyödyntää alla olevaa aineiston kuvailun mallia soveltaen omaan aineistoosi. Suosittelemme erityisesti isoille dataseteille koneluettavien standardien käyttöä. 

Eri alojen metadatastandardeja löydät esimerkiksi seuraavilta sivuilta:

Aineiston kuvailun malli

Kun kuvailet tutkimuksellista aineistoa, keskity itse aineistoon, älä siitä tehtyihin johtopäätöksiin tai julkaisuihin. Kuvaile aineistoa jo hankkeen aikana, älä vasta sen loppuessa. Pyri kuvailemaan aineisto niin tarkasti, että aineistoa tuntemattoman on mahdollista ymmärtää, mistä siinä on kyse. Mitä tarkemmin aineisto on kuvailtu, sitä laadukkaampaa metadata on.

Tallenna lisäksi teksti- tai pdf-tiedostoina samaan hakemistoon aineiston ja kuvailutiedon kanssa:

  • aineiston kerääjille ja käsittelijöille annetut ohjeet ja muut dokumentit
  • kirjoituspyynnöt, saatekirjeet
  • haastattelukysymykset, kyselylomakkeet, haastattelurungot

​Tallenna kaikki kieliversiot.

Tallenna kuvailutieto esimerkiksi tekstitiedostona (txt) aineiston yhteyteen seuraavan mallin mukaisesti.

Perustiedot

Aineiston nimi: Anna aineistolle mahdollisimman kuvaava nimi.

Aineiston tieteenalaValitse aineistosi tieteenala Tieteenala 2010 -luokituksesta Tilastokeskuksen sivuilla.

Aineiston tekijät: Henkilöt, jotka ovat vastuussa aineiston ajatuksellisen sisällön kehittelystä eli yleensä hankkeen vetäjät [Nimi, sähköposti, organisaatio ja yksikkö].

Muut aineiston kerääjät, tallentajat ja käsittelijät: Nimi ja organisaatio.

Rahoittajat: Mitkä tahot tai organisaatiot ovat osallistuneet aineiston tuottamiseen hankkeen rahoittajina.

Aineisto

Alkuperäinen käyttötarkoitus: Tiedot hankkeesta, jota varten aineisto on kerätty, mahdollisesta teoreettisesta viitekehyksestä ja käytetyistä operationalisoinneista.

Aineistonkeruun ajankohta: Alkamis- ja päättymispäivät.

Mitä aineistoa on kerätty ja miten: Kuvaa kerätty aineisto mahdollisimman informatiivisesti sekä aineistonkeruussa käytetty menetelmä. Kuvaa esim. aineiston perusjoukko eli se ihmis- tai asiaryhmä, joka on tutkimuksen kohteena tai johon tutkimuksen tulokset viittaavat.

Aineiston määrä ja tiedostojen kuvailu: Kuvaa kuinka paljon aineistoa on, kuvaile aineistoon kuuluvat tiedostot hakemistona (tiedoston nimi, formaatti + mitä sisältää).

Aineiston muokkaus: Kuvaa miten aineistoa on muokattu, esim. litteraattien tarkkuus, anonymisointi, aineisto-osien tai muuttujien poisto jne.

Tuotetut julkaisut: Listaa julkaisut, jotka on tehty aineiston pohjalta.

Kieli: Mikä on aineiston kieli.

Käyttöoikeudet: Metropolia suosittelee avoimille aineistoille lisenssiä Creative Commons Nimeä 4.0 (CC BY 4.0). Kirjaa ylös myös jos aineistolla on erityisiä käyttöehtoja sekä kuka antaa tarvittaessa lisätietoja.

Aineiston omistajuus: Kuka omistaa aineiston. Yhteishankkeissa aineiston omistajuus on yleensä määritelty yhteistyösopimuksessa.

Aineiston sijainti: Minne aineisto on tallennettu.

Asiasanat: Kuvaa aineistosi sisältö asiasanoilla (3 - 5 kpl). Etsi asiasanoja YSO-sanastosta.

Kvalitatiivinen aineisto: aineistoyksikön kuvailu

Luettelo kaikista hankkeessa kerätyistä aineistoista: Esim. haastattelut, tallenteet, päiväkirjat, kenttämuistiinpanot, lehtileikkeet.

Aineistoyksikkökohtaiset tiedot: Esim. lehtileikkeestä lehden nimi, päivämäärä, jutun sijainti lehdessä, kirjoittaja ja otsikko. Haastattelussa haastateltavan taustatiedot ja muut taustatiedot. Tallenna perustiedot kunkin aineistoyksikön yhteyteen, esim. haastattelulitteraatin alkuun, sekä erilliseen listaukseen.

Lähdeaineistot: Jos kyseessä ei ole kysely- tai haastatteluaineisto, tallenna tiedot lähdeaineistoista, esim. kirjat, artikkelit ja rekisteritiedot, jotka ovat olleet aineiston lähteenä.

Kvantitatiivinen aineisto: aineistoyksikön kuvailu

Tallenna muuttujista seuraavat tiedot

  • muuttujien ja havaintoyksikköjen lukumäärä
  • muuttujalista, jossa luetellaan kunkin muuttujan nimi, selite ja sijainti tiedostossa sekä muuttujien saamat arvot ja niiden selitteet
  • muuttujien suorat jakaumat
  • tiedot käytetyistä luokituksista, esimerkiksi "ammattiluokituksessa käytettiin ISCO-88:n pääluokkia" tai "maakoodit: kolminumeroinen ISO 3166"
  • käytettyjen lyhenteiden selitykset
  • puuttuvien tietojen koodaukset
  • konstruoitujen muuttujien tiedot (esimerkiksi painomuuttujien laskentakaavat, summamuuttujien muodostamisperiaatteet)
  • uudelleenluokittelut, muuttujien standardoinnit
  • tietosuojatoimenpiteet

Jos muuttujat tai muuttujien saamat arvot tai selitteet poikkevat kyselylomakkeen kysymyksistä tai vastausvaihtoehdoista, on poikkeavuudet selitettävä.

Muutokset ja muokkaukset: Kirjaa tiedot dataan prosessoinnin yhteydessä tehdyistä muutoksista ja muokkauksista (esimerkiksi duplikaattien poistot, poikkeavien havaintojen poistot). Osa edellä mainituista kuvailutiedoista voidaan kirjata suoraan datatiedostoon

Kontekstitiedot

Kontekstitiedoilla tarkoitetaan tutkimusaineiston tiedonkeruuhetkellä vallinneita ulkoisia olosuhteita ja tapahtumia, jotka ovat voineet vaikuttaa havaintoyksiköihin. Esimerkiksi taloudellinen tilanne, poliittiset tapahtumat, yhteiskunnalliset muutokset sekä luonnonmullistukset ja onnettomuudet aineiston keruuaikana voivat vaikuttaa tutkittavien vastauksiin. 

Kontekstitietoa kannattaa tarpeen mukaan tallentaa aineiston kuvailutietoihin.

Metropolian kirjasto- ja tietopalvelut | Saavutettavuusseloste