Siirry pääsisältöön

Kirjaston TKI-toiminnan tukipalvelut

Aineiston kuvailu, dokumentointi ja metadata

Aineiston dokumentoinnilla ja kuvailulla tarkoitetaan usein samaa asiaa, eli kerrotaan miten tutkimus- tai kehittämisaineisto on tuotettu, mitä se sisältää ja miten sitä on käsitelty. Metadata tai kuvailutieto on dataa datasta, eli useimmiten standardoidussa muodossa olevaa tietoa aineistosta. Käsitteet siis liittyvät yhteen ja toisinaan niitä käytetään myös synonyymeinä. Metadata voi olla avointa, vaikka dataa ei avattaisikaan.

Metadatan kerääminen aloitetaan jo hankkeen alussa ja tallentaminen alkaa viimeistään aineistonkeruun ja käsittelyn alkaessa. Hankkeen loppuvaiheessa voi tehdä osan metatiedoista, mutta aineistonkäsittelyn vaiheiden muistelu voi olla työlästä tässä vaiheessa. Projektipäällikkö huolehtii, että hankkeessa kerätyn aineiston kuvailutieto tulee tallennetuksi.

Tutkimukseen liittyvä aineisto, kuvailutieto sekä aineiston kerääjille ja käsittelijöille annetut ohjeet ja muut dokumentit, kirjoituspyynnöt, saatekirjeet, haastatelukysymykset, kyselylomakkeet ja haastattelurungot kannattaa tallentaa teksti- tai pdf-tiedostoina samaan hakemistoon. Kaikki kieliversiot tulee myös tallentaa.

Miksi aineistoa kuvaillaan?

Aineiston kuvailu on tärkeää, koska:

  • se helpottaa tutkimustyötä: aineisto ja tulokset pysyvät paremmin järjestyksessä (tiedostonhallinta) ja muistissa. Kun aikaa kuluu, aineiston keruun ja käsittelyn yksityiskohdat unohtuvat, jos niitä ei merkitse muistiin.
  • aineiston tulee olla tulkittavissa oikein myös muille - aineistoa saattaa käsitellä useampi henkilö tai projektipäällikkö saattaa vaihtua. Kuvaile aineisto niin tarkasti, että aineistoa tuntemattoman on mahdollista ymmärtää mistä siinä on kyse. Väärintulkinnan mahdollisuudet tekevät aineistosta epäluotettavan.
  • aineistosta johdettujen tulosten tulee olla todennettavissa ja toistettavissa.
  • jos aineistoa halutaan avata tai jatkokäyttää, kuvailun tulee olla erityisen laadukasta.

Esimerkiksi excel-taulukkoon tallennetut mittaustulokset ovat hyödyttömiä numeroita sisältäviä taulukkoja jos ei ole olemassa mitään tietoa siitä mitä on mitattu, millä välineillä ja millä asteikolla. Kuvailu tuo kontekstitiedon esiin.
Kun kuvailet tutkimuksellista aineistoa, keskity itse aineistoon, älä siitä tehtyihin johtopäätöksiin tai julkaisuihin.

Miten aineiston kuvailua tehdään?

Kuvailutietojen tallentamiseen on useita erilaisia tapoja, joka riippuu mm. tuotetusta datatyypistä ja aineiston määrästä. Dokumentaatiota voi tallentaa

  • erilliseen tiedostoon aineiston yhteyteen (esim. otsikolla dokumentaatio) esimerkiksi readme-tiedostona.
  • datatiedoston sisälle - esimerkiksi haastattelun alkuun haastateltavan taustatiedot tai Excel-taulukon yhdelle välilehdelle muuttujien kuvaukset ja käytetyt koodit ja lyhenteet.
  • tutkimuspäiväkirjaan tai digitaalisen tutkimuspäiväkirjaan
  • tutkimuksessa käytetty sovellus saattaa tallentaa itse kuvailutietoa.


Isoille aineistoille voi toimia tekstitiedostoa paremmin Excel-taulukot ja tietokannat. Kun kuvailtavia aineistoja tai kuvailutietoja on paljon, metadata kannattaa tallentaa jonkun metadataformaatin mukaisesti tietokantaan tai data-arkistoon. Suosittelemme erityisesti isoille dataseteille koneluettavien standardien käyttöä. Eri aloilla on käytössä erilaisia metadatastandardeja ja -formaatteja, joita kannattaa käyttää mikäli sopiva löytyy.

Eri alojen metadatastandardeja löydät esimerkiksi seuraavilta sivuilta:

Tutkimuksen kuvailu readme-tiedostoon

Readme-tiedosto on erillinen tekstitiedosto (.txt), jonne kuvailu kirjoitetaan ja joka tallennetaan aineiston yhteyteen. Voi olla tarkoituksenmukaista luoda yksi readme- tiedosto tietokokonaisuudelle, jossa on useita toisiinsa liittyviä, samankaltaisesti muotoiltuja tiedostoja tai yheenryhmiteltyjä tiedostoja. Readme-tiedostoja voi olla myös useita eri kansioissa, jolloin ne toimivat kansion sisällysluettelona. Esitä tiedot samassa järjestyksessä ja käytä samaa terminologiaa, jotta tiedosto on helposti luettavissa ja hahmotettavissa. Hyvä readme-tiedosto on hyvää datanhallintaa ja datan organisointia.

Luo tiedosto heti hankkeen alussa ja päivitä hankkeen eri vaiheissa. Voit käyttää tekstieditoria (Notepad, Notepad++) ja tallentaa readme-tiedoston tiedostorakenteesi juureen.

Readme-tiedoston tyyli:

  • ole mahdollisimman selkeä: älä käytä erikoiskieltä
  • määrittele termit ja lyhenteet
  • käytä kuvaavia otsikoita
  • käytä avainsanoja

Esimerkki readme-tiedoston rakenteesta

Perustiedot

Aineiston nimi: Anna aineistolle mahdollisimman kuvaava nimi.

Aineiston tieteenalaValitse aineistosi tieteenala Tieteenala 2010 -luokituksesta Tilastokeskuksen sivuilla.

Sisällön tiivis kuvaus (abstrakti)

Aineiston tekijät: Henkilöt, jotka ovat vastuussa aineiston ajatuksellisen sisällön kehittelystä eli yleensä hankkeen vetäjät [Nimi, sähköposti, organisaatio ja yksikkö].

Muut aineiston kerääjät, tallentajat ja käsittelijät: Nimi ja organisaatio.

Rahoittajat: Mitkä tahot tai organisaatiot ovat osallistuneet aineiston tuottamiseen hankkeen rahoittajina.

Aineistonkeruun ajankohta: Alkamis- ja päättymispäivät.

Kieli: Mikä on aineiston kieli.

Aineiston määrä ja tiedostojen kuvailu: Kuvaa kuinka paljon aineistoa on, kuvaile aineistoon kuuluvat tiedostot hakemistona (tiedoston nimi, formaatti + mitä sisältää, tiedostojen suhde toisiinsa esim. eri versiot, miten tiedostot on järjestetty kansiohin sekä nimetty).

Asiasanat: Kuvaa aineistosi sisältö asiasanoilla (3 - 5 kpl). Etsi asiasanoja YSO-sanastosta.

Aineiston keräämiseen ja tulkintaan liittyvät tiedot

Alkuperäinen käyttötarkoitus: Tiedot hankkeesta, jota varten aineisto on kerätty, mahdollisesta teoreettisesta viitekehyksestä ja käytetyistä operationalisoinneista (esim. miten käsitteet on määritelty muuttujiksi ja miten muuttujien arvoja on mitattu)..

Mitä aineistoa on kerätty ja miten: Kuvaa kerätty aineisto mahdollisimman informatiivisesti sekä aineistonkeruussa käytetty menetelmä (esim. haastattelu- tai kyselytutkimus). Kuvaa esim. aineiston perusjoukko eli se ihmis- tai asiaryhmä, joka on tutkimuksen kohteena tai johon tutkimuksen tulokset viittaavat. Myös lista muuttujista ja niiden kuvaukset, mitta-asteikko, käytetyt merkinnät, lyhenteet ja koodaukset. Aineiston keräämiseen käytetyt ohjelmistot/laittet, mahdolliset standardit ja kalibroinnit.

Aineiston muokkaus: Kuvaa miten aineistoa on muokattu, esim. litteraattien tarkkuus, anonymisointi, aineisto-osien tai muuttujien poisto jne.

Konteksti: Kuvaa tutkimusaineiston tiedonkeruuhetkellä vallinneita ulkoisia olosuhteita ja tapahtumia, jotka ovat voineet vaikuttaa havaintoyksiköihin. Esimerkiksi taloudellinen tilanne, polittiiset tapahtumat, yhteiskunnalliset muutokset sekä luonnonmullistukset ja onnettomuudet aineiston keruuaikanavoivat vaikuttaa tutkittavien vastauksiin.

Aineiston jakamiseen ja pääsyyn liittyvät tiedot

Käyttöoikeudet: Lisenssi määrittelee ehdot, joilla aineistoa saa käyttää uudelleen.  Metropolia suosittelee avoimille aineistoille lisenssiä Creative Commons Nimeä 4.0 (CC BY 4.0). Kirjaa ylös myös jos aineistolla on erityisiä käyttöehtoja sekä kuka antaa tarvittaessa lisätietoja.

Aineiston omistajuus: Kuka omistaa aineiston. Yhteishankkeissa aineiston omistajuus on yleensä määritelty yhteistyösopimuksessa.

Aineiston sijainti ja saatavuus: Minne aineisto on tallennettu ja aineiston saatavuus (avoin, embargo, kirjautuminen, rajattu, vaatii luvan). Jos aineisto pysyy perustellusta syystä rajataun pääsyn takana tai kokonaan suljettuna, kuvaile tämä. Jos aineistoa ei ole mahdollista avata, perustele miksi aineisto ei ole avoimesti saatavilla.

Tuotetut julkaisut:  Listaa julkaisut, jotka on tehty aineiston pohjalta.

 

Kvalitatiivisen aineiston kuvailu

Laadullisessa, kvalitatiivisessa tutkimuksessa on tuotettu aineistoa esim. havainnoimalla, kohderyhmiä tutkimalla tai analysoimalla jo tuotettua materiaalia (esim. päiväkirjat, muut dokumentit). Tuotettu aineisto saattaa olla esim. kenttä- tai havaintomuistiinpanoja, tutkimuspäiväkirjoja, haastatteluja, tallenteita, lehtileikkeitä. Jos kyseessä ei ole kysely- tai haastatteluaineisto, tallenna tiedot lähdeaineistoista, esim. kirjat, artikkelit ja rekisteritiedot, jotka ovat olleet aineiston lähteenä. Aineisto voi olla tekstiä tai erilaisia audio- ja videotallenteita.

Dokumentointi:

Readme-tiedostoon: Yleistä tietoa readme-tiedoston sisällöstä ylempänä oppaassa.

Datatiedoston sisälle - esimerkiksi haastattelun alkuun haastateltavan taustatiedot haastattelulitteraattiin sekä erilliseen datalistaan tai Excel-taulukon yhdelle välilehdelle muuttujien kuvaukset ja käytetyt koodit ja lyhenteet. Esim. lehtileikkeestä lehden nimi, päivämäärä, jutun sijainti lehdessä, kirjoittaja ja otsikko

  • Datalista taulukkolaskentaohjelmalla: tutkimusyksikön (esim. haastateltavan) tunniste, kontekstitiedot  (aihe, paikka, ajankohta), tiedon kerääjä, keruuinstrumentti
  • esim. haastattelun datalista (Tietoarkisto)
  • esim. haastattelun datalista (Researchgate)
  • Tallentamisessa (kuva-, ääni- ja videotiedostot) tuotettu tekninen metadata

Kvantitatiivisen aineiston kuvailu

Kvantitatiivisessa tutkimuksessa kerätään määrällistä, numeerista dataa esim. kyselyllä, tekemällä kokeita, mittauksia, strukturoituja havaintoja. Tuotettu aineisto voi olla mittaustuloksia tai tilastollisin menetelmin luotua dataa.

Dokumentointi:

Readme-tiedosto. Yleistä tietoa readme-tiedoston sisällöstä ylempänä oppaassa.

Koodikirja tai datasanakirja, jossa selitetty käytetyt muuttujat, käytettyjen arvojen kuvaus. Ne varmistavat, että dataelementtien merkitys ja laatu ovat samat kaikille käyttäjille (esim. kvantitatiivisen aineiston muuttujat, kvalitatiivisesn aineiston aineistoyksikön tiedot). Kvantitatiivisen koodikirjan tarkoituksena on antaa ohjeita muuttujien arvojen koodaamiseen strukturoidussa aineistossa. Datasanakirja voidaan tehdä esim. taulukkomuotoon Excelillä tai tekstinkäsittelyohjelmalla tai tähän tarkoitetulla ohjelmistoilla esim. Nesstar PublisherColectica Designer tai DdiEditor.

  • muuttujien lukumäärä
  • muuttujien nimet, kuten ne ovat esim. taulukkolaskentaohjelmistossasi (Excel, SPSS)
  • ihmisluettava, selkokielinen muuttujan nimi (selite) ja sijainti tiedostossa
  • muuttujan määrittely: tapa jolla käytät termiä ja jolla selitetään muille mitä muuttuja tarkoittaa
  • mittayksiköt (aika, massa, tilavuus jne.)
  • tiedot käytetyistä luokituksista ja standardoinneista esimerkiksi "ammattiluokituksessa käytettiin ISCO-88:n pääluokkia tai maakoodit : kolminumeroinen ISO 3166".
  • käytettyjen lyhenteiden selitykset
  • muuttujan sallitut arvot: auttaa tunnistamaan tietojen syöttövirheet, minimi ja maksimiarvot
  • muuttujien suhteet toisiinsa
  • tyhjät arvot: mitä tarkoittaa datassa oleva tyhjä arvo
  • muuttujien muutokset: : Kirjaa tiedot dataan prosessoinnin yhteydessä tehdyistä muutoksista ja muokkauksista (esimerkiksi duplikaattien poistot, poikkeavien havaintojen poistot). Jos muuttujat tai muuttujien saamat arvot tai selitteet poikkevat kyselylomakkeen kysymyksistä tai vastausvaihtoehdoista, on poikkeavuudet selitettävä.
  • muuttujien suorat jakaumat
  • muuttujien muunnokset esimerkiksi painomuuttujien laskentakaavat, summamuuttujien muodostamisperiaatteet
  • tietosuojatoimenpiteet

Esimerkkejä datasanakirjoista:

 

 

 

 

 

 

 

 

Metropolian kirjasto- ja tietopalvelut | Saavutettavuusseloste