Aineiston dokumentoinnilla ja kuvailulla tarkoitetaan usein samaa asiaa, eli kerrotaan miten tutkimus- tai kehittämisaineisto on tuotettu, mitä se sisältää ja miten sitä on käsitelty. Metadata tai kuvailutieto on dataa datasta, eli useimmiten standardoidussa muodossa olevaa tietoa aineistosta. Käsitteet siis liittyvät yhteen ja toisinaan niitä käytetään myös synonyymeinä. Metadata voi olla avointa, vaikka dataa ei avattaisikaan.
Metadatan kerääminen aloitetaan jo hankkeen alussa ja tallentaminen alkaa viimeistään aineistonkeruun ja käsittelyn alkaessa. Hankkeen loppuvaiheessa voi tehdä osan metatiedoista, mutta aineistonkäsittelyn vaiheiden muistelu voi olla työlästä tässä vaiheessa. Projektipäällikkö huolehtii, että hankkeessa kerätyn aineiston kuvailutieto tulee tallennetuksi.
Tutkimukseen liittyvä aineisto, kuvailutieto sekä aineiston kerääjille ja käsittelijöille annetut ohjeet ja muut dokumentit, kirjoituspyynnöt, saatekirjeet, haastatelukysymykset, kyselylomakkeet ja haastattelurungot kannattaa tallentaa teksti- tai pdf-tiedostoina samaan hakemistoon. Kaikki kieliversiot tulee myös tallentaa.
Aineiston kuvailu on tärkeää, koska:
Esimerkiksi excel-taulukkoon tallennetut mittaustulokset ovat hyödyttömiä numeroita sisältäviä taulukkoja jos ei ole olemassa mitään tietoa siitä mitä on mitattu, millä välineillä ja millä asteikolla. Kuvailu tuo kontekstitiedon esiin.
Kun kuvailet tutkimuksellista aineistoa, keskity itse aineistoon, älä siitä tehtyihin johtopäätöksiin tai julkaisuihin.
Kuvailutietojen tallentamiseen on useita erilaisia tapoja, joka riippuu mm. tuotetusta datatyypistä ja aineiston määrästä. Dokumentaatiota voi tallentaa
Isoille aineistoille voi toimia tekstitiedostoa paremmin Excel-taulukot ja tietokannat. Kun kuvailtavia aineistoja tai kuvailutietoja on paljon, metadata kannattaa tallentaa jonkun metadataformaatin mukaisesti tietokantaan tai data-arkistoon. Suosittelemme erityisesti isoille dataseteille koneluettavien standardien käyttöä. Eri aloilla on käytössä erilaisia metadatastandardeja ja -formaatteja, joita kannattaa käyttää mikäli sopiva löytyy.
Eri alojen metadatastandardeja löydät esimerkiksi seuraavilta sivuilta:
Readme-tiedosto on erillinen tekstitiedosto (.txt), jonne kuvailu kirjoitetaan ja joka tallennetaan aineiston yhteyteen. Voi olla tarkoituksenmukaista luoda yksi readme- tiedosto tietokokonaisuudelle, jossa on useita toisiinsa liittyviä, samankaltaisesti muotoiltuja tiedostoja tai yheenryhmiteltyjä tiedostoja. Readme-tiedostoja voi olla myös useita eri kansioissa, jolloin ne toimivat kansion sisällysluettelona. Esitä tiedot samassa järjestyksessä ja käytä samaa terminologiaa, jotta tiedosto on helposti luettavissa ja hahmotettavissa. Hyvä readme-tiedosto on hyvää datanhallintaa ja datan organisointia.
Luo tiedosto heti hankkeen alussa ja päivitä hankkeen eri vaiheissa. Voit käyttää tekstieditoria (Notepad, Notepad++) ja tallentaa readme-tiedoston tiedostorakenteesi juureen.
Readme-tiedoston tyyli:
Aineiston nimi: Anna aineistolle mahdollisimman kuvaava nimi.
Aineiston tieteenala: Valitse aineistosi tieteenala Tieteenala 2010 -luokituksesta Tilastokeskuksen sivuilla.
Sisällön tiivis kuvaus (abstrakti)
Aineiston tekijät: Henkilöt, jotka ovat vastuussa aineiston ajatuksellisen sisällön kehittelystä eli yleensä hankkeen vetäjät [Nimi, sähköposti, organisaatio ja yksikkö].
Muut aineiston kerääjät, tallentajat ja käsittelijät: Nimi ja organisaatio.
Rahoittajat: Mitkä tahot tai organisaatiot ovat osallistuneet aineiston tuottamiseen hankkeen rahoittajina.
Aineistonkeruun ajankohta: Alkamis- ja päättymispäivät.
Kieli: Mikä on aineiston kieli.
Aineiston määrä ja tiedostojen kuvailu: Kuvaa kuinka paljon aineistoa on, kuvaile aineistoon kuuluvat tiedostot hakemistona (tiedoston nimi, formaatti + mitä sisältää, tiedostojen suhde toisiinsa esim. eri versiot, miten tiedostot on järjestetty kansiohin sekä nimetty).
Asiasanat: Kuvaa aineistosi sisältö asiasanoilla (3 - 5 kpl). Etsi asiasanoja YSO-sanastosta.
Alkuperäinen käyttötarkoitus: Tiedot hankkeesta, jota varten aineisto on kerätty, mahdollisesta teoreettisesta viitekehyksestä ja käytetyistä operationalisoinneista (esim. miten käsitteet on määritelty muuttujiksi ja miten muuttujien arvoja on mitattu)..
Mitä aineistoa on kerätty ja miten: Kuvaa kerätty aineisto mahdollisimman informatiivisesti sekä aineistonkeruussa käytetty menetelmä (esim. haastattelu- tai kyselytutkimus). Kuvaa esim. aineiston perusjoukko eli se ihmis- tai asiaryhmä, joka on tutkimuksen kohteena tai johon tutkimuksen tulokset viittaavat. Myös lista muuttujista ja niiden kuvaukset, mitta-asteikko, käytetyt merkinnät, lyhenteet ja koodaukset. Aineiston keräämiseen käytetyt ohjelmistot/laittet, mahdolliset standardit ja kalibroinnit.
Aineiston muokkaus: Kuvaa miten aineistoa on muokattu, esim. litteraattien tarkkuus, anonymisointi, aineisto-osien tai muuttujien poisto jne.
Konteksti: Kuvaa tutkimusaineiston tiedonkeruuhetkellä vallinneita ulkoisia olosuhteita ja tapahtumia, jotka ovat voineet vaikuttaa havaintoyksiköihin. Esimerkiksi taloudellinen tilanne, polittiiset tapahtumat, yhteiskunnalliset muutokset sekä luonnonmullistukset ja onnettomuudet aineiston keruuaikanavoivat vaikuttaa tutkittavien vastauksiin.
Käyttöoikeudet: Lisenssi määrittelee ehdot, joilla aineistoa saa käyttää uudelleen. Metropolia suosittelee avoimille aineistoille lisenssiä Creative Commons Nimeä 4.0 (CC BY 4.0). Kirjaa ylös myös jos aineistolla on erityisiä käyttöehtoja sekä kuka antaa tarvittaessa lisätietoja.
Aineiston omistajuus: Kuka omistaa aineiston. Yhteishankkeissa aineiston omistajuus on yleensä määritelty yhteistyösopimuksessa.
Aineiston sijainti ja saatavuus: Minne aineisto on tallennettu ja aineiston saatavuus (avoin, embargo, kirjautuminen, rajattu, vaatii luvan). Jos aineisto pysyy perustellusta syystä rajataun pääsyn takana tai kokonaan suljettuna, kuvaile tämä. Jos aineistoa ei ole mahdollista avata, perustele miksi aineisto ei ole avoimesti saatavilla.
Tuotetut julkaisut: Listaa julkaisut, jotka on tehty aineiston pohjalta.
Laadullisessa, kvalitatiivisessa tutkimuksessa on tuotettu aineistoa esim. havainnoimalla, kohderyhmiä tutkimalla tai analysoimalla jo tuotettua materiaalia (esim. päiväkirjat, muut dokumentit). Tuotettu aineisto saattaa olla esim. kenttä- tai havaintomuistiinpanoja, tutkimuspäiväkirjoja, haastatteluja, tallenteita, lehtileikkeitä. Jos kyseessä ei ole kysely- tai haastatteluaineisto, tallenna tiedot lähdeaineistoista, esim. kirjat, artikkelit ja rekisteritiedot, jotka ovat olleet aineiston lähteenä. Aineisto voi olla tekstiä tai erilaisia audio- ja videotallenteita.
Dokumentointi:
Readme-tiedostoon: Yleistä tietoa readme-tiedoston sisällöstä ylempänä oppaassa.
Datatiedoston sisälle - esimerkiksi haastattelun alkuun haastateltavan taustatiedot haastattelulitteraattiin sekä erilliseen datalistaan tai Excel-taulukon yhdelle välilehdelle muuttujien kuvaukset ja käytetyt koodit ja lyhenteet. Esim. lehtileikkeestä lehden nimi, päivämäärä, jutun sijainti lehdessä, kirjoittaja ja otsikko
Kvantitatiivisessa tutkimuksessa kerätään määrällistä, numeerista dataa esim. kyselyllä, tekemällä kokeita, mittauksia, strukturoituja havaintoja. Tuotettu aineisto voi olla mittaustuloksia tai tilastollisin menetelmin luotua dataa.
Dokumentointi:
Readme-tiedosto. Yleistä tietoa readme-tiedoston sisällöstä ylempänä oppaassa.
Koodikirja tai datasanakirja, jossa selitetty käytetyt muuttujat, käytettyjen arvojen kuvaus. Ne varmistavat, että dataelementtien merkitys ja laatu ovat samat kaikille käyttäjille (esim. kvantitatiivisen aineiston muuttujat, kvalitatiivisesn aineiston aineistoyksikön tiedot). Kvantitatiivisen koodikirjan tarkoituksena on antaa ohjeita muuttujien arvojen koodaamiseen strukturoidussa aineistossa. Datasanakirja voidaan tehdä esim. taulukkomuotoon Excelillä tai tekstinkäsittelyohjelmalla tai tähän tarkoitetulla ohjelmistoilla esim. Nesstar Publisher, Colectica Designer tai DdiEditor.
Esimerkkejä datasanakirjoista:
Metropolian kirjasto- ja tietopalvelut | Saavutettavuusseloste