datahantering - Svensk Nationell Datatjänst

DATAHANTERING
1
2
3
4
5
6
Hur du hanterar, organiserar och strukturerar
forskningsmaterial under hela forskningsprocessen.
Datahantering innebär hantering av ett forskningsprojekts
material och startar redan i samband med projektplaneringen.
Datahantering pågår under hela forskningsmaterialets
livscykel och i processen ingår moment som insamling,
dokumentation, bearbetning, lagring, arkivering och
tillgängliggörande.
Informationsbroschyren har arbetats fram i syfte att ge råd till
forskare om hur forskningsmaterial kan hanteras, organiseras
och struktureras under forskningsprocessens olika steg.
Innehållet har fokus mot forskning inom medicin och hälsa
men kan även vara tillämpligt inom andra forskningsområden,
framför allt där forskningsdata baseras på
surveyundersökningar.
Svensk Nationell Datatjänst (SND)
Göteborgs universitet
2015-03-24
Version 6
PDF tillgänglig via:
snd.gu.se/sv/om-oss/informationsmaterial
Innehållsförteckning
Steg 1: Projektansökan ............................................................ 4
Figur 1. Vad en datahanteringsplan bör innehålla ................ 5
Steg 2: Projektstart ................................................................... 6
Figur 2. Dokumentation under forskningsprojektet ............... 7
Steg 3: Datainsamling .............................................................. 8
Figur 3. Exempel på variabellista ......................................... 9
Steg 4: Dataanalys ................................................................. 10
Figur 4. Mappstruktur för en publikation ............................. 11
Steg 5: Dataförberedelser ...................................................... 12
Figur 5. Personuppgifter i forskningsmaterial ..................... 13
Steg 6: Datapublicering .......................................................... 14
Referenser .............................................................................. 15
3
1
PROJEKTANSÖKAN
För många forskare ingår ansökningar om forskningsbidrag i
de centrala arbetsuppgifterna. Något som kan bli ett krav i
samband med ansökan är att den ska innehålla en relativt
detaljerad beskrivning av hur data kommer att samlas in och
hanteras under forskningsprojektets gång, en så kallad
datahanteringsplan.
För den enskilde forskaren utgör datahanteringsplanen ett
effektivt sätt att redan i ett tidigt skede av projektet tänka
igenom upplägg, insamling och hantering av forskningsmaterialet. Planen kan även bidra till en strukturerad hantering
av materialet under projektets gång och på längre sikt.
Eftersom projektet i detta skede ännu inte är igång innehåller
datahanteringsplanen information om hur man planerar att
hantera data. Om forskningsbidrag beviljas och projektet
således ska starta behöver beskrivning om datahantering
uppdateras kontinuerligt under den tid projektet pågår.
Datahanteringsplanen är således ett dynamiskt dokument som
utvecklas och uppdateras i takt med att projektet kommer
igång.
Datahanteringsplanen inleds med en beskrivning av
forskningsprojektets syfte samt vilka organisationer och vilken
personal som involveras. I datahanteringsplanen ska också
projektets forskningsmaterial beskrivas samt hur det ska
samlas in, lagras och göras tillgängligt för andra. På nästa
sida, figur 1, finns en översikt på vad en datahanteringsplan
bör innehålla. Flera av dessa punkter beskrivs mer ingående
under senare steg i broschyren.
4
Figur 1.
Vad en datahanteringsplan bör innehålla
Beskrivning av projekt och datainsamling. Kort beskrivning av syftet med
projektet samt det material som ska användas. Om nytt material ska samlas in
anges hur det ska ske, när det ska ske (tidsperiod) och vem/vilka som
ansvarar för insamlingen.
Dokumentation av materialet. För att kunna förstå och återanvända
forskningsmaterial är det viktigt med dokumentation. Ange kortfattat hur
planeringen ser ut gällande dokumentation av materialet under insamlingsoch bearbetningsfasen, men även vem som ansvarar för dokumentation och
hur olika versioner av data ska namnges.
Juridiska och forskningsetiska aspekter. Ange aspekter som är viktiga att ta
ställning till innan projektet sätter igång, under den period forskningsprojektet pågår, samt sådana som är viktiga för att projektet ska kunna
avslutas korrekt.
Korttidslagring och hantering. Redogör för hur forskningsmaterialet kommer
att hanteras under projekttiden vad gäller lagring, säkerhetskopiering, skydd
från intrång/obehöriga användare. Det är även bra att redogöra vilka filformat
som ska användas.
Långtidslagring och hantering. Beskriv hur och var data kommer att lagras på
lång sikt och vilka filformat som ska användas. Långtidslagring av
forskningsmaterial styrs av Arkivlagen (SFS 1990:782).
Tillgängliggörande. Om data kan göras tillgänglig för andra forskare – ange
när, var och för vem datamaterialet ska göras tillgängligt, samt även om hela
eller endast delar av forskningsmaterialet kan tillgängliggöras.
Kostnader. Uppskatta kostnader för hantering av data under projektets gång
avseende exempelvis inköp av mjuk- och/eller hårdvara, dokumentation och
korttidslagring av forskningsmaterialet, samt även kostnader för att förbereda
projektet för arkivering och tillgängliggörande.
5
2
PROJEKTSTART
När projektets finansiering är klar och det befinner sig i sitt
startskede är det dags att börja följa den planerade
hanteringen av data och dokumentation. Den redan utformade
datahanteringsplanen anger hur detta är tänkt, men den kan
kompletteras med ytterligare information som ska
implementeras under projektets gång.
Metadata syftar på den information som beskriver ett objekt,
det vill säga ”data om data”. Metadata beskriver innehållet i
forskningsmaterialet och gör det lättare att förstå dess
egenskaper och metodik. Idag såväl som i framtiden är
metadata en viktig källa för information kring forskningsmaterialet. En variabellista, som beskriver alla variabler i ett
dataset och hur dessa är kodade, är ett exempel på metadata.
Dokumentation är väsentligt under hela forskningsprocessen
och sker i olika steg och på olika nivåer. Att komma igång med
dokumentation i början av projektet kan kosta lite extra tid,
men det är resurser som sparas in längre fram. För att
underlätta dokumentationsarbetet är det bra att skapa en
tydlig struktur över vilka dokument som ska användas och vad
de avser att innehålla. En del av dokumenten i ett forskningsprojekt är sådana som berör hela forskargruppen, medan
andra är sådana som skapas och används för specifika
delprojekt eller publikationer. På nästa sida, figur 2, finns tips
på hur forskningsprojektets dokumentationen kan struktureras
avseende dokument och innehåll.
6
Figur 2.
Dokumentation under forskningsprojektet
1. Forskargruppens gemensamma insamlingsprojekt
Projektplan/forskningsplan. Beskrivning av projektet, såsom titel, syfte,
frågeställningar, metod, etik, tidsplan, planerade analyser, projektmedarbetare
och deras behörighet.
Projektloggbok. Löpande dokumentation om sådant som sker under projektets
gång. T.ex. tidsperioder för utsända enkäter/undersökningar, datum för
inkomna registerdata, viktiga korrespondenser, frågeställningar och problem
som uppstår under datainsamlingen.
Variabellista. Varje dataset som insamlingen genererar bör ha en variabellista eller kodbok med beskrivning om variablerna och hur de är kodade.
2. Delprojekt/Publikation
Analysplan. Analysplanen är ett centralt dokument som innehåller all viktig
information om projektet. Förutom uppgifter som t.ex. syfte, insamlingsmetod, studiepopulation och kontaktuppgifter till medförfattare anges även
sådant som sker under analysens gång, som exempelvis de variabler som
används, analyser som görs och var resultaten kan hittas. Analysplanen
knyter ihop de vetenskapliga tankegångarna med filer och resultat.
Analysloggbok. Loggboken fungerar som en översikt över dataflödet. I den
anges och beskrivs de filer som skapas under analysens gång samt även var
dessa sparas (t.ex. nya dataset och statistiska filer med koder/syntaxer från
analyser som utförs).
Variabellista. I variabellistan eller kodboken beskrivs variablerna i det
aktuella datasetet, som analysen utgår ifrån, och hur dessa är kodade.
7
3
DATAINSAMLING
Datainsamlingen är en central del av forskningsprocessen.
I denna fas är det bland annat viktigt att tänka på hur
insamlingen ska organiseras, hur data som samlas in lagras
säkert samt även hur data ska struktureras.
I de fall personuppgifter hanteras i forskningsprojektet måste
särskilda åtgärder vidtas så att de inte riskerar att bli felaktiga
eller oavsiktligt sprids. Det egna lärosätet har ofta utarbetat
riktlinjer gällande säkerhet, utifrån klassificering av
information. Råd finns även att ta del av från
Datainspektionen. Åtgärder som man själv kan se över är
t.ex. att regelbundet byta lösenord, aldrig e-posta lösenord,
att alltid logga ut när man lämnar sin dator samt att man inte
sparar känslig data på CD-skiva eller USB-minne.
För att enklare hantera den mängd data som insamlingen
genererar och för att undvika tidskrävande arbete i efterhand
är det betydelsefullt med tydlig struktur av hur data och
material ska organiseras och namnges. Att namnge en fil kan
verka lätt men flera faktorer bör tas med i beräkningarna. Ett
filnamn bör vara unikt, inte bara i sin egen mapp utan helst i
hela projektet, det bör innehålla information som ger en
uppfattning om innehållet men samtidigt inte vara allt för långt.
Ett råd är att alltid låta det aktuella datumet ingå i filnamnet.
Tänk även på att namnge variabler på ett systematiskt sätt,
med korta men beskrivande namn. Om frågeformulär används
för datainsamling är det en bra idé att frågenumret får ingå i
variabelnamnet. Ytterligare beskrivning av variabler och dess
värden anges om möjligt i det statistikprogram som används,
och/eller i en variabellista. I figur 3 finns exempel på
variabellista.
Tänk också på att förvara den första datafilen, dvs. originalfilen, skyddad så att den inte riskerar att skrivas över.
8
Figur 3.
Exempel på variabellista
Variabellista
Variabelnamn
F1_Kon
Beskrivning
F.1 Är du man eller kvinna
Kodning
1=Kvinna
2=Man
999=Uppgift saknas
998=Dubbelmarkering
F3_Halsa
F.3 Allmänt hälsotillstånd
1=Utmärkt
2=Mycket gott
3=Gott
4=Någorlunda
5=Dåligt
999=Uppgift saknas
998=Dubbelmarkering
F3_Halsa_diko
F.3 Allmänt hälsotillstånd
dikotomiserat där Utmärkt/
Mycket gott/Gott = Gott
hälsotillstånd (1)
Någorlunda/Dåligt = Dåligt
hälsotillstånd (2)
1=Gott hälsotillstånd
2=Dåligt hälsotillstånd
999=Uppgift saknas
998=Dubbelmarkering
P_Glukos
Mätvärde: Blodprov: P-Glukos
(mmol/L). Kontinuerliga värden.
Lägsta värdet i datamaterialet är
3,1 och högsta värdet är 12,7.
3,1
3,2
3,3
…..osv…
12,7
999=Uppgift saknas
P_Glukos_3gr
Mätvärde: Blodprov: P-Glukos
(mmol/L). Indelad i tre grupper.
1=≤ 6,0 mmol/L
2=6,1 – 6,9 mmol/L
3=≥ 7 mmol/L
999=Uppgift saknas
9
4
DATAANALYS
I samband med analys av data kommer många versioner av
dataset att skapas. Den första versionen är oftast resultatet
från datainsamlingen och sedan följer ett antal nya versioner
med rättad data och tillägg av konstruerade variabler.
När analysarbetet fortskrider och data bearbetas på olika sätt
är det viktigt att dokumentera alla de ändringar och tillägg som
görs, för att kunna se vad som skiljer olika versioner av data
mellan varandra. Var noga med att ange varje ny sparad
version av data med nytt versionsnummer och datum när filen
skapades. Tänk även på att dokumentera hur analyser utförs
och vilka variabler som används så att analyser kan
återskapas vid senare tillfälle.
Inom en forskargrupp är det inte ovanligt att olika delmängder
av data används, bestående av ett subset av variabler. Det är
dock lämpligt att alla analyser utgår från en gemensam
version av data, en så kallad masterversion, som lagras
skrivskyddad och med begränsad åtkomst. På så vis skapas
bättre kontroll över vilken version av data som är i bruk vilket
gör det enklare att i efterhand återskapa analyser som gjorts.
Med en gemensam version av data blir det även smidigare när
forskningsmaterialet senare ska förberedas för arkivering och
eventuellt göras tillgängligt för sekundäranalyser. Om flera
kopior av masterversionen, eller delar av den, är i bruk i
samband med analys bör nyskapade variabler kompletteras till
den slutliga masterversionen som skall arkiveras.
En bra mappstruktur hjälper till att hålla ordning bland alla de
filer som skapas under projektets gång och är ett sätt att
systematisera materialet. Mappstrukturen bör vara logisk och
strukturerad. På nästa sida, figur 4, finns exempel på hur en
mappstruktur kan se ut inför publikation av artikel.
10
Figur 4.
Mappstruktur för en publikation
Huvudprojekt
Huvudmapp för publikation (t.ex. titel)
Dokument
Data
Program
Resultat
Ansökan om
forskningsmedel
Etikansökan
Analysplan
Analysloggbok
Variabellista
Manusversioner
etc.
Dataset
Bearbetade
datafiler
Frågeformulär
samt annan viktig
information
relaterad till
datainsamlingen/
registerdata/
labbanalyser
etc.
Filer från
statistikprogram som
leder fram till
forskningsresultat i den
statistiska
analysen
etc.
Resultat från
programfilerna,
figurer, tabeller,
grafer
etc.
’README’
En textfil med övergripande information om projektet och beskrivning av
mappstrukturen kan underlätta för läsaren att få en överblick och kunna
orientera sig i materialet.
11
5
DATAFÖRBEREDELSER
När forskningsprojektet är i sitt slutskede behöver data
förberedas för långtidslagring. Data som ska vara tillgängliga
efter projektets slut behöver även förberedas för detta.
Långtidslagring* innebär att man sparar filer i ett format som är
förberett för att vara läsbart i framtiden och som inte kräver
någon särskild hårdvara eller mjukvara.
Innan forskningsmaterial tillgängliggörs behöver man
kontrollera vilka juridiska och etiska restriktioner som gäller för
det specifika projektet, som kan påverka hur fritt tillgängliga
data kan göras. Forskningsmaterial kan innehålla känsliga
personuppgifter** som kan bli föremål för sekretess i syfte att
skydda människors integritet.
En personuppgift är all slags information som direkt eller
indirekt kan hänföras till en fysisk person som är i livet.
Uppgifter som direkt pekar på en person är exempelvis
personnummer, telefonnummer eller adress. Uppgifter som
indirekt kan identifiera en person är sådana som i kombination
med varandra kan möjliggöra bakvägsidentifiering, vilket kan
vara uppgift om ålder, yrke, och kommun.
I vissa fall är personuppgifter känsliga. Sådana uppgifter får
bara behandlas för forskningsändamål efter godkännande av
etikprövningsnämnd. Uppgifter om hälsa betraktas alltid som
känsliga personuppgifter.
På nästa sida, se figur 5, finns några aspekter som är viktiga
att tänka på avseende personuppgifter i forskningsmaterial.
*Långtidslagring av forskningsmaterial styrs av Arkivlagen
(1990:782).
**Vad som avses med känsliga personuppgifter regleras i
Personuppgiftslagen (1998:204).
12
Figur 5.
Personuppgifter i forskningsmaterial
Kodade och krypterade uppgifter
Uppgifter som är kodade eller krypterade är personuppgifter, så länge kodeller krypteringsnyckel existerar, dvs. så länge som det är möjligt att
identifiera personen bakom koden.
Avidentifierad data
För att avidentifiera personuppgifter måste alla möjligheter för identifiering
tas bort, så att uppgifter i data inte längre går att koppla till en fysisk person
som är i livet. Detta innebär att kod- och krypteringsnyckel måste förstöras
och att bakvägsidentifiering inte ska vara möjlig. Data som är
avidentifierad omfattas inte av Personuppgiftslagen.
Bakvägsidentifiering/Röjanderisk
Det är viktigt att kontrollera om data som ska tillgängliggöras innehåller
information som kan innebära röjanderisk för de individer som deltagit i
studien. Direkta identifierare, vilka är sådana uppgifter som vanligtvis
samlas in för att möjliggöra administrationen av undersökningen och som
pekar ut en enskild person eller annan undersökningsenhet, ska tas bort från
datasetet. Indirekta identifierare är variabler som innehåller information
vilka tillsammans med fler uppgifter i datamängden kan användas för
identifiering. Det finns olika sätt att göra sådana variabler mindre känsliga,
exempelvis genom att de kodas om så att ålder och inkomst delas in i
grupper. Indirekta variabler är väldigt specifika för det enskilda projektet.
På SND.gu.se, Datainspektionen.se och Codex.vr.se finns mer detaljerade
redogörelser kring juridiska och forskningsetiska aspekter.
13
6
DATAPUBLICERING
När projektet är slut är det dags att arkivera forskningsmaterialet och eventuellt tillgängliggöra materialet för andra.
Handlingar från ett forskningsprojekt som bedrivs vid en
myndighet är i allmänhet offentliga och ska arkiveras enligt
arkivlagen, arkivförordningen och offentlighets- och
sekretesslagen. Arkiveras ska såväl rådatafiler och
etiktillstånd, som forskningsdokumentation och publicerade
resultat.
Återanvändning av forskningsmaterial från projektet kan bli
aktuellt långt efter projektets slut, t.ex. för att andra ska kunna
kontrollera publicerade resultat eller om det uppstår
anklagelse om vetenskaplig oredlighet. Forskningsdata är en
värdefull resurs som vanligtvis kräver mycket tid och pengar
att producera. Redan insamlad data kan därför komma att
användas för sekundäranalys.
I allt större utsträckning följer forskningsfinansiärerna OECD:s
riktlinjer om att offentligt finansierade forskningsdata så långt
som möjligt bör vara öppet tillgängliga för forskarsamhället.
Data som tillgängliggörs kan bli synliga, sökbara, återanvända
och citerade.
SND dokumenterar forskningsmaterial för att säkerställa
långtidsbevarande, tillgängliggörande och återanvändning.
Mer information om hur metadata och data kan överlämnas till
SND finns att läsa på www.snd.gu.se
14
Har du frågor om datahantering,
önskar beskriva eller överlämna data till SND?
Välkommen att besöka vår webbplats
eller kontakta oss för mer information!
Ämnesområde
E-post
Humaniora
Medicin och hälsa
Samhällsvetenskap
team-hum@snd.gu.se
team-med@snd.gu.se
team-sam@snd.gu.se
Referenser:
DCC. (2013) Checklist for a Data Management Plan. v.4.0
Edinburgh: Digital Curation Centre. Tillgänglig online:
http://www.dcc.ac.uk/resources/data-management-plans
Eloranta S, Johansson AL, Kristinsson SY, Andersson TM.
(2013). Att strukturera och dokumentera forskningsprojekt.
Läkartidningen 110(8): 416-9.
Inter-university Consortium for Political and Social Research
(ICPSR). (2012). Guide to Social Science Data Preparation
and Archiving: Best Practice Throughout the Data Life Cycle
(5th ed.) Ann Arbor, MI. Tillgänglig online:
http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf
15
snd.gu.se
Besöksadress: Svensk Nationell Datatjänst
Bohusgatan 15, 405 30 Göteborg
3