DATAHANTERING 1 2 3 4 5 6 Hur du hanterar, organiserar och strukturerar forskningsmaterial under hela forskningsprocessen. Datahantering innebär hantering av ett forskningsprojekts material och startar redan i samband med projektplaneringen. Datahantering pågår under hela forskningsmaterialets livscykel och i processen ingår moment som insamling, dokumentation, bearbetning, lagring, arkivering och tillgängliggörande. Informationsbroschyren har arbetats fram i syfte att ge råd till forskare om hur forskningsmaterial kan hanteras, organiseras och struktureras under forskningsprocessens olika steg. Innehållet har fokus mot forskning inom medicin och hälsa men kan även vara tillämpligt inom andra forskningsområden, framför allt där forskningsdata baseras på surveyundersökningar. Svensk Nationell Datatjänst (SND) Göteborgs universitet 2015-03-24 Version 6 PDF tillgänglig via: snd.gu.se/sv/om-oss/informationsmaterial Innehållsförteckning Steg 1: Projektansökan ............................................................ 4 Figur 1. Vad en datahanteringsplan bör innehålla ................ 5 Steg 2: Projektstart ................................................................... 6 Figur 2. Dokumentation under forskningsprojektet ............... 7 Steg 3: Datainsamling .............................................................. 8 Figur 3. Exempel på variabellista ......................................... 9 Steg 4: Dataanalys ................................................................. 10 Figur 4. Mappstruktur för en publikation ............................. 11 Steg 5: Dataförberedelser ...................................................... 12 Figur 5. Personuppgifter i forskningsmaterial ..................... 13 Steg 6: Datapublicering .......................................................... 14 Referenser .............................................................................. 15 3 1 PROJEKTANSÖKAN För många forskare ingår ansökningar om forskningsbidrag i de centrala arbetsuppgifterna. Något som kan bli ett krav i samband med ansökan är att den ska innehålla en relativt detaljerad beskrivning av hur data kommer att samlas in och hanteras under forskningsprojektets gång, en så kallad datahanteringsplan. För den enskilde forskaren utgör datahanteringsplanen ett effektivt sätt att redan i ett tidigt skede av projektet tänka igenom upplägg, insamling och hantering av forskningsmaterialet. Planen kan även bidra till en strukturerad hantering av materialet under projektets gång och på längre sikt. Eftersom projektet i detta skede ännu inte är igång innehåller datahanteringsplanen information om hur man planerar att hantera data. Om forskningsbidrag beviljas och projektet således ska starta behöver beskrivning om datahantering uppdateras kontinuerligt under den tid projektet pågår. Datahanteringsplanen är således ett dynamiskt dokument som utvecklas och uppdateras i takt med att projektet kommer igång. Datahanteringsplanen inleds med en beskrivning av forskningsprojektets syfte samt vilka organisationer och vilken personal som involveras. I datahanteringsplanen ska också projektets forskningsmaterial beskrivas samt hur det ska samlas in, lagras och göras tillgängligt för andra. På nästa sida, figur 1, finns en översikt på vad en datahanteringsplan bör innehålla. Flera av dessa punkter beskrivs mer ingående under senare steg i broschyren. 4 Figur 1. Vad en datahanteringsplan bör innehålla Beskrivning av projekt och datainsamling. Kort beskrivning av syftet med projektet samt det material som ska användas. Om nytt material ska samlas in anges hur det ska ske, när det ska ske (tidsperiod) och vem/vilka som ansvarar för insamlingen. Dokumentation av materialet. För att kunna förstå och återanvända forskningsmaterial är det viktigt med dokumentation. Ange kortfattat hur planeringen ser ut gällande dokumentation av materialet under insamlingsoch bearbetningsfasen, men även vem som ansvarar för dokumentation och hur olika versioner av data ska namnges. Juridiska och forskningsetiska aspekter. Ange aspekter som är viktiga att ta ställning till innan projektet sätter igång, under den period forskningsprojektet pågår, samt sådana som är viktiga för att projektet ska kunna avslutas korrekt. Korttidslagring och hantering. Redogör för hur forskningsmaterialet kommer att hanteras under projekttiden vad gäller lagring, säkerhetskopiering, skydd från intrång/obehöriga användare. Det är även bra att redogöra vilka filformat som ska användas. Långtidslagring och hantering. Beskriv hur och var data kommer att lagras på lång sikt och vilka filformat som ska användas. Långtidslagring av forskningsmaterial styrs av Arkivlagen (SFS 1990:782). Tillgängliggörande. Om data kan göras tillgänglig för andra forskare – ange när, var och för vem datamaterialet ska göras tillgängligt, samt även om hela eller endast delar av forskningsmaterialet kan tillgängliggöras. Kostnader. Uppskatta kostnader för hantering av data under projektets gång avseende exempelvis inköp av mjuk- och/eller hårdvara, dokumentation och korttidslagring av forskningsmaterialet, samt även kostnader för att förbereda projektet för arkivering och tillgängliggörande. 5 2 PROJEKTSTART När projektets finansiering är klar och det befinner sig i sitt startskede är det dags att börja följa den planerade hanteringen av data och dokumentation. Den redan utformade datahanteringsplanen anger hur detta är tänkt, men den kan kompletteras med ytterligare information som ska implementeras under projektets gång. Metadata syftar på den information som beskriver ett objekt, det vill säga ”data om data”. Metadata beskriver innehållet i forskningsmaterialet och gör det lättare att förstå dess egenskaper och metodik. Idag såväl som i framtiden är metadata en viktig källa för information kring forskningsmaterialet. En variabellista, som beskriver alla variabler i ett dataset och hur dessa är kodade, är ett exempel på metadata. Dokumentation är väsentligt under hela forskningsprocessen och sker i olika steg och på olika nivåer. Att komma igång med dokumentation i början av projektet kan kosta lite extra tid, men det är resurser som sparas in längre fram. För att underlätta dokumentationsarbetet är det bra att skapa en tydlig struktur över vilka dokument som ska användas och vad de avser att innehålla. En del av dokumenten i ett forskningsprojekt är sådana som berör hela forskargruppen, medan andra är sådana som skapas och används för specifika delprojekt eller publikationer. På nästa sida, figur 2, finns tips på hur forskningsprojektets dokumentationen kan struktureras avseende dokument och innehåll. 6 Figur 2. Dokumentation under forskningsprojektet 1. Forskargruppens gemensamma insamlingsprojekt Projektplan/forskningsplan. Beskrivning av projektet, såsom titel, syfte, frågeställningar, metod, etik, tidsplan, planerade analyser, projektmedarbetare och deras behörighet. Projektloggbok. Löpande dokumentation om sådant som sker under projektets gång. T.ex. tidsperioder för utsända enkäter/undersökningar, datum för inkomna registerdata, viktiga korrespondenser, frågeställningar och problem som uppstår under datainsamlingen. Variabellista. Varje dataset som insamlingen genererar bör ha en variabellista eller kodbok med beskrivning om variablerna och hur de är kodade. 2. Delprojekt/Publikation Analysplan. Analysplanen är ett centralt dokument som innehåller all viktig information om projektet. Förutom uppgifter som t.ex. syfte, insamlingsmetod, studiepopulation och kontaktuppgifter till medförfattare anges även sådant som sker under analysens gång, som exempelvis de variabler som används, analyser som görs och var resultaten kan hittas. Analysplanen knyter ihop de vetenskapliga tankegångarna med filer och resultat. Analysloggbok. Loggboken fungerar som en översikt över dataflödet. I den anges och beskrivs de filer som skapas under analysens gång samt även var dessa sparas (t.ex. nya dataset och statistiska filer med koder/syntaxer från analyser som utförs). Variabellista. I variabellistan eller kodboken beskrivs variablerna i det aktuella datasetet, som analysen utgår ifrån, och hur dessa är kodade. 7 3 DATAINSAMLING Datainsamlingen är en central del av forskningsprocessen. I denna fas är det bland annat viktigt att tänka på hur insamlingen ska organiseras, hur data som samlas in lagras säkert samt även hur data ska struktureras. I de fall personuppgifter hanteras i forskningsprojektet måste särskilda åtgärder vidtas så att de inte riskerar att bli felaktiga eller oavsiktligt sprids. Det egna lärosätet har ofta utarbetat riktlinjer gällande säkerhet, utifrån klassificering av information. Råd finns även att ta del av från Datainspektionen. Åtgärder som man själv kan se över är t.ex. att regelbundet byta lösenord, aldrig e-posta lösenord, att alltid logga ut när man lämnar sin dator samt att man inte sparar känslig data på CD-skiva eller USB-minne. För att enklare hantera den mängd data som insamlingen genererar och för att undvika tidskrävande arbete i efterhand är det betydelsefullt med tydlig struktur av hur data och material ska organiseras och namnges. Att namnge en fil kan verka lätt men flera faktorer bör tas med i beräkningarna. Ett filnamn bör vara unikt, inte bara i sin egen mapp utan helst i hela projektet, det bör innehålla information som ger en uppfattning om innehållet men samtidigt inte vara allt för långt. Ett råd är att alltid låta det aktuella datumet ingå i filnamnet. Tänk även på att namnge variabler på ett systematiskt sätt, med korta men beskrivande namn. Om frågeformulär används för datainsamling är det en bra idé att frågenumret får ingå i variabelnamnet. Ytterligare beskrivning av variabler och dess värden anges om möjligt i det statistikprogram som används, och/eller i en variabellista. I figur 3 finns exempel på variabellista. Tänk också på att förvara den första datafilen, dvs. originalfilen, skyddad så att den inte riskerar att skrivas över. 8 Figur 3. Exempel på variabellista Variabellista Variabelnamn F1_Kon Beskrivning F.1 Är du man eller kvinna Kodning 1=Kvinna 2=Man 999=Uppgift saknas 998=Dubbelmarkering F3_Halsa F.3 Allmänt hälsotillstånd 1=Utmärkt 2=Mycket gott 3=Gott 4=Någorlunda 5=Dåligt 999=Uppgift saknas 998=Dubbelmarkering F3_Halsa_diko F.3 Allmänt hälsotillstånd dikotomiserat där Utmärkt/ Mycket gott/Gott = Gott hälsotillstånd (1) Någorlunda/Dåligt = Dåligt hälsotillstånd (2) 1=Gott hälsotillstånd 2=Dåligt hälsotillstånd 999=Uppgift saknas 998=Dubbelmarkering P_Glukos Mätvärde: Blodprov: P-Glukos (mmol/L). Kontinuerliga värden. Lägsta värdet i datamaterialet är 3,1 och högsta värdet är 12,7. 3,1 3,2 3,3 …..osv… 12,7 999=Uppgift saknas P_Glukos_3gr Mätvärde: Blodprov: P-Glukos (mmol/L). Indelad i tre grupper. 1=≤ 6,0 mmol/L 2=6,1 – 6,9 mmol/L 3=≥ 7 mmol/L 999=Uppgift saknas 9 4 DATAANALYS I samband med analys av data kommer många versioner av dataset att skapas. Den första versionen är oftast resultatet från datainsamlingen och sedan följer ett antal nya versioner med rättad data och tillägg av konstruerade variabler. När analysarbetet fortskrider och data bearbetas på olika sätt är det viktigt att dokumentera alla de ändringar och tillägg som görs, för att kunna se vad som skiljer olika versioner av data mellan varandra. Var noga med att ange varje ny sparad version av data med nytt versionsnummer och datum när filen skapades. Tänk även på att dokumentera hur analyser utförs och vilka variabler som används så att analyser kan återskapas vid senare tillfälle. Inom en forskargrupp är det inte ovanligt att olika delmängder av data används, bestående av ett subset av variabler. Det är dock lämpligt att alla analyser utgår från en gemensam version av data, en så kallad masterversion, som lagras skrivskyddad och med begränsad åtkomst. På så vis skapas bättre kontroll över vilken version av data som är i bruk vilket gör det enklare att i efterhand återskapa analyser som gjorts. Med en gemensam version av data blir det även smidigare när forskningsmaterialet senare ska förberedas för arkivering och eventuellt göras tillgängligt för sekundäranalyser. Om flera kopior av masterversionen, eller delar av den, är i bruk i samband med analys bör nyskapade variabler kompletteras till den slutliga masterversionen som skall arkiveras. En bra mappstruktur hjälper till att hålla ordning bland alla de filer som skapas under projektets gång och är ett sätt att systematisera materialet. Mappstrukturen bör vara logisk och strukturerad. På nästa sida, figur 4, finns exempel på hur en mappstruktur kan se ut inför publikation av artikel. 10 Figur 4. Mappstruktur för en publikation Huvudprojekt Huvudmapp för publikation (t.ex. titel) Dokument Data Program Resultat Ansökan om forskningsmedel Etikansökan Analysplan Analysloggbok Variabellista Manusversioner etc. Dataset Bearbetade datafiler Frågeformulär samt annan viktig information relaterad till datainsamlingen/ registerdata/ labbanalyser etc. Filer från statistikprogram som leder fram till forskningsresultat i den statistiska analysen etc. Resultat från programfilerna, figurer, tabeller, grafer etc. ’README’ En textfil med övergripande information om projektet och beskrivning av mappstrukturen kan underlätta för läsaren att få en överblick och kunna orientera sig i materialet. 11 5 DATAFÖRBEREDELSER När forskningsprojektet är i sitt slutskede behöver data förberedas för långtidslagring. Data som ska vara tillgängliga efter projektets slut behöver även förberedas för detta. Långtidslagring* innebär att man sparar filer i ett format som är förberett för att vara läsbart i framtiden och som inte kräver någon särskild hårdvara eller mjukvara. Innan forskningsmaterial tillgängliggörs behöver man kontrollera vilka juridiska och etiska restriktioner som gäller för det specifika projektet, som kan påverka hur fritt tillgängliga data kan göras. Forskningsmaterial kan innehålla känsliga personuppgifter** som kan bli föremål för sekretess i syfte att skydda människors integritet. En personuppgift är all slags information som direkt eller indirekt kan hänföras till en fysisk person som är i livet. Uppgifter som direkt pekar på en person är exempelvis personnummer, telefonnummer eller adress. Uppgifter som indirekt kan identifiera en person är sådana som i kombination med varandra kan möjliggöra bakvägsidentifiering, vilket kan vara uppgift om ålder, yrke, och kommun. I vissa fall är personuppgifter känsliga. Sådana uppgifter får bara behandlas för forskningsändamål efter godkännande av etikprövningsnämnd. Uppgifter om hälsa betraktas alltid som känsliga personuppgifter. På nästa sida, se figur 5, finns några aspekter som är viktiga att tänka på avseende personuppgifter i forskningsmaterial. *Långtidslagring av forskningsmaterial styrs av Arkivlagen (1990:782). **Vad som avses med känsliga personuppgifter regleras i Personuppgiftslagen (1998:204). 12 Figur 5. Personuppgifter i forskningsmaterial Kodade och krypterade uppgifter Uppgifter som är kodade eller krypterade är personuppgifter, så länge kodeller krypteringsnyckel existerar, dvs. så länge som det är möjligt att identifiera personen bakom koden. Avidentifierad data För att avidentifiera personuppgifter måste alla möjligheter för identifiering tas bort, så att uppgifter i data inte längre går att koppla till en fysisk person som är i livet. Detta innebär att kod- och krypteringsnyckel måste förstöras och att bakvägsidentifiering inte ska vara möjlig. Data som är avidentifierad omfattas inte av Personuppgiftslagen. Bakvägsidentifiering/Röjanderisk Det är viktigt att kontrollera om data som ska tillgängliggöras innehåller information som kan innebära röjanderisk för de individer som deltagit i studien. Direkta identifierare, vilka är sådana uppgifter som vanligtvis samlas in för att möjliggöra administrationen av undersökningen och som pekar ut en enskild person eller annan undersökningsenhet, ska tas bort från datasetet. Indirekta identifierare är variabler som innehåller information vilka tillsammans med fler uppgifter i datamängden kan användas för identifiering. Det finns olika sätt att göra sådana variabler mindre känsliga, exempelvis genom att de kodas om så att ålder och inkomst delas in i grupper. Indirekta variabler är väldigt specifika för det enskilda projektet. På SND.gu.se, Datainspektionen.se och Codex.vr.se finns mer detaljerade redogörelser kring juridiska och forskningsetiska aspekter. 13 6 DATAPUBLICERING När projektet är slut är det dags att arkivera forskningsmaterialet och eventuellt tillgängliggöra materialet för andra. Handlingar från ett forskningsprojekt som bedrivs vid en myndighet är i allmänhet offentliga och ska arkiveras enligt arkivlagen, arkivförordningen och offentlighets- och sekretesslagen. Arkiveras ska såväl rådatafiler och etiktillstånd, som forskningsdokumentation och publicerade resultat. Återanvändning av forskningsmaterial från projektet kan bli aktuellt långt efter projektets slut, t.ex. för att andra ska kunna kontrollera publicerade resultat eller om det uppstår anklagelse om vetenskaplig oredlighet. Forskningsdata är en värdefull resurs som vanligtvis kräver mycket tid och pengar att producera. Redan insamlad data kan därför komma att användas för sekundäranalys. I allt större utsträckning följer forskningsfinansiärerna OECD:s riktlinjer om att offentligt finansierade forskningsdata så långt som möjligt bör vara öppet tillgängliga för forskarsamhället. Data som tillgängliggörs kan bli synliga, sökbara, återanvända och citerade. SND dokumenterar forskningsmaterial för att säkerställa långtidsbevarande, tillgängliggörande och återanvändning. Mer information om hur metadata och data kan överlämnas till SND finns att läsa på www.snd.gu.se 14 Har du frågor om datahantering, önskar beskriva eller överlämna data till SND? Välkommen att besöka vår webbplats eller kontakta oss för mer information! Ämnesområde E-post Humaniora Medicin och hälsa Samhällsvetenskap team-hum@snd.gu.se team-med@snd.gu.se team-sam@snd.gu.se Referenser: DCC. (2013) Checklist for a Data Management Plan. v.4.0 Edinburgh: Digital Curation Centre. Tillgänglig online: http://www.dcc.ac.uk/resources/data-management-plans Eloranta S, Johansson AL, Kristinsson SY, Andersson TM. (2013). Att strukturera och dokumentera forskningsprojekt. Läkartidningen 110(8): 416-9. Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to Social Science Data Preparation and Archiving: Best Practice Throughout the Data Life Cycle (5th ed.) Ann Arbor, MI. Tillgänglig online: http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf 15 snd.gu.se Besöksadress: Svensk Nationell Datatjänst Bohusgatan 15, 405 30 Göteborg 3
© Copyright 2024