Poniżej przedstawiamy podstawowe pojęcia związane z danymi badawczymi.
To dane zebrane, zestawione, zaobserwowane podczas procesu badawczego, którego celem jest otrzymanie oryginalnych wyników. Informacje niezbędne do oceny rezultatów badań (mogą to być: dane liczbowe, dokumenty tekstowe, wyniki badań ankietowych, nagrania audio i wideo, fotografie, zawartości baz danych czy oprogramowanie), przy czym:
- nie wszystkie dane badawcze zostają ujęte w ostatecznej publikacji
- nie wszystkie dane badawcze zostają poddane analizie.
To dane udostępnione – każdy może swobodnie z nich korzystać (np. modyfikować, redystrybuować i upowszechniać) z poszanowaniem prawa własności twórców.
Agencje finansujące badania naukowe określają swoje wymagania. Wymogi np. Komisji Europejskiej – Program Horizon 2020, Narodowego Centrum Nauki to:
- otwarcie danych
- udostępnienie danych w zakresie niezbędnym do oceny ustaleń zawartych w publikacjach – uprawomocnienie wyników badań
- konieczność tworzenia planu zarządzania danymi (Data Management Plan)
- deponowanie danych w repozytoriach.
To dokument, zawierający opis czynności wykonywanych na każdym etapie pracy z danymi badawczymi: zaprezentowanie zasobu (format i typ plików, liczba danych), zasady pracy z danymi (uporządkowanie i opis materiałów, metodologie), sposoby ich udostępniania, ochrony, długoterminowego przechowywania, a także same dane. Udostępnione powinny być:
- dane, które zostały zaprezentowane w publikacji
- dane surowe, które zebrano w trakcie prac, ale nie poddano analizie
- oprogramowanie niezbędne do analizy danych, jeśli jest wymagane do ich odczytu
- metadane potrzebne do identyfikacji i opisu danych badawczych.
Plan zarządzania danymi musi też rozwiązywać wątpliwości etyczne i prawne, wskazać właściciela danych i możliwości ich rozpowszechniania.
Przygotowanie danych do udostępnienia obejmuje:
- selekcję danych – nie wszystkie dane trzeba udostępniać, należy:
- wziąć pod uwagę wartość naukową zebranych dokumentów
- sprawdzić, czy dane zawierają wszystkie parametry konieczne do odtworzenia eksperymentu
- upewnić się, czy identyczne zbiory danych już nie istnieją w otwartym dostępie
- zastanowić się, czy koszty przechowywania danych są adekwatne do ich wartości merytorycznej
- usunięcie danych wrażliwych, ułatwiających identyfikację badanych osób poprzez:
- anonimizację – przetworzenie danych osobowych, by nie można było przyporządkować informacji do możliwej do zidentyfikowania osoby
- pseudonimizację – przekształcenie danych, by nie można ich było przypisać osobie, której te dane dotyczą, bez użycia dodatkowych informacji
- wybór odpowiedniego formatu plików, który nie wymaga komercyjnego oprogramowania i wykorzystuje standardowe kodowanie (ASCII, UTF8).
FAIR DATA
To międzynarodowe standardy dotyczące opisu, przechowywania i publikowania danych badawczych. Dane powinny być:
- Findable – możliwe do odnalezienia przez ludzi i programy komputerowe (dzięki metadanym, unikalnemu identyfikatorowi np. DOI, indeksowaniu metadanych w ogólnodostępnych bazach)
- Accessible – łatwo dostępne, bez konieczności użycia specjalnego oprogramowania
- Interoperable – interoperacyjne, przygotowane w czytelnym formacie, powiązane odnośnikami z innymi zbiorami danych
- Reusable – możliwe do ponownego użycia, czyli dokładnie opisane, zaopatrzone w licencję, informację o autorze czy miejscu powstania.
Deponowanie danych
Odbywa się w postaci zbiorów danych (datasetów) – zbiorów plików zawierających dane powiązane z jedną publikacją, projektem naukowym, bądź eksperymentem oraz ich opisem w postaci metadanych.
Opis danych – metadane
Opisują one zawartość zbioru, pochodzenie, stosowane metody badawcze, dzielą się na:
- metadane opisowe – niezbędne do identyfikacji zbioru (np. tytuł, streszczenie, autor i słowa kluczowe)
- metadane strukturalne – opisują zależności pomiędzy zbiorami oraz ich elementami w celu np. ułatwienia nawigacji
- metadane administracyjne – informacje pomocne w zarządzaniu zasobem (np. sposób i data utworzenia zbioru, informacje dotyczące dostępu).
Metadane umożliwiają dostęp do danych badawczych, ich zrozumienie i dalsze przetwarzanie. Jeśli zbiór danych jest prawidłowo opisany, staje się lepiej widoczny, również dla programów komputerowych analizujących dane.
Standardy metadanych (wg Digital Curation Centre)
Otwieranie danych i dostęp
Dane można udostępniać na poniższych licencjach:
- otwarte licencje (CC0, CC-BY)
- projekt Open Data Commons, np. Public Domain Dedication and License (PDDL) – domena publiczna dla baz danych z nieograniczoną możliwością pobierania, udostępniania i modyfikowania baz danych
- Open Data Commons Attribution License (ODC-By) – jedynym warunkiem kopiowania i modyfikowania danych jest uznanie autorstwa
- Open Data Commons Open Database License (ODC-ODbL) to otwarta licencja na kopiowanie, przetwarzanie oraz rozpowszechnianie bazy danych pod warunkiem uznania jej autorstwa oraz upowszechniania na takich samych warunkach
- dozwolony użytek.
Należy pamiętać o tym, że aby udostępnić dane, trzeba mieć do nich odpowiednie prawa.
Konieczna jest odpowiednia infrastruktura, zapewniająca udostępnianie, długoterminowe przechowywanie i archiwizację danych badawczych. Ważne jest bezpieczeństwo danych, ochrona przed nieautoryzowanym dostępem, wykorzystaniem, zmianą, ujawnieniem i zniszczeniem.
Dane można deponować w następujących typach repozytoriów:
- repozytoria dziedzinowe – gromadzą publikacje z konkretnych dyscyplin naukowych
- repozytoria instytucjonalne – przeznaczone dla pracowników danej jednostki naukowej
- repozytoria sieroce – udostępniają prace z różnych dyscyplin i instytucji, przeznaczone są dla naukowców, którzy nie maja możliwości deponowania prac w repozytorium instytucjonalnym.