Przejdź do treści

Słownik terminów

Poniżej przedstawiamy podstawowe pojęcia związane z danymi badawczymi.

Treść (rozbudowana)
Dane badawcze (Research Data)

To dane zebrane, zestawione, zaobserwowane podczas procesu badawczego, którego celem jest otrzymanie oryginalnych wyników. Informacje niezbędne do oceny rezultatów badań (mogą to być: dane liczbowe, dokumenty tekstowe, wyniki badań ankietowych, nagrania audio i wideo, fotografie, zawartości baz danych czy oprogramowanie), przy czym:

  • nie wszystkie dane badawcze zostają ujęte w ostatecznej publikacji
  • nie wszystkie dane badawcze zostają poddane analizie.
0
Otwarte Dane Badawcze (Open Research Data)

To dane udostępnione – każdy może swobodnie z nich korzystać (np. modyfikować, redystrybuować i upowszechniać) z poszanowaniem prawa własności twórców.

0
Wymagania agencji finansujących badania naukowe

Agencje finansujące badania naukowe określają swoje wymagania. Wymogi np. Komisji Europejskiej – Program Horizon 2020, Narodowego Centrum Nauki to:

  • otwarcie danych
  • udostępnienie danych w zakresie niezbędnym do oceny ustaleń zawartych w publikacjach – uprawomocnienie wyników badań
  • konieczność tworzenia planu zarządzania danymi (Data Management Plan)
  • deponowanie danych w repozytoriach.
0
Plan zarządzania danymi (Data Management Plan)

To dokument, zawierający opis czynności wykonywanych na każdym etapie pracy z danymi badawczymi: zaprezentowanie zasobu (format i typ plików, liczba danych), zasady pracy z danymi (uporządkowanie i opis materiałów, metodologie), sposoby ich udostępniania, ochrony, długoterminowego przechowywania, a także same dane. Udostępnione powinny być:

  • dane, które zostały zaprezentowane w publikacji
  • dane surowe, które zebrano w trakcie prac, ale nie poddano analizie
  • oprogramowanie niezbędne do analizy danych, jeśli jest wymagane do ich odczytu
  • metadane potrzebne do identyfikacji i opisu danych badawczych.

Plan zarządzania danymi musi też rozwiązywać wątpliwości etyczne i prawne, wskazać właściciela danych i możliwości ich rozpowszechniania.

Przykładowy kreator planów zarządzania danymi

0
Przygotowanie danych do udostępnienia

Przygotowanie danych do udostępnienia obejmuje:

  • selekcję danych – nie wszystkie dane trzeba udostępniać, należy:
    • wziąć pod uwagę wartość naukową zebranych dokumentów
    • sprawdzić, czy dane zawierają wszystkie parametry konieczne do odtworzenia eksperymentu
    • upewnić się, czy identyczne zbiory danych już nie istnieją w otwartym dostępie
    • zastanowić się, czy koszty przechowywania danych są adekwatne do ich wartości merytorycznej
  • usunięcie danych wrażliwych, ułatwiających identyfikację badanych osób poprzez:
    • anonimizację – przetworzenie danych osobowych, by nie można było przyporządkować informacji do możliwej do zidentyfikowania osoby
    • pseudonimizację – przekształcenie danych, by nie można ich było przypisać osobie, której te dane dotyczą, bez użycia dodatkowych informacji
  • wybór odpowiedniego formatu plików, który nie wymaga komercyjnego oprogramowania i wykorzystuje standardowe kodowanie (ASCII, UTF8).
0
Zasady dotyczące udostępniania danych

FAIR DATA

To międzynarodowe standardy dotyczące opisu, przechowywania i publikowania danych badawczych. Dane powinny być:

  • Findable – możliwe do odnalezienia przez ludzi i programy komputerowe (dzięki metadanym, unikalnemu identyfikatorowi np. DOI, indeksowaniu metadanych w ogólnodostępnych bazach)
  • Accessible – łatwo dostępne, bez konieczności użycia specjalnego oprogramowania
  • Interoperable – interoperacyjne, przygotowane w czytelnym formacie, powiązane odnośnikami z innymi zbiorami danych
  • Reusable – możliwe do ponownego użycia, czyli dokładnie opisane, zaopatrzone w licencję, informację o autorze czy miejscu powstania.

Deponowanie danych

Odbywa się w postaci zbiorów danych (datasetów) – zbiorów plików zawierających dane powiązane z jedną publikacją, projektem naukowym, bądź eksperymentem oraz ich opisem w postaci metadanych.

Opis danych – metadane

Opisują one zawartość zbioru, pochodzenie, stosowane metody badawcze, dzielą się na:

  • metadane opisowe – niezbędne do identyfikacji zbioru (np. tytuł, streszczenie, autor i słowa kluczowe)
  • metadane strukturalne – opisują zależności pomiędzy zbiorami oraz ich elementami w celu np. ułatwienia nawigacji
  • metadane administracyjne – informacje pomocne w zarządzaniu zasobem (np. sposób i data utworzenia zbioru, informacje dotyczące dostępu).

Metadane umożliwiają dostęp do danych badawczych, ich zrozumienie i dalsze przetwarzanie. Jeśli zbiór danych jest prawidłowo opisany, staje się lepiej widoczny, również dla programów komputerowych analizujących dane.

Standardy metadanych (wg Digital Curation Centre)

Otwieranie danych i dostęp

Dane można udostępniać na poniższych licencjach:

  • otwarte licencje (CC0, CC-BY)
  • projekt Open Data Commons, np. Public Domain Dedication and License (PDDL) – domena publiczna dla baz danych z nieograniczoną możliwością pobierania, udostępniania i modyfikowania baz danych
  • Open Data Commons Attribution License (ODC-By) – jedynym warunkiem kopiowania i modyfikowania danych jest uznanie autorstwa
  • Open Data Commons Open Database License (ODC-ODbL) to otwarta licencja  na kopiowanie, przetwarzanie oraz rozpowszechnianie bazy danych pod warunkiem uznania jej autorstwa oraz upowszechniania na takich samych warunkach
  • dozwolony użytek.

Należy pamiętać o tym, że aby udostępnić dane, trzeba mieć do nich odpowiednie prawa.

0
Repozytoria danych badawczych

Konieczna jest odpowiednia infrastruktura, zapewniająca udostępnianie, długoterminowe przechowywanie i archiwizację danych badawczych. Ważne jest bezpieczeństwo danych, ochrona przed nieautoryzowanym dostępem, wykorzystaniem, zmianą, ujawnieniem i zniszczeniem.

Dane można deponować w następujących typach repozytoriów:

  • repozytoria dziedzinowe – gromadzą publikacje z konkretnych dyscyplin naukowych 
  • repozytoria instytucjonalne – przeznaczone dla pracowników danej jednostki naukowej 
  • repozytoria sieroce – udostępniają prace z różnych dyscyplin i instytucji, przeznaczone są dla naukowców, którzy nie maja możliwości deponowania prac w repozytorium instytucjonalnym.
0