Datenservices: Standards und Workflows

Vorbereitung der Datenübergabe (Pre-Ingest)

Die Publikation von Forschungsdaten bei GESIS muss von Datengeber*innen vorbereitet werden. Hierfür gilt es rechtliche, organisatorische und technische Punkte zu klären. Datengeber*innen müssen Rechte an den Daten halten, diese müssen ausreichend dokumentiert sein und sollten in sicherungsfähigen Formaten vorliegen.

Urheberrecht

Als Urheber von Daten und Dokumenten verfügen Sie über Rechte an ihren Forschungsergebnissen. Bei einer Archivierung der Ergebnisse werden dem Datenarchiv über einen Vertrag so genannte 'einfache Nutzungsrechte' übertragen. Die einfachen Nutzungsrechte umfassen u. a. das Recht Daten und Dokumente an Dritte weiterzureichen oder das Recht die Formate digitaler Objekte (Dateien, Tabellen etc.) zu Zwecken der langfristigen Sicherung zu ändern. Zur Übertragung von Nutzungsrechten sollte die Frage der Urheberschaft geklärt sein. So dürfen z.B. keine digitalisierten Bücher oder wissenschaftliche Publikationen Dritter archiviert werden.

Die vertraglichen Grundlagen eines Datenangebots finden Sie hier.

Datenschutz

Wenn Daten, die von Personen erhoben wurden, archiviert werden sollen, sind oft Fragen des Datenschutzes zu klären. Die Datenerhebung erfolgte in der Regel auf Basis einer informierten Einwilligung der Untersuchungspersonen (Informed Consent). Es können aber auch andere rechtliche Bedingungen wie spezielle Gesetze oder Verträge gegeben sein.

Fragen an Datengeber*innen sind u. a. die folgenden:

  • In welchem rechtlichen Rahmen wurden die Daten erhoben?
  • Wurden die Daten anonymisiert?
  • Unter welchen Bedingungen können die Daten angeboten werden?

Bei der Bearbeitung von Forschungsdaten für die Archivierung ist Folgendes wichtig:

  • Es bestehen keine rechtlichen Hindernisse für die Archivierung, wie etwa vertragliche Regelungen mit einem Auftraggeber oder andere rechtliche Einschränkungen.
  • Die Daten dürfen keine direkten Identifizierungsmerkmale wie Namen, Adressen, Telefonnummern, Autokennzeichen, Sozialversicherungsnummern o.ä. enthalten.
  • Die Daten müssen faktisch anonymisiert(*) sein. D.h., ein Personenbezug aus in den Daten enthaltenen Informationen kann nur mit unverhältnismäßig hohem Aufwand wiederhergestellt werden.
  • Bei Forschungsdaten, deren Anonymisierung auf der Ebene der Daten Schwierigkeiten bereitet, kann durch technische und organisatorische Maßnahmen der Schutz der Daten erhöht werden. Beispiele sind:

(*) Das Konzept der 'Anonymisierung' wurde mit der Datenschutz-Grundverordnung (DSGVO) vom 25. Mai 2018 und den in der Folge überarbeiteten Datenschutzgesetzen des Bundes (BDSG-neu) und der Länder überarbeitet. Rechtliche Grundlagen sind besonders, aber nicht ausschließlich, die Artikel 89 Abs.1 der DSGVO und § 27 Abs. 3 Satz 1 BDSG-neu. Im Kontext der Bundesrepublik Deutschland geht GESIS von einer faktischen Anonymisierung der Daten vor einer Archivierung aus. Das bedeutet, dass ein Personenbezug nur mit unverhältnismäßig hohem Aufwand wiederhergestellt werden kann. GESIS folgt damit der Position des RatSWD vom 16. Juli 2018.

Daten und Dokumente

Der Datengeber stellt ein Datentransferpaket (Submission Information Package, SIP) zusammen, das folgende Bestandteile enthalten sollte:

  • Maschinenlesbarer Datensatz
  • Methodenbericht (Handreiche Erstellung Methodenbericht (175 kB))
  • Erhebungsinstrument / Messinstrument (Original oder Kopie vorzugsweise in elektronischer Form)
  • Codeplan bei nicht aufbereiteten Daten
  • Vordruck für oder Information über das Einholen einer informierten Einwilligung

Materialien im PDF-Format müssen frei von Schutzmechanismen sein, da sie ansonsten nicht bearbeitet, z.B. in neuere Dateiformate migriert werden können.

Empfohlene Dateiformate

Im Hinblick auf den dauerhaften Erhalt von Interpretierbarkeit und Nutzbarkeit der Daten ist die Wahl geeigneter Dateiformate besonders wichtig. Ebenso wie Hardware ist Software einem konstanten Entwicklungsprozess unterworfen. Programme werden bspw. mit neuer Funktionalität ausgestattet oder für neue Betriebssysteme angepasst, was in beiden Fällen mit einer entsprechenden Veränderung des Dateiformats einhergehen kann. Alle digitalen Daten sind somit permanent durch Veränderungen in der Hard- und Softwareumgebung bedroht. Diese Risiken können u.a. durch die Wahl geeigneter Formate gesenkt werden.

Grundsätzlich sollten Datensätze so übergeben werden, dass sie mit einem der weit verbreiteten Statistikpakete (SPSS, Stata oder R) genutzt werden können. Dafür gibt es verschiedene Möglichkeiten:

  • Daten können in den proprietären Formaten der gängigen Statistikprogramme als sogenannte Systemfiles (bspw. SPSS System File) übergeben werden.
  • Daten können in textbasierten (Komma-, Tabulator- oder Spalten-getrennten) Formaten zusammen mit entsprechenden Setup- bzw. Syntax-Dateien zum Einlesen in die jeweiligen Statistikprogramme übergeben werden.
  • Akzeptiert werden auch Daten in software-spezifischen, portablen Dateiformaten.

Art der Daten

Bevorzugte Formate

Daten (Statistik-Formate)

  • Stata (.dta)
  • R (.rds; .rda)
  • Weit verbreitete (proprietäre) Formate von Statistikpaketen, wie z.B. SPSS (.sav), Stata (.dta)
  • Tabulator-, Komma- oder Spalten-getrennte Textdatei (“csv”) mit zusätzlicher Setup-Datei (setup, command oder syntax file für SPSS, Stata, SAS usw.) mit entsprechenden Datendefinitionen (Variablennamen u. –label, fehlenden Werten etc.). Alternativ können die Datendefinitionen auch als DDI-XML file übermittelt werden.

Dokumentation (Texte)

  • PDF/A-1, A-2, A-4 (*.pdf)
  • Text-Formate (ASCII, ANSI, etc.)

Bilder

  • Baseline TIFF Version 6 unkomprimiert (*.tif)

Art der Daten

Akzeptierte Formate

Daten (Statistik-Formate)

  • SAS Transport, SAS, SPSS Portable
  • OpenDocument-Tabellendokument (*.ods), MS Excel (*.xls, *.xlsx)
  • CSV-Formate ohne zusätzliche Datendefinitionsdateien (Setup, Syntax, Command file)
  • Column Binary-Format (column binary ist ein Standard um Daten als Abbilder von Lochkarten zu repräsentieren) oder Card-Image Format.

Dokumentation (Texte)

  • OpenDocument Text (*.odt)
  • PDF (*.pdf)
  • MS Word (*.doc, .docx)
  • RichTextFormat (*.rtf)
  • WordPerfect (*.wpd, *.cwp, *.vwp)
  • HTML (*.htm)

Bilder

  • JPEG 2000
  • JPEG, PNG, GIF, BMP
  • PDF/A-1, A-2, A-4, PDF (*.pdf)