Wie geht man im Datenmanagement mit nicht vorhandenen Werten um?

Eine Antwort

+1 Punkt
 
Beste Antwort

Der Datenbänkler bildet nicht-vorhandene Werte häufig schlicht mit null ab.

Den Methodiker interessiert jedoch auch warum ein Wert nicht vorhanden ist.

Ist zum Beispiel

(a) eine geschlechtsspezifische Frage "nicht zutreffend" oder ist
(b) ein Wert nicht vorhanden, weil ein Proband eine zutreffende Frage
     nicht beantwortet hat oder wurde
(c) eine Frage im Behandlungskontext aus Zeitgründen gar nicht gestellt?

Nur im zweiten und dritten Fall würde man von sogenannten "echten Missings"
sprechen. Bei der Interpretation von Daten im Rahmen der Auswertung können
solche Unterscheidungen wertvolle Hinweise bieten.

Die Menge der anwendbaren unterschiedliche Kategorien ist abhängig vom konkreten
Erhebungsprozess (Selbstausfüller papierbasiert / elektronisch, Interview, Messgerät, usw.).

Eine gute Orientierungshilfe bieten die Null Flavors des HL7-Standards oder die inhaltlich
ähnlichen Null Values in OpenClinica, die beide noch deutlich mehr Varianten als als das obige
Beispiel anbieten.

Wie diese Kategorien kodiert, also technisch abgebildet werden, kann pro eingesetztem
System dennoch abweichen. Erzwingen die eingesetzten Datenstrukturen beispielsweise
einen gewissen Wertebereich, müssen kodierte null values von validen Werten eindeutig
unterscheidbar sein und die verschiedenen Bedeutungen sollten in einem Data Dictionary
festgehalten werden.

Beantwortet 19, Mär 2015 von Jens Piegsa
Bearbeitet 25, Sep 2015 von Jens Piegsa

Institut für Community Medicine · Universitätsmedizin Greifswald

...