Welche Tools für ETL gibt es, die ich in der Studie verwenden kann?

+2 Punkte
2,124 Aufrufe
Sollen die in der Studie erhobenen Daten durch Daten aus anderen Quellen angereichert werden (z.B. soziodemografische Daten, Diagnoseschlüssel, Medikamentenlisten etc.) so ergibt sich die Notwendigkeit der Aufbereitung und Transformation dieser Daten. Welche kommerziellen oder Open-Source-Tools gibt es für die Integration fremder Datenquellen?
Gefragt 12, Mär 2014 in Erschließung von Datenquellen von richters

Eine Antwort

+2 Punkte
 
Beste Antwort

Es gibt viele Produkte, die sich das Zauberwort "DataIntegration" auf die Fahne geschrieben haben. Hier ein paar der Vertreter:

  • apatar (Open-Source)
  • CloverETL (Commercial)
  • Oracle Data Integrator (Commercial)
  • Pentaho Kettle (Open-Source)
  • QlikView Expressor (Commercial)
  • snaplogic (Commercial)
  • Talend OpenStudio for Data-Integration (Open-Source)
  • Zynk (Commercial)


Da ich bisher nur mit den beiden Open-Source-Produkten Pentaho und Talend zu tun hatte, kann ich auch nur für diese beiden ein Empfehlung geben.

Wie die meisten anderen Tools sicherlich auch, beherschen diese beiden verschiedenste Schnittstellen (Datenbanken, Dateisysteme, Netzwerke, uvm.) und Formate (CSV, XML, JSON oder auch Excel uvm.), um Daten zu Laden oder wieder Abzulegen. Genauso bleiben auch bei der Art der Datentransformation (filtern, anreichern, verschmelzen, uvm.) keine Wünsche offen.


Die Unterschiede liegen im Detail. Talend besitzt mehr Schnittstellen, legt besonderen Augenmerk auf die Metadaten und kann die Projekte als eine jar-Datei exportieren lassen, um sie dann in einer JVM starten zu können.

Pentaho hingegen ist benutzerfreundlicher/intuitiver als Talend und für Anfänger leichter zu verstehen. Dafür braucht es aber die Kettle-Laufzeitumgebung um die Transformationen ausführen zu lassen. Auch bei der Geschwindigkeit unterliegt Pentaho den Talend. Positiv zu erwähnen wäre aber, das sich die Projekte unter Pentaho neben den Dateisystem auch in einer Datenbank ablegen lassen.

Letztlich muss man selbst entscheiden, welches Produkt für das aktuellen Problem am besten geeignet wäre. Genauso ist zu überlegen, wenn schon ein ETL-Tool eingesetzt wird, ob sich dann damit auch weitere Unternehmensprozesse abbilden lassen.

Beantwortet 30, Jul 2014 von schuldtr
ausgewählt 30, Jul 2014 von bialkem

Institut für Community Medicine · Universitätsmedizin Greifswald

...