ETL-Prozesse Und FHIR Im MIRACUM-Projekt

Transcription

ETL-Prozesse und FHIR im MIRACUM-ProjektDr. Detlef Kraska, Universitätsklinikum Erlangen,Medizinischen IK-Zentrum (MIK)09.09.2019GMDS Workshop 390

DatenintegrationszentrenRahmenbedingungen für die Architektur derDatenintegrationszentren in MIRACUM Unterschiedliche organisatorische Voraussetzungen an denStandorten Unterschiedliche datenschutzrechtliche Vorgaben Verteilte Entwicklung, getrieben durch Competence Center Einsatz von Open Source Integration mit Fokus auf ETL-Strecken Ziel-Repositories i2b2/tranSMART, OMOP (OHDSI) und XNAT1FKZ 01ZZ1801A

Phasenplanung2018 war es noch nicht möglich, die Architektur der MIRACUMDatenintegrationszentren komplett bis Ende 2021 zu definieren Entscheidung, mittels einer Phasenplanung immer nur dienächsten 6 bis 9 Monate feiner zu planen die Deliverables 2018 zielten vor allem darauf ab, die Arbeitender MI-I Konzeptphase an alle Standorten produktiv zu nehmen 2019 werden die Komponenten ausgeliefert, die die Standortebrauchen, um den Kerndatensatz und die Daten für die erstenUse Cases erschließen zu können inkl. der Integration einesPseudonymisierungsdienstes2FKZ 01ZZ1801A

2018: §21-Daten in 2 RepositoriesAuslieferung von 2 vmWare-Containern1. ETL-Job auf Basis Talend zum Einlesen der §21-Daten in i2b2,dort Harmonisierung und Pseudonymiserung2. ELT-Job auf Basis Talend zum Einlesen der §21-Daten in OMOP,dort Harmonisierung und Pseudonymiserung- Entwicklung an nur wenigen Standorten- Schnelles Ausrollen möglich3FKZ 01ZZ1801A

Grundsatzentscheidungen für 2019 Auslieferung von Docker-Containern statt komplettenvmWares Ein zentrales Gitlab als Versionsverwaltungssystem Einsatz von Continuous Integration (CI) zurSicherstellung der Softwarequalität Umstieg von Talend auf Pentaho als ETL-Tool Eine zentrale Docker Registry für die freigegebenenContainer Modularisierung der Architektur4FKZ 01ZZ1801A

Etablierung von Sicherheitszonen5FKZ 01ZZ1801A

Optionen für die Anbindung derTreuhandstelle6FKZ 01ZZ1801A

Optionen für die Anbindung derTreuhandstelle7FKZ 01ZZ1801A

Optionen für die Anbindung derTreuhandstelle8FKZ 01ZZ1801A

Das ZwischenformatDie Integration von Quellsystemen an 10 Standorten und dasFüllen von mind. 4 Ziel-Repositories macht den Einsatz eineszentralen Zwischenformats sinnvoll / notwendig Aus Sicht vom ETL-Design wäre eine zentrale Datenbank amgeeignetsten mit Staging-Bereich und Tabellen für dasZwischenformat Die Standorte füllen aus ihren Quellsystemen dasZwischenformat, die Competence Center für die Repositoriesleiten daraus die Daten ab Aber: wer definiert das Zwischenformat, woran orientiert mansich?9FKZ 01ZZ1801A

Auftritt: HL7 FHIRDie NSG AG Interop hat inzwischen den Einsatz vonFHIR für die Definition des Kerndatensatzes empfohlen In den nächsten Monaten entstehenImplementierungsleitfäden für administrativePatientendaten, Labor und Medikation Wenn wir FHIR als unser Zwischenformat nehmen,bekommen wir damit die Dokumentation „geschenkt“ Aber: wie sieht die technische Implementierung aus?10FKZ 01ZZ1801A

ETL mit FHIR / ETL vs. FHIR ETL funktioniert auf Datenbanken gut und kann dannauch große Datenmengen in vertretbarer Zeitverarbeiten Es gibt an den Standorten Daten, bei denen wirmehrere 100 Millionen Ressourcen vorliegen haben(Labor) FHIR war ursprünglich für die Verarbeitung von Dateneinzelner Patienten gedacht, das skaliert über dieklassischen REST-Schnittstellen nicht gut11FKZ 01ZZ1801A

ETL mit FHIR / ETL vs. FHIRAlternativen ETL mit einem Zwischenformat in Form von relationalenTabellen, die sich an den FHIR-Ressourcen orientieren ETL, das FHIR-Ressourcen in JSON in relationalen Tabellen alsZwischenformat ablegt1 ETL, das mittels FHIR Bundle oder FHIR Bulk ein FHIR Repositoryals „Zwischenformat“ nutzt- Das alles in den Varianten „komplette Beladung“ oder „DeltaUpdates“112Das ist das Prinzip von fhirbase, s. https://www.health-samurai.io/fhirbaseFKZ 01ZZ1801A

Arbeiten am aktuellen Release13FKZ 01ZZ1801A

Arbeiten am aktuellen ReleaseIntegriert in die Umgebung ist das MIRACUM DQA-Tool in den Varianten füri2b2 und OMOP, näheres hierzu in der VeranstaltungVS 13: Datenintegration, Datenmodelle & DatennutzungMI 11.09.2019, 13:00 – 14:30 Uhr, Raum 189, Emil-Figge-Str. 44“Moving Towards an EHR Data Quality Framework: The MIRACUM Approach“Kapsner et. al.„Erweiterung des MIRACUM Datenqualitäts-Frameworks für das OMOP Datenmodell“Bathelt et. al.14FKZ 01ZZ1801A

Vielen Dank!Kontakt: detlef.kraska@uk-erlangen.de15FKZ 01ZZ1801A

Umstieg von Talend auf Pentaho als ETL-Tool Eine zentrale Docker Registry für die freigegebenen Container Modularisierung der Architektur FKZ 01ZZ1801A