Data-first ETL · SQL-nativ

Versteh deine Daten.
Den Rest schreiben wir.

DI² generiert lesbare, wartbare und auditierbare ETL-Prozesse in reinem SQL - automatisch aus den Metadaten deines Quellsystems. Kein proprietärer Pipeline-Editor. Keine Black Box. Nur SQL, das dein Team versteht, reviewen und testen kann.

Demo anfragen Mehr erfahren

DI²Ansatz

ETL ist nicht eine Frage der Technologie.

Welche Plattform, welche Engine, welcher Cloud-Anbieter. Dabei ist die eigentliche Frage eine andere: verstehst du die Daten, mit denen du arbeitest?

Tool-first

Die Pipeline entsteht im UI einer proprietären Plattform. Logik liegt in Konnektoren, Transformationen werden per Drag&Drop zusammengeklickt, Code existiert nur als Export. Reviews, Tests und Auditierbarkeit bleiben auf der Strecke - und mit jedem Tool-Wechsel beginnt die Arbeit neu.

TalendInformaticaDatabricksMatillionAWS Glue

Data-first

Der Prozess entsteht aus den Metadaten des Quellsystems: Tabellen, Spalten, Datentypen, Beziehungen. Daraus wird reines SQL erzeugt - versioniert, review-fähig, testbar. Das Ergebnis läuft in jeder SQL-Engine deiner Wahl, nicht in unserem Lock-in.

PostgreSQLSnowflakeBigQueryDuckDBSQL Server

DI²Prinzipien

Lesbar. Wartbar. Auswertbar.

Ein ETL-Prozess ist kein Einmalprojekt. Er muss ein Jahr später noch verstanden, erweitert und überprüft werden können - auch von jemandem, der nicht dabei war.

Lesbar

Kein Custom-DSL, kein Drag&Drop-Artefakt. Reines SQL, das Data-Engineers und Analysten ohne Einarbeitung nachvollziehen können.

Wartbar

Jede Prozedur ist eine eigene, klar benannte SQL-Datei. Änderungen an einer Tabelle ziehen keinen UI-Klick-Marathon nach sich - sie sind ein Diff im Git-Repo.

Auswertbar

Drei Protokoll-Ebenen - vom Gesamtlauf bis zum vollständigen Stacktrace. Ausführungsdauer, Schritt-Typ, Tabelle, verarbeitete Zeilen: jeder Lauf ist in SQL-Tabellen belegbar.

DI²So funktioniert es

Von Metadaten zu Produktion - in fünf Schritten.

01
Quelle anbinden
Read-only-Zugriff auf das Schema des Quellsystems - Tabellen, Spalten, Typen, Keys.
02
Metadaten scannen
DI² liest information_schema und baut daraus ein vollständiges Modell der Quelle.
03
Metadaten anreichern
Du ergänzt, was das DBMS nicht weiß: zulässige Werte, Wertebereiche, Business und Alternate Keys, Historisierungsregeln. Fachwissen wird zu Metadaten - nicht zu Kommentaren im Code.
04
SQL generieren
Drei Stages: Extraktion, Historisierung, Transformation. Die ersten beiden werden vollständig automatisch aus den Metadaten erzeugt. Die Transformationslogik in die Zielstruktur - DWH oder OLTP - bleibt bewusst Handarbeit: DI² liefert das Gerüst, ihr schreibt die fachliche Logik.
05
Orchestrieren
Zwei Modi, ein Ergebnis: synchron direkt in SQL für einfache Ketten, asynchron über Python für parallele oder zeitgesteuerte Läufe.

DI²Datenqualität

Qualität ist kein Feature. Sie ist das Produkt.

Datenqualität entsteht nicht durch ein Dashboard am Ende. Sie entsteht, wenn jeder Schritt eines ETL-Prozesses belegbar, reproduzierbar und auswertbar ist - und wenn fachliche Regeln (zulässige Werte, Wertebereiche, Business Keys) als Metadaten im Modell leben, nicht als Kommentare im Code.

DI² protokolliert jeden Lauf auf drei Ebenen: vom Gesamtprozess bis zum vollständigen Stacktrace. Ausführungsdauer, Schritt-Typ, betroffene Tabelle, Anzahl verarbeiteter Datensätze - alles landet direkt in SQL-Tabellen. Reviewbar im Pull Request. Auswertbar per SELECT.

LVL 1

Prozess

Gesamtlauf: Start, Ende, Status, Dauer, Run-ID, Auslöser.

run_log

LVL 2

Schritt

Pro Prozedur: Typ (Extract / Historize / Transform), Zieltabelle, Zeilen gelesen & geschrieben, Dauer, Rückgabewert.

step_log

LVL 3

Detail & Stacktrace

Bei Fehlern: vollständiger SQL- und Prozeduraufruf-Stack, SQLSTATE, Meldung, Kontextvariablen - ohne Zugriff auf externe Logs.

error_log

Fehler werden erkannt, bevor sie propagieren.

Ein dynamischer Prüfprozess validiert sämtliche extrahierten Daten gegen deine fachlichen Regeln - als WHERE-Klauseln, die wie alle anderen Regeln als Metadaten hinterlegt sind. Verletzt ein Datensatz eine Regel, landet er in einer Fehler-Tabelle - les- und auswertbar wie jede andere Tabelle - und wird aus der weiteren Verarbeitung ausgeschlossen. Kein stilles Durchreichen. Keine Überraschungen im DWH.

Demo-Umgebung

Probier's mit echten Schemas.

Auf der DI²-Demo-Umgebung liegen sechs etablierte Sample-Datenbanken bereit - klassische Schulungs- und Test-Datensätze aus der PostgreSQL-, MSSQL- und MySQL-Welt. Realistische Daten statt Lorem-Ipsum, mit jsonb, geometry, Triggern und Stored Procedures als Generator-Test-Surface.

PostgreSQL

Pagila
DVD-Rental, jsonb · partitioned tables · FTS
PostGIS NYC
Geospatial - Neighborhoods, Subway, Census

Microsoft SQL Server

WideWorldImporters
B2B-Wholesaler, Geography · Temporal Tables
AdventureWorks 2022
Retail / HR / Production OLTP

MySQL

Sakila
DVD-Rental, Trigger · Views · Stored Procs
Natural Earth
Country / City weltweit, UTF-8-Diakritika

Lizenzen, Quellen und Attribution-Notices → /credits

Starte data-first. Nicht tool-first.

Wir schauen uns dein Quellsystem an - eine erste lauffähige Pipeline in PostgreSQL.

Demo anfragen Frage stellen

Versteh deine Daten.Den Rest schreiben wir.

ETL ist nicht eine Frage der Technologie.

✕Tool-first

✓Data-first

Lesbar. Wartbar. Auswertbar.

Lesbar

Wartbar

Auswertbar

Von Metadaten zu Produktion - in fünf Schritten.

Quelle anbinden

Metadaten scannen

Metadaten anreichern

SQL generieren

Orchestrieren

Qualität ist kein Feature. Sie ist das Produkt.

Prozess

Schritt

Detail & Stacktrace

Fehler werden erkannt, bevor sie propagieren.

Probier's mit echten Schemas.

Pagila

PostGIS NYC

WideWorldImporters

AdventureWorks 2022

Sakila

Natural Earth

Starte data-first. Nicht tool-first.

Versteh deine Daten.
Den Rest schreiben wir.

Tool-first

Data-first