Data Architecture
Das strukturelle Modell, das bestimmt wie Daten fließen – und damit, welche AI-Anwendungsfälle technisch überhaupt realisierbar sind.
Definition
Eine Data Architecture ist das strukturelle Modell, das festlegt, wie Daten in einem Unternehmen erfasst, gespeichert, integriert, bereitgestellt und konsumiert werden. Zentrale Komponenten im AI-Kontext sind Data Warehouse, Data Lake, Customer Data Platform (CDP) und Feature Stores.
Eine tragfähige Data Architecture ist Voraussetzung für die Skalierung von AI über Pilotprojekte hinaus. Ohne strukturierte Datenpipelines und klare Datenzuständigkeiten bleibt jedes AI-Modell ein Inselprojekt – nicht reproduzierbar, nicht skalierbar, nicht betreibbar.
Zentrale Komponenten im AI-Kontext
- Data Warehouse: Strukturiertes Repository für historische, aufbereitete Geschäftsdaten – Grundlage für Reporting und klassische ML-Modelle
- Data Lake: Speicherung roher, unstrukturierter Daten in großem Maßstab – Voraussetzung für Deep Learning und LLM-Finetuning
- Customer Data Platform (CDP): Vereinheitlichte Kundensicht über alle Kanäle und Touchpoints – notwendig für personalisierte AI-Anwendungen
- Feature Store: Verwaltung und Wiederverwendung von ML-Features – reduziert Redundanz bei der Modellentwicklung erheblich
- Data Pipelines: Automatisierte Datentransformation und -bereitstellung – Herzstück des AI Operating Models
Abgrenzung
Data Architecture beschreibt die Infrastruktur – das "Wie" des Datenflusses. Data Readiness bewertet die Qualität der Daten, die durch diese Infrastruktur fließen – das "Was". Eine moderne Data Architecture mit schlechten Daten löst kein Data-Readiness-Problem. Hohe Data Readiness ohne skalierbare Architektur blockiert die AI Skalierung.
Praxisbeispiel
Ein Multi-Channel-Händler konsolidiert Shop-, CRM- und ERP-Daten über eine Customer Data Platform zu einer einheitlichen Kundensicht. Vorher: Daten in vier Silos, kein übergreifendes Kundenprofil, Personalisierung technisch unmöglich.
Erst diese Architekturentscheidung macht Personalisierung in Echtzeit über alle Kanäle technisch möglich – und damit den geplanten AI-gestützten Recommendation Use Case. Die CDP-Einführung dauerte sechs Monate; die darauf aufbauende AI-Anwendung nur acht Wochen.