Seit einigen Jahren erfreuen sich die folgenden Themen zunehmender Beliebtheit das Konzept einer datengesteuerten Organisation. Die Erfahrungen vieler Unternehmen zeigen jedoch, dass die Umstellung einer Organisation auf einen datengesteuerten Standard nicht so einfach ist, wie es Schulungsslogans und Marketingmaterialien suggerieren.
In einem typischen Großunternehmen gibt es heute das Problem fehlender oder unzugänglicher Daten nicht mehr. Stattdessen haben wir es mit einem Übermaß an Daten zu tun, was oft zu:
- Schwierigkeiten beim Zugriff auf die richtigen Daten,
- ein Mangel an zuverlässigen Daten,
- inkonsistente Analysen,
- falsche oder verspätete Schlussfolgerungen.
In diesem Artikel werde ich die Hauptursachen für dieses Phänomen erörtern und auf häufige Probleme eingehen, mit denen ich in den letzten Jahren konfrontiert war. Zum Schluss werde ich Empfehlungen für diejenigen geben, die an der Datenerhebung und -analyse beteiligt sind. Es ist wichtig zu wissen, dass ich keine idealen Szenarien beschreibe, sondern Beispiele aus dem wirklichen Leben, die nicht immer in theoretische Rahmen, Standards oder Budgets passen.
Das folgende Material ist ein Beitrag zur laufenden Diskussion über die empfohlenen Richtungen für die Entwicklung von ETL-Systemen (Extract, Transform, Load) und die Datenanalyse. In künftigen Veröffentlichungen werde ich einen eher technischen Ansatz für das Thema bieten.
Inhaltsübersicht
- Ein Blick auf die Geschichte der Datenanalyse
- Wie ist das Data Lake-Konzept entstanden?
- Welche Kenntnisse muss ein Datenanalyst haben?
- Was ist notwendig, um verlässliche Analyseergebnisse zu erzielen?
- Zusammenfassung - Wie ertrinkt man nicht in einem Datensee?

Ein Blick auf die Geschichte der Datenanalyse
Etwas vereinfachend kann man davon ausgehen, dass die Geschichte der Datenanalysesysteme in Unternehmen in den 1980er Jahren mit die kanonischen Werke von Bill Inmondem Vater des Data-Warehouse-Konzepts. Inmon's Ansatz betonte:
- Speicherung von Daten in einem Geschäftsmodell, das auf die analytischen Bedürfnisse des Unternehmens zugeschnitten ist,
- die Unveränderlichkeit der gespeicherten Daten im Laufe der Zeit zu erhalten,
- sicherzustellen, dass nur korrekte, hochwertige und überprüfte Daten gespeichert werden,
- eine einzige Quelle der Wahrheit für alle analytischen Anforderungen.
Dieses Konzept funktionierte sehr gut für Organisationen mit klar definierten Bedürfnissen und Erwartungen, die in einem sich relativ langsam verändernden Geschäftsumfeld tätig waren.
Die Unzulänglichkeiten des ursprünglichen Konzepts von Bill Inmon, wie z. B.:
- einen langwierigen Entwicklungsprozess,
- ein komplizierter Ansatz zur Umsetzung von Veränderungen und Entwicklungen,
- hohe Wartungskosten,
wurde mit der erheblichen Beschleunigung der Veränderungen im Unternehmensumfeld durch den Übergang zu virtuellen Prozessen deutlich.
Wie das Data Lake-Konzept entstanden ist?
Der Bedarf der Unternehmen an einem "schnellen und billigen" Zugriff auf Daten führte zu neuen Ansätzen für die Datenspeicherung, einschließlich des Data Lake-Konzepts. Rohdaten, unterstützt durch Ad-hoc-Analysetools (z. B. Tableau, Power BI und andere), ermöglichen es Analysten, sofort nach der Erfassung mit den Daten zu arbeiten. Dies hat zur Folge, dass Analysten nicht mehr auf standardisierte und geprüfte Daten zugreifen, sondern auf das gesamte Spektrum von Daten und Analysen aus verschiedenen Quellen, die oft eine unbekannte Struktur aufweisen und deren Zuverlässigkeit nicht immer überprüft wurde.
Dies führt oft zu unerwarteten Ergebnissen. Ich werde nun einige Beispiele aus der Praxis nennen und die Gründe für die Ungereimtheiten erläutern.
Beispiel 1 – Analyse der Anzahl der Anmeldungen beim Internet-Banking-System an einem bestimmten Tag
- Google Analytics: 52,763
- Anwendungsprotokoll: 47,391
- Ursache der Diskrepanz: Der gleiche Metrikname "Anzahl der Anmeldungen" bedeutet nicht immer in allen Systemen das Gleiche. Im angegebenen Beispiel wurde der Begriff "Anzahl der Anmeldungen" fälschlicherweise verwendet, um ein Ereignis zu beschreiben, das die Besuche auf der Anmeldeseite umfasst, einschließlich erfolgreicher, fehlgeschlagener und abgebrochener Anmeldeversuche. In der zweiten Quelle wurde derselbe Begriff ausschließlich zum Zählen erfolgreicher Anmeldungen verwendet.
Beispiel 2 - Nichtstatistische Daten: Tägliche Anzahl der "internen Überweisungen"
- Die Datenwerte für einen bestimmten Datumsbereich wichen deutlich vom Durchschnitt für diese Kategorie am selben Wochentag ab.
- Ursache der Diskrepanz: ein unentdeckter Ausfall der Kommunikationskomponente, die für die Übertragung von Daten aus einem Zusatzsystem zuständig ist. Aufgrund der fehlenden Validierung innerhalb des ETL-Prozesses führte das Fehlen einer einzelnen Komponente (Attribut) nicht zu einem Fehler oder einer Warnung, sondern zu einem falschen Bericht - einige Vorgänge wurden fälschlicherweise einer anderen Kategorie zugeordnet.
Beispiel 3 - Nichtstatistische Daten: Tägliche Anzahl der Transaktionen an Geldautomaten
- Die Datenwerte für einen bestimmten Datumsbereich waren Null.
- Ursache der Diskrepanz: Die ursprüngliche Annahme war ein Geräteausfall und kein Betrieb. Das automatische Überwachungssystem konnte jedoch keine technischen Probleme feststellen. Eine physische Geräteinspektion war erforderlich, und der Techniker berichtete, dass der Bildschirm und die Tastatur des Geldautomaten mit Farbe besprüht worden waren, wodurch der Automat unzugänglich wurde.
Diese Beispiele verdeutlichen, wie wichtig es ist, dass Analysten der Qualität und Zuverlässigkeit von Analyseergebnissen und Berichten große Aufmerksamkeit schenken. Wenn man sich zu sehr auf Daten verlässt, kann dies zu falschen Schlussfolgerungen führen.
Welche Kenntnisse muss ein Datenanalyst haben?
Ein Datenanalyst muss ein solides Verständnis von:
- Datenquellen,
- die Bedeutung der Daten und die verwendeten Metriken,
- Datenerfassung und -verarbeitung sowie potenzielle ETL-Prozessprobleme,
- Datenabhängigkeiten, sowohl innerhalb eines einzelnen Systems als auch im Verhältnis zu anderen Systemen.

Was ist notwendig, um verlässliche Analyseergebnisse zu erzielen?
Um verlässliche Analyseergebnisse zu gewährleisten, ist es wichtig, dass:
- Grundsätze für die Validierung der Vollständigkeit und Konsistenz der Daten aufstellen,
- Überprüfung der ETL-Prozesse im Zusammenhang mit der Datenverarbeitung,
- die Analyse selbst zu validieren, einschließlich der Prüfung korrekter Datensätze und der Analyse aller abgelehnten Daten im Prozess.
Zusammenfassung - Wie ertrinkt man nicht in einem Datensee?
Der Zugang zu Daten ist zwar weit verbreitet, aber die Überfülle an Informationen führt zu Problemen hinsichtlich ihrer Qualität, Konsistenz und Zuverlässigkeit. Um falsche Schlussfolgerungen zu vermeiden, müssen in jeder Phase des Analyseprozesses robuste Validierungsmechanismen und Qualitätskontrollen eingeführt werden. Beispiele aus der Praxis zeigen, dass jede Datenanalyse ein tiefes Verständnis der Datenquellen und Verarbeitungsmethoden erfordert.