Datenbereinigung im Stammdatenmanagement

Hohe Datenqualität ist ein MUSS für Unternehmen, um vor dem Hintergrund der heutigen Datenflut und Datenorientierung erfolgreich zu wirtschaften. Die Fähigkeit zur Bereinigung des Datenbestands ist hierfür eine notwendige Kernkompetenz.

Was zeichnet den Prozess der Datenbereinigung aus?

Als Datenbereinigung oder auch "Data Cleansing" wird ein Vorgehen im Rahmen des Stammdatenmanagements von Unternehmen bezeichnet. Es lässt sich weitestgehend dem Bereich der Data Governance und Stammdatenpflege zuordnen. Konkret beschreibt der Prozess die Fehlerbeseitigung, Berichtigung und/oder das Entfernen unsauberer Stammdaten einer Datenbank. Das Ziel ist die Erhaltung und Erhöhung der Datenqualität (engl. data quality).

Unsaubere Stammdaten o.a. "Dirty Data" bezeichnen fehlerhafte, ungenaue, falsch formatierte, inkonsistente, irrelevante oder doppelte Datensätze (Dubletten). In der Regel setzt eine Datenbereinigung das Vorhandensein von Informationen über den Zustand der Unternehmensdaten voraus. Die Ergebnisse einer Datenanalyse im Vorfeld geben die entsprechende Basis vor. Häufig werden hier unter anderem Tools aus dem Bereich Big Data und Business Intelligence (BI) eingesetzt.

Warum ist eine Datenbereinigung notwendig?

Die Wichtigkeit der Datenqualität ist bereits tief im Bewusstsein vieler Unternehmen verankert. Dennoch wird die Pflege der internen Datenbasis häufig noch sträflich vernachlässigt, obwohl dies langfristig fatale Folgen birgt. Zumeist schieben Betroffene einen Mangel an Zeit, Personal und finanziellen Ressourcen vor. Dabei ist heutzutage beinahe jeder Betrieb in der Lage, entsprechende Software-Lösungen günstig zu beziehen.

Weiterhin ist die Datenbereinigung ein wesentlicher Bestandteil des Datenqualitätsmanagements. Dies schließt die Bereinigung von Altsystemen, Data Cleansing im Zusammenhang von Projekten der Datenmigration oder von CRM- und ERP-Systemen mit ein. Im Prozess der Beseitigung unsauberer Stammdaten orientiert sich das Management an den Kriterien der Datenqualität:

  • Korrektheit: Daten bilden Realität ab
  • Aktualität: Daten bilden aktuelle Realität ab
  • Zuverlässigkeit: nachvollziehbare Erhebung
  • Konsistenz: Daten frei von Widersprüchen
  • Redundanzfreiheit: keine doppelten Datensätze
  • Genauigkeit: geforderte Exaktheit erfüllt
  • Vollständigkeit: Daten liegen lückenlos vor
  • Einheitlichkeit: einheitliche Struktur des Datenbestands
  • Eindeutigkeit: eindeutige Interpretierbarkeit
  • Relevanz: Daten erfüllen geforderten Bedarf an Informationen
  • Zugänglichkeit: jeder Bereich eines Unternehmens hat Zugriff

Dabei ist es nicht notwendig, alle Kriterien als Maßstab anzulegen. Es sollte im Vorfeld eine Auswahl besonders relevanter Punkte in Abhängigkeit der Unternehmenssituation und analytischen Zielstellung festgelegt werden.

Was sind die Vorteile einer Datenbereinigung?

Die Datenbereinigung wird in Systemen hauptsächlich automatisch unter Zuhilfenahme spezifischer Software durchgeführt. Im Gegensatz zu einer manuellen Bearbeitung ergibt sich so eine enorme Zeit- und Aufwandsersparnis für Mitarbeiter des Datenmanagements. Sie stellen lediglich den Rahmen im Sinne definierter Anforderungen auf, kontrollieren und steuern den Ablauf und greifen bei Problemen ins System ein. Langfristig schont ein automatisches Bereinigen so die betrieblichen Ressourcen und reduziert Kosten aufgrund kaum notwendiger Nachbearbeitung.

Zudem hat die Datenbereinigung enorme Auswirkungen auf die Datenqualität. Demzufolge gelten alle Vorteile einer Qualitätserhöhung auch für einen erfolgreich durchgeführten Bereinigungsprozess. So steigt grundsätzlich die Produktivität und Performance von Geschäftsprozessen mit hochqualitativer Datengrundlage. Alle integrierten Systeme werden topaktuell gehalten und arbeiten konsistent und zuverlässig. Zudem sind strategische Entscheidungen der Geschäftsführung von der Qualität der Stammdaten abhängig. So kann eine unzureichend durchgeführte Bereinigung im schlimmsten Fall zu Fehlentscheidungen und nachhaltig zu gewaltigen Problemen führen. Ein wohldurchdachtes, korrekt implementiertes Konzept beugt derartige Probleme entsprechend vor.

Datenbereinigung Stammdaten – ein Leitfaden von Dun & Bradstreet

Grundsätzlich besteht der Vorgang der Datenbereinigung aus mehreren Einzelschritten. Je nach Anforderung an die Datenbasis muss der Vorgang sogar mehrmals durchlaufen werden. So stellt die Umsetzung häufig eine kontinuierliche Management-Aktivität dar.

Wir von Dun & Bradstreet gehen bei der Bereinigung von Stammdaten stets in den drei gleichen Schritten vor. Zu Beginn gleichen wir die vom Kunden angelieferten Daten mit denen unseres eigenen Datenuniversums ab. Aus diesem Abgleich entstehen drei mögliche Resultate:

  1. Perfect Matches - der Datensatz wurde eindeutig identifiziert
  2. Candidates - der Datensatz wurde teilweise identifiziert und benötigt eine manuelle Entscheidung über das weitere Verfahren durch einen Mitarbeiter
  3. No Matches - der Datensatz wurde nicht identifiziert und fällt aus der Datenbank heraus

Neben Informationen zu allen Schweizer Unternehmen, verfügt Dun & Bradstreet in der Datenbank von Dun & Bradstreet über Informationen von mehr als hundert Millionen internationalen Unternehmen. Zu Beginn des Abgleichs sind vier Datenpakete eines Betriebs für die maschinelle Durchführung notwendig: Name, Straße u. Hausnummer, PLZ und Ort. Im Anschluss der Auswertung der Matchings und somit der Bereinigung werden relevante Daten angereichert. So wird die Datenqualität verbessert und mindestens auf einem konstant hohen Niveau gehalten.