20100708s SAS Datenqualität Regelbasiertes Profiling

 Home | News | Hefte | Mediadaten | Online-Artikel | Kommentare | Trends | Wir-ueber-uns | Tipps | Impressum | CeBIT 2012

 

Home
News
Trends
Hefte
Online-Artikel
Kommentare
Service-Angebote
Feedback
Abonnement
Wir-ueber-uns
Tipps
Impressum
Veranstaltungen


»manage it« als

E-Paper  5-6 2011
E-Paper  3-4 2011
E-Paper  1-2 2011
E-Paper  11-12 2010
E-Paper  9-10 2010

E-Paper  7-8 2010
E-Paper  5-6 2010
 




 

 


 




 


 


 

 

 

Datenqualität

Mit regelbasierten Profiling zum Geschäftserfolg

Die Datenqualität in den meisten Unternehmen lässt zu wünschen übrig. Das ist auch bei den Betroffenen kein Geheimnis. Deshalb investieren Unternehmen intensiv in die Verbesserung der Qualität ihrer Datenbasis – allerdings nicht immer erfolgreich. Viele gängige Lösungsansätze sind intransparent, unflexibel und ineffizient. Mehr Erfolg verspricht das sogenannte Profiling – ein Verfahren, mit dem sich die Datenqualität unternehmensweit laufend überprüfen und optimieren lässt.

 

D

as Päckchen an Herrn Claudia Shmitt in der Lindensrtasse % kommt an. Der Postbote gleicht gewisse Datenqualitätsmängel mit Erfahrung und gesundem Menschenverstand aus. Der Versender hinterlässt einen schlechten Eindruck – aber die Bestellung ist immerhin beim Kunden angekommen. Das eigentliche Problem mangelnder Datenqualität in Unternehmen liegt jedoch tiefer: Die Informationen aus der eigenen Datenbasis bilden die Grundlage für alle betriebswirtschaftlichen Entscheidungen. Und gerade, wenn Unternehmen nicht nur Reports über das zurückliegende Geschäft erstellen, sondern auch mit zukunftsgerichteten Prognosen Entscheidungsgrundlagen schaffen wollen, benötigen sie Daten, auf die sie sich zu einhundert Prozent verlassen können. Unvollständige, widersprüchliche, uneinheitliche oder sogar schlichtweg falsche Daten hingegen machen jede Analyse zunichte und können dafür sorgen, dass ganze Strategien völlig ins Leere laufen. Mit möglicherweise fatalen Folgen: Abwanderung von Kunden, Umsatzrückgang, Imageverlust und verpasste Marktchancen. Damit wird klar: Unternehmen müssen sich mit dem Thema auseinander setzten und effektive Lösungen finden, die das Problem langfristig und nachhaltig lösen.

Top-down und Insellösungen

So weit die Theorie. Die Praxis sieht in der Regel anders aus. Häufig sind es die IT-Abteilungen, die unternehmensweite Projekte zur Optimierung der Datenqualität anregen und durchführen. Sie entwickeln unternehmensweit gültige Konventionen und rollen diese nach dem Top-down-Prinzip auf alle Daten und sämtliche Abteilungen aus. Doch dieser Ansatz hat seine Tücken: Solche Projekte sind äußerst langwierig und intransparent – und sie führen zu Lösungen, denen aus Sicht der Fachabteilungen die nötige Flexibilität fehlt. Unterm Strich bleibt die Datenqualität mittel- und langfristig schlecht – das Problem wird nur auf eine anwenderferne Ebene verlagert.

In anderen Fällen versuchen die betroffenen Fachabteilungen vielfach, dem Problem auf eigene Faust mit separaten Insellösungen zu begegnen. Die so entwickelten Provisorien bringen jedoch höchstens kurzfristig Erfolg, verbessern auf lange Sicht jedoch nichts. Übliche Werkzeuge hierfür sind wenig geeignete Office-Tools wie Excel oder Word, mit deren Hilfe individuelle Regeln für Datenqualität erstellt werden. Das Ergebnis: eine Vielzahl von Einzellösungen, die nur ein kleiner Kreis von Mitarbeiter verstehen und bedienen kann.

Auch hier bleibt das Problem der Intransparenz. Diesmal betrifft es die IT-Abteilung, die nicht weiß, welche Regeln, welche Tools und welche Individualprogrammierungen zur Sicherung der Datenqualität gerade im Unternehmen existieren. Die Qualität der Daten lässt sich so nicht unternehmensweit verbessern. Lediglich in Einzelfällen werden Daten auch fachabteilungsübergreifend abgeglichen. Reports entsprechen so nicht der realen, sondern der individuell angepassten Datenbasis.

Effiziente Datenvalidierung mit Profiling

Damit wird deutlich: Datenqualität braucht klare, allgemein verständliche sowie transparente Regeln und Kriterien. Für die effektive Bereinigung von Daten und die nachhaltige Sicherung der Datenqualität müssen Fach- und IT-Abteilung deshalb Hand in Hand bei Regelerstellung und -verwaltung arbeiten. Hierbei leistet der sogenannte Profiling-Ansatz wertvolle Hilfe.

Data Profiling analysiert die vorhandenen Datenbestände beispielsweise in einem Data Warehouse und validiert die existierenden Metadaten zu neuen, verbesserten Metadaten. Zusätzlich werden bestehende Datenqualitätsprobleme bei den Datenintegrationsprozessen erfasst, die verursachenden Daten identifiziert und die Informationsqualität der analysierten Daten gemessen. Dies ist wichtig, weil Meta- oder Stammdaten zum Beispiel in der Regel nur ein einziges Mal erfasst und dann nicht mehr angetastet werden. Solange die wesentlichen Informationen stimmen – wenn es um Kundendaten geht, etwa die Kontoverbindung und Anschrift – fallen eventuelle Mängel meist nicht auf, und es scheint, als bestehe kein Grund, sie zu bereinigen. Denn für die operativen Prozesse sind sie ausreichend.

Für tief gehende Analysen und Prognosen genügt diese minimale Datenqualität allerdings nicht. Daher ist es von Vorteil, wenn bereits jeder, der eine Auswertung vornehmen möchte, die Güte der Daten überprüfen und Korrekturen vornehmen kann. Er nutzt das Profiling zur Suche nach Auffälligkeiten.

Regeln und einheitliche Formate

Beim Profiling kommen Regeln zur Anwendung, die entweder bereits in einer Datenintegrationslösung enthalten und vorinstalliert sind, oder die der Anwender selbst erstellt. Hier helfen Datenqualitätslösungen wie sie etwa von SAS, einem der weltweit größten Softwarehersteller, angeboten werden. Innerhalb der Datenintegrationsprozesse werden diese Regeln dann angewendet und ausgeführt. Spezifische Funktionen zerlegen oder standardisieren die Inhalte, generieren Matchcodes oder erkennen Muster. Damit kann zum Beispiel der Frage nach der Bonität eines Kunden auf den Grund gegangen werden. Hat der langjährige Bestandskunde die letzten Rechnungen nicht mehr bezahlt, weil er nicht mehr kann? Oder liegt es etwa daran, dass die Rechnungsadresse nicht (mehr) mit seinem Wohnsitz übereinstimmt, weil er umgezogen ist?

Je besser dieser Optimierungsprozess in die Datenintegrationsabläufe integriert ist, umso schneller können Fachbereiche eingreifen: Statt tagelang zu warten, bis die IT-Abteilung eine Programmänderung implementiert hat, kann eine zentralverantwortliche Stelle für die Regelerstellung und -verwaltung, die als Regelhüterin im Datenqualitätsprozess fungiert, binnen Stunden eine Korrektur vornehmen.

Standardisierung und Konsolidierung

Zudem sollten die einfache Standardisierung und Konsolidierung der Daten Beachtung finden: Für die meisten Sachverhalte gibt es eine Vielzahl von Darstellungsmöglichkeiten. Deswegen müssen Modelle definiert sein, die die verschiedenen Variationen in ein einheitliches Format überführen. Dies fängt schon bei der vielleicht trivial erscheinenden Geschlechterkodierung an: Ein System verwendet dafür Zahlen wie »0« und »1«, das nächste die Buchstaben »m« oder »w«. Ein drittes dagegen arbeitet mit Symbolen.

Die Herausforderung im Optimierungsprojekt liegt nun darin, alle diese Möglichkeiten für die Ablage im Data Warehouse in eine allgemeine, gültige Schreibweise umzuwandeln. Dies gilt auch für häufig abweichende abteilungsspezifische Definitionen von Begriffen. Die Buchhaltung bezeichnet etwa den Rechnungsempfänger als »Kunde«. Für den Vertrieb dagegen ist »Kunde« die Person, die schlussendlich die Ware erhält. Auch solche Terminologien sind anzupassen.

Flexibles System zur Datenbereinigung

Umso leistungsstärker die Funktion für das Erstellen von Validierungs- und Korrekturregeln in einer Software zur Verbesserung der Datenqualität sind, desto flexibler und durchgängiger lassen sich diese Regeln handhaben. Bei Datenqualität geht es meist um kundenbezogene Daten wie Adresse, Kontonummer oder Bestellmengen. Normalerweise existieren für diese Variablen vorgefertigte Regeln bezüglich ihrer Beschaffenheit, also Qualität (Metadaten). Ein flexibles System zur Datenbereinigung lässt aber auch weitere Regeln zu, die der Anwender selbst erstellt. Damit sind alle Mitarbeiter dazu angehalten, an der Verbesserung der Datenqualität mitzuarbeiten. Eine zentrale Stelle, die meist in der IT-Abteilung angesiedelt ist, sammelt, pflegt und verwaltet die Regeln und stellt sie dem ganzen Unternehmen zur Verfügung.

Das Profiling ist zusammengefasst ein Verfahren, das kostengünstig eine optimale Datenqualität sicherstellt und dabei die IT- mit den Fachabteilungen verknüpft. Die dadurch erreichte Datenkonsistenz wird durch den »Regelhüter« überwacht. Er sorgt dafür, dass alle Regeln eingehalten und angewandt werden und verhindert einen Wildwuchs an Definitionen und Vorgaben. Alle Abteilungen und Mitarbeiter profitieren so vom allgemein zugänglichen Wissen und beteiligen sich aktiv an der Wertschöpfung für das Unternehmen.

Michael Herrmann

____________________________________

Michael Herrmann, Business Consultant Data Quality, SAS Deutschland

 

Folgen Sie »manage it«

auf Google+


 


 


 

 

 
Copyright © 2003-2012  ap Verlag GmbH