20100304j Mayato Data Mining Studie 2010

 Home | News | Hefte | Mediadaten | Online-Artikel | Kommentare | Trends | Wir-ueber-uns | Tipps | Impressum | CeBIT 2012

 

Home
News
Trends
Hefte
Online-Artikel
Kommentare
Service-Angebote
Feedback
Abonnement
Wir-ueber-uns
Tipps
Impressum
Veranstaltungen


»manage it« als

E-Paper  5-6 2011
E-Paper  3-4 2011
E-Paper  1-2 2011
E-Paper  11-12 2010
E-Paper  9-10 2010

E-Paper  7-8 2010
E-Paper  5-6 2010
 




 

 


 




 


 


 

 

 

Große Unterschiede bei Funktionsumfang, Laufzeit und Ergonomie

Licht im Data-Mining-Dschungel

Data-Mining-Analysen gehören bereits in vielen Unternehmen zum Tagesgeschäft. Mindestens genauso vielfältig wie die Einsatzmöglichkeiten sind jedoch die Data-Mining-Tools und deren Funktionalitäten, Bedienkonzepte und Analyseverfahren. Welches Werkzeug sich für welche Anwenderbedürfnisse am besten eignet, klärt die aktuelle Data Mining Studie 2010 des BI-Analysten- und Beratungshauses Mayato.

 

B

ereits seit einiger Zeit lässt sich beobachten, dass in vielen Bereichen der Einsatz von Data-Mining-Analysen stark zunimmt. Immer mehr Unternehmen haben erkannt, dass sich dadurch vielfach bereits kurz- und mittelfristig ein Wettbewerbsvorteil erzielen lässt – eine willkommene Chance, betrachtet man die angespannte Wettbewerbssituation in zahlreichen Branchen.

Der gewinnbringende Einsatz von Data Mining lässt sich daher am ehesten im Marketing & Vertrieb begründen: Denn die Unternehmen müssen größte Anstrengungen darauf verwenden, neue Kunden zu finden, bestehende Kundenbeziehungen zu festigen sowie abgewanderte, aber profitable Kunden zurückzugewinnen. Die Kunden erweisen sich als der wesentliche »Flaschenhals« und stehen daher berechtigterweise im Mittelpunkt des unternehmerischen Handelns. Für dieses Management der Kundenbeziehungen ist eine kontinuierliche Versorgung mit Informationen und Wissen elementare Voraussetzung, dass durch die Ergebnisse von Data-Mining-Analysen erzeugt wird.

Besonders das Cross- und Upselling hat sich in letzter Zeit stetig zum aktuell wichtigsten Data-Mining-Anwendungsbereich entwickelt: Kaum noch ein (Web-)Versandhändler kommt ohne Empfehlungen der Art »Kunden, die dieses Produkt gekauft haben, kauften auch:…« oder »Was kaufen Kunden, nachdem Sie diesen Artikel angesehen haben?« aus. Die Erfolgsquote dieser zusätzlichen Produktangebote kann durch Data-Mining-Analysen des Verbundkaufverhaltens (Assoziations- und Sequenzanalyse) stark verbessert werden, was nicht nur (kurzfristig) den Umsatz erhöht, sondern meist auch (langfristig) den Kundenwert steigert.

Diese Erkenntnisse sind auch in anderen Branchen wie etwa bei Finanzdienstleistern und Versicherungen von Nutzen: Sie helfen, Direktmarketingaktionen zielgenauer umzusetzen.

Die Data-Mining-Produktvielfalt

Sind der grundsätzliche Nutzen und die konkreten Einsatzmöglichkeiten von Data Mining erst einmal geklärt, fällt die Auswahlentscheidung bedeutend leichter. Denn Verbundkaufanalysen erfordern andere Schwerpunkte als Prognosemodelle im Marketing oder Zeitreihenanalysen bei einer Versicherung.

Bereits die Grundtypen an Analysewerkzeugen sind vielfältig und deren Vertreter nicht für jedes Einsatzgebiet passend. Um die Auswahl zu erleichtern, zeigt Abb. 1 einen Überblick über die wichtigsten Tools: Die klassischen Data-Mining-Suiten (z. B. von SAS, SPSS oder StatSoft) mit ihrem umfassenden Angebot an Datenvorverarbeitungsfunktionen und Data-Mining-Verfahren stellen die komplexesten Vertreter dar; diese werden inzwischen auch in der Open-Source-Variante angeboten.

Daneben gibt es die schlankeren Data-Mining-Werkzeuge mit reduzierter Funktionalität: Diese sind in der Regel auf bestimmte Anwendungsgebiete (z. B. Controlling) oder Analysefälle (z. B. Prognose- und Klassifizierungsaufgaben) spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt die softwaretechnische Umsetzung des Self-Acting Data Mining ein – dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus und eignet sich daher insbesondere für Einsteiger.

Weiterhin haben zahlreiche Datenbank- und BI-Anbieter wie SAP, Oracle oder Microsoft in manchen Fällen recht umfangreiche Data-Mining-Funktionen integriert.

 

Abbildung 1:Taxonomie aktueller Data-Mining-Lösungen

 

 

Mittelstandstaugliche Preismodelle

Es lohnt sich, die Produktentscheidung gut zu überdenken: Je nach Funktionsumfang und Nutzerzahl liegt eine Client-Server-Lizenz typischerweise im mittleren sechsstelligen Eurobereich, zum Teil auch deutlich darüber. Die jährlichen Wartungskosten können zusätzlich noch ebenfalls Kosten im sechsstelligen Eurobereich verursachen.

Es geht aber auch günstiger: Spezialisierte Data-Mining-Werkzeuge sind bereits für unter 10.000 Euro zu haben. Weiterhin besteht bei vielen Anbietern auch die Möglichkeit, nur einzelne, wirklich benötigte Komponenten separat zu erwerben, was den Preis oftmals deutlich reduziert. Aber auch mächtige Data-Mining-Suiten können z. B. im Falle des Statistica Data Miner für moderate 20.000 Euro für die lokale Einzelplatzlizenz erworben werden – bei vollem Funktionsumfang. Für Open-Source-Lösungen entfällt der Anschaffungspreis; hier sind maximal jährliche Supportgebühren im vierstelligen Eurobereich zu zahlen.

Typische Auswahlkriterien für Data-Mining-Software

Der typische Anwender stellt dafür mittlerweile hohe Ansprüche an moderne Data-Mining-Tools: Zum einen wird der Umgang mit großen und sehr großen Datenmengen immer wichtiger, zum anderen soll die Bedienung auch für Fachabteilungsnutzer ohne lange Einarbeitungszeiten möglich sein. Weiterhin stehen eine hohe Stabilität, die Automatisierung von Standardaufgaben sowie die Qualität und Interpretierbarkeit der Ergebnisse ganz oben auf der Wunschliste.

Studienumfang

Der Schwerpunkt der aktuellen Data-Mining-Studie 2010 liegt in der Analyse von Cross- und Upselling-Potenzialen mittels Assoziations- und Sequenzanalysen: Dazu mussten folgende fünf Data-Mining-Tools und -suiten ein umfangreiches Testszenario absolvieren, in dessen Verlauf sie anhand eines 1,8 Millionen Zeilen großen Testdatensatzes ausführlich auf ihre Praxistauglichkeit geprüft wurden:

·                     SAS Enterprise Miner 6.1

·                     Statsoft Statistica Data Miner 9

·                     Knime 2.0.3

·                     Kxen Analytic Framework 5.1.1

·                     SAP Netweaver 7.0 Data Mining Workbench.

Anhand einer Fallstudie wurde der gesamte Data-Mining-Prozess durchlaufen – von der Datenvorverarbeitung über die Datenexploration bis hin zur (grafischen) Darstellung und Interpretation der Ergebnisse. Bewertet wurden u.a. Bedienung, Stabilität, Systemverhalten bei großen Datenmengen, Dokumentation und die Gesamteffizienz des Analyseprozesses, in die Kriterien wie Geschwindigkeit, Automatisierungsgrad und Ergebnisqualität eingehen. Die Ausführungsgeschwindigkeit wurde mit einer Vielzahl unterschiedlicher Parametereinstellungen gemessen und dokumentiert. Zusätzlich zum umfangreichen Praxistest wurde für jedes getestete Werkzeug eine detaillierte Funktionsübersicht rund um die Assoziations- und Sequenzanalyse erstellt.

Testergebnisse

Der Funktionsumfang und die Laufzeit der Verfahren boten im Praxistest die größten Überraschungen.

Zahlreiche, mitunter gravierende Einschränkungen in der Funktionalität sind aus den Produktbeschreibungen mancher Hersteller gar nicht oder nur sehr mühsam herauszulesen. SAP BW und Knime stellen beispielsweise keine Sequenzanalyse zur Verfügung, sodass etwa der zeitliche Abstand zwischen Kauftransaktionen nicht ausgewertet werden kann. Viele typische analytische Anwendungsszenarien im Umfeld des Cross- und Upselling, aber auch im Risikomanagement oder in der Betrugserkennung bei Banken und Versicherungen lassen sich somit überhaupt nicht durchführen. Auch die zum Teil gravierenden Unterschiede in der Laufzeit können in der Praxis ein entscheidender Faktor sein – gerade bei Assoziationsanalysen, die typischerweise mehrere Millionen Transaktionen in kurzer Zeit analysieren müssen.

Die Bedienung geht hingegen dank grafischer Benutzeroberflächen grundsätzlich bei allen Testkandidaten leicht von der Hand. Dennoch erfordern insbesondere die mächtigen Data-Mining-Suiten im Vergleich zu spezialisierten Werkzeugen nicht nur einen erhöhten Einarbeitungsaufwand, sondern auch fundiertes Hintergrundwissen. Statsoft und Kxen kommen dem Gelegenheitsanwender entgegen, indem sie z. B. Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.

Auch die Ergebnisauswertung kann beispielsweise durch eine durchdachte und übersichtliche grafische Darstellung erheblich vereinfacht werden. An dieser Stelle bieten etwa das SAP BW und Knime nur eine rudimentäre Unterstützung – hier ist der Anwender bei großen Datenmengen mit der Interpretation nicht sortierbarer Standardlisten, die mehrere Hundert Assoziationsregeln enthalten, deutlich überfordert.

Dass es auch komfortabler geht, zeigen der SAS Enterprise Miner und der Statistica Data Miner. Sie punkten beide mit beeindruckendem Funktionsumfang, einer hohen Ausführungsgeschwindigkeit und sicherem Umgang mit großen Datenmengen. Insbesondere die von beiden Tools gebotenen Optionen zur grafischen Aufbereitung und Exploration der Assoziationsregeln sind im Testfeld eine Klasse für sich. Hier kann Kxen nicht ganz mithalten, überzeugt aber insgesamt vor allem mit einsteigerfreundlicher Bedienung und dem selbstentwickelten, unerreicht schnellen Assoziationsalgorithmus.

Stetig verbesserter Reifegrad von Data-Mining-Tools

»The fruits of knowledge growing on the tree of data are not easy to pick«. Diese Einschätzung des Data-Mining-Experten William Frawley aus dem Jahr 1991 hat im Grundsatz auch heute noch seine Berechtigung. Dennoch hat sich der Reifegrad von Data-Mining-Lösungen deutlich erhöht. Neue Ansätze wie Self-Acting Data Mining ermöglichen die einfache Nutzung von Analyseergebnissen und den Einsatz für nahezu jede (unternehmens-)spezifische Aufgabe. Gerade Cross-Selling-Analysen eignen sich aufgrund der geringen Datenanforderungen und der vielfältigen Anwendungsmöglichkeiten besonders gut als Einstieg in die explorative Datenanalyse.

Peter Neckel

____________________________________

Peter Neckel, Analyst und Leiter der Studie beim BI-Analysten- und Beratungshaus Mayato

 

____________________________________

Die vollständige Studie kann ab sofort in der Druckversion oder als PDF zum Preis von 299,- Euro zzgl. MwSt. (99.- Euro zzgl. MwSt. für Studenten und Hochschulen) erworben werden.

 

Folgen Sie »manage it«

auf Google+


 


 


 

 

 
Copyright © 2003-2012  ap Verlag GmbH