20090506c KXEN Textanalyse und Data Mining

 Home | News | Hefte | Mediadaten | Online-Artikel | Kommentare | Trends | Wir-ueber-uns | Tipps | Impressum | CeBIT 2012

 

Home
News
Trends
Hefte
Online-Artikel
Kommentare
Service-Angebote
Feedback
Abonnement
Wir-ueber-uns
Tipps
Impressum
Veranstaltungen


»manage it« als

E-Paper  5-6 2011
E-Paper  3-4 2011
E-Paper  1-2 2011
E-Paper  11-12 2010
E-Paper  9-10 2010

E-Paper  7-8 2010
E-Paper  5-6 2010
 




 

 


 




 


 


 

 

 

Integration von Textanalyse in Data Mining

Probleme und Chancen vorhersagen

Immer mehr Daten kommen heute aus Kundengesprächen, E-Mails, Umfragen oder Web-Blogs. Bei prädiktiven, vorausschauenden Datenanalysen werden diese kundenrelevanten Informationen jedoch kaum einbezogen, denn Data Mining arbeitet auf der Basis strukturierter Daten. In einem integrierten Ansatz hat der Hersteller KXEN Text Mining mit seiner Data-Mining-Plattform verbunden, um die Qualität der Modelle zu erhöhen.

 

T

extdaten liegen meist in unstrukturierter oder schwach strukturierter Form vor und werden zunächst nicht von Data-Mining-Tools mit einbezogen, die auf strukturierten Daten operieren. Der Sinn des Data Mining besteht jedoch gerade darin, mühsam und kostspielig gesammelte Daten bestmöglich in Information zu verwandeln. Werden zum Beispiel E-Mails, Freitextfelder in Umfragen oder vom Call Center-Mitarbeiter in freiem Text geschriebene Notizen ausgewertet, entsteht qualitativ hochwertigere Information. Obwohl das Text Mining noch am ehesten dem Data Mining verwandt ist – schließlich geht es in beiden Fällen um das nichttriviale Durchforsten von Daten mit unbekanntem, oft überraschendem Ergebnis – stellt die unstrukturierte Form von Text eine Hürde dar. In der Praxis existieren Data-Mining- und Text-Mining-Werkzeuge bestenfalls separat nebeneinander, eine Verbindung beider Welten würde meist einen extrem hohen Aufwand mit sich bringen.

Die Formen des Text Mining reichen von minimal bis illusionär – denn die Disziplin der Künstlichen Intelligenz hat die Hürde der Semantik, also der Bedeutung von Texten, bisher nur unzureichend genommen. Noch immer gilt das automatisierte »Verstehen« von Text als »heiliger Gral«. Die schlichteste Form von Text Mining bewegt sich nur auf Wortebene. Nächste Stufe ist die Syntax, mit der grammatikalischen Zerlegung von Sätzen. Dabei werden die Wörter bestimmten Wortarten wie Nomen, Verb, Adjektiv zugeordnet (Tagging). Die Annotation erfolgt meist in XML. Auf dieser Ebene ist auch das Natural Language Processing (NLP) angesiedelt. Der Bereich des (bisher) Nicht-Machbaren wartet auf der nächsten Stufe, die neben der Syntax auch die Semantik einbezieht. Systeme werden hier technisch deutlich aufwendiger, wie beispielsweise Anwendungen, die nicht nur nach Schlüsselwörtern in Texten suchen, sondern nach Bedeutungen, oder die Kurzzusammenfassungen von Texten erstellen.

Ein Tool für Data- und Text-Mining-Funktionalität

Das aus San Francisco stammende Unternehmen KXEN hat Text-Mining-Funktionalitäten im Rahmen seiner Plattform KXEN Analytic Framework umgesetzt. Der Ansatz des Data-Mining-Herstellers beruht auf Erkenntnissen des russischen Mathematikers Vladimir Vapnik und unterscheidet sich von traditionellen Data-Mining-Anwendungen. Ziel ist vor allem eine vereinfachte und automatisierte Anwendung, die dem User die aufwendige Datenvorbereitung und Auswahl der passenden Variablen ebenso abnimmt wie die Bestimmung der geeigneten statistischen Methode. Die bisher Statistik-Profis vorbehaltene wissenschaftliche Disziplin soll »demokratisiert« und Business-Usern zum Beispiel in Marketing und Vertrieb geöffnet werden. Im letzten Jahr brachten die Amerikaner erstmals eine Version ihrer Software auf den Markt, die unstrukturierten Text einbezieht.

Die Verarbeitung der textuellen Daten erfolgt mit KXEN, indem alle Textfelder in einer Datei zusammengefasst, Wörter extrahiert und Filter angewendet werden. Füllwörter wie »und«, »der«, »von« oder »auf« ohne eigenen Informationsgehalt werden aussortiert. Anhand von Grammatikfiltern erfolgt eine Zuordnung der Wörter zu gemeinsamen Wurzeln. Anschließend wird eine Variable für jede ermittelte Wortwurzel hinzugefügt und für jeden Kunden die Anzahl des Auftretens dieser Wurzel im zugeordneten Textfeld angegeben. Mit einfachem NLP bewegt sich der Anbieter auf der Ebene von Textklassifizierung und -Kategorisierung.

Vorhersagen, was kommt

Durch die integrierte Text-Mining-Funktionalität lässt sich die Qualität der Modelle zum Teil deutlich verbessern – der Nutzen macht sich beispielsweise in gesteigerten Responseraten auf Kampagnen oder im erfolgreichen Churn Management (Abwanderungsverhalten der Kunden) bemerkbar. Während klassisches Text Mining nur freien Text analysiert, bezieht KXEN sämtliche Variablen mit ein, zum Beispiel auch Ergebnisse von Multiple-Choice-Fragen. Entscheidend ist letztlich die gemeinsame Auswertung von Text-, Transaktions- Verhaltens- und nummerischen Daten, durch die sich ansonsten nicht sichtbare Zusammenhänge aufdecken lassen. Die Verbindung von Text-Mining-Funktionalitäten und Data Mining ist auch deshalb sinnvoll, weil textuelle Variablen ungeachtet des erzeugten – teilweise sehr massiven – Datenvolumens extrahiert und ausgewertet werden müssen: eine Eigenschaft, die eine automatisierte Data-Mining-Plattform von Haus aus mitbringt.

Ein Anwendungsgebiet bei Kunden besteht darin, dass Call-Center-Mitarbeiter in Form von freiem Text mitschreiben, was das Anliegen oder die Frage des Kunden ist. Die Software sorgt dann dafür, anhand des Textes zu analysieren, an welchen Mitarbeiter mit entsprechender Expertise der Kunde weitergeleitet wird. Ebenso wäre denkbar, die eingehenden Fragen zu analysieren und zu prüfen, ob das Call Center in fachlicher Hinsicht optimal besetzt ist – oder beispielsweise mehr Mitarbeiter mit einer bestimmten Qualifikation benötigt werden. Unternehmen nutzen die Text-Mining-Funktionalität zum Beispiel auch dafür herauszufinden, durch welche Faktoren Sachbeschädigung begünstigt wird. Aus Schadensberichten in Freitext kombiniert mit anderen Daten ergeben sich beispielsweise Erkenntnisse über den Zusammenhang von Wartezeit und Randalebereitschaft. Idealerweise geht es beim Data Mining, das Textkategorisierung nutzt darum, ein Problem vorherzusagen, um es im Vorfeld durch geeignete Maßnahmen zu vermeiden.

Heiko Witfeld

 

Heiko Witfeld ist EMEA Country Manager bei KXEN.

 

Folgen Sie »manage it«

auf Google+


 


 


 

 

 
Copyright © 2003-2012  ap Verlag GmbH