20080304i Recommind Intelligente Suchmaschinen

 Home | News | Hefte | Mediadaten | Online-Artikel | Kommentare | Trends | Wir-ueber-uns | Tipps | Impressum | CeBIT 2012

 

Home
News
Trends
Hefte
Online-Artikel
Kommentare
Service-Angebote
Feedback
Abonnement
Wir-ueber-uns
Tipps
Impressum
Veranstaltungen


»manage it« als

E-Paper  5-6 2011
E-Paper  3-4 2011
E-Paper  1-2 2011
E-Paper  11-12 2010
E-Paper  9-10 2010

E-Paper  7-8 2010
E-Paper  5-6 2010
 




 

 


 




 


 


 

 

 

Intelligente Suchmaschinen

Über die Suche nach der richtigen Suche

Intelligente Suchmaschinen werden in den kommenden Jahren die klassische Volltext-Stichwortsuche mehr und mehr ersetzen, insbesondere im Bereich der unternehmensweiten Recherche. Gefordert sind unternehmensinterne »Experten-Finder«, die Bezüge zwischen Themen und Mitarbeitern erkennen, die auch externe Informationsquellen (Fachdatenbanken) mit einbinden oder die Kommunikationswege fördern und verkürzen.

 

S

ie haben heute garantiert schon gesucht: In unterschiedlichen Datenbanken, CMS-, DMS-Systemen, in File-Shares und in sonstigen Applikationen, die es organisch gewachsen in ihrem Unternehmen gibt? Sie mussten sich jedes Mal mit einem eigenen Zugang neu einloggen, bevor Sie eine Suche starten konnten, die Ihnen nicht einmal befriedigende Ergebnisse geliefert hat? Wie oft haben Sie die ursprüngliche Suchanfrage verändert, um endlich das zu finden, was Sie eigentlich gesucht haben?

Wie viele Stunden haben Sie heute mit der Suche nach der richtigen Information verbracht?

Wie viele Stunden verbringen Ihre Mitarbeiter oder Kollegen mit täglicher Suche nach notwendigen Informationen?

Machen Sie sich keine Sorgen – Sie sind nicht allein: Eine jüngere Erhebung der International Data Corporation (IDC) unter Führungskräften ergab, dass 39 Prozent der Befragten mehr als neun Stunden pro Woche damit verbringen, Informationen zu suchen und 69 Prozent mehr als fünf Stunden pro Woche. Von diesen gaben 68 Prozent an, dass sie in weniger als 85 Prozent der Fälle finden, was sie suchten – fünf Stunden verlorene Zeit bei jedem, dank Ungenauigkeit. Die Genauigkeit des Informationssystems ist praktisch äquivalent zur Produktivität.

Heute suchen wir nicht mehr vornehmlich in dunklen und deckenhoch gefüllten Archiven, heute suchen wir hochmodern … in unterschiedlichsten DMS, CMS, Datenbanken, in strukturiertem und unstrukturiertem Content in File- und Exchange-oder Notes-Servern und in verschiedensten Datenformaten – vielfach sogar weltweit verstreut – aber immer noch genauso an den Nerven zerrend, zeitraubend und selten erfolgreich und zufriedenstellend.

Und die Datenmenge nimmt von Tag zu Tag zu: Informationen, die im Unternehmen selbst erstellt werden, Informationen, die von außen in das Unternehmen kommen. Jährlich kommen Terabyte an neuen Dokumenten hinzu.

Die ersten Firmen, die Infrastrukturen zum Umgang mit dem konzerninternen Wissen eingesetzt haben, konnten enorme Gewinne im Sinne von direkter Kostenersparnis und entscheidender Produktivitätsverbesserung ernten. Ein gutes Beispiel dafür ist BP Amoco (BP). BPs »Shared-Learning-«Wissensorganisierungsprogramm hat dem Konzern fast 700.000.000 Dollar in seinen ersten beiden Jahren eingespart. Allein bei einem einzigen Nordseebohrprojekt konnten 80 Millionen Dollar eingespart werden, indem bereits vorhandene Kosteneinsparungstipps von Experten innerhalb des Konzerns umgesetzt wurden.

Ähnliche Vorteile wurden bei der Produktivität, mit der Mitarbeiter ihre Aufgaben erledigen, beobachtet – bei der Boston Consulting Group zum Beispiel: »Man braucht jetzt drei bis vier Stunden um etwas zusammenzustellen, was vorher drei bis vier Tage dauerte.«

Für Unternehmen ist es deswegen mehr und mehr erfolgskritisch, ihren Mitarbeitern zuverlässige system-, format- und speicherortübergreifende Technologien zur Verfügung zu stellen, die sie intelligent dabei unterstützen, schnell und sicher relevante Informationen zu finden, um Entscheidungen fällen oder Aufgaben ausführen zu können.

Die Kernaufgabe ist grundsätzlich dieselbe: Das Finden von relevanten Informationen.

Ein Überblick über aktuelle Technologien im Bereich automatischer Kategorisierung und intelligentem Retrieval

Die Entscheidung für die Einführung von unterstützenden Technologien zur Informationserschließung setzt grundlegende Überlegungen voraus. Worauf kommt es bei der Bestimmung des Bedarfs nach Ordnung der Informationen an?

Wir können damit anfangen, einige Kernfragen zu formulieren:

  1. Welche Aufgabe oder Aufgaben versucht der Nutzer des Systems zu lösen?
  2. Was sind die Schlüsselfaktoren für den Erfolg bei der Anwendung eines Systems?
  3. Welche Werkzeuge sollten angewandt werden und wie müssen sie aussehen, um die erforderlichen Aufgaben effektiv zu erfüllen?

Informationen werden grundsätzlich auf zwei unterschiedliche Wege erschlossen:

  1. Die vom Anwender angestoßene Suche nach bereits vorhandenen Informationen in unternehmensweit definierten Datenbeständen
  2. Die vom Unternehmen bereitgestellte Information ohne konkrete Suchanfrage – also die Kategorisierung großer Mengen eingehender Dokumente oder/und Daten, die nach inhaltlichen Kriterien ggf. auch direkt einzelnen Personen, Abteilungen oder Speicherorten zugeordnet werden können.

Im ersten Fall kann durchaus teilweise auf eine Kategorisierung der Daten verzichtet werden. Im zweiten Fall ist sie definitiv unumgänglich, da kein direkter Suchprozess stattfindet und Informationen bewertet und klassifiziert werden müssen, um im richtigen Moment schnell und unkompliziert sofortigen Zugriff auf sie zu haben.

Die wichtigsten Technologien sollen hier diskutiert werden.

Suchmaschinen-Technologien

Die Stichwortsuche ist die verbreiteteste Form des Informationszugriffs. Die eingegebenen Schlagworte werden mit denen in der Dokumentensammlung abgeglichen und die Dokumente identifiziert, die das Schlagwort enthalten. Die Dokumente in der Ergebnismenge werden dann nach einer Rangliste geordnet, die üblicherweise von der Häufigkeit des Stichwortes in den Dokumenten abhängt. Die Grenzen der auf Stichworten basierenden Suche sind offensichtlich. Da jedes Wort als eine separate Einheit behandelt wird, werden semantische Verbindungen zwischen Worten ignoriert. Stichwortsuche bietet weder nennenswerten Möglichkeiten eine Suche zu verfeinern noch interaktive Formen der Wiedergewinnung. Eine Anfrage ist entweder erfolgreich oder nicht. Wenn sie nicht erfolgreich ist, muss der Nutzer sich überlegen, wie er die Anfrage neu formulieren kann, um das gewünschte Ergebnis zu erzielen. Der Zeitaufwand und das Resultat widersprechen sich. Die Suche ist genauso effektiv wie das Durchstöbern von Aktenordnerrücken in einem Archiv. Man findet immer zu viel und nie das eigentlich Gesuchte.

Vektor-Raum-Suchmodelle ordnen Dokumente Punkten in einem hochdimensionalen Raum zu, in dem jede Dimension einem bestimmten Begriff entspricht. Die Ähnlichkeiten zwischen Dokumenten, wie auch zwischen Dokumenten und Anfrage, werden durch das Messen der Distanz zwischen diesen Punkten im Raum erkannt. Diese Modelle sind den auf Stichworten basierenden Ansätzen konzeptionell sehr ähnlich, indem sie die semantische Dimension von Wörtern ignorieren. Sie sind nicht in der Lage zwischen unterschiedlichen Bedeutungen von Wörtern – »Sun« als Solarobjekt vs. »Sun« als die Computerfirma – zu differenzieren, noch sind sie in der Lage Wörter zu identifizieren, die im gemeinsamen Kontext auftauchen. Eine Anfrage nach »Flugzeug« bei einem Vektor-Raum-Modell würde Informationen zu »Airbus«, »Boeing« oder »747« nicht mit einbeziehen. Hier finden sich viele nutzlose Informationen im Ergebnis wieder, die der Anwender selbst für sich klassifizieren muss, während andere bedeutende Informationen gar nicht erst angezeigt werden.

Konzeptbasierende Suchmaschinen ordnen Dokumente, indem sie Konzepte anstelle von einzelnen Wörtern oder Phrasen nutzen. Obwohl dieses potenziell ein vielversprechender Ansatz ist, um gute Suchgenauigkeit zu erzielen, basieren die meisten der konzeptbasierenden Suchmaschinen auf linguistischen Ressourcen, typischerweise Thesauri oder semantischen Netzwerken, die von menschlichen Experten erstellt und gepflegt werden müssen, was einen hohen manuellen Aufwand mit sich bringt. Darüberhinaus bleiben Thesauri weit davon entfernt, alle semantischen Beziehungen zwischen Wörtern zu erkennen, da sie mit Synonymen arbeiten. »Katholisch« und »Papst«, »Börse« und »DAX«, »Bürgermeister« und »Rathaus« sind keine Synonyme, aber durchaus semantisch miteinander verbunden.

PLSA-Suchmaschinen (Probabilistic Latent Semantic Analysis) nutzen eine Maschinenlerntechnik, die in einer gegebenen Dokumentensammlung automatisch relevante Konzepte und Themen identifiziert und strukturiert. PLSA ist ein mathematischer Algorithmus, der eine statistische Analyse von gemeinsamen Wortvorkommen in Dokumenten vornimmt und sich wiederholenden Kontext, Themen oder Konzepte, in denen eine bestimmte Gruppe von Wörtern erscheinen, identifiziert. Dazu ist keinerlei manueller Input aus Lexika, Thesauri oder Themenbeschreibungen notwendig. Das System lernt vollkommen automatisch und unbeaufsichtigt. Das Ergebnis des Lernprozesses ist ein statistisches Modell, eine zusammengefasste, quantitative Beschreibung der Dokumentensammlung.

Die Identifizierung von Konzepten und Themen dient zweierlei Zielen: Auf der einen Seite zeigt es potenzielle Mehrdeutigkeit von Wörtern, indem unterschiedliche Kontexte erkannt werden, in denen sie benutzt werden. »Java« kann sich auf eine indonesische Insel beziehen, die Programmiersprache oder Kaffee. Solche »Teekesselchen« werden automatisch identifiziert, sobald sie in den Quelldokumenten vorkommen. Auf der anderen Seite identifiziert PLSA Synonyme und semantisch verwandte Worte, z.B. Wörter die in einem gemeinsamen Kontext vorkommen: »Auto« beinhaltet auch sehr wahrscheinlich Synonyme wie »Wagen«, ,»Automobil« oder »PKW«, wie auch semantisch verwandte Worte wie »Limousine«, »fahren«, »Autobahn« oder »Motor«. Im Unterschied zu anderen linguistischen Ansätzen lernen PLSA-Systeme direkt aus dem unstrukturierten Inhalt. Input von einem Experten oder Endnutzer ist hier nicht notwendig.

Die meisten Firmen verstehen, dass »stilles« Wissen, das Wissen in den Köpfen der Mitarbeiter, das wertvollste Wissen überhaupt ist. Die meisten Such- und Klassifizierungssystem sind nicht in der Lage, dieses beachtliche Wissen zu nutzen. Indem vorangegangene, von anderen Anwendern, mit denen ein Anwender Gemeinsamkeiten hat, durchgeführte Suchen genutzt werden, können PLSA-Systeme nicht nur individuelle Vorlieben erkennen, sondern auch Gruppen von Nutzern mit gemeinsamen Interessen identifizieren.

Die Identifizierung dieser Gruppen ermöglicht Informationen darüber, was ähnliche Nutzer bei der Bearbeitung von Ergebnissen von Anfragen nützlich fanden, bei der Prioritätensetzung von Dokumentenkategorien oder den Empfehlungen von verwandten Informationen. Es wird auf jede Informationsquelle zurückgegriffen, die Kommunikation im Unternehmen zielgerichtet gefördert und das effektivste Arbeiten für alle Beteiligten ermöglicht.

Kategorisierungs-Technologien

Das übliche Verfahren ist die manuelle Kategorisierung. Ein Team von Fachleuten sichtet die Dokumente und ordnet jedes einer oder mehreren Kategorien zu. In der Theorie ist dies sehr präzise, in der Praxis leider nicht. Wie viele Studien zeigen, sind in fünfzig Prozent der Fälle Experten uneinig über die Hauptkategorie eines Dokuments. Darüber hinaus ist der manuelle Prozess nicht skalierbar. Wenn die Anzahl der Dokumente und Kategorien anwächst, steigt der Aufwand unproportional.

Der erste Schritt, der über die manuelle Kategorisierung hinausgeht, ist das Konstruieren eines Regelsets zur Einordnung von Dokumenten. Regelbasierende Systeme klassifizieren Dokumente aufgrund von Schlagworten im Titel des Dokuments. Es ist viel manuelle Entwicklung nötig, viele Tests müssen durchgeführt werden und der Aufwand, neue Themen einzuarbeiten, ist extrem hoch. Regelbasierende Kategorisierung braucht kontinuierliche Pflege und Überwachung, um akzeptable Ergebnisse zu liefern.

Ein wenig vergleichbar mit dem Spam-Filter eines Mailclients, der immer wieder überwacht und neu eingerichtet werden muss und der trotzdem nie die absolute Sicherheit bietet, dass nicht doch die wichtige Mitteilung eines Geschäftspartners darin untergeht oder doch noch ein neues »blaues Wunder« im Posteingang landet, wofür dann die Regel wieder neu angepasst werden muss.

Ein weiteres Verfahren ist die Naïve-Bayes-Kategorisierung, eine statistische Technik zur Analyse von Dokumentensets. Die Stärke von Naïve-Bayes ist es, von Beispielen zu lernen. In einer idealen Situation werden Begriffe identifiziert, die eine hohe Wahrscheinlichkeit haben, in Dokumenten aus einer Kategorie vorzukommen. Diese Wahrscheinlichkeiten werden dazu genutzt, zwischen unterschiedlichen Kategorien zu unterscheiden. Dieses Verfahren benötigt eine große Anzahl an Trainingsdokumenten. Man kann mit dem Kategorisieren nicht anfangen, bevor man nicht hunderte oder gar tausende von Beispielen erstellt hat, um das System zu trainieren. Der Aufwand ist immens.

Einen anderen Ansatz wählt das k-Nearest Neighbour classification (kNN) –Verfahren. Es ermittelt die quantitative Ähnlichkeit von Dokumenten durch das Zählen von gemeinsamen Begriffen. Je mehr Wörter und Phrasen in zwei Dokumenten vorkommen, umso ähnlicher werden sie eingestuft. Jedoch lassen solche Ähnlichkeitsmaße die Charakteristik einer bestimmten Kategorie außen vor. Indem der Fokus auf die paarweise Ähnlichkeit gerichtet wird, ist kNN nicht in der Lage zu lernen, was ein Set von Dokumenten wirklich gemein hat. So wie Naïve-Bayes erreicht kNN oft eine zufriedenstellende Genauigkeit, wenn manuell kategorisierte Beispiele vorhanden sind.

Die Gruppe der Support Vector Machines (SVM) bietet wiederum eine hervorragende Technologie für Ja/Nein-Klassifikationen, und ist deshalb sehr gut für Filter geeignet. SVM nimmt ein Set von Positiv- und Negativbeispielen einer bestimmten Kategorie zum Training, ordnet diese Beispiele in eine interne hoch-dimensionale Repräsentation und erstellt dann lineare Funktionen auf diesen internen Repräsentationen um die Trainingsbeispiele zu separieren. Wenn SVM gelernt hat, klassifiziert dieses Modell neue Dokumente in »dazugehörig« oder »nicht dazugehörig« ein.

Auch die PLSA-Technologie wird zur Kategorisierung eingesetzt und klassifiziert Dokumente, indem mithilfe einer statistischen Analyse von Wortkontexten automatisch Konzepte in Dokumenten gefunden werden. Systeme die PLSA nutzen, sind in der Lage, Dokumente aufgrund von ihnen innewohnenden, ähnlichen Konzepten zusammenzufassen. Im Unterschied zu dem Naïve-Bayes- und dem SVM-Ansatz, braucht PLSA keine manuell kategorisierten Dokumente, um Trainingsbeispiele zu nutzen. Im Unterschied zu dem Naïve-Bayes- und dem SVM-Ansatz, braucht PLSA keine Taxonomien oder manuell kategorisierte Dokumente, um Trainingsbeispiele zu nutzen. PLSA kann sogar dazu benutzt werden, Kategorien zu entdecken und Kategorien und Taxonomien zu verfeinern, die latent in einem Textkorpus enthalten sind.

Also kann PLSA allein stehend genutzt werden, um Textklassifizierungen vorzunehmen oder mit einem Ansatz verknüpft zu werden, der auf einer Technologie wie Support Vector Machines beruht, je nach Bedarf.

Resümee

Generell ist bei der Planung und der Auswahl einer Lösung – unabhängig von der Technologie – zu beachten, dass die Effektivität von Such- und Klassifizierungssystemen durch folgende Kriterien bestimmt wird:

1) den Arbeitsauftrag

2) die Genauigkeit des Systems

3) den zu erreichenden Automatisierungsgrad

4) die Einfachheit der Integration in bereits vorhandene Systeme

Darüber hinaus muss beachtet werden, dass eine Lösung die Grundvoraussetzungen in Bezug auf Funktionalität, Skalierbarkeit und Input-Methode erfüllt.

Von diesen Fähigkeiten ausgehend, sollte die vorhergehende Diskussion jedoch einige klare Trends aufgezeigt haben. Besonders jüngste Fortschritte bei den statistischen Methoden (PLSA) und anderen mathematischen Werkzeugen (SVMs) haben aufgrund der Ergebnisqualität zum Durchbruch dieser Systeme geführt. Dazu kommt bei PLSA-Systemen noch die Flexibilität in der Anwendung durch Selbsttraining und Kategorienerkennung und eine bislang unerreichte Produktivitätssteigerung durch die übergreifende Suche in allen vorhandenen, verschiedenen Datenspeicherorten.

Intelligente Suchmaschinen werden in den kommenden Jahren die klassische Volltext-Stichwortsuche mehr und mehr ersetzen, insbesondere im Bereich der unternehmensweiten Recherche, wobei die Anforderungen an die Technologie immer umfangreicher werden. So können schon jetzt einige Technologien neben der Suchfunktionalität auch noch Bezüge zwischen Themen und Mitarbeitern erkennen und fungieren so als unternehmensinterner »Experten-Finder« oder bieten z.B. die Möglichkeit, auch externe Informationsquellen (Fachdatenbanken etc.) mit einzubinden, die Kommunikationswege zu fördern und zu verkürzen und bringen damit eine erhebliche Zeit- und Kostenersparnis mit sich.

Peter Gottschalk

 

_____________________________________________________________________

Peter Gottschalk (Jahrgang 1967) ist ausgebildeter TV-Journalist und hat nach seinem Studium an der Universität zu Köln, 15 Jahre als freiberuflicher Autor und Regisseur für nahezu alle deutschen Fernsehanstalten gearbeitet, hauptsächlich in Nachrichten-, Dokumentations- und Wissenschaftsredaktionen. Nach seinem Wechsel in die Wirtschaft im Jahr 2000 hat er zunächst die Marketingleitung eines Kölner Fachbuchverlags geleitet, bevor er als Regionaldirektor eines börsennotierten Softwareherstellers den B2B-Bereich verantwortete. Seit Anfang 2007 ist er als Vertriebs- und Marketingleiter bei der Recommind GmbH für die strategische Entwicklung in Deutschland, Österreich und der Schweiz zuständig.

Folgen Sie »manage it«

auf Google+


 


 


 

 

 
Copyright © 2003-2012  ap Verlag GmbH