20080910ze Nuance Spracherkennung

 Home | News | Hefte | Mediadaten | Online-Artikel | Kommentare | Trends | Wir-ueber-uns | Tipps | Impressum | CeBIT 2012

 

Home
News
Trends
Hefte
Online-Artikel
Kommentare
Service-Angebote
Feedback
Abonnement
Wir-ueber-uns
Tipps
Impressum
Veranstaltungen


»manage it« als

E-Paper  5-6 2011
E-Paper  3-4 2011
E-Paper  1-2 2011
E-Paper  11-12 2010
E-Paper  9-10 2010

E-Paper  7-8 2010
E-Paper  5-6 2010
 




 

 


 




 


 


 

 

 

Produktivitätssteigerung durch Spracherkennung

Mit Sprache dreimal schneller

Vielbeschäftigte Geschäftsleute können Dokumente und E-Mails verfassen, Formulare ausfüllen und Arbeitsprozesse effizienter abwickeln und das alles einfach per Sprachsteuerung. Sprachprofile, benutzerdefinierte Vokabulare und Mehrplatzinstallationen lassen sich auch in komplexen IT-Infrastrukturen problemlos zentral verwalten.

 

1.    Welchen Stand der Entwicklung hat die Spracherkennung erreicht? Was ist heutzutage möglich?

Heutzutage kann eine Spracherkennungssoftware eine Erkennungsrate von bis zu 99 Prozent erzielen. Mit aktueller Spracherkennungssoftware ist es außerdem nicht mehr notwendig, ein Sprachtraining zu machen. Die Software ist sofort funktionsfähig.

Mit der Spracherkennungssoftware kann vieles am PC allein durch Sprechen erledigt werden. Die innovative Software unterstützt fast alle Windows-Anwendungen und wandelt natürliche Sprache in Text oder Befehle um und das mit einer Geschwindigkeit von bis zu 160 Wörtern pro Minute und Erkennungsraten von bis zu 99 Prozent. Damit erlaubt das Programm schnelleres und genaueres Arbeiten als beim Tippen per Tastatur.

Die meisten Menschen sprechen mehr als 120 Wörter pro Minute, können aber im selben Zeitraum höchstens 40 Wörter tippen. – mit Spracherkennungssoftware schreiben Sie also Briefe und E-Mails etwa dreimal schneller. Bonus: Die Software macht nie Tippfehler und lernt außerdem bei jeder Verwendung hinzu!

Spracherkennungssoftware ist behindertengerecht, da es die Bedienung des PCs ohne Einsatz der Hände ermöglicht und stellt für PC-Benutzer mit RSI-Beschwerden (z.B. Mausarm) oder Karpaltunnelsyndrom die ideale Lösung dar. Die aktuelle Software adressiert auch ein Thema, das etliche Anwender bisher von der Nutzung von Spracherkennung abgehalten hat: die Notwendigkeit zum Sprachtraining. Bisher musste der Anwender die Software zuerst an die eigene Stimme gewöhnen, indem er Übungstexte laut vorlas, was geraume Zeit in Anspruch nahm. Dragon Naturally Speaking von Nuance ist die erste Spracherkennungssoftware, die hervorragende Erkennungsresultate ganz ohne Sprachtraining liefert.

Das Programm steigert die Erkennungsrate außerdem während des Einsatzes, indem es mit jedem neuen diktierten Wort »dazulernt«. Mitgeliefert werden überarbeitete Online-Tutorials, mit deren Hilfe sich die Einarbeitung für den Einsatz der Software drastisch verkürzen lässt. Es unterstützt jetzt auch Bluetooth-Headsets und -Mikrofone sowie Tablet PCs und andere neue mobile Geräte und ermöglicht damit das Arbeiten unterwegs mit PDA oder digitalem Diktiergerät.

2.    Wie arbeitet die Spracherkennung?

Spracherkennungsanwendungen arbeiten ähnlich wie der menschliche Hörvorgang, bei dem das Ohr Laute in Form von Schwingungen aufnimmt und das Gehirn die Signale decodiert und deren Bedeutung bestimmt.

Obwohl Spracherkennung für viele noch sehr nach Zukunft klingt, wird schon seit über drei Jahrzehnten an dieser Technologie gearbeitet. Bereits in den 80er Jahren wurde eine Spracherkennungssoftware mit »diskreter« Worterkennung, bei der jedes – Wort – einzeln – diktiert – werden – musste, entwickelt. Den regelrechten Durchbruch feierte die Technologie aber 1996 mit der Einführung der kontinuierlichen Spracherkennung (Naturally Speaking), bei der Anwender in einem ganz natürlichen Redefluss bis zu 160 Wörter pro Minute diktieren können. Der eigentliche Spracherkennungsprozess erfolgt dabei mittels einer Softwarekomponente, der sogenannten Spracherkennungs-Engine. Die Hauptfunktion dieser Engine besteht darin, die mündliche Eingabe zu verarbeiten und in Text umzusetzen, der von der externen Anwendung, wie etwa Word, interpretiert werden kann.

Der Anwender spricht in ein Mikrofon. Die Wörter werden von der Spracherkennungs-Engine verarbeitet, in digitale Daten umgewandelt und mit den im Programmspeicher befindlichen Daten verglichen. Die Aufgabe der Spracherkennungs-Engine ist es, die gesprochenen Wörter in Text umzuwandeln. Dazu bedient sie sich aller verfügbaren Daten, Statistiken und Software-Algorithmen. In einem ersten Arbeitsschritt verarbeitet die Engine das eingehende akustische Signal und wandelt es zwecks weiterer Analysen in ein geeignetes Format um. Sobald die Sprachdaten im passenden Format vorliegen, beginnt die Suche nach der besten Entsprechung. Hierbei berücksichtigt die Engine die ihr bekannten Wörter und Sätze – die aktive Grammatik – und die vorliegenden sprachlichen Kontextdaten. Dazu wird ein Akustikmodell herangezogen. Sobald die Entsprechung mit der größten Wahrscheinlichkeit gefunden wurde, wird die erkannte Einheit als Text wiedergegeben.

Die gängigen Spracherkennungsprogramme verfügen über einen Wortschatz von zirka 350.000 Wörtern. Die Grammatik ist die Zusammensetzung von Wörtern und Wendungen zu einem Gefüge. Dazu gehören auch die von der Anwendung erwarteten Eingabe- und Ausgabefolgen. Sie definiert, welche Informationen eines Sprechers zu verarbeiten sind, und verwendet verschiedene linguistische und statistische Modelle, um der Anwendung Regeln zuzuweisen. Eine Grammatik kann aus nur 50 Wörtern bestehen oder aber mehrere tausend Wörter, Namen oder Adressen umfassen. Eine Grammatik sollte auch fachspezifische Abkürzungen, Akronyme usw. berücksichtigen.

 

Spracherkennung / Diktierlösungen: Anwendungsbeispiele

 

1.    Anwendungsbeispiel 1: »Schriftdolmetscher«

Behinderte Menschen waren die »Early Adopters« von Spracherkennungssoftware, d.h. es waren diejenigen, die bei dieser technischen Innovation nicht lange abgewartet, sondern zu den ersten gehört haben, die sie angewendet haben.

Schriftdolmetscher nützen Spracherkennung und können dadurch Schwerhörige oder Gehörlose an der Kommunikation in der Gesellschaft teilnehmen lassen (an Konferenzen, Seminaren, Fortbildungen usw.) oder auch Behördengänge zu erleichtern. Schriftdolmetscher oder auch Realtime-Editoren sind sogenannte Kommunikationshelfer und übersetzen die Sprache in die Schriftsprache, damit Hörgeschädigte oder Taube das Gesagte mitlesen können. Nach §57 des Sozialgesetzbuches haben hörgeschädigte Menschen das Recht auf spezielle Hilfen zur Verständigung bei Leistungen zur Teilhabe am Arbeitsleben, bei Sozialleistungen oder Leistungen zur Teilhabe am Gemeinschaftsleben. Texte werden per Sprache direkt in den Computer diktiert – das können Unterhaltungen oder Monologe sein, bis hin zu wissenschaftlichen Abhandlungen. Auch durch die verbesserte Hardware – wie zum Beispiel Geräusch unterdrückende Mikrophone oder leistungsfähigere Diktiergeräte und PCs – ist eine nahezu fehlerfreie Sprachverarbeitung und so auch eine Optimierung der Arbeit eines Schriftdolmetschers gewährleistet.

Nuance Dragon Naturally Speaking wurde in der Paulinenpflege Winnenden e.V. erfolgreich von der Firma Voice & Speech installiert. Diese diakonische Einrichtung der Jugend- und Behindertenhilfe ist in verschiedenen sozialen Geschäftsfeldern tätig und beschäftigt mehr als 1000 Mitarbeiter, die über 1200 Personen betreuen. Zur Paulinenpflege Winnenden gehören ein Berufsbildungswerk für Hör- und Sprachbehinderte, Behindertenwerkstätten und ein Jugendhilfeverbund. Auch Schriftdolmetscher werden in dieser Einrichtung ausgebildet und dann an Hörgeschädigte vermittelt. Anfang 2005 nahm die Schriftdolmetschervermittlung in Baden-Württemberg in der Paulinenpflege Winnenden ihre Arbeit auf.

 

2.    Anwendungsbeispiel 2: in Krankenhäusern und Anwaltskanzleien

In Deutschland arbeitet Nuance mit vielen Partnern zusammen, die spezielle Wörterbücher für besondere Fachbereiche anbieten (HNO; Augenheilkunde; Kardiologie usw.).

Auch arbeitet Nuance mit vielen Partnern zusammen, um Dragon Naturally Speaking zum Beispiel in Anwaltskanzleien oder Krankenhäusern zu integrieren.

Anwendungsbeispiel »Anwaltskanzlei«: Die Umstellung auf die Kombination von digitalem Diktieren, Spracherkennung und digitalem Workflow amortisierte sich für eine Anwaltskanzlei in weniger als zwei Jahren, da in dieser Zeit mehr Mandate übernommen werden konnten. Der realisierende Produktivitätsgewinn konnte somit genutzt werden, um den steigenden Anforderungen an die Anwälte dauerhaft gerecht zu werden: Da die einzelnen Dokumente wesentlich schneller zur Verfügung stehen, können die Arbeitsabläufe beschleunigt werden und die Schriftsätze sind nun schneller im Gericht.

Anwendungsbeispiel »Krankenhaus«: Seit November 2001 nutzt die Radiologie des Krankenhauses Agatharied im oberbayerischen Hausham zur Erstellung der Befunde die Spracherkennungssoftware Dragon Naturally Speaking Professional von Nuance. Eingebettet in die Diktatlösung voice4medicine und mit dem zusätzlichen medizinischen Fachvokabular von 4voice spart dies der Abteilung und dem ärztlichen Personal nicht nur Zeit, sondern hilft auch dabei, die Produktivität zu steigern und Kosten zu senken.

 

3.    Anwendungsbeispiel 3: Diakoniekrankenhaus Rotenburg

Als Beispiel für den Produktivitätsgewinn mit einer digitalen Diktierlösung und mit Spracherkennung in einem Krankenhaus: Das Diakoniekrankenhaus Rotenburg (Wümme) hat 20 Stunden täglich mehr in der Ambulanz und anderen Abteilungen für seine Patienten zur Verfügung – allein durch die digitale Diktatlösung von Dictanet und der Spracherkennungs-Technologie von Nuance. 1.200 Schriftstücke entstehen im Diakoniekrankenhaus Rotenburg Tag für Tag, ein großer Teil davon nach Diktat. Noch bis vor wenigen Jahren arbeitete man dabei mit herkömmlichen analogen Tonbändern, bis dann im Jahre 2002 der Umstieg auf digitale Diktattechnik folgte. Heute werden 80 Prozent aller Diktate mit der DictaNet-Lösung und der Spracherkennungs-Software Dragon Naturally Speaking von Nuance aufgezeichnet und im Netzwerk optimal auf die verschiedenen Schreibkräfte aufgeteilt, die lediglich die letzte Redaktion der Texte vornehmen.

 

Was ist Sprachsynthese

Sprachsynthese ist die Erzeugung von gesprochener Sprache durch einen Computer. Ziel ist es dabei, der menschlichen Stimme möglichst nahe zu kommen. Sprachsynthese, auch Text-to-Speech-System (TTS), wandelt einen Text in ein Sprachsignal um.

Immer günstigere und leistungsstärkere Mikroprozessoren und Speichersysteme, aber auch die ständige Weiterentwicklung von Software-Algorithmen haben die Sprachtechnologie für den Einsatz in den verschiedensten Kleinstgeräten optimiert. Das Ergebnis sind Spracherkennungs- und Text-to-Speech-Lösungen (Sprachsynthese), die sich überall einbauen lassen, im Düsenjet bis zum Eierkocher. TTS wird u.a. dafür genutzt, regelmäßig aktualisierte Daten aus einer Datenbank per Telefon abzurufen (z.B. Verkehrsmeldungen). Der Aufwand, jede neue Nachricht in einem Tonstudio von einem Sprecher aufnehmen zu lassen, ist zu hoch. Die Alternative dazu ist Text-to-Speech, womit Texte, die per E-Mail oder Word in einer Datenbank hinterlegt werden, sofort am Telefon in Sprache umgewandelt werden.

Kunden kommen immer häufiger in Kontakt mit Sprachtechnologien, wenn sie zum Beispiel in einem Call Center anrufen oder die telefonische Auskunft nach einer Telefonnummer befragen. Mit neuen, einfach zu bedienenden Sprachapplikationen hat sich die Sprachtechnologie in vielen Bereichen schon durchgesetzt.

Technologien zur automatischen Spracherkennung (ASR), wie Text-to-Speech für die Umwandlung von Text in Sprache, oder vice versa Speech-to-Text, mit der sich gesprochene Anweisungen in Text umwandeln lassen, was bei Diktiersoftware genutzt wird, ermöglichen Interaktionen nicht nur zwischen dem Anrufer und der Datenbank im Call Center, sondern beispielsweise auch zwischen einem Fahrer und seinem Automobil. Sprache entwickelt sich zu einer Technologielösung, die zahlreiche Bedienungsvorgänge im Auto in einer zentralen Nutzerplattform zusammenführt. Die Automobilbranche ist mittlerweile Spitzenreiter beim Einsatz von Sprachtechnologie. Die Gründe hierfür sind die Sicherheitsaspekte, Komfort, aber auch Rechtsvorschriften. Seit dem 1. April 2004 wird das Telefonieren am Steuer ohne die Nutzung einer Freisprechanlage oder eines Headsets mit einem Bußgeld bestraft.

n

 

 

 

Folgen Sie »manage it«

auf Google+


 


 


 

 

 
Copyright © 2003-2012  ap Verlag GmbH