Voicification

Als Voicification versteht man die Gestaltung von Mensch-Maschine-Interaktionen mit der menschlichen Stimme als Eingabemedium und/oder Ausgabemedium.

Generelle Beispiele von Nutzungsvorgängen mit Voicification

Spracheingabe von Informationen in eine App oder Anwendung (z. B. Lernapps, Terminvereinbarung, Übersetzungsprogramm, automatisierte Meldung von Versicherungsschäden, automatisierte Übermittlung von z. B. Strom- oder Gaszählerständen)
Sprachausgabe von Daten (z. B. Patienten-Datenbank, juristische Datenbank mit Gerichtsurteilen)
Sprachein- und ausgabe bei Informationssystemen (z. B. Terminals bzw. Kiosk-Systeme in Shopping Malls, Krankenhäusern, Flughäfen)

Prozesskomponenten

Von Voicification kann gesprochen werden, wenn mindestens einer der nachfolgend genannten Prozesskomponenten im Gesamtprozess umgesetzt wird:

Spracheingabe

Technische Konzepte bzw. Methoden der Spracheingabe sind z. B. Speech-to-text (STT) oder Automatic Speech Recognition (ASR). Typische Eingabemedien (wie auch Medien der Sprachausgabe, s. unten) sind sogenannte Smart-Speaker (z. B. Amazon Alexa, Amazon Echo, Google Nest, Apple HomePod, Telekom Smart Speaker) oder Voice Chatbots auf Smartphones oder sprachgesteuerte Software (z. B. Diktiersoftware).

Sprachverarbeitung

Unter Sprachverarbeitung versteht man Konzepte bzw. Methoden, die die vorliegenden Sprachdaten semantisch zuordnen, kategorisieren oder im Sinne des vorliegenden Dienstes für eine Weiterverarbeitung vorbereiten, logisch zuordnen und/oder bearbeiten. Methoden sind z. B. Natural Language Understanding (NLU), Natural language processing (NLP) oder, sofern Formate oder Komponenten künstlicher Intelligenz beteiligt sind, auch Conversational AI (CAI).

Sprachausgabe

Unter Sprachausgabe (siehe auch Sprachsynthese) versteht man die mediale Äußerung von Ausgabeinformationen in Form von akustisch wahrnehmbarer Sprache. Beispiele:

Sprachausgabe über Smart-Speaker (Beispiele siehe Kapitel 'Spracheingabe' oben)
Sprachausgabe über Smartphones
Sprachausgabe über weitere Endgeräte im Haushalte, z. B. Smart TVs

Sprachausgabe von Informationen per öffentlicher Lautsprecheransagen (z. B. auf Bahnhöfen)
Sprachausgabe von automatisierten Call-Center-Informationen per Telefon

Technische Konzepte bzw. Methoden der Sprachausgabe sind z. B. Speech-to-text (STT).

Modulare Gesamtsysteme

Mittlerweile existieren auf dem Markt eine Reihe von Anbietern, die zu oben genannten Prozesskomponenten modulare Gesamt-, Komplett- oder Plattform-Lösungen anbieten. Kunden haben hier den Vorteil, sich bei Voicification-Erwägungen an einen einzelnen Anbieter zu wenden, der gesamte Projektierung bzw. Implementierung von Einzel- oder Gesamtlösungen übernimmt. Anbieter sind z. B. Microsoft (MS Azure^[1]) und Deutsche Telekom (Voicification Suite^[2]).

Quellen

Michael Wolan: Next Generation Digital Transformation. Springer Gabler, Wiesbaden 2020, ISBN 978-3-658-24935-9
AI Circle: Vortrag "Voice AI" von Michael Eder und Martin Junius (Weblink)
Gesellschaft für integrierte Kommunikationsforschung mbH: best4 BRANDS Report 2020, Seiten 36–39 (Weblink)
Golden.com: Voicification (Weblink)
Deutsche Telekom: Einfach erklärt: Voicification (Weblink)

Einzelnachweise

[1] MS Azure

[2] Telekom Voicification Suite

[1]

[2]