Interview Im Umgang mit Sprachassistenten ist noch viel Zukunftsmusik drin

Im Umgang mit Sprachassistenten ist noch viel Zukunftsmusik drin

Wir haben mit Professorin Carolin Wienrich und Professor Andreas Hotho – beide lehren an der Julius-Maximilians-Universität Würzburg – ein Interview geführt: ein Gespräch über Vertrauen in Sprachassistenten, unser Wissen darüber und über Potenziale und Herausforderungen von neuen Technologien wie ChatGPT.

© Production Perig / stock.adobe.com

Das Projektteam von „MOTIV – Digitale Interaktionskompetenz: Monitor, Training und Sichtbarkeit“ erforscht die Interaktion mit intelligenten Sprachassistenten. Mit ihrer Arbeit möchten die Forscherinnen und Forscher einen bewussten Umgang mit Sprachassistenten fördern und Trainingsmodule für Nutzerinnen und Nutzer entwickeln. 

Können Menschen eine persönliche Beziehung zu ihrem Sprachassistenten aufbauen?

Carolin Wienrich: Untersuchungen haben tatsächlich ergeben, dass Nutzerinnen und Nutzer oftmals eine emotionale Beziehung zu ihren Sprachassistenten aufbauen und ihnen sogar Geheimnisse anvertrauen. Das Gerät erfüllt damit eine soziale Funktion. Bereits durch die Namensgebung der Hersteller – nehmen wir Alexa oder Siri – erhalten technische Geräte menschliche Züge. Auch allein die Interaktion mit Sprache ist urmenschlich. Die meisten Sprachassistenten tragen übrigens weibliche Namen – ein spannender Genderaspekt.

Andreas Hotho: Sprachassistenten sind zudem sehr nah an ihren Nutzerinnen und Nutzern „dran“ – nehmen wir beispielsweise das Smartphone in der Jackentasche oder den Smart Speaker im Wohnzimmer. Sie sind Teil der Privatsphäre geworden und somit praktisch allgegenwärtig. Und vor allem: Sie sind leicht zugänglich und haben immer ein „offenes Ohr“.

Warum vertrauen wir eigentlich Maschinen Geheimnisse über uns an?

Wienrich: Zum einen lässt sich dieses Vertrauen auf die erwähnte emotionale Bindung zum Gerät zurückführen. Interessant ist aber zum anderen ein weiterer Aspekt: Je technischer und damit weniger menschlich ein Gerät agiert, desto mehr vertrauen Nutzende ihm. Das lässt sich zum Beispiel darauf zurückführen, dass eine Maschine keine Bewertung der gemachten Aussagen vornimmt – ein Mensch oft schon. Darüber hinaus scheint vermeintlich die Anonymität der Daten gewahrt: Man spricht zu dem Gerät und nichts passiert mit den persönlichen Daten – aber dem ist natürlich nicht so.

Was passiert mit den ganzen Informationen – ob vertraulich oder nicht?

Hotho: Die Informationen in Form einer Sprachnachricht speichert der Anbieter auf einem zentralen Server ab – dadurch haben Mitarbeitende prinzipiell Zugriff auf die Daten. Überall dort, wo Daten zentral verarbeitet und gespeichert werden, besteht eine potenzielle Gefahr, dass solche Systeme auch gehackt werden – auch wenn die Unternehmen natürlich alles daransetzen, dass dieses nicht passiert. Zudem sollten sich Nutzende von Sprachassistenten bewusst sein, dass die Anbieter ein kommerzielles Interesse an den gespeicherten Daten haben, abhängig vom jeweiligen Geschäftsmodell.

Habe ich überhaupt die Chance zu entscheiden, was ich von mir preisgebe?

Hotho: Zu einem gewissen Maß ist das möglich. Hier setzen wir mit unserer Forschung im MOTIV-Projekt an und möchten Nutzende für den Umgang mit Sprachassistenten sensibilisieren. Wir haben uns dafür auf den von Amazon angebotenen Sprachassistenten Alexa fokussiert. Neben der Datenauswertung aus der Interaktion mit Smart Speakern in Labor- und Langzeitstudien haben wir große Mengen an online verfügbaren Daten, zum Beispiel aus Foren, automatisch mittels Data-Science-Methoden analysiert und so ein Bild der Nutzerinnen und Nutzer gewonnen. Diese Daten wurden dann anhand unseres psychologischen Modells interpretiert und eingeordnet. Das Monitoring und die Evaluationsphase sind bereits abgeschlossen.

Aktuell befinden wir uns in der letzten Phase des auf drei Jahre angelegten Projekts und entwickeln konkrete Trainings zur Sensibilisierung der Nutzenden.

Prof. Dr. Andreas Hotho Zum Profil

Warum brauchen Nutzende überhaupt extra Trainings für Sprachassistenten?

Wienrich: Die wenigsten Menschen verfügen über ein spezifisches Wissen über ihren Sprachassistenten – oder haben Fehlvorstellungen. Eine klassische Fehlannahme ist: Ich kann ja eh nichts beeinflussen. Dem möchten wir entgegenwirken und einen souveränen Umgang mit der Technik fördern. Wir erklären, welche Einstellung gewählt werden sollte, um möglichst wenige Daten preiszugeben. Vor allem aber wollen wir darüber aufklären, welche Gestaltungsaspekte uns in unserer Interaktion und Erwartung an die Interaktion beeinflussen. Aber auch die bewusste Wahl des Aktivierungsworts spielt eine wichtige Rolle. Sprachassistenten befinden sich meistens in unserer Nähe und können das Gesprochene potenziell immer „mithören“, sobald sie aktiviert sind.

Hotho: Folgendes Beispiel: Jemand verwendet das Aktivierungswort „Alexa“ für seinen Sprachassistenten. Im Radio läuft gerade parallel ein ganz allgemeiner Beitrag über das Unternehmen Amazon und es fällt das Wort Alexa. Dann kann das bereits ausreichen, dass der Sprachassistent in der Wohnung aktiviert wird und dann unaufgefordert aufzeichnet.

Wie werden die Trainings rund um Sprachassistenten genau gestaltet sein?

Wienrich: Bei der Konzeption unserer Trainingseinheiten verwenden wir mediendidaktische Methoden und Ansätze aus der Instruktionspsychologie. Wir setzen kein spezielles Vorwissen, zum Beispiel zu Themen wie Machine Learning, voraus, sodass wir möglichst viele Menschen mit unseren Trainings ansprechen. Unsere Übungen bauen auf Frage- und Antwortmöglichkeiten, Lücken- oder Lerntexte und – im Sinne von Gamification – auf Quiz oder kurzweilige Videospiele auf. Wichtig ist uns insbesondere der Austausch und Dialog mit Nutzerinnen und Nutzern. So sind wir bei der diesjährigen AI.BAY in München am Stand des bidt vertreten und stellen erste Trainings vor.

Bei der Konzeption unserer Trainingseinheiten verwenden wir mediendidaktische Methoden und Ansätze aus der Instruktionspsychologie. Wir setzen kein spezielles Vorwissen, zum Beispiel zu Themen wie Machine Learning, voraus, sodass wir möglichst viele Menschen mit unseren Trainings ansprechen.

Prof. Dr. Carolin Wienrich Zum Profil

Sollten die Hersteller nicht auch im Umgang mit ihren Geräten sensibilisieren?

Hotho: Sehr wünschenswert wäre es natürlich, wenn künftig Trainingseinheiten direkt vom Hersteller angeboten werden. Im Idealfall gäbe es eine direkte Interaktionsmöglichkeit mit dem Gerät nach dem Kauf. Das könnte so funktionieren, dass man sich einen Sprachassistenten kauft, ihn anstellt und als Erstes gib es eine kleine kurzweilige Trainingseinheit zur Einrichtung und zum Umgang als Teil der Inbetriebnahme.

Welche Potenziale für Sprachassistenten sehen Sie bei neuen Entwicklungen wie ChatGPT?

Hotho: Aktuell ist die Nutzungsfunktion von Sprachassistenten noch eher eingeschränkt. Systeme wie ChatGPT, die in einen „natürlichen“ Dialog mit Nutzenden treten, können einen Schub für die Entwicklung einer nächsten Generation an Sprachassistenten bedeuten. Denkbar ist, dass wir in Zukunft über die Stimme Dialoge mit dem Sprachassistenten führen. Aktuell müssen bei ChatGPT noch Aufgaben über das Eingabefeld eingetippt werden. Eine Verbindung von Sprachassistent und Chatsystem eröffnet völlig neue Möglichkeiten.

Dadurch wirkt der Sprachassistent im Umgang aber zunehmend menschlicher …

Wienrich: Genau. Die Interaktion mit dem Gerät erhält eine deutlich menschlichere Komponente. Neben Ebenen wie Dialogführung spielen für die Kommunikation auch körperliche Aspekte wie Gestik oder Mimik eine große Rolle. Das könnte in die Entwicklung von Sprachassistenten mit einfließen. Beispielsweise könnte die Sprachassistenz Teil eines Roboters sein, der stark menschliche Züge hat. Das klingt zwar noch nach Zukunftsmusik, da steckt aber auch viel Entwicklungspotenzial drin. Ob und welche Geheimnisse und Themen wir dann mit unseren Sprachassistenten besprechen, wird sich zeigen.

Herzlichen Dank für das Gespräch!

Das Gespräch führte Nadine Hildebrandt, wissenschaftliche Referentin im Dialog-Team des bidt.