Alexa, halt’ die KlappeVier Wochen mit dem Amazon Echo
1.12.2016 • Technik & Wissen – Text & Fotos: Thaddeus HerrmannApple hat Siri, Microsoft hat Cortana und Google hat Google. Digitale Sprachassistenten sind auf Smartphones und Rechnern schon lange ein Standard. Nun kommt Amazon mit Alexa um die Ecke. Die freundliche Stimme lebt jedoch nicht auf dem Telefon, sondern im Echo, einem Lautsprecher, mit dem die Wohnung smarter, intelligenter und Service-orientierter werden soll. Nach zwei Jahren Experiment in den USA ist der Echo nun auch in Deutschland zu haben. Ein Selbstversuch.
Soll ich Künstlicher Intelligenz vertrauen, die meinen Namen nicht richtig aussprechen kann?
Seit rund einem Monat habe ich einen „heißen Draht“ ins Amazon-Kontrollzentrum. So lange steht jetzt der Echo schon bei mir auf dem Schreibtisch, der smarte Lautsprecher des Online-Händlers, mittlerweile faktisch eines der wichtigsten und einflussreichsten Technologie-Unternehmen weltweit. Mit dem Echo verspricht Amazon Großes: Der kleine Zylinder ist Infobox, Entertainer und Shopping-Assistent, weiß über Sport Bescheid, liest die Nachrichten, spielt Musik und ruft ein Taxi, steuert das Smart Home, kann Wikipedia anzapfen oder Zugverbindungen der Deutschen Bahn raussuchen, Rezepte vorlesen und so weiter. Einfach das Zauberwort rufen („Alexa!“), Frage stellen oder Befehl erteilen und ... Daumen drücken.
In den USA ist der Echo schon lange ein Bestseller. Das ist keine Überraschung, dort hat die Spracherkennung auch schon lange die virtuelle Schulbank gedrückt und das Konversations-Abitur abgelegt. Das System ist dort auch schon mit sehr vielen Apps und Services verknüpft, die sich – einmal aktiviert – als so genannte „Skills“ ebenfalls per Sprache nutzen lassen. Seit dem Marktstart in Amerika fragte man sich, wann Amazon den Echo denn auch in anderen Ländern verkaufen würde. Zwei Jahre später gibt es Lautsprecher nun auch in Großbritannien und Deutschland. Das nennt man wohl einen soft launch. Die Gründe dafür liegen auf der Hand.
„Siri brauchte rund zwei Jahre, bis sie meinen Vornamen nicht mehr als „Ffaddois“ synthetisierte. Jetzt habe ich wieder eine Freundin, die mich so nennt.“
Künstliche Intelligenz in Verbindung mit Spracherkennung und -steuerung ist eine verflixt komplizierte Kiste. Nicht nur dass die Dienste lokalisiert werden müssen; einem KI-System eine neue Sprache beizubringen, ist mindestens genauso aufwändig. Sprache ist etwas sehr Persönliches. Menschen nuscheln, sprechen Dialekte, lispeln, rrrrrrrollen das R, sprechen ein D wie ein T oder umgekehrt: Da kommt selbst der beste Server schnell ins linguistische Schwitzen. Daran werden sich alle erinnern, die den Start von Apples Siri auf ihrem iPhone live miterlebt haben. Und weil Sprache etwas so Persönliches und Individuelles ist, nehmen einem gerade die Dinge, die man als normal und gottgegeben voraussetzt, sofort den Glauben an die Zukunft, wenn sie schiefgehen. Siri brauchte rund zwei Jahre, bis sie meinen Vornamen nicht mehr als „Ffaddois“ synthetisierte. Jetzt habe ich wieder eine Freundin, die mich so nennt.
„Der Echo ist im Moment in der deutschen Lokalisierung noch ziemlich dumm. Nicht blöd, sondern schlicht dumm.“
Um Amazon Echo zu kaufen, braucht man heute vor allem eins: Glück. Die Wartezeiten sind lang, Bestellungen werden nach dem Losverfahren bedient. Das hat nicht damit zu tun, dass der Lautsprecher besonders schwierig herzustellen ist oder für ein Bauteil Mondgestein mit einem Shuttle in die chinesische Fabrik transportiert werden muss und dieses Shuttle gerade in Reparatur ist. Amazon streut die Verbreitung der Geräte in Deutschland ganz bewusst im Schneckentempo. Sagt natürlich niemand, macht aber Sinn: Der Echo ist im Moment in der deutschen Lokalisierung noch ziemlich dumm. Nicht blöd im Sinne von scheiße, sondern schlicht dumm, intellektuell unterbelichtet, mit zu wenigen Apps und Diensten verknüpft. Der Retouren-Anteil dürfte hoch ausfallen, wäre der Echo ein Mitnehm-Artikel an der Kasse im Media Markt. Mit diesem Problem steht Amazon nicht allein da. Apples Siri kann auf Deutsch weniger als auf Englisch, der gerade gestartete Google Assistant auf den neuen Pixel-Smartphones, ist auf Deutsch ebenfalls noch eine ziemliche Pfeife und mit Microsofts Cortana rennt man ebenso gegen Verständnis-Wände, wenn auch gegen deutlich weniger. Der Unterschied: Apple, Google und Microsoft bieten die Sprachsteuerung als kostenloses Feature an, integriert in die Geräte. Amazon will 180 Euro für den Echo und freut sich, gemeinsam mit den Kunden den Service weiterzuentwickeln. Wenn mir jemand 180 Euro gibt, freue ich mich auch über viele Dinge.
Back to basics
Aber der Reihe nach. Denn wie schon erwähnt: Der Echo ist nicht scheiße. Die Einrichtung des Lautsprechers geht schnell und ist unkompliziert. An den Strom hängen (der Echo hat keinen integrierten Akku), App (iOS und Android) laden, mit dem Amazon-Konto verknüpfen, WiFi koppeln, fertig. Der Echo ist familienfreundlich. Muss man Apples Siri beispielsweise auf die eigene Stimme trainieren, freundet sich Alexa sofort mit jedem an, der das Zauberwort sagt. Alexa. Das erste, was auffällt, ist, wie unfassbar gut genau dieser Trigger funktioniert. Aus was für Entfernungen, bei was für Geräuschpegeln. Sieben Mikrofone sind im Lautsprecher verbaut, die mit Richtstrahl- und Fernfeld-Technik beeindruckend verlässlich arbeiten. Einmal „Alexa!“ gebrüllt und der LED-Ring des Echo beginnt zu leuchten und: ready when you are.
Die Standards funktionieren alle bestens. Wie wird das Wetter? Wie wird das Wetter in London? Wer ist Angela Merkel? Wie viele Menschen leben in den USA? Wie hat Bayern München gespielt (nicht, dass mich das interessieren würde) oder: „Erzähl’ mir einen Witz.“ Das Problem mit diesen Standards ist jedoch, dass sie niemanden mehr beeindrucken. Dass Telefone diese Informationen problemlos runterrappen können, weiß mittlerweile jedes Kind. Löblich ist jedoch die ausgesprochen gute Sprachsynthese des Echo (von meinem Vornamen mal abgesehen). Die „weibliche“ Stimme ist klar, gut verständlich, kann ganze Sätze fast ohne Betonungs-Artefakte aussprechen und kommt selbst im Deutschen selbst mit eingestreuten englischen Worten gut klar, meistens jedenfalls. Das zeigt sich besonders eindrücklich, wenn es zur Musik geht. Unterstützt werden hier Amazon Prime Music und Spotify. Die Kombination aus „Spiel“ und „englischer Künstlername“ funktioniert erstaunlich reibungslos. Aber auch Bahnverbindungen, Wikipedia-Zusammenfassungen oder der Wetterbericht klingen fast, als säße Madame Alexa in Fleisch und Blut in der Ecke. Selbst das Vorlesen von Kurznachrichten von Spiegel Online klingt erstaunlich natürlich.
Aber bleiben wir noch einen Moment bei der Musik und beim Lautsprecher. Als solcher macht der Echo nämlich einen zwiespältigen Job. Die Sprachausgabe funktioniert zwar gut, Musik hören ist auf Dauer aber kein Vergnügen. Irgendwie nicht rund und austariert, alles klingt eher stressig. Streicht man die Alexa-Fähigkeiten von der Liste, würde der Echo als 180 Euro teurer Bluetooth-Lautsprecher gnadenlos durchrasseln. Das können andere Hersteller deutlich besser. Ich berichtete das kürzlich einem klugen Freund, der in Audio-Angelegenheiten sehr bewandert ist. „Kein Wunder“, sagte der, „die Frequenzen der menschlichen Sprache müssen bei dem Teil ja frei bleiben, sonst würde es ja nicht auf dich reagieren.“ Guter Punkt. Der Echo klingt also deshalb so suboptimal, damit mich die Mikrofone auch dann noch wahrnehmen, wenn Drake die Küche beschallt. Das nennt man wohl einen Kompromiss.
„Sorry, das weiß ich nicht, aber lass’ uns Freunde bleiben.“
Eine der großen Herausforderungen in Sachen Künstliche Intelligenz ist, dass die Systeme Kontext erkennen. Nur so lässt sich in der Theorie so etwas wie eine tatsächliche Unterhaltung führen. Wer ist Angela Merkel? Bundeskanzlerin. Wie alt ist sie? Das System bezieht die Nachfrage auf Merkel und antwortet entsprechend. Genau das kann der Echo nicht. Kein alleiniges Problem des Amazon-Systems, aber eben doch sehr frustrierend. Ohnehin ist die Kommunikation mit Alexa oft einfach genau das: frustrierend. Nach ein paar Wochen des Ausprobierens merke ich zwar, dass mir die Algorithmen die angeforderten Informationen auch dann ausspucken, wenn ich eher maulfaul nur ein Stichwort und nicht die gesamte Frage in die Wolke schicke, generell gilt beim Echo jedoch: Halte dich genau an die von uns formulierte Anfrage, dann passt das. Beispiel: „Alexa, Rezept des Tages“ produziert digitales Schulterzucken (siehe obige Zwischenüberschrift), „Alexa, frage Kitchen Stories nach dem Rezept des Tages“ funktioniert jedoch. Warum auch fucking immer. An anderer Stelle reicht das besagte Stichwort („Alexa, Nachrichten“), wo doch der eigentliche Auslöser „Alexa, was steht heute in den Nachrichten“ ist. Was ja ohnehin kein richtiger Satz ist oder wäre.
Es ist ein bisschen wie früher beim PDA, wo man mühsam die Buchstaben-Kürzel des Geräts erlernen musste, um sich digitale Notizen zu machen, weil das Teil zu dämlich war, sich an die eigene Handschrift zu gewöhnen. Wie das funktioniert, mit welchen Toleranzen und ob sich Amazon-seitig daran etwas ändert: Davon erfährt der Echo-Besitzer leider nichts. Es kann immer etwas vorangehen, muss aber nicht. Who knows!? Mal Alexa fragen? Jede Frage, die man Alexa stellt, wird übrigens in der Smartphone-App protokolliert. Wer will, kann in der App Feedback an Amazon schicken, ob die produzierte Antwort das geliefert hat, was man wollte.
„Amazon ist nicht das Ökosystem, in dem ich zu Hause bin und auch nicht zu Hause sein will.“
Wow-Effekt bleibt aus
Nach rund einem Monat mit dem Amazon Echo ist mein erstes Zwischenfazit: Alexa stört mich nicht weiter und darf durchaus bei mir wohnen bleiben, wirklich angefreundet haben wir uns aber auch noch nicht. Das hat mit mehreren Dingen zu tun. Erstens rede ich ungern mit Maschinen. Zweitens ist mir die Lernkurve im Moment noch nicht steil genug , die produzierte Frustration drittens mitunter zu hoch und viertens, und das ist vielleicht der wichtigste Grund: Amazon ist nicht das Ökosystem, in dem ich zu Hause bin und auch nicht zu Hause sein will. Auch wenn ich als Prime-Kunde einen Grundstock von Musik-Streaming für umme bekomme, höre ich meine Musik woanders. Spotify nutze ich ebenfalls nicht. Und als leidenschaftlicher Radiohörer verabscheue ich den integrierten Dienst „TuneIn“. Auch mit Google-Diensten habe ich wenig am Hut, so dass ich auch meine Kalender-Einträge weiter händisch erledige(n muss). Meine drei smarten Glühbirnen will Alexa partout nicht an- und ausknipsen. So steht bislang vor allem ein weiterer mäßig klingender Bluetooth-Lautsprecher bei mir auf dem Tisch, den ich jeden Tag von neuem mit meinem iPhone verbinden muss. All das kann sich ändern, vielleicht sogar schnell. Vielleicht bleibt es aber auch einfach genau so. Denn wir haben ja noch gar nicht über den Datenschutz gesprochen.
Wer weiß schon, welche Informationen sich Amazon mit Hilfe des Echo über mich besorgt, wie diese in mein Kundenkonto eingepflegt und mit welchen anderen Datenbanken verknüpft werden? Wer weiß schon, ob die sieben Mikrofone wirklich nur auf den Alexa-Auslöser reagieren? Wer weiß schon, wie sicher das ganze System überhaupt ist und ob die Lautsprecher nicht auch für eine DDOS-Attacke gekidnappt werden können wie neulich erst die Kameras und Babyphones oder heuer die Kack-Speedports der Telekom? Auch die Verwaltung mehrerer Familienmitglieder mit separaten Konten ist aktuell noch ein offenes Scheunentor mit greller Neonwerbung oben drüber. Brauchste Infos? Komm doch rein. Hier muss Amazon nicht nur schnell nachbessern, sondern vor allem informieren. Googles Pendant zum Echo – Google Home – kann aktuell noch nicht mehrere Nutzer verwalten: offenbar aus gutem Grund. Mein innerer Snowden sagt: Schick zurück, das Teil. Und mein innerer Toffler entgegnet: Behalt das mal noch. Sollst du gehen oder sollst du bleiben? Genau diese Frage werde ich Alexa nie stellen.