Themen
22.08.2018 Facebook Video

Facebook: sag “Aloha” – ein Blick auf die Facebook Voice Ambitionen

Wie TechCrunch berichtet, offenbart ein Code eine noch nicht lancierte Spracherkennungsfunktion von Facebook. Bis anhin hat Facebook die Revolution der Sprachverarbeitung erst langsam angenommen. Bis jetzt stehen weder ein Sprachassistent noch intelligtene Lautsprecher zur Verfügung, die intelligenten Lautsprecher sind noch in der Entwicklung und beispielsweise Instagram ist für die Audiokommunikation noch nicht ausgestattet.

Thomas Hutter
7 Min. Lesezeit
Keine Kommentare

Wie TechCrunch berichtet, offenbart ein Code eine noch nicht lancierte Spracherkennungsfunktion von Facebook. Bis anhin hat Facebook die Revolution der Sprachverarbeitung erst langsam angenommen. Bis jetzt stehen weder ein Sprachassistent noch intelligtene Lautsprecher zur Verfügung, die intelligenten Lautsprecher sind noch in der Entwicklung und beispielsweise Instagram ist für die Audiokommunikation noch nicht ausgestattet. Aber vieles davon wird sich durch Experimente, die im Code von Facebook entdeckt wurden, sowie durch neue Patentanmeldungen ändern.

Die Entwicklung von Sprachfunktionen könnte den Menschen mehr Möglichkeiten bieten, Facebook zu Hause oder unterwegs zu nutzen. Der bevorstehender Portal-Smart Speaker ist Berichten zufolge für einfache Video-Chats mit entfernten Familienmitgliedern, einschliesslich Senioren und Kindern, die Probleme mit Telefonen haben könnten, konzipiert. Verbesserte Transkriptions- und Sprache-zu-Text-zu-Sprache-Funktionen könnten Messenger-Benutzer über die Eingabemedien hinweg verbinden und sie in der Chat-Anwendung halten, anstatt zurück zu SMS zu gehen.

Aber die Stimme von Facebook könnte vom Lärm der Menge übertönt werden, wenn es nicht bald losgeht. Alle grossen Hersteller mobiler Hardware und Betriebssysteme haben jetzt ihre eigenen Sprachassistenten wie Siri, Alexa, Google Assistant und Samsung Bixby sowie ihre eigenen intelligenten Lautsprecher. Im zweiten Quartal 2018 schätzt Canalys, dass Google 5,4 Millionen Homes und Amazon 4,1 Millionen Echoes ausgeliefert hat. Apple’s HomePod ist langsam mit weniger als 6 Prozent des Marktes gestartet, hinter Alibaba’s Smart Speaker, meint Strategy Analytics. Facebook’s fleckige weisse Weste rund um den Datenschutz könnte potenzielle Kunden zu seinen Konkurrenten lenken.

Angesichts der Tatsache, dass Facebook spät am Spiel teilnimmt, muss eine entsprechende Lösung mit einem mächtigen Dienstprogramm ankommen, das echte Probleme löst. Hier ist ein Blick auf die neuesten Entwicklungen von Facebook im Bereich Sprache und wie vergangenen Experimente die Grundlage für den nächsten grossen Schub bilden.

Aloha Voice

Facebook entwickelt eine eigene Spracherkennungsfunktion unter dem Namen “Aloha” sowohl für die Facebook- und Messenger-Anwendungen als auch für externe Hardware – wahrscheinlich der Videochat-Smart Speaker, der entwickelt wird. Code innerhalb der Facebook und Messenger Android Apps, die von der häufigen TechCrunch Tippgeberin und mobilen Forscherin Jane Manchun Wong ausgegraben wurden, gibt den ersten Blick auf einen Prototyp für die Aloha Benutzeroberfläche.

 

Mit der Bezeichnung “Aloha Voice Testing” wird ein horizontaler blauer Balken erweitert und verkleinert, um das Sprachvolumen beim Erkennen und Transkribieren in Text zu visualisieren. Der Code beschreibt die Funktion als Verbindung mit externen Wi-Fi- oder Bluetooth-Geräten. Es ist möglich, dass die Software sowohl auf der Hardware als auch auf der Software von Facebook läuft, ähnlich dem Google-Assistenten, der sowohl auf Handys als auch auf Google-Home-Lautsprechern läuft. Wie unten zu sehen ist, enthält die Aloha-Funktion einen Bildschirm “Ihr mobiles Gerät ist jetzt mit dem Portal verbunden”, der diesen Namen für das intelligente Lautsprechergerät des Facebook-Videochats bestätigt.

Facebook lehnte es ab, das Video zu kommentieren, Facebook Sprecher Ha Thai sagte gegenüber Jane manchun Wong: “Wir testen die ganze Zeit, aber mein Team wird in ein paar Wochen über Hardware-Neuigkeiten aus der AR/VR-Organisation informiert sein”. Es ist unklar, ob sich diese Hardware-Nachrichten auf Voice und Aloha oder Portal konzentrieren werden, oder ob sie sich nur auf die Oculus Connect 5-Konferenz von Facebook am 25. September beziehen.

Eine Quelle sagte Jane Manchun Wong zuvor, dass Facebook vor Jahren daran interessiert war, eine eigene Spracherkennungssoftware zu entwickeln, die speziell entwickelt wurde, um genau zu transkribieren, wie Freunde miteinander sprechen. Diese Sprachmuster sind oft lässiger, umgangssprachlicher, schneller und voller Slang als die Art und Weise, wie wir formal computerisierte Assistenten wie Amazon Alexa oder Google Home ansprechen.

Wenn Facebook diese Art der Kommunikation ausarbeiten kann, könnten eigene Transkriptionsfunktionen in Messenger und anderswo auf der Website angeboten werden, damit die Nutzer über verschiedene Medien kommunizieren können. Möglicherweise könnte man so Freunden Kommentare oder Nachrichten diktieren, während man die Hände anderweitig nutzt oder man nicht auf den Bildschirm schauen kann. Der Empfänger könnte dann den Text lesen, anstatt ihn wie eine Sprachnachricht anhören zu müssen. Die Funktion kann auch für die Sprachnavigation von Facebook-Apps verwendet werden, um die Freisprechfunktion zu verbessern oder für vollautomatische Übersetzungen genutzt werden.

Wong fand auch das Aloha-Logo im Code von Facebook vergraben, das Vulkanbilder enthält. Ebenso wurde eine Facebook Aloha Setup Chatbot mit einem ähnlichen Logo auf den Telefonen der Facebook-Mitarbeiter gesehen.

Lautsprecher- und Kamerapatente

Facebook’s Video-Chat-Smart Speaker wurde ursprünglich in Aloha umbenannt, später aber in Portal. Der $499-Konkurrent der Amazon Echo Show war ursprünglich auf Facebook’s F8 im Mai angesetzt, aber Bloomberg berichtete, dass er zurückgedrängt wurde, weil er Bedenken hatte, dass er den von Cambridge Analytica angezettelten Datenschutzskandal verschärfen würde.

Facebook Patent für Lautsprecher (Quelle: TechCrunch)

Facebook Patent für Lautsprecher (Quelle: TechCrunch)

 

Eine neue Patentanmeldung zeigt, dass Facebook bereits am 26. Dezember 2016 den Bau eines intelligenten Lautsprechers in Betracht zog, als es ein Patent für ein würfelförmiges Gerät einreichte. Das Patent zeigt ein von Baback Elmieh, Alexandre Jais und John Proksch-Whaley erfundenes “ornamentales Design für ein Lautsprechergerät”. Facebook hatte Elmiehs Startup Nascent Objects im September desselben Jahres erworben und ist nun technischer Projektleiter im geheimnisvollen Hardware-Labor von Facebook Building 8. Das Startup hatte modulare Hardware gebaut, und Anfang des Jahres erhielt er Patente für die Arbeit bei Facebook an mehreren modularen Kameras. Die Lautsprecher- und Kameratechnologie, die Facebook entwickelt hat, könnte sich möglicherweise zu dem entwickeln, was in seinem Video-Chat-Speaker steckt. Die Tatsache, dass Facebook die Lautsprecher-Technologie schon so lange erforscht und dass der Vorsprung bei diesen Patenten immer noch ein geheimes Projekt in Gebäude 8 ist, bestärkt den Fall, dass Facebook grosse Pläne für den Sprachraum hat.

Facebook Patent zeigt das Design für eine Kamera (links) und Video Kamera (rechts) (Quelle: TechCrunch)

Facebook Patent zeigt das Design für eine Kamera (links) und Video Kamera (rechts) (Quelle: TechCrunch)

 

Instagram Sprachnachrichten

Und schliesslich wird Instagram auch immer tiefer in das Sprachspiel hineingezogen. Ein Screenshot aus dem Code von Instagram’s Android App von Wong zeigt die Entwicklung einer Voice-Clip-Messaging-Funktion in Richtung Instagram Direct. Dies würde es ermöglichen, in Instagram zu sprechen und die Audioclips ähnlich einem Walkie-Talkie zu senden, oder wie die Sprachnachrichtenfunktion des Facebook Messengers, die 2013 hinzugefügt wurde, einzusetzen.

Sie können die Sprachschaltfläche im Nachrichten-Composer am unteren Rand des Bildschirms sehen, und der Code beinhaltet den Text “Sprachnachricht, drücken und halten, um aufzunehmen”. Der Prototyp folgt dem kürzlichen Start des Video-Chats in Instagram Direct. Ein Sprecher von Instagram lehnte es jedoch ab zu kommentieren, wie es typisch ist, wenn Features in seinem Code entdeckt werden, aber noch nicht öffentlich getestet werden, und sagte: “Leider gibt es dazu im Moment nichts mehr zu sagen”.

Instagram mit

Instagram mit “Voice”-Button im Nachrichten-Komposer (Quelle: TechCrunch)

 

Der lange Weg zum Voicebook

Facebook hat lange im Bereich Sprache herumgebastelt. Im Jahr 2015 erwarb das Unternehmen das Startup Wit.ai, das eine Entwicklerplattform für die Entwicklung von Sprachschnittstellen betrieb, obwohl es Wit.ai später in das Plattformteam von Messenger einbrachte, um sich auf Chatbots zu konzentrieren. Facebook begann auch damit, die Voice-Clips von Messenger automatisch in Text umzuschreiben, was wahrscheinlich die Grundlage für die oben beschriebene Aloha-Funktion war. Das Unternehmen enthüllte auch seinen persönlichen Assistenten “M”, der Aufgaben für die Benutzer erledigen konnte, aber er wurde nur auf einen sehr begrenzten Benutzerstamm ausgerollt und später abgeschaltet.

Im nächsten Jahr behauptete Facebook-Chef David Marcus bei TechCrunch Disrupt, dass die Stimme “nicht etwas ist, woran wir gerade aktiv arbeiten”, fügte aber hinzu: “Irgendwann ist es ziemlich offensichtlich, dass wir, wenn wir mehr und mehr Fähigkeiten und Interaktionen innerhalb von Messenger entwickeln, anfangen werden, an Sprachaustausch und Schnittstellen zu arbeiten”. Eine Quelle hatte Wong jedoch mitgeteilt, dass die geheimnisvolle Language Technology Group von Facebook bereits nach Sprachmöglichkeiten sucht. Facebook hat auch damit begonnen, seine Live-Audio-Funktion für Benutzer zu testen, die nur Ton und nicht Video übertragen wollen.

2017 bot Facebook automatische Untertitel für die Videos von Pages an (nur in englischer Sprache) und entwickelte eine Sprachsuchfunktion. Und in diesem Jahr begann Facebook, Sprachclips als Status-Updates und Stories für Benutzer auf der ganzen Welt auszuprobieren, die Probleme mit der Eingabe in ihrer Muttersprache haben könnten.

Automatische Voice-Clips-Transkription im Messenger (Quelle: TechCrunch)

Automatische Voice-Clips-Transkription im Messenger (Quelle: TechCrunch)

 

Facebook Führungskräfte haben jedoch nicht viel über die Sprachinitiativen gesprochen. Die detailliertesten Kommentare stammen von Luke Woods, dem Designchef von Facebook bei TechCrunch Disrupt 2017, wo er die Sprachsuche als “sehr vielversprechend” beschrieb. Es passieren viele aufregende Dinge…… Ich liebe es, mit dem Auto sprechen zu können, um zu einem bestimmten Ort zu navigieren. Das ist einer von vielen möglichen Anwendungsfällen.” Es ist auch eine, die die Stimmtranskription unterstützen könnte.

Es ist noch unklar, was genau aus Facebook’s Aloha wird. Es könnte ein De-facto-Betriebssystem oder eine Sprachschnittstelle und Transkriptionsfunktion für die intelligenten Lautsprecher und Anwendungen von Facebook sein. Es könnte ein vollwertiger Stimmassistent wie M werden, aber mit Audio. Oder es könnte die Brücke zu anderen Sprach-Ökosystemen werden und als Facebook’s Alexa Skill oder Google Assistant Action dienen.

Als Woods gefragt wurde “Wie würde Facebook auf Alexa funktionieren”, sagte er mit einem Lächeln “Das ist eine sehr interessante Frage! Kein Kommentar.”

 

Der Beitrag ist im Original in englischer Sprache auf TechCrunch erschienen.

Kommentar via Facebook

Bitte akzeptieren Sie die Cookies um die Facebook Kommentare zu nutzen.

Schreib uns einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Kennst Du schon unseren wöchentlichen Newsletter?