Jeden Tag teilen Menschen rund um den Globus Videos auf den Plattformen von Facebook. Das Unternehmen entwickelt daher eine KI, die aus öffentlich zugänglichen Videos lernt und der Plattform dabei hilft, reale Gegebenheiten und Klänge besser analysieren können – und nicht nur aus Beispielen, die Teil eines viel kleineren, von Hand kuratierten Datensatzes sind.
Facebook präsentiert ein neues Projekt mit dem Namen “Learning from Videos”, das darauf abzielt, die künstliche Intelligenz von Facebook (KI) mit den öffentlich verfügbaren Videos, die auf die Plattform hochgeladen wurden, zu trainieren. Indem Facebook von Videos aus fast allen Ländern und Hunderten von Sprachen lernt, wird dieses Projekt nicht nur dabei helfen, KI-Kernsysteme für Anwendungen wie Inhaltsempfehlungen und die Durchsetzung von Richtlinien kontinuierlich zu verbessern – es wird auch völlig neue Erfahrungen ermöglichen. Eine erste Anwendung ist bereits im Empfehlungssystem von Instagram Reels enthalten.
Kontinuierliches Lernen aus der Welt um uns herum ist eines der Markenzeichen menschlicher Intelligenz. So wie wir schnell lernen, Menschen, Orte, Dinge und Handlungen durch Beobachtung zu erkennen, werden KI-Systeme intelligenter und nützlicher sein, wenn sie die Art und Weise, wie Menschen lernen, nachahmen können. Gerade in den letzten Jahren konnte Facebook erhebliche Durchbrüche im Bereich des selbstüberwachten Lernens erzielen. Diese Fortschritte haben KI-Systeme weniger abhängig von beschrifteten Datensätzen gemacht, sodass KI beginnen kann, die Welt durch grosse Mengen von Beobachtungsdaten zu verstehen, so wie es Menschen eben auch tun.
Das neue Projekt mit dem Namen “Learning from Videos” ist darauf ausgelegt, aus Audio-, Bild- und Texteingaben zu lernen – um die Kernsysteme vom Facebook kontinuierlich zu verbessern und völlig neue Anwendungen zu ermöglichen. Durch das Lernen aus öffentlich verfügbaren Videos, die fast jedes Land und Hunderte von Sprachen abdecken, werden die KI-Systeme nicht nur die Genauigkeit verbessern, sondern sich auch an die schnelllebige Welt anpassen. Dabei gibt es verschiedene Nuancen und visuelle Hinweise in verschiedenen Kulturen und Regionen, welche die KI erkennen soll.
KI-Modelle sind nur dann erfolgreich, wenn sich Facebook der Verantwortung stellt, die es für die Wahrung der Privatsphäre der Menschen hat. Facebook baut und pflegt deshalb ein starkes Datenschutzfundament, das automatisierte Lösungen nutzt, um den Datenschutz im grossen Massstab durchzusetzen. Indem es diese Arbeit auf der Infrastrukturebene verankert, kann die Plattform die Datenschutzanforderungen konsistent in allen Systemen anwenden. Dazu gehört auch die Implementierung technischer Schutzmassnahmen während des gesamten Lebenszyklus der Daten.
Obwohl Facebook gerade erst an der Oberfläche kratzt, hat die Verwendung von semi- und selbstüberwachtem Lernen auf den auf Facebook hochgeladenen Videos bereits die Computer Vision- und Spracherkennungssysteme verbessert. Innerhalb von sechs Monaten nach der Entwicklung des Frameworks für das Verstehen von Videos, hat Facebook ein KI-Modell für das Empfehlungssystem von Instagram Reels entwickelt und eingesetzt. Und das ist erst der Anfang des Projekts “Learning from Videos”. Erste Experimente zur Anwendung von selbstüberwachtem Lernen auf realen Videos zeigen eine 20-prozentige Reduzierung von Spracherkennungsfehlern. Das kann eine Vielzahl von Anwendungen, wie beispielsweise die Platzierung automatischer Untertitel oder Kennzeichnung schädlicher Inhalte wie Hassreden, verbessern.
Das Auffinden ähnlicher Reels passt besonders gut zu selbstüberwachten Modellen, da Reels dazu neigen, stark stilisiert zu sein und gemeinsame Muster in trendigen Videos aufweisen. Beliebte Videos bestehen oft aus derselben Musik, die mit denselben Tanzbewegungen unterlegt ist, aber von verschiedenen Personen erstellt und gespielt wird. Selbstüberwachte Modelle lernen automatisch “Themen”, gruppieren sie und stellen sie dem Empfehlungssystem zur Verfügung. Facebook verwendet die Selbstüberwachung, um Videos vorzuschlagen, die für die zuletzt angesehenen Videos relevant sind, und filtert dabei Beinahe-Duplikate heraus. Um dies zu erreichen, nutzt die Plattform Generalized Data Transformations (GDT), eine hochmoderne Methode zur Erstellung von Videoeinbettungen, die systematisch aus den Beziehungen zwischen Ton und Bild in einem Video lernt. Seit der Entwicklung dieser Technologie im letzten Jahr hat wurde der Fokus auf die Darstellung von Reels-Daten gelegt, indem Facebook eine Reihe von Modellen auf einem Datensatz mit Millionen von Reels und Videos von Instagram trainiert hat.
(Quelle: Facebook AI – Learning from videos to understand the world)
Eine Replikation von vier Reels-Videos zeigt, dass GDT-Audioeinbettungen effektiv für das Auffinden von ähnlichem Audio sein können. Das Video sollte mit eingeschaltetem Ton angesehen werden. Diese vier Videos sind nur durch die Ähnlichkeit des Audios miteinander verknüpft und unterscheiden sich signifikant in ihren visuellen Eigenschaften. Diese Beobachtungen sind ermutigend für die Zukunft der Self-Supervision-Forschung, da das Modell nie explizit auf Audioähnlichkeit trainiert wurde.
GDT wurde entwickelt, um sowohl Audio- als auch visuelle Verschlüsselungen von Videoinhalten zu lernen. Die Parameter des Modells werden so angepasst (oder gelernt), dass die Repräsentationen von Audio- und visuellen Inhalten, die zur gleichen Zeit aus demselben Video entnommen wurden, einander ähnlich sind, sich aber von den Repräsentationen nicht verwandter Inhalte unterscheiden. So kann das System lernen, dass ein Bild eines klatschenden Publikums wahrscheinlich zum Klang des Applauses passt, oder dass ein Video eines startenden Flugzeugs höchstwahrscheinlich zu einem lauten Dröhnen passt.
GDT funktioniert auch in einer Umgebung gut, in der Facebook Empfehlungen basierend auf Videos finden kann, die ähnlich klingen bzw. ähnlich aussehen. Interessanterweise hat Facebook festgestellt, dass die Audioähnlichkeit besonders hilfreich war, um relevante Inhalte vorzuschlagen.
Eine grosse Hürde in diesem Prozess war es, die Genauigkeit des Modells zu bewerten. Offline-Metriken, die auf historischen Daten beruhen, sind nicht zuverlässig genug, um zu beurteilen, ob Menschen die von dem neuen Modell generierten Empfehlungen denen von bestehenden Modellen vorziehen würden. Daher brauchte Facebook eine Möglichkeit, realistische Engagement-Statistiken in Echtzeit zu analysieren. Um dieses Problem zu lösen, wandte sich die Plattform an den Goldstandard der Online-A/B-Tests. Facebook liess das Modell in der Produktion laufen und stellten seine Ausgabe in Echtzeit für das Ranking-System zur Verfügung. Mit diesem Ansatz war der Social Media-Gigant in der Lage, Online-A/B-Tests durchzuführen, die positive Ergebnisse zeigten.
In jüngster Zeit ist es Sprachmodellen gelungen, die gesamte Struktur der Sprache mit meist rohen Sprachdaten zu erlernen – und die traditionellen, überwachten Methoden zu verbessern. Facebooks neueste Technik zum Lernen von Sprachrepräsentationen, genannt wav2vec 2.0, arbeitet, indem es zunächst einen Teil der Sprache maskiert und dann lernt, maskierte Spracheinheiten vorherzusagen. Um eine Vorstellung von der Geschwindigkeit des Fortschritts zu vermitteln, benötigt wav2vec 2.0 und das Selbsttraining nur 10 Minuten transkribiertes Audiomaterial, um sehr gute Spracherkennungsergebnisse zu erzielen. Noch vor einem Jahr waren für die gleichen Ergebnisse fast 1’000 Stunden transkribiertes Audiomaterial erforderlich.
So funktioniert das wav2vec 2.0 Modell. (Quelle: Facebook AI – Learning from videos to understand the world)
Diese Ergebnisse sind zwar aufregend, basieren aber bisher auf akademischen, kuratierten Datensätzen von Sprachaudio (wie sorgfältig gelesene Hörbücher). Videos aus der realen Welt enthalten Sprache ohne Einschränkungen, mit Hintergrundmusik, Geräuschen, verschiedenen Sprechstilen, Akzenten, Sprachwechseln und anderen schwierigen Herausforderungen.
Um die Methode auf realen Daten zu testen, hat Facebook wav2vec 2.0 auf Millionen von Stunden unmarkierter Videos und nur 100 Stunden markierter Daten angewendet. Sie erzielten starke Verbesserungen von etwa 20 Prozent relativer Wortfehlerreduktion, verglichen mit rein überwachten Baselines mit den 100 Stunden. Dies beweist zum ersten Mal, dass selbstüberwachtes Lernen mit wav2vec 2.0 für reale Datensätze effektiv ist.
In einem nächsten Schritt wird Facebook nun die Skalierung von wav2vec 2.0 angehen, indem das Training des Modells auf Millionen von Sprachstunden und 25 Sprachen erweitert wird.
Mit Selbstüberwachung können KI-Systeme automatisch lernen, wichtige Erinnerungen zu finden und aufzurufen – und das weit über die Suche nach Datum oder Ortsangaben hinaus. Um Videos zu finden, die zu Textphrasen wie “Zeig mir jedes Mal, wenn wir Oma zum Geburtstag gratuliert haben” passen, ist ein multimodales Videoverständnis entscheidend. Um sich auf diese Weise an Erinnerungen zu erinnern, müssen die Systeme lernen, wie man den Ausdruck „Alles Gute zum Geburtstag“ mit Kuchen, Kerzen, Menschen, die verschiedene Geburtstagslieder singen, und vielem mehr in Einklang bringt.
Jüngste Fortschritte beim selbstüberwachten Lernen haben es möglich gemacht, eine gemeinsame Repräsentation von Audio, visuellen und textuellen Signalen in einem einzigen Vektorraum zu erstellen. Im Rahmen der jüngsten Forschungsbemühungen verwendet Facebook die Kombination von Facebook-Videos und dem zugehörigen Text (Titel, Bildunterschrift, Beschreibungen) als zentralen Hebel für das multimodale Verständnis. Obwohl der zugehörige Text nicht immer perfekt das Video beschreibt, ist er oft genug ein nützliches Signal. Die Plattform hat dies bisher eher für Bilder als für Videos erreicht mit Milliarden von öffentlichen Bildern und Tausenden von Hashtags.
Die grösste technische Herausforderung bei diesem Ansatz ist, dass Text und Video in keiner Weise aufeinander abgestimmt sind. Obwohl jeder Audioclip mit einem visuellen Clip korrespondiert, gibt es keine ähnliche Assoziation zwischen den Textwörtern und den Clips. Aus diesem Grund müssen sie audiovisuelle Informationen aus dem gesamten Video und dem Text aggregieren und dann beide auf der globalen Videoebene vergleichen. Facebook nennt diese Forschung das Audio-Visual-Textual-Modell oder AVT-Modell, das hier dargestellt ist:
Das Audio-Visuell-Text-Encoder-Modell von Facebook AI. Das kontrastive Training zwingt die audiovisuellen Encoder dazu, mit dem textuellen Encoder übereinzustimmen, indem Video/Text-Paare von Benutzern verwendet werden. (Quelle: Facebook AI – Learning from videos to understand the world)
In diesem Forschungsmodell extrahiert Facebook jede Sekunde einen visuellen Clip – d. h. eine kurze Sequenz visueller Frames – aus einem Video. Das System analysiert diese Sequenz, um einen Vektor von Zahlen zu erzeugen, der die Informationen im Clip repräsentiert. Diese Informationen werden über die Zeit aggregiert, um eine Gesamtdarstellung der Informationen im visuellen Teil des Videos zu erhalten.
Facebook verfolgt einen ähnlichen Prozess mit Audio-Spuren, bei dem einsekündige Audioclips extrahiert und dann analog zum visuellen Stream verarbeitet werden, um eine Darstellung der Audioinformationen im Video zu erhalten. Die Audio- und visuellen Repräsentationen werden dann kombiniert, um – letztendlich – eine audiovisuelle Gesamtdarstellung des Videos zu erhalten.
Durch die Verwendung von kontrastivem Training – Lernen, was zwei Dinge ähnlich und unähnlich macht – kann das System schlussendlich sicherstellen, dass Video- und Text-Encoder ähnliche Video- und Textrepräsentationen für Eingaben haben, die zusammenpassen, sich aber von zufälligen Inhalten unterscheiden. Bei einer Textabfrage (z. B. “Zeig mir jedes Mal, wenn wir für Oma gesungen haben”) berechnet die KI die Einbettung und findet ähnliche Video-Nachbarn im Einbettungsraum. In einem nächsten Schritt arbeitet Facebook nun daran, diese Funktion auf Millionen von Videos zu skalieren, bevor sie mit dem Testen der Funktion in der Produktion beginnen können.
Im Blogpost zur Ankündigung des Projekts weist das soziale Netzwerk auf eine zukünftige, spekulative Anwendung hin: Die Verwendung von KI zum Abrufen von “digitalen Erinnerungen”, die von intelligenten Brillen erfasst werden.
Das passt zu einer kürzlich getätigten Ankündigung: Facebook plant, noch in diesem Jahr eine smarte Brille für Verbraucher auf den Markt zu bringen. Details über das Gerät sind vage, aber es ist wahrscheinlich, dass diese oder zukünftige Brillen integrierte Kameras enthalten werden, um den Blickwinkel des Trägers zu erfassen. Wenn KI-Systeme darauf trainiert werden können, den Inhalt von Videos zu verstehen, dann wird es Menschen möglich sein, nach vergangenen Aufnahmen zu suchen, so wie bereits jetzt viele Foto-Apps die Suche nach bestimmten Orten, Objekten oder Personen ermöglichen. Das Potenzial dieser Anwendung ist riesig.
Das Projekt “Learning from Videos” signalisiert einen Paradigmenwechsel in der Art und Weise, wie Maschinen Videos verstehen können und bringt Facebook auf den Weg, intelligentere KI-Systeme zu bauen. Diese Arbeit wird es ermöglichen, von der KI wegzukommen, bei der Menschen Videos von Hand ansehen und beschriften müssen. Sie wird es ebenfalls ermöglichen, KI-Systeme zu bauen, die die fortschrittlichsten Techniken, wie z. B. Selbstüberwachung, verwenden, um Empfehlungen, Suche und Abrufe und andere wichtige Anwendungen für jeden auf Facebook zu verbessern. Da die Systeme kontinuierlich lernen, werden sie zuverlässiger, effizienter und personalisierter werden. Es ist auch Teil der umfassenderen Bemühungen von Facebook, Modelle zu entwickeln, die wie Menschen lernen – und das aus jedem Beispiel, nicht nur aus solchen, die von Wissenschaftlern und Experten vordefiniert wurden wurden.