17.11.2020 Ads / Werbeanzeigen / Advertising

Facebook: A-/B-Tests und die Signifikanz – das muss beachtet werden!

Facebook erlaubt diverse Möglichkeiten für A-/B-Testing – allerdings sind häufig nicht offensichtlich bessere Resultate auch tatsächlich leistungsstärker. Das Problem liegt in der statistischen Signifikanz. Und häufig fehlt diese statistische Signifikanz insbesondere bei kleinen Testbudgets.

Thomas Hutter
10 Min. Lesezeit
Keine Kommentare

A-/B-Tests gehören bei vielen Werbetreibenden auf Facebook zum Alltag. Für das Testen von Werbeanzeigen bietet Facebook unterschiedliche Möglichkeiten und Wege an. Allerdings machen nicht alle A-/B-Tests auch Sinn und was gerne bei vielen Werbetreibenden auch vergessen wird, ist das Thema Signifikanz. Grund genug also, das Thema A-/B-Tests von mehreren Seiten zu beleuchten.

Das 1 x 1 von Facebook A-/B-Tests

Welche Möglichkeit bietet Facebook für A-/B-Tests von Werbeanzeigen?

Es gibt verschiedene Möglichkeiten für A-/B-Tests auf Facebook. Dabei kommt es darauf an, welche Variable getestet werden soll und wo der Werbetreiber mit der Erstellung eines A-/B-Tests beginnt.  Bei A-/B-Tests können Variablen wie z. B. Anzeigengestaltung, Zielgruppe oder Platzierung ändern. So kann herausgefunden werden, welche Strategie am besten funktioniert und zukünftige Kampagnen können darauf optimiert werden. Vielleicht hat ein Werbetreibender bereits eine Vermutung, dass eine Strategie mit einer Custom Audience für das Unternehmen besser funktioniert als mit einer interessenbasierten Zielgruppe. Mit einem A-/B-Test können die beiden Strategien schnell verglichen werden und es kann überprüft werden, welche Strategie erfolgreicher ist.

Sobald der Werbetreibende entschieden hat, welche Variable getestet werden soll, teilt Facebook das Budget so auf, dass jede Version der Anzeigengestaltung, Zielgruppe oder Platzierung gleichrangig und nach dem Zufallsprinzip gezeigt wird. Der A-/B-Test kann dann die Performance jeder Strategie anhand der Kosten pro Ergebnis oder Kosten pro Conversion-Steigerung mithilfe eines Holdouts messen.

Facebook empfiehlt A-/B-Tests, wenn Werbetreibende Veränderungen der Werbestrategie messen oder zwei Strategien schnell vergleichen wollen. Wenn es darum geht, neue Strategien auszuprobieren, sollte man A-/B-Tests einsetzen, anstatt mit manuellem Aktivieren und Deaktivieren von Anzeigengruppen oder Kampagnen herumzuexperimentieren. Das manuelle Aktivieren und Deaktivieren von Anzeigengruppen oder Kampagnen kann zu ineffizienten Auslieferungen und unzuverlässigen Ergebnissen führen. Mit A-/B-Tests können Werbetreibende sicherstellen, dass die Zielgruppen gleichmässig aufgeteilt und statistisch vergleichbar sind. Informelle Tests hingegen können sich überschneidende Zielgruppen zur Folge haben.

Split Test in Facebook

Split Test in Facebook

 

Einen A-/B-Test für typische Anwendungsfälle erstellen

Möglicherweise wird dem Werbetreibenden eine Option im Werbeanzeigenmanager angezeigt, mit dem ein A-/B-Test unter Verwendung eines vorgeschlagenen Anwendungsfalls oder Testszenarios erstellt werden kann. Dies kann beispielsweise vorkommen, wenn beim Bearbeiten einer Anzeige im Werbeanzeigenmanager der Werbetreibende dazu aufgefordert wird, mehrere Bilder zu testen, um zu sehen, welches sich am besten für die Kampagne eignet.

Wenn diese Aufforderung im Werbeanzeigenmanager erscheint, kannst der Werbetreibende den Test durchführen, indem einfach auf “Führe einen A-/B-Test durch” geklickt wird und den angezeigten Anweisungen Folge geleistet wird.

Unter anderem können folgende Anwendungsfälle getestet werden:

  • Bild:
    Für die Anzeigengestaltung der Kampagne werden verschiedene Bilder getestet.
  • Video:
    Für die Anzeigengestaltung der Kampagne werden verschiedene Videos getestet.
  • Anzeigentext:
    Der Werbetext in einer Werbekampagne wird geändert, aber das Anzeigenbild, die Zielgruppe und Platzierung werden beibehalten.
  • Alter und Geschlecht:
    Zielgruppen mit ähnlichen Interessen werden eingerichtet, unterscheiden sich jedoch anhand ihres Alters oder Geschlechts, sodass die Performance im Hinblick auf demografische Angaben verglichen werden kann.
  • Gespeicherte Zielgruppe:
    Es werden gespeicherte Custom Audiences miteinander verglichen, um herauszufinden, wie gut deine Anzeigen bei verschiedenen demografischen Gruppen ankommen.
    Sobald ein anwendungsbasierter Test erstellt wurde, können die Ergebnisse für den getesteten Anwendungsfall in Experimente eingesehen werden.

Eine Variable für einen A-/B-Test auswählen

Bei einem A-/B-Test wählte der Werbetreibende eine oder mehrere Variablen aus, um die Performance verschiedener Werbestrategien zu vergleichen und zukünftige Kampagnen zu verbessern. A-/B-Tests sind auch dann wirksam, wenn man messen möchte, wie eine neue Strategie bei einer vorhandenen Kampagne abschneidet.

Folgende Variablen können in einem A-/B-Test geändert werden:

  • Anzeigengestaltung:
    Vergleich verschiedener Anzeigenbilder, Texte oder Arten der Anzeigengestaltung. Man könnte zum Beispiel ein Video mit einem Bilder-Karussell und einen anderen Anzeigentext mit demselben Bild oder Video vergleichen. Variablen der Anzeigengestaltung werden im Werbeanzeigenmanager auf Anzeigenebene verwaltet.
  • Zielgruppe:
    Vergleich der Effektivität der Anzeigen beim Erreichen unterschiedlicher Zielgruppen oder demografischer Gruppen. Beispielsweise könnte man bestimmte Regionen für die Zielgruppe hinzufügen oder entfernen oder eine Custom Audience mit einer interessenbasierten Zielgruppe vergleichen. Variablen von Zielgruppen werden im Werbeanzeigenmanager auf Anzeigengruppenebene verwaltet.
  • Auslieferungsoptimierung:
    Vergleich von Kampagnen mit und ohne Optimierung des Kampagnenbudgets, um ihren Einfluss auf die Performance zu messen.
  • Platzierungen:
    Vergleich der Platzierungsarten, wenn man die Zielgruppen erreicht. Man kann zum Beispiel automatische Platzierungen mit bestimmten ausgewählten Anzeigenplatzierungen vergleichen.
  • Produktpalette:
    Vergleich verschiedener Produktpaletten nach der Konfiguration in den Werbeanzeigenmanager-Assets. Beispielsweise kann man zwei verschiedene Produktpaletten auswählen, wenn man Anzeigen für Produktpaletten auf Facebook schaltet. Variablen für Produktpaletten werden im Werbeanzeigenmanager auf Anzeigenebene verwaltet.
  • Mehr als eine:
    Bei manchen A-/B-Tests kann man Variablen ändern, wenn man zwei komplexe Strategien mit denselben Kosten pro Ergebnis oder Kosten pro Conversion Lift miteinander vergleichen möchte. Man kann Änderungen an der Kampagne, Anzeigengruppe oder Anzeige vornehmen, wenn man mehrere Variablen ändert.
    Je nachdem, wie man den A-/B-Test erstellt, stehen verschiedene Variablen zum Testen zur Verfügung. Wenn man beispielsweise eine Anzeige dupliziert, werden nur Variablen der Anzeigengestaltung angezeigt, die man auf Anzeigenebene testen kann. Wenn man dagegen eine Kampagne dupliziert oder “Test and Learn” verwendet, werden andere Variablen zum Testen angezeigt.

Wenn man zum ersten Mal einen A-/B-Test durchführt, empfiehlt Facebook, mit einer einzigen Variable in einem einzelnen A-/B-Test zu beginnen. So erhält man einen möglichst klaren Einblick, wie sich diese Variable auf die Leistung auswirkt. Hier sind einige A-/B-Testbeispiele, abhängig von der Variable, mit der man möglicherweise experimentieren möchte.

A-/B-Testbeispiele mit einer Variable der Anzeigengestaltung

  • Vergleich eines Slideshow-Videos mit einem Bilder-Karussell, die für Produkte oder Dienstleistungen werben.
  • Auswahl desselben Elements, z. B. ein Video oder ein Karussell, aber man probiert in jeder Version einen anderen Anzeigentext aus.
  • Verwendung von unterschiedlichen Bildern verschiedener Produkte oder Dienstleistungen, um zu ermitteln, welche Produkte die beste Leistung erzielen, wenn sie in den Anzeigen erscheinen.

A-/B-Testbeispiele mit einer Zielgruppenvariable

  • Vergleich, wie sich eine Custom Audience der letzten Website-Besucher und eine Lookalike Audience der wahrscheinlichen Besucher verhalten, wenn versucht wird, Leads oder Käufe zu erzielen.
  • Einrichten von Zielgruppen mit ähnlichen Interessen, aber unterschiedlichen Altersgruppen, um die Leistung nach demografischen Merkmalen zu vergleichen.

A-/B-Testbeispiele mit einer Variable der Auslieferungsoptimierung

  • Wenn die Optimierung des Kampagnenbudgets (CBO) noch nicht verwendet wird, kann ein Optimierungstest auf Kampagnenebene durchgeführt werden, um zu ermitteln, wie sich das auf die Auslieferung und die Performance der Anzeigen im Vergleich zu der aktuellen Strategie auswirkt.

A-/B-Testbeispiele mit einer Platzierungsvariable

  • Wenn die automatischen Platzierungen noch nicht verwendet werden, kann ein A-/B-Test durchgeführt werden, um festzustellen, wie sie sich von der aktuellen Strategie unterscheiden.
  • Vergleich von “Nur-Feed”-Platzierungen mit “Nur-Stories”-Platzierungen, um zu sehen, welche Leistung sie jeweils erzielen, wenn die Zielgruppe mit einer Anzeigengestaltung erreicht wird, die für beide geeignet ist.

A-/B-Testbeispiele mit einer Variable der Produktpalette

  • Anwendung von Tests für Produktpaletten, um Produktpaletten so zu optimieren, dass sie am besten zur Zielgruppe passt.
  • Vergleich einer Produktpalette mit Artikeln unter 50 € und einer Produktpalette mit Artikeln über 50 €.

A-/B-Tests sind sinnvoll – aber Vorsicht!

Zweifelsohne sind A-/B-Tests eine sinnvolle Sache und sollten in keiner Strategie fehlen. Allerdings ist Vorsicht geboten. Mengenmathematik und Statistik werden auch bei den unterschiedlichsten Möglichkeiten nicht ausgehebelt und behalten ihre Wichtigkeit. Oder mit anderen Worten, Test-Szenarien sind nur so gut, wie auch die statistische Signifikanz in den Testresultaten berücksichtigt wird.

Ein einfaches Beispiel

Nehmen wir an, wir haben 3 Werbeanzeigen:

Anzeige Impress. Klicks Klickrate
A 1000 15 1.5 %
B 1000 20 2.0 %
C 1000 25 2.5 %

Gefühlt würden wir hier nun davon ausgehen, dass Anzeige C die leistungsstärkste Variante ist. Allerdings ist der Test nicht signifikant. Warum?

Was ist statistische Signifikanz?

Bei Versuchen mit A-/B-Tests ist statistische Signifikanz die Wahrscheinlichkeit, mit der der Unterschied zwischen der Kontrollversion eines Versuchs und der Testversion nicht aufgrund eines Fehlers oder Zufalls besteht. Wenn beispielsweise einen Test mit einem Signifikanzniveau von 95 % durchgeführt wird, kann man zu 95 % sicher sein, dass die Unterschiede real sind.
Mit der statistischen Signifikanz wird häufig im Werbebereich beobachtet, wie Versuche sich auf die Konversionsraten / Klickraten / etc. auswirken. In Umfragen wird mit der statistischen Signifikanz üblicherweise dafür gesorgt, dass die Umfrageergebnisse zuverlässig sind. Wenn man beispielsweise von Umfrageteilnehmern wissen will, ob sie Anzeige A oder B bevorzugen würden, muss darauf geachtet werden, dass die Unterschiede in den Ergebnissen statistisch signifikant sind, bevor man sich für die Verwendung von einer der beiden Anzeigen entscheidet.

Statistische Signifikanz berechnen

Im ersten Schritt formuliert man eine Hypothese. Bei jedem Versuch gibt es eine Nullhypothese, die besagt, dass es keine Beziehung zwischen den beiden Dingen gibt, die miteinander verglichen werden. Zudem gibt es eine Alternativhypothese. Eine Alternativhypothese versucht typischerweise nachzuweisen, dass es eine Beziehung gibt. Dies ist die Aussage, die man zu belegen versucht. Wenn es um A-/B-Tests im Hinblick auf die Konversionsrate geht, können zwei unterschiedliche Bilder verwendet werden, um zu ermitteln, ob die Konversionsraten dadurch beeinflusst werden.

Nach dem Formulieren von Null- und Alternativhypothese führen Statistiker gelegentlich Tests durch, um zu gewährleisten, dass ihre Hypothesen solide sind. Ein z-Wert bewertet die Gültigkeit Ihrer Nullhypothese. Anhand dieses Werts kann festgestellt werden, ob es tatsächlich keine Beziehung zwischen den Dingen gibt, die miteinander verglichen werden. Anhand des p-Werts kann erkannt werden, ob der Nachweis für den Beleg der Alternativhypothese stark ist.

Bei der Durchführung von Tests für die statistische Signifikanz ist es sinnvoll zu entscheiden, ob der Test einseitig oder zweiseitig sein soll. Bei einem einseitigen Test wird davon ausgegangen, dass Ihre Alternativhypothese nur eine (positive) Wirkungsrichtung hat, während bei einem zweiseitigen Test auch berücksichtigt wird, dass Ihre Hypothese eine negative Auswirkung auf die Ergebnisse haben kann. Im Allgemeinen handelt es sich bei einem zweiseitigen Test um die vorsichtigere Wahl. Selbst professionelle Statistiker nutzen statistische Modellierungssoftware zur Berechnung der Signifikanz und der zu belegenden Tests. Deshalb tauchen wir hier nicht zu tief in die Materie ein.

Zurück zum einfachen Beispiel

Wir nehmen nochmals die Zahlen vom einfachen Beispiel oben für die 3 Werbeanzeigen:

Anzeige Impress. Klicks Klickrate Uplift Konfidenz
A 1000 15 1.5 %
B 1000 20 2.0 % +33.33 % 60.61 % – das Ergebnis ist nicht signifikant
C 1000 25 2.5 % +66.66 % 88.97 % – das Ergebnis ist nicht signifikant

 

Wir sehen also, dass der A-/B-Test mit den 3 Varianten kein statistisch signifikantes Resultat liefert.

Konfidenzniveaus und Signifikanzniveaus

Vor Beginn des Tests muss ein Konfidenzniveau gewählt werden. Das legt fest, wie sicher man sich sein will, dass das Testergebnis auch auf die Grundgesamtheit zutrifft. Liegt die ermittelte Konfidenz über dem Konfidenzniveau, wird der Test als statistisch signifikant akzeptiert.

Das folgende Schema an Konfidenzniveaus hat sich in der Sozialwissenschaft eingebürgert:

90 % tendenziell:
Ein Unterschied darf weiterhin vermutet werden, gilt aber nicht als bewiesen.
≥ 95 % signifikant:
95 % ist in vielen Anwendungsbereichen das am häufigsten gewählte Konfidenzniveau. Deshalb werden in diesem Standardschema auch Konfidenzen von 95 % oder mehr als statistisch signifikant betrachtet.
≥ 99 % sehr signifikant:
Überschreitet die Konfidenz ein Niveau von 99 %, spricht man von einem sehr signifikanten Test.
≥ 99,9 % höchst signifikant:
Die Wahrscheinlichkeit, dass der Unterschied rein zufällig zustande gekommen ist, beträgt ≤ 0,1 %. Das Ergebnis ist höchst signifikant.

Problem: kleine Budgets

Das oben gezeigte Beispiel kommt sehr häufig vor. Insbesondere sind entsprechende Tests mit wenig starken Abweichungen häufig zu sehen, insbesondere weil viele Werbetreibende für Tests nur minimale Budgets einsetzen, entsprechend liegen die Resultate häufig sehr nahe beieinander.

Wenn wir den genau gleichen Test noch einmal durchführen, allerdings sämtliche Werte mit Faktor 10, erhalten wir ein statistisch signifikantes Ergebnis:

Anzeige Impress. Klicks Klickrate Uplift Konfidenz
A 10’000 150 1.5 %
B 10’000 200 2.0 % +33.33 % 99.29 % – das Ergebnis ist signifikant
C 10’000 250 2.5 % +66.66 % 99.99 % – das Ergebnis ist signifikant

 

Signifikanzberechnung mit 10'000 Impressionen

Signifikanzberechnung mit 10’000 Impressionen

 

Wie rechne ich die statistische Signifikanz aus?

Entsprechende Berechnungen können einfach online vorgenommen werden. Nachfolgend ein paar Signifikanz-Rechner für A-/B-Tests oder zur Errechnung der Stichprobengrösse. Bei den A-/B-Test-Rechnern steht jeweils “Besucher” und “Konversionen”. Selbstverständlich kann auch “Besucher” mit “Impressionen” und “Konversionen” mit “Klicks” ausgetauscht werden.

Convertlytics.com

Trakken.ch

Konversionskraft.de

Abtasty.com

Blitzrechner.de

websiteplanet.com

Fazit

Vorsicht vor Milchmädchenrechnungen. Auch wenn Tests möglich sind, ergeben sie nicht immer Sinn. Grundsätzlich müssen bei allen Tests statistische Grundsätze beachtet werden. Und ganz häufig sind Tests mit sehr kleinen Budgets alles andere als aussagekräftig.

Facebook Instagram Twitter LinkedIn Xing

Kommentar via Facebook

Bitte akzeptieren Sie die Cookies um die Facebook Kommentare zu nutzen.

Schreib uns einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Kennst Du schon unsere wöchentlichen Newsletter?

Facebook & Instagram   LinkedIn