Facebook erlaubt diverse Möglichkeiten für A-/B-Testing – allerdings sind häufig nicht offensichtlich bessere Resultate auch tatsächlich leistungsstärker. Das Problem liegt in der statistischen Signifikanz. Und häufig fehlt diese statistische Signifikanz insbesondere bei kleinen Testbudgets.
A-/B-Tests gehören bei vielen Werbetreibenden auf Facebook zum Alltag. Für das Testen von Werbeanzeigen bietet Facebook unterschiedliche Möglichkeiten und Wege an. Allerdings machen nicht alle A-/B-Tests auch Sinn und was gerne bei vielen Werbetreibenden auch vergessen wird, ist das Thema Signifikanz. Grund genug also, das Thema A-/B-Tests von mehreren Seiten zu beleuchten.
Es gibt verschiedene Möglichkeiten für A-/B-Tests auf Facebook. Dabei kommt es darauf an, welche Variable getestet werden soll und wo der Werbetreiber mit der Erstellung eines A-/B-Tests beginnt. Bei A-/B-Tests können Variablen wie z. B. Anzeigengestaltung, Zielgruppe oder Platzierung ändern. So kann herausgefunden werden, welche Strategie am besten funktioniert und zukünftige Kampagnen können darauf optimiert werden. Vielleicht hat ein Werbetreibender bereits eine Vermutung, dass eine Strategie mit einer Custom Audience für das Unternehmen besser funktioniert als mit einer interessenbasierten Zielgruppe. Mit einem A-/B-Test können die beiden Strategien schnell verglichen werden und es kann überprüft werden, welche Strategie erfolgreicher ist.
Sobald der Werbetreibende entschieden hat, welche Variable getestet werden soll, teilt Facebook das Budget so auf, dass jede Version der Anzeigengestaltung, Zielgruppe oder Platzierung gleichrangig und nach dem Zufallsprinzip gezeigt wird. Der A-/B-Test kann dann die Performance jeder Strategie anhand der Kosten pro Ergebnis oder Kosten pro Conversion-Steigerung mithilfe eines Holdouts messen.
Facebook empfiehlt A-/B-Tests, wenn Werbetreibende Veränderungen der Werbestrategie messen oder zwei Strategien schnell vergleichen wollen. Wenn es darum geht, neue Strategien auszuprobieren, sollte man A-/B-Tests einsetzen, anstatt mit manuellem Aktivieren und Deaktivieren von Anzeigengruppen oder Kampagnen herumzuexperimentieren. Das manuelle Aktivieren und Deaktivieren von Anzeigengruppen oder Kampagnen kann zu ineffizienten Auslieferungen und unzuverlässigen Ergebnissen führen. Mit A-/B-Tests können Werbetreibende sicherstellen, dass die Zielgruppen gleichmässig aufgeteilt und statistisch vergleichbar sind. Informelle Tests hingegen können sich überschneidende Zielgruppen zur Folge haben.
Möglicherweise wird dem Werbetreibenden eine Option im Werbeanzeigenmanager angezeigt, mit dem ein A-/B-Test unter Verwendung eines vorgeschlagenen Anwendungsfalls oder Testszenarios erstellt werden kann. Dies kann beispielsweise vorkommen, wenn beim Bearbeiten einer Anzeige im Werbeanzeigenmanager der Werbetreibende dazu aufgefordert wird, mehrere Bilder zu testen, um zu sehen, welches sich am besten für die Kampagne eignet.
Wenn diese Aufforderung im Werbeanzeigenmanager erscheint, kannst der Werbetreibende den Test durchführen, indem einfach auf “Führe einen A-/B-Test durch” geklickt wird und den angezeigten Anweisungen Folge geleistet wird.
Unter anderem können folgende Anwendungsfälle getestet werden:
Bei einem A-/B-Test wählte der Werbetreibende eine oder mehrere Variablen aus, um die Performance verschiedener Werbestrategien zu vergleichen und zukünftige Kampagnen zu verbessern. A-/B-Tests sind auch dann wirksam, wenn man messen möchte, wie eine neue Strategie bei einer vorhandenen Kampagne abschneidet.
Folgende Variablen können in einem A-/B-Test geändert werden:
Wenn man zum ersten Mal einen A-/B-Test durchführt, empfiehlt Facebook, mit einer einzigen Variable in einem einzelnen A-/B-Test zu beginnen. So erhält man einen möglichst klaren Einblick, wie sich diese Variable auf die Leistung auswirkt. Hier sind einige A-/B-Testbeispiele, abhängig von der Variable, mit der man möglicherweise experimentieren möchte.
A-/B-Testbeispiele mit einer Variable der Anzeigengestaltung
A-/B-Testbeispiele mit einer Zielgruppenvariable
A-/B-Testbeispiele mit einer Variable der Auslieferungsoptimierung
A-/B-Testbeispiele mit einer Platzierungsvariable
A-/B-Testbeispiele mit einer Variable der Produktpalette
Zweifelsohne sind A-/B-Tests eine sinnvolle Sache und sollten in keiner Strategie fehlen. Allerdings ist Vorsicht geboten. Mengenmathematik und Statistik werden auch bei den unterschiedlichsten Möglichkeiten nicht ausgehebelt und behalten ihre Wichtigkeit. Oder mit anderen Worten, Test-Szenarien sind nur so gut, wie auch die statistische Signifikanz in den Testresultaten berücksichtigt wird.
Nehmen wir an, wir haben 3 Werbeanzeigen:
Anzeige | Impress. | Klicks | Klickrate |
A | 1000 | 15 | 1.5 % |
B | 1000 | 20 | 2.0 % |
C | 1000 | 25 | 2.5 % |
Gefühlt würden wir hier nun davon ausgehen, dass Anzeige C die leistungsstärkste Variante ist. Allerdings ist der Test nicht signifikant. Warum?
Bei Versuchen mit A-/B-Tests ist statistische Signifikanz die Wahrscheinlichkeit, mit der der Unterschied zwischen der Kontrollversion eines Versuchs und der Testversion nicht aufgrund eines Fehlers oder Zufalls besteht. Wenn beispielsweise einen Test mit einem Signifikanzniveau von 95 % durchgeführt wird, kann man zu 95 % sicher sein, dass die Unterschiede real sind.
Mit der statistischen Signifikanz wird häufig im Werbebereich beobachtet, wie Versuche sich auf die Konversionsraten / Klickraten / etc. auswirken. In Umfragen wird mit der statistischen Signifikanz üblicherweise dafür gesorgt, dass die Umfrageergebnisse zuverlässig sind. Wenn man beispielsweise von Umfrageteilnehmern wissen will, ob sie Anzeige A oder B bevorzugen würden, muss darauf geachtet werden, dass die Unterschiede in den Ergebnissen statistisch signifikant sind, bevor man sich für die Verwendung von einer der beiden Anzeigen entscheidet.
Im ersten Schritt formuliert man eine Hypothese. Bei jedem Versuch gibt es eine Nullhypothese, die besagt, dass es keine Beziehung zwischen den beiden Dingen gibt, die miteinander verglichen werden. Zudem gibt es eine Alternativhypothese. Eine Alternativhypothese versucht typischerweise nachzuweisen, dass es eine Beziehung gibt. Dies ist die Aussage, die man zu belegen versucht. Wenn es um A-/B-Tests im Hinblick auf die Konversionsrate geht, können zwei unterschiedliche Bilder verwendet werden, um zu ermitteln, ob die Konversionsraten dadurch beeinflusst werden.
Nach dem Formulieren von Null- und Alternativhypothese führen Statistiker gelegentlich Tests durch, um zu gewährleisten, dass ihre Hypothesen solide sind. Ein z-Wert bewertet die Gültigkeit Ihrer Nullhypothese. Anhand dieses Werts kann festgestellt werden, ob es tatsächlich keine Beziehung zwischen den Dingen gibt, die miteinander verglichen werden. Anhand des p-Werts kann erkannt werden, ob der Nachweis für den Beleg der Alternativhypothese stark ist.
Bei der Durchführung von Tests für die statistische Signifikanz ist es sinnvoll zu entscheiden, ob der Test einseitig oder zweiseitig sein soll. Bei einem einseitigen Test wird davon ausgegangen, dass Ihre Alternativhypothese nur eine (positive) Wirkungsrichtung hat, während bei einem zweiseitigen Test auch berücksichtigt wird, dass Ihre Hypothese eine negative Auswirkung auf die Ergebnisse haben kann. Im Allgemeinen handelt es sich bei einem zweiseitigen Test um die vorsichtigere Wahl. Selbst professionelle Statistiker nutzen statistische Modellierungssoftware zur Berechnung der Signifikanz und der zu belegenden Tests. Deshalb tauchen wir hier nicht zu tief in die Materie ein.
Wir nehmen nochmals die Zahlen vom einfachen Beispiel oben für die 3 Werbeanzeigen:
Anzeige | Impress. | Klicks | Klickrate | Uplift | Konfidenz |
A | 1000 | 15 | 1.5 % | ||
B | 1000 | 20 | 2.0 % | +33.33 % | 60.61 % – das Ergebnis ist nicht signifikant |
C | 1000 | 25 | 2.5 % | +66.66 % | 88.97 % – das Ergebnis ist nicht signifikant |
Wir sehen also, dass der A-/B-Test mit den 3 Varianten kein statistisch signifikantes Resultat liefert.
Konfidenzniveaus und Signifikanzniveaus
Vor Beginn des Tests muss ein Konfidenzniveau gewählt werden. Das legt fest, wie sicher man sich sein will, dass das Testergebnis auch auf die Grundgesamtheit zutrifft. Liegt die ermittelte Konfidenz über dem Konfidenzniveau, wird der Test als statistisch signifikant akzeptiert.
Das folgende Schema an Konfidenzniveaus hat sich in der Sozialwissenschaft eingebürgert:
90 % | tendenziell: Ein Unterschied darf weiterhin vermutet werden, gilt aber nicht als bewiesen. |
≥ 95 % | signifikant: 95 % ist in vielen Anwendungsbereichen das am häufigsten gewählte Konfidenzniveau. Deshalb werden in diesem Standardschema auch Konfidenzen von 95 % oder mehr als statistisch signifikant betrachtet. |
≥ 99 % | sehr signifikant: Überschreitet die Konfidenz ein Niveau von 99 %, spricht man von einem sehr signifikanten Test. |
≥ 99,9 % | höchst signifikant: Die Wahrscheinlichkeit, dass der Unterschied rein zufällig zustande gekommen ist, beträgt ≤ 0,1 %. Das Ergebnis ist höchst signifikant. |
Das oben gezeigte Beispiel kommt sehr häufig vor. Insbesondere sind entsprechende Tests mit wenig starken Abweichungen häufig zu sehen, insbesondere weil viele Werbetreibende für Tests nur minimale Budgets einsetzen, entsprechend liegen die Resultate häufig sehr nahe beieinander.
Wenn wir den genau gleichen Test noch einmal durchführen, allerdings sämtliche Werte mit Faktor 10, erhalten wir ein statistisch signifikantes Ergebnis:
Anzeige | Impress. | Klicks | Klickrate | Uplift | Konfidenz |
A | 10’000 | 150 | 1.5 % | ||
B | 10’000 | 200 | 2.0 % | +33.33 % | 99.29 % – das Ergebnis ist signifikant |
C | 10’000 | 250 | 2.5 % | +66.66 % | 99.99 % – das Ergebnis ist signifikant |
Entsprechende Berechnungen können einfach online vorgenommen werden. Nachfolgend ein paar Signifikanz-Rechner für A-/B-Tests oder zur Errechnung der Stichprobengrösse. Bei den A-/B-Test-Rechnern steht jeweils “Besucher” und “Konversionen”. Selbstverständlich kann auch “Besucher” mit “Impressionen” und “Konversionen” mit “Klicks” ausgetauscht werden.
Vorsicht vor Milchmädchenrechnungen. Auch wenn Tests möglich sind, ergeben sie nicht immer Sinn. Grundsätzlich müssen bei allen Tests statistische Grundsätze beachtet werden. Und ganz häufig sind Tests mit sehr kleinen Budgets alles andere als aussagekräftig.
Comments are closed.