Kontrollvariablen

Weiter zu:

Kontrollvariablen – Übersicht

Kontrollvariablen sind Variablen im Modell, die keine Testvariablen sind. Sie werden verwendet, um das Baseline-Ergebnis zu schätzen. Das ist das erwartete Ergebnis des kontrafaktischen Szenarios, bei dem jede Testvariable für alle geografischen Einheiten und Zeiträume auf ihren Baseline-Wert gesetzt wird. Der Baseline-Wert ist für Media-Variablen immer null, für nicht mediabezogene Testvariablen aber oft ungleich null. Mit Kontrollvariablen lassen sich das Baseline-Ergebnis und der kausale Effekt von Testvariablen auf das Ergebnis besser schätzen.

Kontrollvariablen können so klassifiziert werden:

  • Störvariablen haben eine kausale Wirkung auf Testvariablen und KPI. Wenn Sie diese Variablen einbeziehen, werden die kausalen Schätzungen der Auswirkungen der Testvariablen auf den KPI korrigiert (entbiasiert).

  • Vorhersagevariablen haben eine kausale Wirkung auf den KPI, allerdings nur auf diesen. Die Aufnahme dieser Variablen trägt nicht dazu bei, den Bias der kausalen Wirkung der Testvariablen zu korrigieren. Starke Vorhersagevariablen können jedoch die Varianz der kausalen Schätzungen verringern.

Ein weiterer Variablentyp sind Mediatorvariablen. Diese Variablen befinden sich auf dem kausalen Pfad zwischen Testvariable und KPI. Mit anderen Worten: Sie haben einen kausale Effekt auf den KPI und werden kausal von den Testvariablen beeinflusst. Mediatorvariablen sollten nicht als Kontrollvariablen einbezogen werden, da dies zu einem Bias bei den Schätzungen der kausalen Inferenz für die Testvariablen führt.

Die kausalen Beziehungen zwischen Variablentypen werden im folgenden kausalen gerichteten azyklischen Graphen dargestellt. Ziel hier ist es, den kausalen Effekt von Media auf den KPI zu ermitteln. In den Namen der Knoten steht die Zahl 1 für Variablenwerte im Zeitraum 1, die Zahl 2 für Variablenwerte im Zeitraum 2 usw. Die Abbildung zeigt nur Knoten für die Zeiträume 1 und 2. Nehmen Sie einfach an, sie geht über \(T\) Zeiträume weiter.

Gerichteter azyklischer Graph für die kausale Wirkung von Media auf den KPI

Kontrollvariablen auswählen

Zweck des Marketing Mix Modeling (MMM) ist die kausale Inferenz über Media-Effekte, nicht die Accuracy von Vorhersagen. Der Hauptzweck von Kontrollvariablen besteht also darin, die Inferenz über den kausalen Effekt der Testvariablen auf den KPI zu verbessern. Es ist nicht notwendig oder ratsam, alle Vorhersagevariablen einzubeziehen, die die Accuracy von Vorhersagen innerhalb oder außerhalb der Stichprobe verbessern könnten. Kleinere Verbesserungen bei der Accuracy von Vorhersagen sind kein Garant für eine höhere Accuracy der kausalen Inferenz. Zu viele Vorhersagevariablen können die Varianz der kausalen Schätzungen und das Risiko von Bias durch eine falsche Modellspezifikation erhöhen.

Wenn Sie darüber nachdenken, welche Störvariablen Sie in das Modell aufnehmen sollten, kann es helfen, sich darauf zu konzentrieren, Variablen zu identifizieren, die sich auf Marketingentscheidungen auswirken oder die für Entscheidungsträger von Bedeutung sind. Die meisten Variablen, die sich auf Marketingentscheidungen auswirken, haben auch einen Einfluss auf den KPI und sind daher Störvariablen. Umgekehrt ist es nahezu unmöglich, eine umfassende Liste der Variablen zu erstellen, die sich auf den KPI auswirken. Solche Variablen sind nur dann Störfaktoren, wenn sie sich auch auf Marketingentscheidungen auswirken.

Im Prinzip können Marketingmanager eine Liste aller quantifizierbaren Informationen zur Verfügung stellen, die für Budgetentscheidungen verwendet wurden. In der Praxis ist es jedoch schwierig, eine vollständige Liste zu erstellen. Zu den grundlegenden Fragen, die Sie Marketingmanagern stellen sollten, gehören:

  1. Wie wurde das Gesamtbudget für Media auf Jahres- oder Quartalsebene festgelegt?
  2. Wie wurde die Aufteilung auf die verschiedenen Media-Channels festgelegt?
  3. Wie wurde innerhalb eines jeden Jahres entschieden, welche Wochen ein hohes und welche ein niedriges Budget haben sollen?
  4. Gibt es Ausgabenspitzen, die mit bestimmten Ereignissen wie Feiertagen oder Produktveröffentlichungen zusammenhängen?
  5. Welche Datenquellen würden bei Fragen 1 bis 4 am ehesten mit den Budgetentscheidungen korrelieren? Beispielsweise die KPI-Werte oder Wirtschaftsvariablen der Vorjahre?
  6. Wurden organische Media verwendet und was hat die Entscheidung beeinflusst, diese zu verwenden?
  7. Gab es nicht mediabezogene Testvariablen, z. B. Preisänderungen oder Werbeaktionen, und wie wurde entschieden, wann und wie diese Änderungen angewendet werden sollten?

Wir empfehlen Ihnen Folgendes:

  • Verwenden Sie Störvariablen.
  • Schließen Sie Mediatorvariablen aus.
  • Setzen Sie starke Vorhersagevariablen ein, die die Varianz der kausalen Schätzungen reduzieren können.
  • Fügen Sie nicht zu viele Variablen hinzu, die nur dazu dienen, die Accuracy der Vorhersagen zu optimieren, da dies das Risiko von Bias durch eine falsche Modellspezifikation erhöhen kann.

Posterior- und Prior-Stichproben von Kontrollkoeffizienten extrahieren

Prior- und Posterior-Stichproben der Kontrollkoeffizienten werden im Meridian-Objekt gespeichert und können extrahiert werden, um Intervalle oder andere Zusammenfassungsmesswerte zu erstellen, mit denen Sie ermitteln können, welche Kontrollen relevant sind.

Wenn der Name des Meridian-Objekts mmm ist, finden Sie die Prior- und Posterior-Stichproben für die Kontrollkoeffizienten unter mmm.inference_data.prior.gamma_c bzw. mmm.inference_data.posterior.gamma_c.

Suchvolumen als Kontrollvariable einbeziehen

Wie bereits unter Kontrollvariablen auswählen erwähnt, müssen Sie Störvariablen einbeziehen, um die kausale Wirkung von Testvariablen auf den KPI zu korrigieren. Außerdem müssen Sie Mediatorvariablen ausschließen, um kausale Schätzungen ohne Bias zu erhalten. Das Suchvolumen kann für einige Media-Channels als Mediatorvariable und für andere als Störvariable verwendet werden. So ist das Suchvolumen beispielsweise ein sicherer Störfaktor für Suchanzeigen, da eine relevante Suchanfrage oft eine Voraussetzung für eine Suchanzeige ist. Andere Formen von Media können das Suchverhalten jedoch beeinflussen. Daher ist das Suchvolumen eine Mediatorvariable für diese Media-Channels. Weitere Informationen finden Sie unter Modellierung von bezahlten Suchanzeigen.

Da Sie den Gesamteffekt der Testvariablen aller Media-Channels schätzen möchten, verwenden Sie für die Inferenz ein einzelnes Modell. Sie müssen also entscheiden, ob Sie das Suchvolumen als Störfaktor verwenden und in das Modell aufnehmen oder annehmen, dass es eine Mediatorvariable ist, die aus dem Modell ausgeschlossen werden muss. Berücksichtigen Sie bei Ihrer Entscheidung Folgendes:

  • Die Channels, für die Schätzungen ohne Bias am wichtigsten sind
  • Die angenommene Stärke der Beziehungen zwischen den Testvariablen, dem Suchvolumen und dem KPI
  • Die angenommene Anzahl der Channels, in denen das Suchvolumen eine Störvariable und keine Mediatorvariable ist

Wir sind der Ansicht, dass es aufgrund der relativ starken Beziehung zwischen Suchvolumen und Such-Media meistens die richtige Entscheidung ist, das Suchvolumen als Störvariable ins Modell aufzunehmen. Das hängt jedoch vom Anwendungsfall ab.

Verzögerte Variablen verwenden

Bei bestimmten Kontrollvariablen \(Z\)kann es sinnvoll sein, verzögerte Werte einzubeziehen. Fügen Sie beispielsweise bei jeder Woche \(t\)die Werte \(Z_{t-1},\dots ,Z_{t-L}\)für einen bestimmten Wert von \(L\)ein. Das empfiehlt sich nur, wenn Sie der Meinung sind, dass die verzögerten Werte \(t-1, \dots ,t-L\) einen kausalen Einfluss auf die KPI in Woche \(t\)haben.

Wann sind keine verzögerten Kontrollvariablen erforderlich?

Das folgende Diagramm zeigt einen kausalen gerichteten azyklischen Graphen, bei dem davon ausgegangen wird, dass Testvariablen einen verzögerten Effekt haben, Kontrollvariablen jedoch nicht. Bei diesem Graphen sind keine verzögerten Kontrollvariablen erforderlich. In den Namen der Knoten steht die Zahl 1 für Variablenwerte im Zeitraum 1 und die Zahl 2 für Variablenwerte im Zeitraum 2. Die Abbildung zeigt nur Knoten für die Zeiträume 1 und 2. Nehmen Sie einfach an, sie geht über \(N\) Zeiträume weiter.

Mit den Backdoor-Kriterien (Pearl, J. 2009) können Sie den kausalen Effekt von Testvariablen auf den KPI für Woche 2 schätzen, indem Sie ein Regressionsmodell zur Schätzung von\(E\bigl( K2 \big| T2,T1,C2 \bigr) = E\bigl( K2^{(T2, T1)} \big| C2 \bigr)\)anpassen. Die vorherigen Kontrollvariablen (\(C1\)) sind nicht erforderlich.

Verzögerte Kontrollvariablen nicht erforderlich

Wann sind verzögerte Kontrollvariablen erforderlich?

Das folgende Diagramm ist ein kausaler gerichteter azyklischer Graph, bei dem verzögerte Kontrollvariablen erforderlich sind. Zur Wiederholung: Die Zahl in den Namen der Knoten entspricht dem jeweiligen Zeitraum. Um die kausale Wirkung von Testvariablen auf den KPI in Woche 2 zu schätzen, müssen Sie Kontrollvariablen aus Woche 1 mit verzögerter Wirkung auf den KPI berücksichtigen. Andernfalls bleibt ein nicht blockierter Pfad \(T1 \leftarrow L1 \rightarrow K2\)zurück. Mithilfe der Backdoor-Kriterien können Sie ein Regressionsmodell zur Schätzung von \(E\bigl( K2 \big| T2,T1,C2,L2,L1 \bigr) = E\bigl( K2^{(T2,T1)} \big| C2,L2,L1 \bigr)\)anpassen.

Verzögerte Kontrollvariablen erforderlich

Das vorherige Diagramm ist ein vereinfachter gerichteter azyklischer Graph für zwei Wochen. Im Allgemeinen sollten Sie für jede Woche\(t\)die Kontrollvariablen aus Woche \(t,t-1, \dots ,t-L\)einbeziehen, wobei\(L\) die längste Verzögerung ist, bei der die Kontrollvariablen voraussichtlich noch Auswirkungen auf die KPI haben. Der Wert von \(L\) kann sich je nach Kontrollvariable unterscheiden.

In der Praxis können Sie \(L\) auf einen angemessenen Wert begrenzen, um zu verhindern, dass die Modellvarianz durch zu viele Variablen steigt. In vielen Fällen kann es sinnvoll sein, verzögerte Kontrollvariablen vollständig zu ignorieren, wenn die entsprechenden Auswirkungen relativ gering sind. Diese Art der Modellvereinfachung kann als Kompromiss zwischen Bias und Varianz betrachtet werden.

Bevölkerungsgewichtete Kontrollvariablen

Standardmäßig sind KPI und kostenpflichtige und organische Media-Ausführung bevölkerungsgewichtet. Kontrollvariablen sind standardmäßig nicht bevölkerungsgewichtet, weil sich das bei einigen nicht anbietet (z. B. Temperatur,). Einige Kontrollvariablen wie Impressionen von Mitbewerbern sollten jedoch bevölkerungsgewichtet werden, um die Korrelation mit den bevölkerungsgewichteten KPIs und den Media-Variablen zu maximieren. Solche Variablen können mit dem Argument control_population_scaling_id in ModelSpec skaliert werden. Nicht mediabezogene Behandlungsvariablen werden ebenfalls nicht standardmäßig skaliert. Solche Variablen können mit dem Argument non_media_population_scaling_id in ModelSpec skaliert werden.

Gründe, warum für Kontrollvariablen keine kausale Inferenz und keine Baseline-Aufschlüsselung verfügbar ist

In Meridian sind kausale Effekte oder Beitragsprozente für kostenpflichtige Media, organische Media und nicht mediabezogene Testvariablen verfügbar. Gemäß dem kausalen Diagramm können die Regressionseffekte dieser Variablentypen als kausale Effekte interpretiert werden. Die Regressionseffekte von Kontrollvariablen lassen sich jedoch nicht als kausale Effekte interpretieren. Deshalb werden in Meridian keine kausalen Effekte oder Beitragsprozente für Kontrollvariablen geschätzt.

Außerdem nimmt Meridian keine prozentuale Aufteilung des Baseline-Ergebnisses nach Kontrollvariablen vor. Sicherlich wirken sich einige Kontrollvariablen stärker auf die Accuracy von Vorhersagen des Modells aus als andere. Dies hat jedoch mehr mit der Varianz zu tun, die jede Variable zu den Schätzungen des erwarteten Ergebnisses beiträgt, als mit dem additiven Anteil der einzelnen Variablen bei der Berechnung des erwarteten Ergebnisses. Es ist schwierig, den Anteil, den jede Kontrollvariable zum Baseline-Ergebnis beiträgt, sinnvoll zu definieren. Eine mögliche Definition könnte die Änderung des erwarteten Ergebnisses sein, die auftritt, wenn die einzelnen Kontrollvariablen für jede geografische Einheit und jeden Zeitraum auf null gesetzt werden. Dieser Wert hat jedoch keine praktische Bedeutung, da er weder den kausalen Effekt noch die prognostische Bedeutung der Kontrollvariablen darstellt. Eventuell ist ein Wert von null für jede Kontrollvariable auch gar nicht sinnvoll oder möglich, was die Interpretation weiter erschwert.

Auch eine Variable mit einem großen Koeffizienten und einem hohen additiven Anteil bei der Berechnung des erwarteten Ergebnisses kann bei der Vorhersage für den KPI nur eine geringe Bedeutung haben. Das gilt insbesondere für Variablen mit einer geringen Varianz. Wenn der additive Effekt in den Achsenwert integriert werden kann, hat das Entfernen einer solchen Variablen aus dem Modell möglicherweise nur geringe Auswirkungen auf die Schätzungen des erwarteten Ergebnisses.

Weitere Informationen zu diesen Variablentypen finden Sie unter Variablen für organische Media und nicht mediabezogene Testvariablen.