Holdout-Beobachtungen (Trainings- und Testaufteilung)

Die Meridian-Modellspezifikation enthält das Argument holdout_id (ein boolesches Array mit Dimensionen \(G \times T\)), mit dem eine Holdout-Stichprobe angegeben werden kann. Die KPI-Daten der Holdout-Beobachtungen werden beim Trainieren des Modells (z. B. bei der MCMC-Posterior-Stichprobenerhebung) ignoriert und haben keinen Einfluss auf die Likelihood des Modells oder die Posterior-Dichte. Media-Daten für die Holdout-Beobachtungen fließen weiterhin in das Modelltraining ein, da sie sich auf die Adstock-Werte für Media für nachfolgende Zeiträume auswirken.

Die Holdout-Stichprobe wird hauptsächlich zur Berechnung der Güte der Modellanpassung außerhalb des Trainingsdatensatzes verwendet, wie zum Beispiel R-Quadrat. Das ist nützlich, um verschiedene Modellspezifikationen zu vergleichen, z. B. die Stärken der Prior-Verteilung. Dazu muss aber für jedes Modell dieselbe Holdout-Stichprobe verwendet werden. Es gibt keine Garantie dafür, dass das Modell mit der besten Anpassung außerhalb des Trainingsdatensatzes auch das beste Modell für die Kausalanalyse ist. Im Allgemeinen wird jedoch ein besser passendes Modell bevorzugt. Falsche Modellspezifikationen, die zu einer schlechten Modellanpassung führen, können auch Verzerrungen bei Kausalanalysen zur Folge haben.

Wir empfehlen, eine Holdout-Stichprobe zu verwenden, die geografisch und zeitlich möglichst ausgewogen ist. Das ist eine Holdout-Stichprobe mit ungefähr derselben Anzahl von Holdout-Beobachtungen für jede geografische Einheit und ungefähr derselben Anzahl von Holdout-Beobachtungen für jeden Zeitraum. Wenn die Holdout-Stichprobe unausgewogen ist, kann es an Trainingsdaten fehlen, um den geografischen Effekt \(\tau_g\) für bestimmte geografische Einheiten oder den zeitlichen Effekt \(\mu_t\) für bestimmte Zeiträume zu schätzen. In der Standardkonfiguration von Meridian ist keine spezifische Holdout-Stichprobe vorab festgelegt. Sie müssen die Holdout-Stichprobe angeben und dafür sorgen, dass sie ausgewogen ist.

Schließen Sie keine großen, zusammenhängenden Zeitabschnitte der Daten aus, z. B. am Ende des MMM-Zeitraums, um die Vorhersagegenauigkeit des KPI zu bewerten. Meridian ist nicht darauf ausgelegt, Prognosen für KPIs zu erstellen, insbesondere wenn diese starke Trends oder saisonale Muster aufweisen. Stattdessen schätzt Meridian die kausale Wirkung von Media und verwendet den knotenbasierten Ansatz zur Modellierung von Trends und Saisonalität. Für diesen Ansatz sind Daten in der Nähe des Knotens erforderlich, um seinen Wert effektiv schätzen zu können. Das Entfernen großer zusammenhängender Zeitabschnitte aus den Daten führt dazu, dass es keine Daten in der Nähe der Knotenpunkte im entfernten Zeitraum gibt. Dadurch wird die Schätzung der Knotenpunkte hauptsächlich durch die Prior-Verteilung gesteuert, was zu ungenauen Vorhersagen führt.

Außerdem kann Meridian den Einfluss von Media sowohl in der Vergangenheit als auch in der Zukunft schätzen, da angenommen wird, dass die entsprechenden Modellparameter über die Zeit konstant sind.