所需数据量

本部分可帮助您大致了解所需的数据量,其中关于所需数据量的指南只是粗略的方向性指引,因为真正的答案取决于数据的具体情况。

  • 数据量的计算方法为地理位置数乘以时间点数。

  • 这些时间点和地理位置不是独立的。例如,营销组合建模分析 (MMM) 设置中的 1,000 个数据点与实验中 1,000 次抛硬币或 1,000 名随机分配的参与者是不同的。

另请参阅介绍国家级模型和地理位置级模型的部分。

国家级模型的数据量

对于国家级模型来说,您尝试衡量和了解的每种效应的数据点数量是一项重要的置信度检查指标。例如,如果您有 12 个媒体渠道、6 个控制变量和 8 个结,那么效应总数为 26(为简单起见,对于这个例子请忽略 Adstock 和 Hill 形参等内容)。如果您有两年的每周数据,那么您将有 104 个数据点,每种效应有 4 个数据点。这是样本量较小的情况,并且您没有足够的数据(此外,媒体支出变化不足会对国家级模型产生不利影响)。如需详细了解结,请参阅 knots 实参的运作方式

由于很难为国家级模型获取足够的数据,您可以采取以下措施:

  • 缩小 MMM 的范围。您可以少估计一些媒体渠道(通过舍弃支出较低的渠道或合并渠道),使用较少的结来估计时间效应,并移除任何多余的控制变量。不过,请勿移除重要的混杂变量。

  • 获取更多数据。例如,使用三年而不是两年的每周数据。添加更多数据会减小推理方差,但可能会降低推理的相关性。

  • 或者,您可以考虑为数据添加地理位置粒度,并使用地理位置级模型,而不是缩小范围或添加更多数据。

回想一下前面有关国家级模型的虚构示例。您可以将 12 个媒体渠道合并为 3 个,将结数减少到 2 个。您可能还会发现,您的某个控制变量可以解释 KPI,但无法解释媒体,这说明该控制变量并非真正的混杂变量,您可以将其移除。如果您还使用了三年的每周数据,则会有 156 个数据点可用来估计 10 种效应。也就是说,每种效应大约有 15 个数据点。现在,您或许能够从 MMM 中获得一些方向性的信息。

地理位置级模型的数据量

您尝试衡量和了解的每种效应的数据点数量仍然是一项重要的置信度检查指标。但是,由于地理位置的层次结构,这项指标解读起来没有那么清晰。例如,如果您有 12 个媒体渠道、6 个控制变量、100 个结和 105 个地理位置,那么需要估算的效应数量大约为 $(12 × 105) + (6 × 105) + 100 = 1,990$(由于媒体和控制变量具有地理位置级效应,您需要让它们分别乘以地理位置数量 [即 105])。如果您有三年的每周数据,那么您会有 $105 × (52 × 3) = 16,380$ 个数据点。也就是说,每种效应大约有 8 个数据点。为简单起见,在这个例子中请忽略 Adstock 和 Hill 形参等内容。

在这个例子中未考虑的一个重要细节是,根据地理位置层次结构的定义,地理位置级媒体效应和地理位置级控制变量效应在各个地理位置中不是独立的。也就是说,在估算媒体渠道 1 在地理位置 1 的效应和媒体渠道 1 在地理位置 2 的效应时,系统会共享数据。控制变量也是如此。由于数据会共享,每种效应实际上有 8 个以上的数据点。共享的数据量取决于各个地理位置之间效应的相似程度。这可以通过 eta_mxi_c 形参确定。

如果难以为地理位置级模型获取足够的数据,建议您考虑合并媒体渠道或舍弃支出较低的媒体渠道。或者,您可以对分层方差项 eta_mxi_c 设置一个正则化程度更强的先验(例如 HalfNormal(0.1)),这将有利于在不同地理位置之间共享信息。

我可以使用广告系列级数据吗?

Meridian 模型仅专注于渠道级别。通常不建议在广告系列一级运行 MMM,因为 MMM 是一个宏工具,在渠道一级运行效果良好。如果您投放的是具有明确开始和结束时间的独立广告系列,则可能会丢失 Adstock 记忆。如要获得更精细的数据洞见,建议您为数字渠道使用以数据为依据的多接触点归因模型。