模型规范

标准 Meridian 模型是一个地理位置级层次化模型,可对媒体变量进行非线性形参转换。随机系数考虑了不同地理区域的异质性。

我们建议使用地理位置级数据,因为它们能提供更可靠的估计结果。在无法获得地理位置级数据的情况下,可使用国家级模型(实质上是单一地理位置模型)。

Meridian 模型是对之前提出的贝叶斯模型(Jin 等,2017 年Sun 等,2017 年)的扩展。扩展包括使用覆盖面和频次数据(Zhang 等,2023 年),纳入时变截距项来对趋势和季节性变化进行模型分析(与 Ng 等在 2021 年提出的趋势和季节性变化模型分析相关),以及添加非媒体处理变量和自然媒体变量。

该模型表示如下:

$$ \begin{align*} y_{g,t} = \mu_t + \tau_g &+ \sum\limits_{i=1}^{N_{C}} \gamma^{[C]}_{g,i} z_{g,t,i} \\ &+ \sum\limits_{i=1}^{N_N} \gamma^{[N]}_{g,i} x^{[N]}_{g,t,i} \\ &+ \sum\limits_{i=1}^{N_M} \beta^{[M]}_{g,i} HillAdstock \left( \left\{ x^{[M]}_{g,t-s,i} \right\}^L_{s=0}\ ;\ \alpha^{[M]}_i, ec^{[M]}_i, \ slope^{[M]}_i \right) \\ &+ \sum\limits_{i=1}^{N_{OM}} \beta^{[OM]}_{g,i} HillAdstock \left( \left\{ x^{[OM]}_{g,t-s,i} \right\}^L_{s=0}\ ;\ \alpha^{[OM]}_i, ec^{[OM]}_{i}, \ slope^{[OM]}_{i} \right) \\ &+ \sum\limits_{i=1}^{N_{RF}} \beta^{[RF]}_{g,i} Adstock \left( \left\{ r^{[RF]}_{g,t-s,i} \cdot Hill \left( f^{[RF]}_{g,t-s,i};\ ec^{[RF]}_{i},\ slope^{[RF]}_{i} \right) \right\}^L_{s=0}\ ;\ \alpha^{[RF]}_{i} \right) \\ &+ \sum\limits_{i=1}^{N_{ORF}} \beta^{[ORF]}_{g,i} Adstock \left( \left\{ r^{[ORF]}_{g,t-s,i} \cdot Hill \left( f^{[ORF]}_{g,t-s,i};\ ec^{[ORF]}_{i},\ slope^{[ORF]}_{i} \right) \right\}^L_{s=0}\ ;\ \alpha^{[ORF]}_{i} \right) \\ &+ \epsilon_{g,t} \end{align*} $$

基本详情

基本详情如下:

  • 指数变量,如输入数据中所定义:

    • \(g=1,\ldots,G\) 用于对地理位置单位进行指数化处理
    • \(t=1,\ldots,T\) 用于对时间单位进行指数化处理
    • \(i=1,\ldots,N_C\) 用于对控制变量进行指数化处理
    • \(i=1,\ldots,N_N\) 用于对非媒体处理变量进行指数化处理
    • \(i=1,\ldots,N_M\) 用于对没有覆盖面和频次数据的付费媒体渠道进行指数化处理
    • \(i=1,\ldots, N_{OM}\) 用于对没有覆盖面和频次数据的自然媒体渠道进行指数化处理
    • \(i=1,\ldots,N_{RF}\) 用于对具有覆盖面和频次数据的付费媒体渠道进行指数化处理
    • \(i=1,\ldots, N_{ORF}\) 用于对具有覆盖面和频次数据的自然媒体渠道进行指数化处理
  • \(\tau_b = 0\) 表示某些基准地理位置 \(b\)的可识别性。可以使用 baseline_group 实参将任何地理位置设置为基准。

  • \(\{q_{t-s}\}^L_{s=0}\) 表示向量\((q_t, q_{t-1}, \ldots, q_{t-L})\)。 此表示法用于表示 Adstock 函数输入值。

  • 整数值 \(L\) 是媒体的最大滞后时长,例如存在媒体效应的最大时长。可以使用 max_lag 实参设置此形参。

  • 请注意以下关于 \(\text{Hill}()\) 和 \(\text{Adstock}()\)函数的说明。如需了解详情,请参阅媒体饱和与滞后

    $$ \text{Adstock} \left( \left\{ q_{t-s} \right\}^L_{s=0},\ \alpha \right) = \dfrac{\sum\limits^{L}_{s=0}\ \alpha^s q_{t-s} }{\sum\limits^L_{s=0}\ \alpha^s} $$

    其中:

    • \(q>0,\ 0 \leq \alpha \leq 1\)
    • \(\alpha \) 是几何衰减率。
    $$ \text{Hill} \left( q, ec, \text{slope} \right) = \left( 1 + \left( \dfrac{q}{ec} \right)^{- \text{slope} } \right)^{-1} $$

    其中:

    • \(q>0,\ ec>0,\ \text{slope} > 0\)
    • \(ec, \text{slope}\) 是 Hill 函数的形状和斜率形参。
  • \(\text{HillAdstock}()\) 函数依赖于 hill_before_adstock 实参。

    • 如果默认 hill_before_adstock = False,则\(\text{HillAdstock}(q;\ \alpha, ec, \text{slope}) = \text{Hill}(\text{Adstock}(q;\ \alpha);\ ec, \text{slope})\)
    • 如果 hill_before_adstock = True,则\(\text{HillAdstock}(q;\ \alpha, ec, \text{slope}) = \text{Adstock}(\text{Hill}(q;\ ec, \text{slope}); \alpha)\)

\( \mu_t \) 形参

\(\mu_t\) 形参是时变截距,为模型提供了趋势和季节性因素:

  • \(\mu_t\) 由一系列位于相应时间点\(s_1,s_2,\dots,s_K\)的 knot 形参\(b_1,b_2,\dots,b_K\) 决定。

  • 时间点 $s_1,\dots,s_K$ 位于 \(1\) 和 \(T\) 之间,并由 knots 实参指定。

    • 您可以指定结位置列表,也可以仅指定结数。

    • 如果指定了结数,则结会间距均匀地分布,其中两个结分别位于端点 $s_1=1$ 和 $s_K=T$ 处。

    • 如果存在多个地理位置 (\(G>1\)),默认会在每个时间点放置一个结($s_1=1,s_2=2,\dots,s_K=T$,其中 $K=T$)。

    • 如果 \(G=1\) (例如国家级模型),默认设置为单结,这实际上是所有时间段的共同截距。

  • \(\mu_t\) 值是两个最接近的邻近结的加权平均值,其中更近的那个邻近结的权重更高。(例如,假设在时间 9 和时间 18 处有结。$\mu_{16}$ 的估算值将受到时间 9 和时间 18 这两处节的影响,其中时间 18 处的节的权重更高。)精确权重的计算公式如下。对于任何 \(t\),请定义以下内容:

    • $\ell(t)$ 和 $u(t)$ 表示最近邻结的结索引。通常情况下,$\ell(t) < u(t)$,但请注意,如果 $t$ 恰好是其中一个结位置,或者 $t$ 位于第一个结之前或最后一个结之后(例如,在设置自定义结位置或仅使用一个结时),则 $\ell(t) = u(t)$。

      • \(\ell(t) = \max \{\{1\} \cup \{k: s_k \leq t\}\}\)

        • 注意:如果 $t < s_1$,则 $\ell(t) = 1$。
      • \(u(t) = \min \{\{K\} \cup \{k: s_k > t\}\}\)

        • 注意:如果 $t > s_K$,则 $u(t) = K$。
    • 如果 \(\ell(t) = u(t)\) ,则\(w(t) = 1\) ;否则为\(w(t) = \dfrac{s_{u(t)}-t}{s_{u(t)}-s_{\ell(t)}}\)。

    • \(\mu_t = w(t)b_{\ell(t)} + (1-w(t))b_{u(t)}\)

  • 结值 \(b_1,b_2,\dots,b_K\) 具有用户指定的先验分布。

此方法基于“Bayesian Time Varying Coefficient Model with Applications to Marketing Mix Modeling”(贝叶斯时变系数模型在营销组合建模分析中的应用)一文,但存在一些关键区别,包括使用不同的权重函数、不同的先验、不存在自动回归等。

如需详细了解如何设置结,请参阅 knots 实参的运作方式

其他形参分布

其他形参分布如下:

  • 请注意,这里 Meridian 是根据正态分布的均值和标准差对其进行形参化的。

    • \(\gamma_{g,i}^{[C]} \sim \text{Normal}(\gamma_i^{[C]},\xi_i^{[C]})\)
    • \(\gamma_{g,i}^{[N]} \sim \text{Normal}(\gamma_i^{[N]},\xi_i^{[N]})\)
  • \(\beta\) 分布取决于 media_effects_dist 实参,如下所示:

    • \(log(\beta_{g,i}^{[M]})\sim \text{Normal}( \beta_i^{[M]},\eta_i^{[M]})\)
    • \(log(\beta_{g,i}^{[OM]})\sim \text{Normal}( \beta_{i}^{[OM]},\eta_{i}^{[OM]})\)
    • \(log(\beta_{g,i}^{[RF]})\sim \text{Normal}( \beta_{i}^{[RF]},\eta_{i}^{[RF]})\)
    • \(log(\beta_{g,i}^{[ORF]})\sim \text{Normal}( \beta_{i}^{[ORF]},\eta_{i}^{[ORF]})\)

      如果 media_effects_dist = LOG_NORMAL

    • \(\beta_{g,i}^{[M]} \sim \text{Normal}( \beta_i^{[M]},\eta_i^{[M]})\)

    • \(\beta_{g,i}^{[OM]} \sim \text{Normal}( \beta_{i}^{[OM]},\eta_{i}^{[OM]})\)

    • \(\beta_{g,i}^{[RF]} \sim \text{Normal}( \beta_{i}^{[RF]},\eta_{i}^{[RF]})\)

    • \(\beta_{g,i}^{[ORF]} \sim \text{Normal}( \beta_{i}^{[ORF]},\eta_{i}^{[ORF]})\)

      如果 media_effects_dist = NORMAL

  • \(\epsilon_{g,t}\sim \text{Normal}(0,\sigma_g)\):

    • 残差相互独立,与所有媒体变量和控制变量以及所有模型形参无关。

    • 如果\(\sigma_1=\sigma_2=\cdots=\sigma_G=\sigma\)(默认),则 unique_sigma_for_each_geo = False

  • 其余形参均具有用户指定的先验分布:

    \( \{\gamma_i^{[C]}\}, \{\gamma_i^{[N]}\}, \{\xi_i^{[C]}\}, \{\xi_i^{[N]}\}, \)

    \( \{\beta_i^{[M]}\}, \{ \beta_{i}^{[OM]} \}, \{ \beta_{i}^{[RF]} \}, \{ \beta_{i}^{[ORF]} \}, \)

    \( \{\eta_i^{[M]}\}, \{ \eta_{i}^{[OM]} \}, \{\eta_{i}^{[RF]}\}, \{ \eta_{i}^{[ORF]} \}, \)

    \( \{\alpha_i^{[M]}\}, \{ \alpha_{i}^{[OM]} \}, \{\alpha_{i}^{[RF]}\}, \{ \alpha_{i}^{[ORF]} \}, \)

    \( \{ec_i^{[M]}\}, \{ ec_{i}^{[OM]} \}, \{ec_{i}^{[RF]}\}, \{ ec_{i}^{[ORF]} \}, \)

    \( \{slope_i^{[M]}\}, \{ slope_{i}^{[OM]} \}, \{slope_{i}^{[RF]}\}, \{ slope_{i}^{[ORF]} \}, \)

    \( \{\tau_g\}, \{\sigma_g\}. \)

您可以根据以下部分中介绍的纳入模型选项更改模型规范的某些方面:媒体饱和与滞后覆盖面和频次付费搜索用于校准的投资回报率先验。您还可以自定义默认先验分布