Quantidade de dados necessários

Esta seção ajuda você a entender o volume necessário de dados. A orientação sobre a quantidade é aproximada e direcional, já que o valor real depende da natureza dos dados.

  • O tamanho dos dados é o número de regiões geográficas multiplicado pela quantidade de pontos de tempo.

  • Essas regiões e locais não são independentes. Por exemplo, 1.000 pontos de dados em uma configuração de Modelagem de Marketing Mix (MMM) não são o mesmo que 1.000 previsões de cara ou coroa ou 1.000 participantes atribuídos de forma aleatória em um experimento.

Consulte também as seções sobre modelos nacionais e geográficos.

Quantidade de dados para modelos nacionais

Uma métrica importante de verificação de confiança para modelos nacionais é o número de pontos de dados por efeito que você está tentando medir e entender. Por exemplo, se você tiver 12 canais de mídia, 6 controles e 8 nós, o total será 26 efeitos. Para simplificar, ignore elementos como parâmetros de Adstock e Hill neste exemplo. Se você tiver 2 anos de informações semanais, haverá 104 pontos de dados e 4 pontos de dados por efeito. Neste cenário, a amostra é pequena, e você não tem dados suficientes. Além disso, a variação insuficiente no gasto de mídia prejudica os modelos nacionais. Para mais informações sobre os nós, consulte a seção Como o argumento knots funciona.

Já que é difícil coletar dados suficientes para um modelo nacional, você pode fazer o seguinte:

  • Diminuir o escopo da MMM. É possível estimar menos canais de mídia (removendo um canal com gastos baixos ou combinando canais), usar menos nós para estimar os efeitos temporais e remover controles irrelevantes. No entanto, não remova variáveis de confusão importantes.

  • Coletar muito mais dados. Por exemplo, use 3 anos de informações semanais em vez de 2. Adicionar mais dados reduz a variância, mas pode deixar a inferência menos relevante.

  • Adicionar granularidade geográfica aos seus dados e usar um modelo geográfico em vez de diminuir o escopo ou adicionar mais informações.

Considere o exemplo hipotético anterior para o modelo nacional. Você pode diminuir os canais de mídia de 12 para 3 e reduzir os nós para 2. Além disso, talvez você reconheça que um dos seus controles explica o KPI, mas não a média, o que significa que ele não é uma variável de confusão real e pode ser removido. Se você também usar 3 anos de informações semanais, haverá 156 pontos de dados para estimar 10 efeitos. São aproximadamente 15 pontos de dados por efeito, e agora você pode coletar algumas informações direcionais da MMM.

Quantidade de dados para modelos geográficos

O número de pontos de dados por efeito que você está tentando medir e entender continua sendo uma métrica importante de verificação de confiança. No entanto, devido à hierarquia geográfica, ela não é tão fácil de interpretar. Por exemplo, se você tiver 12 canais de mídia, 6 controles, 100 nós e 105 regiões geográficas, haverá aproximadamente $(12 \times 105) + (6 \times 105) + 100 = 1.990$ efeitos para estimar. Para o número de regiões geográficas, a multiplicação é por 105 porque a mídia e os controles têm efeitos no nível da região geográfica. Se você tiver 3 anos de informações semanais, haverá $105 \times (52 \times 3) = 16.380$ pontos de dados. São aproximadamente 8 pontos de dados por efeito. Para simplificar, ignore elementos como parâmetros de Adstock e Hill neste exemplo.

Um detalhe importante que não foi considerado neste exemplo é que, por definição de uma hierarquia geográfica, os efeitos de mídia e de controle no nível da região geográfica não são independentes nas áreas em questão. Portanto, os dados são compartilhados ao estimar o efeito do canal de mídia 1 nas regiões 1 e 2. O mesmo serve para os controles. Como os dados são compartilhados, você tem mais de 8 pontos de dados por efeito. A quantidade de dados compartilhados depende da semelhança dos efeitos em diferentes regiões geográficas. Isso pode ser determinado pelos parâmetros eta_m e xi_c.

Se você tiver dificuldade para coletar dados suficientes para um modelo geográfico, recomendamos combinar canais de mídia ou remover um canal com poucos gastos. Também é possível usar uma distribuição a priori mais regularizadora nos termos de variância hierárquica eta_m e xi_c (por exemplo, HalfNormal(0.1)), o que vai incentivar o compartilhamento de informações entre regiões.

Posso usar dados no nível da campanha?

O modelo do Meridian se concentra apenas no nível do canal. Geralmente, não recomendamos a execução no nível da campanha porque a MMM é uma ferramenta macro que funciona bem no canal. Se você usa campanhas distintas com inícios e paradas definidos, corre o risco de perder a memória de Adstock. Se quiser insights mais detalhados, recomendamos a atribuição multitoque orientada por dados para seus canais digitais.