Cantidad de datos necesarios

Esta sección puede ayudarte a darte una idea de cuántos datos necesitas. La información sobre la cantidad de datos necesarios es aproximada y orientativa, ya que la respuesta real depende de cómo sean los datos.

  • El tamaño de los datos es la cantidad de ubicaciones geográficas multiplicada por la cantidad de puntos temporales.

  • Estos puntos temporales y ubicaciones geográficas no son independientes. Por ejemplo, tener 1,000 datos en una configuración de modelado de combinación de marketing (MMM) no es lo mismo que lanzar una moneda 1,000 veces o asignar 1,000 participantes al azar en un experimento.

Consulta también las secciones sobre modelos nacionales y geográficos.

Cantidad de datos para los modelos nacionales

Una importante métrica para validar la confianza en los modelos nacionales es la cantidad de datos por efecto que intentas medir y comprender. Por ejemplo, si tienes 12 canales de medios, seis variables de control y ocho nudos, el total es de 26 efectos. Para simplificar las cosas, ignoraremos cuestiones como los parámetros de Adstock y Hill en este ejemplo. Si tienes datos semanales de dos años, eso implica 104 datos y cuatro datos por efecto. En otras palabras, el tamaño de muestra es pequeño y los datos son insuficientes. Además, la variación insuficiente en la inversión en medios afecta de manera negativa a los modelos nacionales. Para obtener más información sobre los nudos, consulta Cómo funciona el argumento de nudos (knots).

Dado que es difícil obtener suficientes datos para un modelo nacional, puedes hacer lo siguiente:

  • Reduce el alcance del MMM. Puedes hacer estimaciones para menos canales de medios (ya sea descartando un canal con baja inversión o combinando canales), usar menos nudos para estimar los efectos del tiempo y quitar las variables de control innecesarias. Sin embargo, no debes quitar las variables de confusión importantes.

  • Obtén muchos más datos. Por ejemplo, usa datos semanales de tres años en lugar de dos. Si agregas más datos, se reducirá la varianza en la inferencia, pero la inferencia podría volverse menos pertinente.

  • Como alternativa, considera agregar detalles geográficos a tus datos y usar un modelo geográfico en lugar de reducir el alcance o agregar más datos.

Considera el ejemplo hipotético anterior del modelo nacional. Puedes combinar los 12 canales de medios en tres y reducir los nudos a dos. También podrías observar que una de tus variables de control explica el KPI, pero no los medios, lo que significa que no es una verdadera variable de confusión y puedes quitarla. Si también usas datos semanales de tres años, tendrás 156 datos para estimar 10 efectos. Esto equivale a unos 15 datos por efecto, por lo que el MMM ahora podría brindarte cierta información orientativa.

Cantidad de datos para los modelos geográficos

La cantidad de datos por efecto que intentas medir y comprender sigue siendo una métrica importante para validar la confianza. Sin embargo, debido a la jerarquía geográfica, esa métrica no es tan clara de interpretar. Por ejemplo, si tienes 12 canales de medios, seis variables de control, 100 nudos y 105 ubicaciones geográficas, eso equivale a (12 × 105) + (6 × 105) + 100 = 1,990 efectos para estimar. Debes multiplicar por 105, la cantidad de ubicaciones geográficas, porque los medios y las variables de control tienen efectos a nivel geográfico. Si tienes datos semanales de tres años, esto equivale a 105 × (52 × 3) = 16,380 datos, o bien a unos 8 datos por efecto. Para simplificar las cosas, ignoraremos cuestiones como los parámetros de Adstock y Hill en este ejemplo.

Un detalle importante que no se consideró en este ejemplo es que, según la definición de una jerarquía geográfica, los efectos de los medios y de las variables de control a nivel geográfico no son independientes en las distintas ubicaciones geográficas. Básicamente, esto significa que los datos se comparten al estimar el efecto del canal de medios 1 en la ubicación geográfica 1 y el efecto del canal de medios 1 en la ubicación geográfica 2. Algo similar sucede con las variables de control. Dado que los datos se comparten, tienes más de ocho datos por efecto. La cantidad de datos que se comparten depende de la similitud de los efectos en las diferentes ubicaciones geográficas. Esto se puede determinar con los parámetros eta_m y xi_c.

Si tienes dificultades para obtener suficientes datos para un modelo a nivel geográfico, te recomendamos combinar los canales de medios o descartar uno que tenga una inversión baja. También puedes aplicar una mayor regularización a priori en los términos de varianza jerárquica eta_m y xi_c, por ejemplo, HalfNormal(0.1), lo que fomentará el uso compartido de información entre las diferentes ubicaciones geográficas.

¿Puedo usar datos a nivel de la campaña?

El modelo Meridian se enfoca solo a nivel del canal. No solemos recomendar ejecutarlo a nivel de la campaña, ya que el MMM es una herramienta macro que funciona bien a nivel del canal. Si usas distintas campañas con fechas de inicio y finalización estrictas, corres el riesgo de perder el efecto acumulativo del Adstock. Si te interesa obtener estadísticas más detalladas, te recomendamos usar la atribución de múltiples puntos de contacto basada en datos para tus canales digitales.