콘텐츠로 건너뛰기

마케팅 믹스 모델링(MMM): 메타 로빈과 트리 기반 모델

  • 테크

마케팅 믹스 모델링(Marketing Mix Modeling, 이하 MMM)은 다양한 마케팅 변수가 광고 성과에 미치는 영향을 분석하는 마케팅 기법입니다. 마케팅의 효과를 정량화하고 각 채널의 개별적, 통합적 기여도를 분석해 광고비를 효율적으로 배분할 수 있습니다. 

이번 포스팅에서는 메타의 오픈소스 MMM 프레임워크인 Robyn과 트리 기반의 앙상블 모델을 통해 머신러닝을 적용한 MMM 과정에 대해서 알아보겠습니다.

MMM 머신러닝 준비사항

MMM에 머신러닝을 적용하기 위해서는 몇 가지 단계가 필요합니다. 

  1. 데이터 수집
  • 마케팅 활동 및 성과에 관한 데이터를 수집합니다.
  • 광고비 지출과 성과 이외에 외부 요인이 포함될 수 있습니다.
  • 2~3년 정도의 데이터가 필요합니다.
  1. 데이터 분석
  • 데이터의 패턴 및 변수 간 상관관계를 분석합니다.
  • 데이터 분포의 시각화와 EDA 같은 여러가지 방법을 사용합니다.
  1. 변수 선택
  • 성과에 큰 영향을 주는 변수 및 요인을 선택합니다.
  • MMM에서는 직접적인 지출-매출 이외에 이벤트나 뉴스레터 같은 외부 요인들 또한 분석에 사용됩니다.
  1. 모델 빌딩
  • 마케팅 변수와 성과를 정량화하는 머신러닝 모델을 설정합니다.
  • 머신러닝 모델에는 선형적, 비선형적 모델이 사용될 수 있습니다.
  1. 모델 검증
  • 실제 값과 예측 값을 바탕으로 모델의 신뢰도, 정확도를 측정합니다.
  • 예측이 잘 된 모델을 이용해 예산의 효율적인 분배를 결정할 수 있습니다.

Meta Robyn을 이용한 MMM

위에서 설명한 MMM의 과정을 Meta의 오픈소스 MMM 프레임워크인 Robyn에 적용해 보겠습니다.

Meta Robyn 적용 예시 (출처 : BizSpring)

Robyn에서 제공하는 예시 데이터에는 각 매체(TV, 옥외광고, 인쇄물, 페이스북, 검색 광고)에 대한 광고비 지출과 상응하는 변수(클릭수, 노출수 등), 외부요인(경쟁사의 판매, 이벤트, 뉴스레터)에 따른 성과(revenue)가 주 단위로 누적되어 있습니다.

Meta Robyn 제공 코드 (출처 : Meta Robyn)

매출과 관련된 변수 이외에 포함되는 변수는 아래와 같습니다.

  • prophet_vars: 트렌드, 계절성, 휴일에 의한 영향
  • prophet_country: 휴일의 기준 국가
  • context_vars: 경쟁사의 판매, 이벤트 등 외부 요인에 의한 영향
  • organic_vars: 광고비 지출이 없는 마케팅 요소
  • adstock: 광고 모델 효과

Robyn은 외부 요인의 성과에 미치는 영향을 반영해 MMM 모델을 구성합니다. 
모델 구성 후 입력 데이터에 대한 학습을 진행합니다. Robyn은 학습 시에 adstock 변수의 최적화를 동시에 수행합니다. 

Robyn 결과 해석

학습이 완료되면 결과를 다양한 차트와 엑셀 시트로 제공합니다. 결과 차트 중 “1_82_3” 모델에 대해서 분석 결과를 확인해 보겠습니다.

Meta Robyn 결과 차트 중 “1_82_3” 모델 결과 (출처 : Meta Robyn)
  • “1_82_3” 모델은 R2 점수가 학습시에 0.8853, 검증에 0.8818을 기록했습니다.
  • R2 점수는 1에 가까울 수록 모델이 데이터를 잘 이해하고 있다고 볼 수 있습니다.
Meta Robyn의 Waterfall 그래프 예시 (출처 : Meta Robyn)

Waterfall 그래프는 각 채널이 성과에 기여한 정도를 의미합니다. 위 그래프에서 trend가 성과에 가장 크게 기여한 것을 확인할 수 있습니다.

Meta Robyn의 성과 실제/예측 그래프 예시 (출처 : Meta Robyn)

성과의 실제, 예측 값 그래프 입니다. 예측 값이 실제 값과 대부분 유사한 분포를 보이는 것을 확인할 수 있습니다.

Meta Robyn 광고비 지출 및 성과 ROAS 비교 그래프 예시 (출처 : Meta Robyn)

광고비 지출과 성과 ROAS 비교 그래프 입니다. 해당 그래프에서 옥외광고는 상대적으로 많은 지출이 발생했지만 효과는 떨어지고 facebook 광고는 적은 지출에도 높은 성과를 보였습니다. 따라서 옥외광고 지출을 줄이고 facebook 지출을 늘릴 경우 성과가 개선될 것으로 생각할 수 있습니다.

Meta Robyn 성과 발생 시점 그래프 예시 (출처 : Meta Robyn)

위 두 그래프는 성과의 발생 시점에 대한 정보를 제공합니다. Fixed Rate가 높을수록 매출이 발생하기 까지 상대적으로 시간이 소요될 가능성이 있습니다.

Meta Robyn 지출에 따른 성과 예측 그래프 예시 (출처 : Meta Robyn)

지출에 따른 성과 예측 그래프입니다. 지출 증가에 따른 성과 증가가 포화되는 지점을 예측해 효율적인 광고비 분배에 대한 인사이트를 얻을 수 있습니다.

Robyn 예산 재할당

Meta Robyn 예산 분배 그래프 예시 (출처 : Meta Robyn)

Robyn은 학습된 모델을 이용해 광고 예산의 효율적인 분배 비율과 성과에 대한 예측을 제공합니다. 
왼쪽의 회색 그래프는 기존의 예산 분배입니다. 예산의 분배를 오른쪽 Bounded, Bounded x3와 같이 변경했을 때 성과가 어떻게 변할지에 대해서 예측을 제공합니다. 비즈니스의 목표에 따라서 성과를 최대로 하거나 동일한 예산에서 효율적인 광고비 지출 비율 설정과 같은 최적화를 수행할 수 있습니다.

Robyn은 분석의 결과를 다양한 차트로 제공하고 비즈니스의 목표에 따라 예산 분배의 방향성을 결정할 수 있는 도구로 활용할 수 있습니다.

트리 기반 앙상블 모델을 이용한 MMM

다음 소개할 모델은 Robyn의 아이디어에 더해 비선형 앙상블 모델과  SHAP을 적용해 모델의 분석에 대한 근거와 성능을 높인 트리 기반의 MMM 입니다.

기존의 머신러닝 기반 분석에는 몇가지 문제점이 있습니다.

  1. MMM 모델은 해석의 용이함을 위해 선형회귀 모델을 주로 사용합니다. 하지만 선형회귀 모델을 구성하기 위해서는 변수 구성에 많은 시간과 전문 지식이 필요합니다.
  2. 선형 회귀 모델은 높은 상관관계를 가지는 변수들이 상호간에 영향을 주어 정확하지 않은 결과를 낼 가능성이 존재합니다. 따라서 부가적인 분석을 통해 높은 상관관계를 가지는 변수를 처리하는 과정이 추가로 필요합니다.
  3. 선형회귀 모델도 변수의 수가 증가하면 여전히 모델의 결과에 대한 설명이 어려워질 가능성이 있습니다.

트리 기반 비선형 모델은 선형 모델의 상관관계에 의한 영향을 받지 않고 SHAP 점수를 이용해 모델의 분석 결과에 대한 근거와 성능을 향상했습니다.

SHAP(Shapley Additive Explanations)

  • SHAP은 각 변수가 성과 예측에 얼마나 기여했는지를 설명합니다.
  • 각 변수의 중요도를 결정하는 값으로 볼 수 있습니다.

트리 기반 모델은 Robyn을 베이스로, Robyn과 동일한 데이터를 이용해 예측을 수행합니다. 트리 기반 모델의 특징 대부분은 Robyn과 유사하지만 Robyn과 구별되는 몇 가지 특징이 있습니다.

  1. 파라미터 최적화
  • adstock, 트리의 깊이 등 파라미터의 최적 값을 찾는 과정을 가집니다.
  • 최적의 파라미터를 찾은 후 모델을 다시 학습시켜 결과를 도출합니다.
Optuna를 활용한 파라미터 최적화 예시 (출처 : BizSpring)

현재 모델에 필요한 파라미터의 최적 값을 trial & error를 통해 결정합니다.
최적화된 파라미터 값을 experiment.best_trial을 통해 알 수 있고 최적의 값으로 모델을 다시 학습합니다.

  1. Time Series Cross-Validation
  • 모델이 학습 데이터에 지나치게 편중되게 하지 않기 위해 Time Series Cross Validation을 사용합니다. 
  • TSCV는 학습/검증 데이터를 일정 부분마다 순회하면서 사용해 모델의 일반화 가능성을 높이는 역할을 합니다.
  1. Shapley Value
  • Shapley Value는 각 변수의 성과에 대한 기여도를 계산하는 방법입니다.
  • 각 변수의 중요도를 의미하며 동일한 변수 그룹에서 값이 클수록 성과에 큰 영향을 미친다고 볼 수 있습니다.

트리 기반 모델 결과 해석

트리 기반 모델 결과 예시1 (출처 : Slava Kisilevich)
  • Robyn과 동일한 데이터에 대해서 Robyn의 R2 점수가 0.8853이였던 것에 비해 트리 기반 모델은 0.9610으로 Robyn보다 더 높은 성능을 보입니다.
트리 기반 모델 결과 예시2 (출처 : Slava Kisilevich)
  • 지출, 성과 그래프에서는 Robyn의 결과와 전체적인 분포는 유사하지만 개별의 비율에 있어서 차이가 나는 것을 확인할 수 있습니다.
트리 기반 모델 결과 예시3 (출처 : Slava Kisilevich)
  • 비용 지출에 따른 SHAP value에서 그래프에서 각 광고 채널에 비용의 증가가 포화되는 지점을 찾고 광고 예산의 적절한 분배를 결정할 수 있습니다.

트리 기반 모델은 Robyn의 모델에 SHAP 값을 적용해 MMM 분석을 수행했습니다. SHAP 값을 통해 모델의 해석력을 높이고 각 변수의 성과에 대한 영향을 분석했습니다. 실험의 결과에서는 전반적인 성능이 Robyn보다 개선된 것을 확인할 수 있습니다.

이번 포스팅에서는 마케팅 믹스 모델링(MMM)에 대한 간략한 소개와 마케팅 믹스 모델링(MMM)에 머신러닝 모델을 적용한 예시에 대해 알아보았습니다. 머신러닝 모델을 이용하면 마케팅 예산의 효율적인 분배와 성과를 예측하는데 유용한 도구로 사용할 수 있습니다.

마케팅 믹스 모델링(MMM) 및 머신러닝 모델 도입과 활용에 관심이 있으시다면, 데이터 분석 전문 기업인 비즈스프링에 연락주세요. 여러분 상황에 맞춰 가장 알맞은 내용으로 도움을 드릴 수 있습니다.

문의하기 ☎ 02-6919-5516 | ✉ sales@bizspring.co.kr

비즈스프링 뉴스레터

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다