콘텐츠로 건너뛰기

[데이터 분석] 평균 데이터의 종류와 활용 방법

‘평균’의 값에는 우리가 알고 있는 평균 이외에도 다양한 종류의 값이 존재합니다.

데이터를 분석할 때, 우리가 알고 있는 ‘평균’으로 계산한 데이터를 많이 사용하지만 실행에 옮길 때 올바르지 않는 평균 데이터를 사용함으로써 잘못된 선택을 하게 되는 경우가 발생됩니다. 그래서 평균 데이터를 활용할 때는 각 평균에 대한 데이터의 의미를 알아야 하고, 활용하기 전 활용하고자 하는 목적이 무엇이고 그에 부합한 평균 데이터가 무엇인지를 알고 사용해야 합니다.

그럼 평균의 종류와 활용법에 대해서 설명 드리도록 하겠습니다.

우리가 흔히 알고 있는 평균값

우리는 일반적으로 ‘평균’이라고 하면 (전체 데이터의 합/데이터 수)와 같은 방법으로 값을 산출합니다. 흔히 사용된 이 평균 데이터는 평균 중 평균값이라는 이름을 사용하고 있습니다.

[데이터1] A광고, B광고 7월 주간 주문 데이터

[데이터1] 표의 데이터를 기준으로 성과가 좋지 않은 광고는 집행을 하지 않고자 합니다. 각 광고의 평균 주문수는 A광고는 50회, B광고는 74회입니다. 그럼 A광고가 B광고 보다 주문수가 낮기 때문에 집행을 하지 않겠죠. 하지만 다음달에도 과연 B광고가 계산된 평균 주문수를 유지할 수 있을까요?

[데이터2] B광고 7월, 8월 주간 주문 데이터

[데이터2]표의 데이터의 평균값을 계산하면 다음과 같습니다. B광고 7월의 평균 주문수는 74회, 8월의 평균 주문수는 50회입니다. 그럼 계산된 평균값으로 B광고를 평가한다면 7월 대비 24회가 떨어졌으며, 광고 성과가 떨어졌습니다. 라고 해석할 수 있습니다. 그럼 위의 A광고와 B광고의 8월은 성과가 저조한 것이었을까요?

이상치 데이터에 반응하지 않는 중앙값

중앙값은 분석하고자 하는 데이터 중 가장 중간에 있는 데이터를 평균으로 계산하게 됩니다. [데이터 1]의 A광고의 중앙값은 50회, B광고의 중앙값은 50회가 됩니다. [데이터 2]의 B광고 7월, 8월 중앙값도 각각 50회가 됩니다.

A광고와 B광고를 비교했을 때 그리고 B광고의 7월, 8월 데이터를 비교했을 때 A광고, B광고의 평균적인 주문수은 50회입니다.

그럼 B광고의 7월 평균값 데이터가 유독 높았던 이유는 무엇일까요? 바로 4주차에 다른 주 차 보다 유독 많은 매출이 발생한 것을 알 수 있습니다. 이러한 데이터를 보통 이상치 데이터라고 하며 통계에서는 OUTLIER라고 합니다.

다시 [데이터 1]의 A광고, B광고의 데이터를 해석하면 7월 웹사이트 매출에 기여한 광고는 B광고입니다. 그리고 A광고와 B광고의 통상적인 평균 주문수는 50회입니다. 그렇기 때문에 A광고가 절대 성과가 저조한 광고가 아니라는 것이죠. 만약 7월 평균값 데이터를 기준으로 B광고 보다 성과가 저조한 A광고의 집행을 중지했다면 8월에 100회의 주문이 발생할 수 있었지만 잘못된 판단으로 50회의 주문만 얻고 나머지 50회의 주문은 잃어버리게 되는 것이죠!

그리고 이상치 데이터인 7월 4주차에 진행된 B광고에 어떤 변화가 있었는지를 파악해야 합니다. 만약 광고 소재를 일시적으로 최적화 작업이 진행되었다면 이와 유사한 광고 소재를 A광고, B광고 모두 지속적으로 최적화 한다면 더 많은 매출을 일으킬 수 있습니다.

빈도수가 가장 높은 데이터를 평균으로 하는 최빈값

최빈값은 분석하고자 하는 데이터 중 가장 빈도수가 높은 수를 평균으로 사용합니다.

최빈값은 마케팅 진행 시 타겟을 선정할 때 활용할 수 있습니다. 마케팅 기획 담당자가 새로운 상품 론칭 프로모션을 준비하면서 웹사이트 접속 연령층을 확인하는 과정을 살펴보겠습니다.

[데이터3] 웹사이트 접속 연령대

위 데이터를 기반으로 평균값을 구하게 되면 다음과 같습니다.

(18세*1명 + 19세*4명 + 35세*4명)/9명 = 26세

웹사이트에 접속한 연령대 데이터의 평균값을 확인한 결과 평균적으로 26세 고객이 많다는 것을 확인한 후 신규 프로모션을 진행했습니다. 하지만 신규 프로모션 론칭 후 매출을 계속 하락하는 결과로 이어졌습니다. 무엇이 문제였을까요?

평균값 26세는 전체 방문 연령대의 평균 데이터이지만 실제 데이터는 20대가 없습니다. 즉 웹사이트 방문자 중 20대의 비중은 거의 없다는 것이죠. 그러나 평균값 데이터를 기반으로 타깃을 26세로 지정했기 때문에 해석의 오류라고 할 수 있습니다.

위의 [데이터 3] 데이터의 최빈값을 구하게 되면 어떻게 될까요? 위의 [데이터 3]에서 빈도수가 가장 높은 연령대는 19세, 35세입니다. 그럼 타깃을 선정할 때 19세와 35세에 맞춰 신규 프로모션을 준비했다면 정확한 타깃이 선정되었기 때문에 프로모션에 대한 반응도는 상승했을 겁니다.

정리해서 말하면…

평균 데이터는 다양한 종류가 있지만 그 중 평균값, 중앙값, 최빈값이 가장 많이 사용됩니다.

평균 데이터 종류 정의 활용 방법
평균값 산출평균이라 하며,
전체 ‘데이터의 합/데이터 개수’로
산출
수집된 전체 데이터에 대한
평균을 구할 때 활용
중앙값 전체 데이터 중
가장 중간에 위치한 데이터를
평균으로 사용
수집된 전체 데이터 중
이상치(Outlier)를 고려하여
평균을 구할 때 활용
최빈값 전체 데이터 중
빈도수가 가장 높은 데이터를
평균으로 사용
수집된 전체 데이터 중
빈도수가 가장 높은 데이터를
평균으로 구할 때 활용

평균 데이터를 구할 때는 사용하고자 하는 목적이 무엇인지를 먼저 생각한 후 그에 맞는 평균 데이터를 확인해야 데이터를 기반으로 실행할 때 올바른 실행이 가능합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다