경험이 풍부한 기업가든 이제 막 시작하는 기업가든 모두 A/B 테스트에 대한 수많은 기사와 리소스를 보았을 것입니다. 이미 이메일 제목이나 소셜 미디어 게시글에 A/B 테스트를 수행했을 수도 있습니다.
마케팅 분야에서 A/B 테스트에 대해 많은 이야기가 있었는데도 불구하고 여전히 많은 사람이 A/B 테스트에 대해 잘못 이해하고 있습니다. 잘못 이해한 상태에서 진행한 결과는 어떻습니까? 부적절한 테스트의 부정확한 결과를 토대로 중요한 비즈니스 결정을 내리는 사람들이 생기게 됩니다.
A/B 테스트는 특히 매장 주인을 위해 작성된 콘텐츠에서 지나치게 단순화되는 경우가 많습니다. 이 글에서는 전자상거래를 위한 다양한 유형의 A/B 테스트를 시작하려면 알아야 할 모든 것을 최대한 알기 쉽게 설명합니다. A/B 테스트는 올바른 제품 포지셔닝을 선택하고 랜딩 페이지의 전환율을 높이는 등 큰 변화를 불러오는 신의 한 수가 될 수 있습니다.
목차
A/B 테스트란 무엇인가요?
분할 테스트라고도 하는 A/B 테스트는 동일한 웹페이지, 이메일 또는 기타 디지털 자산 중 두 버전을 비교하여 사용자 행동에 따라 어느 버전이 더 효과적인지 측정하는 프로세스입니다. 마케팅 캠페인의 성과를 개선하고 타겟 고객을 전환하게 만드는 요소를 더 잘 이해하는 데 유용한 도구입니다.
이 프로세스를 통해 중요한 비즈니스 질문에 대답할 수 있고, 이미 확보한 트래픽에서 더 많은 수익을 획득할 수 있으며, 데이터 기반 마케팅 전략의 기반을 마련할 수 있습니다.
A/B 테스트 작동 방식
마케팅 환경에서 A/B 테스트를 사용하는 경우 방문자의 50%에게 자산의 버전 A(“대조군”)를 표시하고 나머지 50%에게는 버전 B(“실험군”)를 표시합니다.
전환율이 가장 높은 버전이 승리하게 됩니다. 예를 들어 실험군(버전 B)이 가장 높은 전환율을 기록했다고 가정해 보겠습니다. 그런 다음 실험군이 더 효과적이라고 선언하고 방문자의 100%를 실험군으로 넣습니다.
그러면 실험군이 새 대조군이 되며, 새 실험군을 설계해야 합니다.
A/B 테스트 전환율은 종종 성공의 불완전한 척도가 될 수 있다는 점을 언급할 필요가 있습니다.
예를 들어 한 페이지에서 제품 가격을 50달러로 책정하고 다른 페이지에서 완전히 무료로 제공하면, 진정으로 가치 있는 인사이트를 제공하지 못할 것입니다. 테스트는 비즈니스에 사용하는 모든 도구나 전략과 마찬가지로 전략적이어야 합니다.
그렇기 때문에 판매를 완료할 때까지 계속 전환 가치를 추적해야 합니다.
A/B/n 테스트란 무엇인가요?
A/B/n 테스트를 사용하면 대조군에 대해 1개 이상의 실험군을 테스트할 수 있습니다. 따라서 방문자의 50%에게 대조군을, 방문자의 50%에게 실험군을 표시하는 대신, 방문자의 25%에게 대조군을 표시하고 남은 퍼센트는 25%씩 실험군들을 표시할 수 있습니다.
참고: A/B/n 테스트는 여러 실험군을 포함하는 다변량 테스트와는 다릅니다. 다변량 테스트를 실행할 때는 여러 실험군을 테스트할 뿐만 아니라 A/B 테스트, UX 또는 SEO 분할 테스트와 같은 여러 요소도 테스트하게 됩니다. 다변량 테스트는 어떤 조합이 가장 실적이 좋은지 파악하는 게 목표입니다.
다변량 테스트를 실행하려면 많은 트래픽이 필요하므로 지금은 다변량 테스트에 대해 신경 쓰지 않아도 됩니다.
A/B 테스트는 얼마 동안 진행해야 하나요?
A/B 테스트를 최소 한 번, 이상적으로는 두 번의 비즈니스 사이클 동안 실행합니다. 통계적 유의성에 도달했다고 해서 테스트를 중단하면 안 됩니다. 또한 미리 결정된 표본 크기를 충족해야 합니다. 마지막으로, 모든 테스트를 일주일 단위로 실행하는 것을 잊지 마세요.
왜 두 번의 완전한 비즈니스 사이클이 필요할까요? 우선 다음을 보면 알 수 있습니다.
- “생각해 봐야겠다.”는 구매자를 설명해 줄 수 있습니다.
- 다양한 트래픽 소스(Facebook, 이메일 뉴스레터, 자연 검색 등)를 모두 설명할 수 있습니다.
- 이상 현상에 관해 설명할 수 있습니다. 효과에 대한 의견이 갈리는 금요일 전송 이메일 뉴스레터를 예시로 들 수 있습니다.
두 번의 비즈니스 사이클은 일반적으로 타겟 고객의 사용자 행동에 대한 가치 있는 인사이트를 얻을 만한 시간입니다.
A/B 테스트 랜딩 페이지 테스트 도구를 사용해 본 적이 있다면, 녹색의 작은 “통계적으로 의미 있음” 아이콘에 익숙할 것입니다.
불행히도 많은 사람에게 그것은 “테스트가 완료되었으니 호출하세요.”는 보편적인 신호입니다. 아래에서 자세히 살펴보겠지만, A/B 테스트 통계적 유의성에 도달했다고 해서 테스트를 중단해야 하는 것은 아닙니다.
그리고 미리 결정된 표본 크기는 보이는 것만큼 위협적이진 않습니다. 아래와 같이 Evan Miller가 개발한 표본 크기 계산기를 열어 웹페이지 전체를 참조하면 전환율을 높이는 데 도움이 됩니다.
이 계산은 현재 전환율이 5%이고 15% 효과를 탐지하려면 실험당 13,533개의 표본이 필요하다는 것을 의미합니다. 따라서 표준 A/B 테스트의 경우 총 2만 5천 명 이상의 방문자가 필요합니다.
더 작은 효과를 감지하려면 다음 상황을 참고하세요.
변경된 것은 MDE(최소 감지 효과)뿐입니다. 15%에서 8%로 감소했습니다. 이 경우 실험당 47,127개의 표본이 필요합니다. 따라서 표준 A/B 테스트의 경우 총 십만 명에 가까운 방문자가 필요합니다.
A/B 테스트가 UX이든 SEO 분할 테스트이든 간에 테스트를 시작하기 전에 샘플 크기를 미리 계산해야 합니다. 테스트가 통계적 유의성에 도달하더라도 미리 결정된 표본 크기에 도달할 때까지 테스트를 중단할 수 없습니다. 중단하면 테스트는 유효하지 않습니다.
그렇기 때문에 “전환 100번 후 중단하세요.”와 같은 권장 사항을 무턱대고 따르면 안 됩니다.
일주일 단위로 분할 테스트를 실행하는 것도 중요합니다. 트래픽은 요일과 시간에 따라 변경될 수 있으므로 모든 요일을 포함하는 것이 좋습니다.
A/B 테스트를 왜 해야 하나요?
10명을 여러분의 사이트로 유도하기 위해 Facebook 광고에 100달러를 지출한다고 가정해 보겠습니다. 평균 주문 금액은 25달러입니다. 10명의 방문자 중 여덟 명은 아무것도 사지 않고 떠났고 나머지 두 명은 각각 25달러를 결제했습니다. 결과는 어떻게 될까요? 50달러의 손실이 발생했습니다.
다시 10명을 여러분의 사이트로 유도하기 위해 Facebook 광고에 100달러를 지출한다고 가정해 보겠습니다. 평균 주문 금액은 여전히 25달러입니다. 하지만 이번에는 방문객 중 5명만이 아무것도 사지 않고 떠났고 나머지 5명은 각각 25달러를 결제했습니다. 결과는 어떻게 될까요? 여러분은 25달러의 수익이 생겼습니다.
물론 이것은 더 간단한 A/B 테스트 예시 중 하나입니다. 하지만 온라인 매장의 전환율을 높이면 동일한 트래픽을 더 가치 있게 만듭니다.
또한 A/B 테스트 이미지와 광고 문구는 테스트의 성공 여부와 관계없이 인사이트를 발견하는 데 도움이 됩니다. 이 가치는 매우 쉽게 전달됩니다. 예를 들어 제품 설명 A/B 테스트의 카피라이팅 인사이트는 가치 제안, 제품 동영상 또는 기타 제품 설명을 알리는 데 도움이 될 수 있습니다.
온라인 매장의 효율성을 지속해서 개선하는 데 집중하는 본질적인 가치도 무시할 수 없습니다.
A/B 테스트를 해야 하나요?
필수 요소는 아닙니다. 트래픽이 적은 사이트나 웹 또는 모바일 앱을 운영하는 경우 최적화 활동에 가장 적합한 게 A/B 테스트가 아닐 수 있습니다. 예를 들어 사용자 테스트를 수행하거나 고객과의 대화를 통해 더 높은 투자 수익률(ROI)을 얻을 수 있습니다.
일반적인 생각과는 달리 전환율 최적화는 테스트에서 시작과 끝을 맺지 않습니다.
위의 표본 크기 계산기 숫자들을 생각해 보세요. 기준 전환율이 5%인 경우 8% 효과를 감지하려면 실험당 방문자 47,127명이 필요합니다. 제품 페이지를 테스트한다고 가정해 보겠습니다. 2~4주 사이에 거의 십만 명의 방문자가 올까요?
왜 2주에서 4주일까요? 최소 두 번의 전체 비즈니스 주기에 대한 테스트를 실행하려고 한다는 점에 주목하세요. 이 테스트는 일반적으로 2~4주 정도 소요되기 때문입니다. 바로 “신경 쓰지 말고 필요한 표본 크기에 맞춰 2~4주보다 긴 기간에 테스트를 실행하면 됩니다.”라고 생각할 수 있습니다. 하지만 그렇게 하면 안 됩니다.
테스트 실행 시간이 길어질수록 외부 유효성 위협과 표본 오염에 더 취약해집니다. 예를 들어 방문자가 쿠키를 삭제하여 결국 새로운 방문자로 A/B 테스트에 다시 입력될 수 있습니다. 또는 누군가 휴대전화에서 데스크톱으로 전환하여 다른 실험에 참여할 수 있습니다.
기본적으로 테스트를 너무 오래 실행하는 것은 주어진 기간 동안 계속 실행하지 않는 것만큼 나쁩니다.
2~4주 안에 필요한 표본 크기를 충족할 수 있는 매장이라면 테스트에 투자할 가치가 있습니다. 그렇지 않은 매장은 트래픽이 증가할 때까지 다른 형태의 최적화를 고려해야 합니다.
Pinterest의 제품 매니저인 Julia Starostenko도 이에 동의하며 다음과 같이 설명합니다.
Pinterest의 Julia Starostenko
“실험은 즐겁습니다! 하지만 결과가 정확한지 확인하는 것이 중요합니다.”
“스스로에게 물어보세요. 고객은 충분한가요? 데이터를 충분히 수집했나요? (합리적인 기간 안에) 진정한 통계적 유의성에 도달하려면 충분한 고객이 있어야 합니다.”
어떤 것을 A/B 테스트해야 하나요?
무엇을 A/B 테스트해야 하는지 말하기 곤란합니다. 여러분의 막막한 마음을 잘 알고 있습니다. 지금 당장 테스트할 수 있는 99가지 목록을 줄 수 있다면 확실히 여러분이 더 편리해질 것입니다. 클릭을 해줄 마케터는 얼마든지 준비되어 있기 때문입니다.
사실, 유일하게 실행할 가치가 있는 테스트는 자체 데이터를 기반으로 하는 테스트뿐입니다. 당사는 여러분의 데이터, 고객 등에 접근할 수 없으며, 방대한 A/B 테스트 아이디어 목록을 큐레이팅하는 사람도 없습니다. 그렇기 때문에 당사 중 누구도 무엇을 테스트해야 하는지 의미 있는 이야기를 해줄 수 없습니다.
유일하게 실행할 가치가 있는 테스트는 자체 데이터를 기반으로 하는 테스트뿐입니다.
대신 정성적, 정량적 분석을 통해 스스로 이 질문에 답하는 것을 권장합니다. 몇 가지 인기 있는 A/B 테스트의 예시는 다음과 같습니다.
- 기술적 분석. 온라인 매장이 모든 브라우저에서 적절하고 빠르게 로딩되나요? 모든 디바이스에서는 어떤가요? 여러분은 반짝거리는 최신 iPhone 14를 가지고 있을 수 있지만 어딘가에서는 여전히 2005년에 출시된 Motorola Razr를 사용하는 사람이 있습니다. 사이트가 제대로 빠르게 작동하지 않으면 확실히 전환율이 떨어집니다.
- 현장 설문조사. 온라인 매장 방문자가 매장을 둘러볼 때 표시됩니다. 예를 들어 한동안 같은 페이지에 머물렀던 방문자에게 오늘 구매를 방해하는 요소가 있는지 현장 설문조사로 물어볼 수도 있습니다. 방해 요소에는 어떤 게 있을까요? 설문조사를 통해 나온 정성적 데이터를 사용하여 광고 문구 및 전환율을 개선할 수 있습니다.
- 고객 인터뷰. 고객과 전화로 직접 대화하는 것을 대체할 수 있는 것은 없습니다. 고객이 경쟁 매장이 아닌 여러분의 매장을 선택한 이유는 무엇인가요? 고객이 사이트를 방문했을 때 어떤 문제를 해결하고 싶어 했나요? 고객이 누구인지, 고객이 왜 실제로 구매하는지에 대한 핵심을 파악하기 위해 물어볼 수 있는 수많은 질문이 있습니다.
- 고객 설문조사. 고객 설문조사는 (방문자가 아닌) 이미 구매한 사람들에게 발송되는 전체 설문조사입니다. 설문조사를 설계할 때는 대상 고객, 고객이 느끼는 문제점, 고객이 구매 전에 망설였던 부분, 고객이 매장을 설명하는 데 사용하는 단어와 문구를 파악하는 데 중점을 두어야 합니다.
- 분석. 분석 도구가 데이터를 올바르게 추적하고 보고하고 있나요? 대책 없이 들릴지 모르지만, 얼마나 많은 분석 도구가 잘못 설정되어 있는지 알면 놀랄 것입니다. 분석은 방문자의 행동을 파악하는 것입니다. 예를 들어 퍼널에 초점을 맞출 수 있습니다. 전환 퍼널 유출이 가장 큰 곳은 어디인가요? 즉, 퍼널에서 대부분 사람이 이탈하는 단계는 어디인가요? 그 단계는 테스트를 시작하기 좋은 장소입니다.
- 사용자 테스트. 여기에서 유료 통제 실험에 참여한 실제 사람들이 사이트에서 작업을 수행하는 것을 볼 수 있습니다. 예를 들어 40~60달러 사이의 비디오 게임을 찾아 장바구니에 담으라고 요청할 수 있습니다. 이러한 작업을 수행하는 동안 사람들은 자신의 생각과 행동을 강력하게 이야기합니다.
- 세션 리플레이. 세션 리플레이는 사용자 테스트와 유사하지만, 여기서는 실제 돈과 실제 구매 의도를 가진 실제 사람들을 대상으로 합니다. 실제 방문자가 사이트를 탐색하는 것을 볼 수 있습니다. 방문자들은 어떤 걸 찾는 데 어려움을 겪나요? 어디에서 좌절하나요? 어디에서 혼란스러워 보이나요?
이 외에도 다양한 조사 유형이 있지만, 가장 적합한 A/B 테스트 방법론을 선택하는 것부터 시작하세요. A/B 테스트 방법론 중 일부를 살펴보면 테스트할 가치가 있는 데이터 기반 아이디어에 대한 방대한 목록을 갖게 될 것입니다. 여러분의 목록이 “지금 당장 테스트해야 할 99가지” 글보다 더 많은 가치를 가져다줄 것이라고 확신합니다.
A/B 테스트 아이디어 우선순위 정하기
수많은 A/B 테스트 아이디어 목록은 흥미롭지만, 테스트 대상을 결정하는 데는 그다지 도움이 되지 않습니다. 어디서부터 시작해야 할까요? 이것이 바로 우선순위를 정해야 하는 이유입니다.
사용할 수 있는 몇 가지 일반적인 우선순위 지정 프레임워크는 다음과 같습니다.
- ICE. ProductPlan의 Glossary에 따르면, ICE는 영향력(Impact), 신뢰도(Confidence), 용이함(Ease)1의 약자입니다. 각 요소에는 1~10등급이 주어집니다. 예를 들어 개발자나 디자이너의 도움 없이 혼자서 쉽게 테스트를 실행할 수 있다면 용이함에 8점을 줄 수 있습니다. 여러분의 판단에 따라 점수를 매기고 있으며, 한 명 이상의 사람이 테스트를 실행하면 순위가 너무 주관적일 수 있습니다. 모든 사람이 객관적으로 평가할 수 있게 일련의 가이드라인이 있으면 도움이 됩니다.
- PIE. PIE는 잠재력(Potential), 중요도(Importance), 용이함(Ease)2의 약자입니다. 다시 말하지만, 각 요소에는 1~10등급이 주어집니다. 예를 들어 테스트가 트래픽의 90%에 도달하면 중요도에 8점을 줄 수 있습니다. PIE는 ICE만큼 주관적이라 PIE도 가이드라인이 있으면 도움이 됩니다.
- PXL. PXL은 CXL의 우선순위 지정 프레임워크입니다. 이전의 프레임워크들과는 조금 다르며 사용자 정의가 가능하고 더 객관적인 결정을 내릴 수 있습니다. 세 가지 요소 대신 예/아니요 질문과 구현 용이성 질문이 있습니다. 예를 들어 프레임워크는 “테스트는 동기 부여를 증가시키기 위해 설계되었나요?”라고 질문할 수 있습니다. 질문에 “예”로 대답한다면 1이 되고, “아니요”라고 대답한다면 0이 됩니다. 이 프레임워크에 대해 자세히 알아보고 스프레드시트를 다운로드3 할 수 있습니다
이제 여러분은 어디서부터 시작해야 할지에 대한 아이디어를 얻었습니다. 그런데 이 프레임워크들은 아이디어를 분류하는 데도 도움이 될 수 있습니다. 예를 들어 최근에 수행한 전환 연구에서 다음과 같이 세 가지 카테고리인 구현, 조사 및 테스트를 사용했습니다.
- 구현. 그냥 실행하세요. 손상되었거나 알기 쉬운지 확인해 보세요.
- 조사. 문제를 정의하거나 해결 방안을 좁혀가기 위해 더 생각해 보세요.
- 테스트. 아이디어는 건전하고 데이터에 기반한 정보이니 테스트해 보세요!
카테고리와 우선순위 지정이 끝났습니다.
A/B 테스트 통계 집중 과정
테스트를 실행하기 전에 통계를 자세히 살펴보는 것이 중요합니다. 통계학은 일반적으로 좋아하지 않는 과목이지만, 졸업하려면 마지못해 들어야 하는 필수 과목입니다.
통계는 A/B 테스트에서 큰 부분을 차지합니다. 다행히 A/B 테스트 도구와 분할 테스트 소프트웨어 덕분에 최적화 작업이 더 쉬워졌지만, 나중에 테스트 결과를 분석하려면 배후에서 발생하는 일에 대한 기본적인 이해가 필요합니다.
이전에 HubSpot의 성장 마케팅 매니저였고 현재 Omniscient Digital의 공동 설립자인 Alex Birket은 다음과 같이 설명합니다.
Omniscient Digital의 Alex Birkett
“통계는 숫자의 마법 같은 전환 과정이지만 ‘성공!’ 또는 ‘실패 😞’와 같은 이분법적인 것이 아닙니다. 불확실한 상황에서 결정을 내리고 주어진 결정의 결과가 어떻게 될지에 대한 모호함을 줄이려고 노력함으로써 위험을 줄이는 데 사용되는 프로세스입니다.”
“이 점을 염두에 두고, 평균, 분산, 표본 추출, 표준 편차, 평균으로의 회귀, ‘대표’ 표본의 구성 요소 등 기본적인 사항을 아는 것이 가장 필요하다고 생각합니다. 또한 A/B 테스트를 시작할 때 인적 오류를 최대한 줄이기 위해 몇 가지 특정 가드레일을 설정하는 데 도움이 됩니다.”
평균은 무엇인가요?
평균은 평균값입니다. 전체를 대표하는 평균을 찾는 것이 목표입니다.
예를 들어 비디오 게임의 평균 가격을 찾는다고 가정해 보겠습니다. 전 세계 모든 비디오 게임의 가격을 더하여 이를 전 세계 모든 비디오 게임의 개수로 나누지는 않을 것입니다. 그 대신, 전 세계의 모든 비디오 게임을 대표하는 작은 표본을 분리합니다.
수백 개 비디오 게임의 평균 가격을 찾을 수 있을지도 모릅니다. 대표 표본을 선택했다면 200개의 비디오 게임의 평균 가격이 전 세계 모든 비디오 게임을 대표할 수 있어야 합니다.
표본이란 무엇인가요?
표본 크기가 클수록 변동성이 적어 평균이 정확할 가능성이 더 높아집니다.
따라서 표본을 비디오 게임 200개에서 비디오 게임 2,000개로 늘리면 분산이 적고 평균이 더 정확해집니다.
분산이란 무엇인가요?
분산은 평균 변동성을 의미합니다. 기본적으로 변동성이 높을수록 개별 데이터 포인트를 예측할 때 평균 정확도가 떨어집니다.
그렇다면 평균은 개별 비디오 게임의 실제 가격과 얼마나 가까울까요?
통계적 유의성이란 무엇인가요?
A와 B 사이에 차이가 없다고 가정할 때, 그 효과를 우연히 얼마나 자주 볼 수 있을까요?
통계적 유의성 수준이 낮을수록 가장 결과가 좋은 실험이라도 결과가 좋지만은 않을 가능성이 커집니다.
간단히 말해서 통계적 유의성 수준이 낮다는 것은 “승자”가 실제 승자가 아닐 가능성이 크다는 것을 의미합니다(이를 거짓 양성이라고 함).
대부분의 A/B 테스트 도구와 오픈 소스 A/B 테스트 소프트웨어는 미리 결정된 표본 크기나 특정 시점에 도달할 때까지 기다리지 않고 통계적 유의성을 호출합니다. 그렇기 때문에 테스트가 통계적으로 유의한 것과 통계적으로 유의하지 않은 것 사이를 왔다 갔다 하는 것을 알 수 있습니다.
CXL의 설립자인 Peep Laja는 더 많은 사람이 A/B 테스트의 통계적 유의성과 통계적 유의성이 중요한 이유를 제대로 이해하길 바라고 있습니다.
CXL의 Peep Laja
“통계적 유의성은 유효성과 동일하지 않습니다. 통계적 유의성이 95% 이상에 도달하더라도 다음 두 가지 더 중요한 조건이 충족되기 전에는 거의 의미가 없습니다.”
“1. 표본 크기 계산기를 사용하여 계산할 수 있는 충분한 표본 크기가 있습니다. 즉, 어떤 결론을 내릴 수 있을 만큼 충분한 사람이 실험에 참여했다는 것을 의미합니다.”
“2. 테스트가 충분히 오래 진행되어 표본을 대표할 수 있습니다(그리고 표본 오염을 피하려면 너무 길지 않아야 합니다4.). 대부분의 경우 필요한 표본을 얼마나 빨리 얻을 수 있는가에 따라 2~4주 동안 테스트를 실행하는 것이 좋습니다.”
평균으로의 회귀란 무엇인가요?
A/B 테스트를 시작할 때 급격한 변동이 있을 수 있습니다.
평균으로의 회귀는 첫 번째 측정에서 극단적인 결과가 나오면 두 번째 측정은 평균에 더 가까워질 가능성이 높다는 것을 나타내는 현상입니다.
테스트를 호출하는 유일한 이유가 통계적 유의성에 도달했기 때문이라면 거짓 양성이 표시될 수 있습니다. 성공적인 실험은 시간이 지남에 따라 평균으로 회귀할 가능성이 높습니다.
통계적 검정력이란 무엇인가요?
A와 B 사이에 차이가 있다고 가정할 때, 그 효과를 얼마나 자주 볼 수 있을까요?
검정력 단계가 낮을수록 승자가 인정받지 못할 확률이 커집니다. 검정력 단계가 높을수록 승자가 인정받지 못할 확률이 낮아집니다. 실제로 80%의 통계적 검정력은 대부분의 A/B 테스트 도구 및/또는 분할 테스트 서비스의 표준이라는 것만 기억하세요.
Online Dialogue 설립자 Ton Wesseling은 더 많은 사람이 통계적 검정력에 대해 알기를 바라고 있습니다.
Online Dialogue의 Ton Wesseling
“많은 사람이 거짓 양성에 대해 걱정합니다. 당사는 거짓 음성에 대해 훨씬 더 많이 걱정합니다. 긍정적인 변화가 영향을 미친다는 증거를 찾을 확률이 정말 낮은 장소에서 실험하는 이유는 무엇인가요?”
외부 유효성 위협이란 무엇인가요?
테스트의 유효성을 위협하는 외부 요인이 있습니다. 예를 들어 다음과 같습니다.
- 블랙 프라이데이와 사이버 먼데이(BFCM) 세일
- 긍정적 또는 부정적인 언론 언급
- 주요 유료 캠페인 런칭
- 요일
- 계절 변화
외부 유효성 위협이 결과에 영향을 미치는 가장 일반적인 A/B 테스트 예시 중 하나는 계절적 행사 기간입니다. 12월에 테스트를 실행한다고 가정해 보겠습니다. 주요 쇼핑 휴무일은 그달의 온라인 매장 트래픽이 증가하는 것을 의미합니다. 1월이 되면 12월 승자의 결과가 더 이상 좋지 않을 수 있다는 것을 발견할 수 있습니다.
왜 그럴까요?
외부 유효성 위협 요인인 명절 때문입니다.
테스트 결정의 근거가 된 데이터에 이상 현상이 발생한 것이었습니다. 1월에 상황이 안정되면 승자가 지는 것을 발견하고 놀랄 수 있습니다.
외부 유효성 위협을 완전히 제거할 수는 없지만, 다양한 유형의 트래픽(예: 유료 트래픽만 테스트하지 말고 모든 트래픽 소스에 결과 롤아웃함)을 포함하여 일주일 동안 테스트를 실행하고(예: 월요일에 테스트를 시작하고 금요일에 종료하지 않음) 잠재적인 위협에 유의하면 위협을 완화할 수 있습니다.
A/B 테스트 설정 방법
간단한 A/B 테스트 튜토리얼을 살펴보겠습니다. 무엇이든 테스트하기 전에 확실한 가설을 세울 필요가 있습니다(방금 수학 과정을 마쳤고 이제 과학 과정으로 들어갑니다.). 예를 들어 “배송비를 낮추면 전환율이 높아질 것입니다.”와 같이 가정해 보세요.
복잡하지 않으니 걱정하지 마세요. 기본적으로 아이디어가 아닌 가설을 테스트해야 합니다. 가설은 측정 가능하고, 특정 전환 문제를 해결하기를 바라며, 승리 대신 인사이트에 초점을 맞춥니다.
아이디어가 아닌 가설에 대한 A/B 테스트를 해야 합니다.
가설을 세울 때마다 Craig Sullivan의 Hypothesis Kit5에서 차용한 공식을 사용합니다.
- [연구 데이터/피드백 삽입]을 볼 수 있기 때문에
- [테스트 중인 변경 사항]이 [예상하는 영향]을 일으킬 것으로 예상하며
- [데이터 메트릭]을 사용하여 측정합니다.
쉽지 않은가요? 빈칸을 채우기만 하면 테스트 아이디어가 가설로 바뀝니다.
A/B 테스트 도구 선택
이제 A/B 테스트 도구 또는 분할 테스트 서비스를 선택할 수 있습니다. Google Marketing Platform, Optimizely 및 VWO를 먼저 떠올릴 때가 많습니다.
앞서 말한 도구들은 모두 훌륭하고 안전한 옵션입니다.
- Google Marketing Platform. 무료이며 이제 막 시작하는 경우에 일부 다변량 제한 사항 외에는 실제로 큰 문제가 없습니다. Google 애널리틱스 A/B 테스트를 수행할 때 잘 작동하며 이는 장점이 됩니다.
- Optimizely. 전문 기술이 없어도 간단한 테스트를 쉽게 시작하고 실행할 수 있습니다. Stats Engine6을 사용하면 테스트 결과를 더 쉽게 분석할 수 있습니다. 일반적으로 Optimizely는 세 가지 옵션 중 가장 비싼 옵션입니다.
- VWO. VWO에는 분석을 더 쉽게 해주는 SmartStats7가 있습니다. 또한, 초보자를 위한 훌륭한 WYSIWYG 편집기가 있습니다. 모든 VWO 플랜에는 히트맵, 현장 설문조사, 양식 분석 등이 함께 제공됩니다.
Shopify App Store에 유용한 A/B 테스트 도구도 있습니다.
A/B 테스트 도구 또는 분할 테스트 소프트웨어를 선택했다면 가입 양식을 작성하고 제공된 지침을 따릅니다. 프로세스는 도구마다 다릅니다. 하지만 일반적으로 사이트에 스니펫을 설치하고 목표를 설정하라는 메시지가 표시됩니다.
A/B 테스트 결과 분석 방법
가설을 세우면 승리에서 인사이트로 초점이 바뀐다고 말한 것을 기억하시나요? 이전에 Google의 제품 매니저였던 애널리틱스 담당자 Krista Seiden은 다음에서 그 의미에 대해 설명합니다.
Google의 Krista Seiden
“A/B 테스트에서 가장 간과되는 측면은 패자에게서 배우는 것입니다. 사실 저는 실행했던 최적화 프로그램에서 분기 중 가장 큰 패자 일부와 그들로부터 배운 점을 언급한 ‘실패 보고서’를 발행하는 습관이 있습니다.”
“제가 가장 좋아하는 한 사례는 몇 달 동안 진행되었던 캠페인이었습니다. 우리는 캠페인이 시작되기 직전에 랜딩 페이지 테스트를 몰래 할 수 있었습니다. 이 테스트는 비참하게 실패했으니, 결과적으로 잘한 행동이었죠. 실제로 페이지를 그대로 출시했다면 수익에 상당한 타격을 입었을 것입니다. 결국 엄청난 비즈니스 비용을 절약할 수 있었을 뿐만 아니라 새 페이지의 성과가 저조한 이유에 대해 (나중에 테스트하여) 몇 가지 가정을 세울 수 있었으며 이를 통해 더 나은 마케터가 되어 향후 캠페인을 더 성공적으로 이끌었습니다.”
가설을 올바르게 세우면 향후 테스트와 비즈니스의 다른 영역에서 사용할 수 있는 인사이트를 얻을 수 있어 패자도 승자가 될 수 있습니다. 따라서 테스트 결과를 분석할 때는 테스트의 승패 여부가 아닌 인사이트에 집중해야 합니다. 항상 배워야 할 것이 있고, 항상 분석해야 할 것이 있습니다. 패자를 무시하지 마세요!
가설을 올바르게 세우면 패자도 승자가 될 수 있습니다.
여기서는 세분화의 필요성에 대해 가장 주목해야 합니다. 테스트는 전반적으로 패배할 수 있지만, 적어도 하나의 세그먼트는 잘 수행되었을 가능성이 있습니다. 세그먼트란 무엇을 의미하나요?
- 신규 방문자
- 재방문자
- iOS 방문자
- 안드로이드 방문자
- Chrome 방문자
- Safari 방문자
- 데스크톱 방문자
- 태블릿 방문자
- 자연 검색 방문자
- 유료 방문자
- 소셜 미디어 방문자
- 로그인한 구매자
이해가 되시나요?
테스트 도구에서 결과를 볼 때는 사탕 상자 전체를 보고 있는 것과 같습니다. 여러분이 해야 할 일은 더 심층적이고 세분화된 인사이트를 발견할 수 있게 사탕을 나눠보는 것입니다.
특정 세그먼트에서 가설이 옳았다는 것이 입증되었을 가능성이 높습니다. 이것도 여러분에게 뭔가 깨달음을 줍니다.
분석은 테스트의 승패보다 훨씬 더 중요합니다. 데이터를 세분화하여 표면 아래에 숨겨진 인사이트를 찾으세요.
A/B 테스트 도구는 분석을 수행하지 않으므로 시간이 지남에 따라 발전할 수 있는 중요한 기술입니다.
이전 A/B 테스트 아카이브 방법
내일 첫 번째 테스트를 실행한다고 가정해 보겠습니다. 내일로부터 2년 후에 그 테스트의 세부 사항을 기억할 수 있을까요? 아마 기억 못할 것입니다.
그렇기 때문에 A/B 테스트 결과를 아카이브 하는 것이 중요합니다. 잘 관리된 아카이브가 없으면 그동안 얻은 모든 인사이트를 잃게 됩니다. 또한 아카이브 하지 않으면 같은 테스트를 두 번 하게 되기 쉽습니다.
하지만 아카이브 하는 “올바른” 방법은 없습니다. Effective Experiments과 같은 도구를 사용하거나 Excel을 사용할 수 있습니다. 특히 이제 막 시작했을 때 아카이빙하는 것은 여러분에게 달려 있습니다. 다만 다음 사항을 놓치지 마세요.
- 가설
- 대조군 및 실험군 스크린샷
- 승패 여부
- 분석을 통해 얻은 인사이트
비즈니스가 성장하면서 이 아카이브를 보관한 것에 대해 스스로 감사하게 될 것입니다. 여러분뿐만 아니라 신입 사원 및 고문/이해관계자에게도 도움이 될 것입니다.
전문가들의 A/B 테스트 프로세스
이제 표준 A/B 테스트 튜토리얼을 살펴보았으니 Google 및 HubSpot과 같은 회사 전문가의 정확한 프로세스를 살펴보겠습니다.
Krista Seiden
웹 및 앱 A/B 테스트를 위한 단계별 프로세스는 분석에서 시작되며, 이것이 좋은 테스트 프로그램의 핵심이라고 생각합니다. 분석 단계에서는 분석 데이터, 설문조사나 UX 데이터 또는 기타 고객 인사이트 소스를 조사하여 최적화 기회가 어디에 있는지 이해하는 것이 목표입니다.
분석 단계에서 좋은 아이디어 파이프라인을 확보하면 무엇이 잘못되었는지 알 수 있으며 이러한 최적화 영역을 잠재적으로 수정하거나 개선할 방법에 대한 가설을 세울 수 있습니다.
다음으로 테스트를 빌드하고 실행할 차례입니다. 적절한 시간 동안 테스트를 실행하고 (매주 변경 사항이나 이상 현상을 고려하기 위해 기본적으로 2주로 설정함) 데이터가 충분히 모이면 결과를 분석하여 승자를 결정합니다.
이 단계에서 패자를 분석하는 시간도 중요합니다. 이 실험에서 무엇을 배울 수 있나요?
마지막으로, 탄탄한 최적화 프로그램의 토대를 마련하는 데 시간을 보낸 후에야 이 단계에 도달할 수 있습니다. 이제 개인화를 살펴볼 차례입니다. 개인화는 반드시 멋진 도구 집합이 필요한 것은 아니지만 사용자에 대한 데이터에서 나올 수 있습니다.
마케팅 개인화는 적절한 위치에 적절한 콘텐츠를 타겟팅하는 것만큼 쉬울 수도 있고 개별 사용자 행동을 기반으로 타겟팅하는 것처럼 복잡할 수도 있습니다. 그렇다고 해서 개인화 작업에 한 번에 뛰어들지는 마세요. 먼저 기본 사항을 제대로 파악하기 위해 충분한 시간을 할애해야 합니다.
Omniscient Digital의 Alex Birkett
큰 틀에서 이 프로세스를 따르려고 노력합니다.
- 데이터를 수집하고 분석 구현이 정확한지 확인합니다.
- 데이터를 분석하고 인사이트를 찾습니다.
- 인사이트를 가설로 전환합니다.
- 영향력과 용이함에 따라 우선순위를 지정하고 리소스(특히 기술 리소스)의 할당을 최대화합니다.
- 테스트를 실행합니다(지식과 능력을 최대한 발휘할 수 있는 통계 모범 사례를 따름).
- 결과를 분석하고 결과에 따라 구현 여부를 결정합니다.
- 결과를 기반으로 계속 반복합니다.
간단히 말해서 연구, 테스트, 분석, 반복입니다.
프로세스는 상황에 따라 제외되거나 변경될 수 있지만(비즈니스에 중요한 제품 기능을 테스트하고 있나요? 블로그 게시글 CTA(클릭 유도 문구)를 테스트하나요? 혁신과 위험 완화의 위험 측면과 균형은 무엇인가요?), 이는 모든 규모 또는 모든 유형의 회사에 적용할 수 있습니다.
또한 이 프로세스는 빠를 뿐만 아니라 정성적 고객 피드백8 및 정량적 분석 모두에서 충분한 데이터를 수집하여 더 나은 테스트 아이디어를 도출하고 우선순위를 지정하여 온라인 매장으로 트래픽을 유도할 수 있다는 게 장점입니다.
Online Dialogue의 Ton Wesseling
고객 여정을 최적화하고자 할 때 항상 먼저 하는 질문은 다음과 같습니다. 이 제품 또는 서비스가 Online Dialogue에서 만든 ROAR 모델의 어디에 적합한가요? 아직 많은 연구를 수행할 수 있지만 A/B 테스트 온라인 실험(월 전환 1,000건 미만)을 통해 결과를 검증할 수 없는 위험 단계에 있나요, 아니면 최적화 단계에 있나요? 아니면 그 이상의 단계에 있나요?
- 위험(Risk) 단계: 비즈니스 모델 피벗에서 완전히 새로운 디자인 및 가치 제안에 이르기까지 많은 연구가 진행됩니다.
- 최적화(Optimization) 단계: 가치 제안과 비즈니스 모델을 최적화하는 대규모 실험입니다.
- 최적화(Optimization) 단계: 사용자 행동 가설을 검증하기 위한 소규모 실험을 통해 대규모 디자인 변경을 위한 지식을 쌓을 수 있습니다.
- 자동화(Automation): 아직 실험 검정력(방문자)이 남아 있으므로 사용자 여정을 검증하는 데 전체 테스트 잠재력이 필요하지 않습니다. 남은 것은 (장기적인 학습에 집중하지 않고) 지금 당장 더 빠르게 성장하기 위해 활용해야 합니다. 이것은 밴딧/알고리즘 사용을 통해 자동화할 수 있습니다.
- 다시 생각해 보기(Re-think): 새로운 것으로의 전환이 아니라면 많은 연구를 추가하는 것을 중단합니다.
따라서 웹 또는 앱 A/B 테스트는 ROAR의 최적화 단계와 그 이후(다시 생각해 보기 단계까지)에서만 중요한 일이 됩니다.
당사의 실험 실행에 대한 접근 방식은 FACT & ACT 모델입니다.
당사의 연구는 5V 모델을 기반으로 합니다.
위의 5V 연구 모델 도식의 보기(View)에는 웹 분석, 히트맵, 기록, 시장 자료가 있고 음성(Voice)에는 고객 서비스, 설문조사, 온라인 채팅, 피드백 도구, 사용자 설문조사가 있고 검증(Validated)에는 이전 테스트가 있고 확인(Verified)에는 과학적 연구, 경쟁사가 있으며 가치(Value)에는 미션, 비전, 전략, 목표가 있습니다.
이러한 모든 인사이트를 수집하여 주요 연구 기반 가설을 도출합니다. 이는 데스크톱 또는 모바일 A/B 테스트를 통해 수집된 데이터를 기반으로 우선순위를 지정하는 하위 가설로 이어집니다. 가설이 참일 가능성이 높을수록 우선순위가 높아집니다.
가설이 참인지 거짓인지 알게 되면 학습한 내용을 결합하여 고객 여정의 더 큰 부분을 재설계/재정렬하여 더 앞으로 나아갈 수 있습니다. 하지만 어느 시점에서의 모든 성공적인 구현은 국소 최댓값으로 이어집니다. 그런 다음 잠재적인 전역 최댓값에 도달할 수 있게 더 나아가야 합니다.
물론 주요 학습 내용은 회사 전체로 퍼져 검증된 자사 인사이트를 기반으로 모든 종류의 광범위한 최적화와 혁신으로 이어집니다.
전 세계 고객을 대상으로 마케팅하고 있나요? 모의 현지화를 통해 이러한 프로세스를 쉽게 만드는 방법을 알아보세요.
Pinterest의 Julia Starostenko
실험의 목적은 기존 웹 페이지를 변경하는 것이 비즈니스에 긍정적인 영향을 미치는지 검증하는 것입니다.
실험을 시작하기 전에 실험을 실행하는 것이 정말 필요한지 판단하는 것이 중요합니다. 클릭률이 매우 낮은 버튼이 있다는 시나리오를 가정해 보세요. 이 버튼의 성능을 낮추는 것은 거의 불가능에 가깝습니다. 따라서 버튼에 제안된 변경 사항에 대한 효과를 검증(즉, 실험 실행)할 필요가 없습니다.
마찬가지로 제안된 버튼 변경 사항이 적다면 실험을 설정, 실행 및 해체하는 데 시간을 할애할 가치가 없을 수 있습니다. 이 경우 모든 사람에게 변경 사항을 롤아웃해야 하며 버튼의 성능을 모니터링할 수 있습니다.
실험을 실행하는 것이 실제로 도움이 된다고 판단되면 다음 단계는 개선해야 하는 비즈니스 지표(예: 버튼의 전환율 증가)를 정의합니다. 그런 다음 적절한 데이터 수집이 이루어지고 있는지 확인합니다.
이 작업이 완료되면 고객을 무작위로 실행하여 두 그룹으로 나눕니다. 한 그룹에는 기존 버전의 버튼이 표시되고 다른 그룹에는 새 버전이 표시됩니다. 각 고객 전환율을 모니터링하고, 통계적 유의성에 도달하면 실험 결과를 결정합니다.
CXL의 Peep Laja
A/B 테스트는 전환 최적화를 위한 큰 그림의 일부라고 생각합니다. 80%는 연구에 관한 것이고 20%만 테스트에 관한 것입니다. 전환 연구는 무엇을 테스트해야 할지 결정하는 데 도움이 됩니다.
프로세스는 일반적으로 다음과 같습니다(간단 요약).
- ResearchXL9와 같은 프레임워크로 전환 연구를 수행하여 사이트의 문제를 파악합니다.
- 우선순위가 높은 문제(많은 사용자에게 영향을 미치고 심각한 문제)를 선택하고 이 문제에 관한 솔루션을 최대한 많이 브레인스토밍합니다. 전환 연구 인사이트를 통해 관념화 프로세스에 정보를 제공합니다. 테스트를 실행할 디바이스를 결정합니다(데스크톱과 별도로 모바일 A/B 테스트를 실행해야 함).
- (트래픽/트랜잭션 수준에 따라) 테스트할 수 있는 실험군 수를 결정한 다음, 대조군을 테스트할 솔루션에 대한 가장 좋은 아이디어 한두 가지를 선택합니다.
- 정확한 처리 방법을 와이어 프레임으로 작성합니다(사본 작성, 디자인 변경 등). 변경 범위에 따라 새 요소를 디자인하기 위해 디자이너를 포함해야 할 수도 있습니다.
- 프론트엔드 개발자가 테스트 도구에서 처리를 구현하도록 합니다. 필요한 연동(Google Analytics)과 적절한 목표를 설정합니다.
- 테스트 QA를 수행하여 (손상된 테스트는 단연코 A/B 테스트를 가장 크게 실패하게 만드는 요인임) 모든 브라우저/디바이스 조합에서 작동하는지 확인합니다.
- 테스트를 시작하세요!
- 테스트를 완료하면10, 분석을 실행합니다.
- 결과에 따라 승자를 구현하거나, 처리를 반복하거나, 다른 테스트를 수행하세요.
비즈니스를 위한 A/B 테스트 최적화하기
여러분에게는 프로세스가 있고, 구현할 힘도 가지고 있습니다! 그러니 지금 바로 최고의 A/B 테스트 소프트웨어를 구입하고 매장 테스트를 시작하세요. 당신이 모르는 사이에 이러한 인사이트를 통해 더 많은 수익을 획득할 수 있을 것입니다.
최적화에 대해 계속 알아보려면 Udacity의 Google A/B 테스트와 같은 무료 강좌를 수강해 보세요. 웹 및 모바일 앱 A/B 테스트에 대해 자세히 알아보고 최적화 기술 세트를 향상할 수 있습니다.
A/B 테스트 FAQ
A/B 테스트란 무엇인가요?
가장 기본적인 단계의 A/B 테스트는 두 가지 버전을 테스트하여 어떤 것이 더 나은 7성과를 내는지 확인하는 것입니다. 소셜 미디어 게시글, 콘텐츠, 이메일, 제품 페이지를 포함하여 비즈니스와 관련된 다양한 항목에 대해 A/B 테스트를 수행할 수 있습니다.
A/B 테스트의 예시는 무엇인가요?
A/B 테스트의 예시로는 약간 다른 두 개의 제품 페이지에 유료 트래픽을 실행하여 어떤 페이지의 전환율이 가장 높은지 확인하는 게 있습니다.
A/B 테스트의 예시로는 약간 다른 두 개의 제품 페이지에 유료 트래픽을 실행하여 전환율이 가장 높은 페이지를 확인하는 것이 있습니다.
A/B 테스트를 통해 유용한 인사이트를 얻을 수 있도록 하려면 특정 페이지에 5천 명 이상의 방문자 트래픽을 가지고 있는 게 좋습니다.
각주 참고
1https://www.productplan.com/glossary/ice-scoring-model/
2https://conversion.com/framework/pie-framework/
3https://conversionxl.com/blog/better-way-prioritize-ab-tests/
4https://conversionxl.com/blog/sample-pollution/
5https://medium.com/@optimiseordie/hypothesis-kit-2-eff0446e09fc
6https://www.optimizely.com/products/statistics/
7https://vwo.com/knowledge/what-is-smartstats/
8https://www.hubspot.com/customer-feedback
9https://cxl.com/blog/how-to-come-up-with-more-winning-tests-using-data/
10https://conversionxl.com/blog/stopping-ab-tests-how-many-conversions-do-i-need/