Статьи
Статистика А / Б тестів в Carrot quest
А / Б-тест - це відмінна можливість перевірити свою гіпотезу і вибрати варіант, який принесе більше користі. В Carrot quest можна налаштувати А / Б-тести з контрольною групою і цілями, а порівнювати можна не тільки контент, але і канали комунікації. Якщо ви не знаєте, як налаштовувати А / Б-тести, навіщо вони потрібні і що можна аналізувати, можете познайомитися з основами А / Б-тестів в нашій статті .
А / Б-тест - це справжній науковий експеримент. А значить, підійти до його реалізації можна з усією відповідальністю і науковістю. При цьому ми не будемо вас мучити курсом матстатистику, а просто покажемо, якими калькуляторами користуватися і куди дивитися. Так що кожен зможе відчути себе королем статистики і А / Б-тестів зокрема.
Сьогодні ми поговоримо не про те, як і коли запускати А / Б-тест, а коли його зупиняти.
- В який момент потрібно зупиняти тести, щоб підтвердити гіпотезу?
- Скільки потрібно вимірювань, щоб вистачило?
- Як визначити достовірність результатів тесту?
Уявімо, що ми хочемо вплинути на конверсію в клік по кнопці в поп-апі і запустили А / Б-тест, змінивши заклик на самій кнопці.
Ми знаємо конверсію варіанту А до А / Б-тесту - нехай вона буде 2%.
Ми хочемо, щоб варіант Б був на 20% ефективніше, тобто його конверсія повинна бути 2,4%.
Як довго проводити А / Б-тест?
Чим менше вибірка, тим більше впливу надає кожен результат. Ви вже прийняли рішення, а потім дію нового клієнта повністю змінює картину, і логічніше здається вже інша дія. Щоб зі 100% упевненістю судити про результати А / Б-тесту, треба провести його з усіма людьми на землі. Природно, це неможливо, та й не варто. Більш того, не варто проводити і А / Б-тест на всіх ваших клієнтів. Досить підібрати оптимальний розмір аудиторії, збільшення якого буде позначатися на результатах незначно. Цим і займається матстатистику.
Щоб розуміти, що ваш результат не випадковий, а піддається статистичним залежностям, потрібно розрахувати розмір вибірки, яка повинна спрацювати в будь-якому вигляді.
скористаємося калькулятором розрахунку мінімальної необхідної вибірки .
Підставляємо наші значення в калькулятор:
- Початкова конверсія 2%;
- Очікуваний приріст 20%;
- Зазначаємо, що це відносна конверсія.
Нижче бегунками можна підкоригувати статистичну потужність і статистичну значущість.
Статистична потужність - ймовірність, виявити ефект, якщо він насправді є. Стандартно статистичну потужність приймають за 70-80%. Досить, щоб бути впевненим в гіпотезі, але не дуже багато, щоб не ускладнювати тест.
Статистична значимість - ймовірність того, що дані дослідження отримані випадково, а не в результаті експериментальних маніпуляцій. Зазвичай за рівень статистичної значущості приймають 5%. Просто так історично склалося. Тут може бути будь-яке значення: чим воно більше, тим більша ймовірність, що ви помилково прийміть неправдиву гіпотезу.
Залиште ці показники стандартними.
Щоб різниця між 2% і 2,4% була статистично значущою, кожен варіант сценарію повинні побачити 19 784 особи.
А що якщо вибірка буде в два рази менше?
Припустимо, ви запустили тест і через кожен варіант пройшло по 10 000 користувачів, а у нас вже немає сил чекати. Варіант А, як і було, набрав конверсію в 2%, а у випадку Б - вже заповітні 2,4%. Чи можна зупинити тест?
Ось проміжні результати А / Б-тесту в Carrot quest.
зайдемо в інший калькулятор і введемо наші значення.
Ділимо кількість успіхів (кількість переходів по посиланню або досягнення цілей, якщо ви встановлювали мета при створенні автосполучення) на загальний розмір вибірки для кожного з варіантів (Carrot quest вважає конверсію від відправлених повідомлень, але логічніше вважати від прочитаних).
Ми бачимо, що на цій вибірці різниця в конверсії занадто мала, щоб з достатньою часткою впевненості (95%) робити якісь висновки, хоча вже дуже близько. Зверніть увагу на p-значення (в нашому випадку воно дорівнює 0,054). Його треба порівняти (за вас це робить калькулятор) з рівнем статистичної значущості (за замовчуванням все ті ж 5%) і якщо виявиться, що p перевищує, то для прийняття рішення немає достатніх підстав. Чим менше p-значення, тим краще, так як при цьому збільшується очікувана значимість результату.
А якщо ми дочекаємося 20 000, то побачимо, що варіант Б більш успішний. Тому краще запастися терпінням і почекати достатній вибірки.
Куди ще треба дивитися?
Може виявитися так, що більше людей клікають по кнопці з поп-апа Б (відповідно, його конверсія вище), але купують менше. Ви зробили дуже привабливий CTA, який, на жаль, не конвертує в покупку. У такій конверсії пропадає весь сенс. Тому дивитися треба не тільки на конверсію, а й на гроші, які приносить це автосполучення.
Давайте ще раз подивимося на нашу статистику уважніше.
Варіант А приніс на 39 500 рублів більше. Судячи з усього, з поп-апом Б щось не так: на нього відреагувало на 40 осіб більше, а грошей це принесло на 40 тисяч менше. Або ліди з поп-апа Б не купують зовсім, або купують дешевші товари. Вирішувати, звичайно, вам, але мені здається логічніше залишити варіант А, який приносить більше грошей.
Так як прочитання і кліки - це в більшості випадків не самоціль повідомлення, в Carrot quest можна встановити подія, яку повинен виконати клієнт після прочитання в якості мети. Кількість цільових дій - вже більше схоже на ту метрику, на яку вам дійсно варто орієнтуватися.
Якщо у вас на сайті можна купити тільки один товар (або усі товари як в Fix Price за однією ціною), то кількість досягнень мети буде безпосередньо вказувати на гроші, які ви отримуєте. Природно, така ситуація як на скрині вище у вас не вийде. Чим більше досягнень цілей (покупок) за однаковою ціною, тим більше грошей. Дивимося і радіємо. Щоб бачити круглі красиві цифри, можете вручну встановити цінність мети - ту саму єдину ціну, яку може заплатити клієнт.
А якщо ви продаєте різні продукти, то і кількість грошей, яке ви можете отримати, буде відрізнятися. Для цих цілей можете встановити цінність на основі властивості події.
Тепер ви можете орієнтуватися на гроші. І все ж будьте обережні. У статистиці вказується сумарний дохід. Якщо раптом до вас прийшов крупний клієнт і його чек перевищує середній в 10 разів, то це природно позначиться на результатах. Але якщо у вас більш-менш однаковий чек, то все вийде. Тим не менш, не забувайте дочекатися достатньої вибірки, інакше кожен новий покупець буде істотно впливати на ваші цифри.
Високих вам конверсій і великого прибутку.
Із задоволенням,
Carrot quest
4.86 / 5 (7)
Будь ласка, оцініть статтю
Автор: Олена Стрункіна
Доношу користь і розповідаю про цінності Carrot quest. З любов'ю, від душі.
Як довго проводити А / Б-тест?Куди ще треба дивитися?
В який момент потрібно зупиняти тести, щоб підтвердити гіпотезу?
Скільки потрібно вимірювань, щоб вистачило?
Як визначити достовірність результатів тесту?
Як довго проводити А / Б-тест?
А що якщо вибірка буде в два рази менше?
Чи можна зупинити тест?
Куди ще треба дивитися?