Статьи

Аналіз даних при розміщенні ставок на спорт | Аналіз стратегії ставок на нічиї

  1. Аналіз і сліпе прочісування даних
  2. Кореляція без причинно-наслідкового зв'язку
  3. Футбольна ліга English League Two: приховані можливості для отримання прибутку
  4. Ставки на нічиї і їх удавана простота
  5. Чому роблять ставки гравці повинні «вважати мавп»?
  6. Що можуть дізнатися гравці про аналіз і сліпому прочісуванні даних?

Протягом останніх кількох місяців мені траплялося безліч веб-сайтів, блогів та повідомлень на форумах, відвідувачі і автори яких стверджують, що змогли виявити вигідні системи ставок шляхом простого ретроспективного застосування декількох здаються довільними критеріїв відбору до великого обсягу даних про минулі результати і коефіцієнтах ставок.

У цій статті я розгляну труднощі, пов'язані з пошуком переваги, яке забезпечить отримання прибутку, за допомогою аналізу даних: для гравців, що роблять ставки на спорт, встановлення кореляційних зв'язків без розуміння причинних відносин пов'язане з неприємностями.

Аналіз і сліпе прочісування даних

Аналіз даних передбачає вивчення великих обсягів даних з метою виявлення закономірностей і вилучення інформації. Зокрема, завданням сліпого прочісування даних є їх аналіз з метою виявлення закономірностей, які можуть бути представлені як статистично значущі.

Пояснення не може бути скоригована на підставі результату, оскільки тоді це було б рівноцінно переінакшування явища причинно-наслідкового обумовленості.

Світ спортивних ставок дозволяє з легкістю використовувати аналіз і сліпе прочісування даних. На різних веб-сайтах наведені великі обсяги даних про минулі результати футбольних матчів і коефіцієнтах ставок, які можна використовувати для цілей ретроспективного пошуку і тестування прибуткових систем ставок.

Однак основне обмеження, пов'язане з використанням цього методу в якості інструменту аналізу даних, полягає в тому, що апріорні гіпотези, що пояснюють існування таких, закономірностей, як правило, не висуваються.

Кореляція без причинно-наслідкового зв'язку

Раніше я вже говорив про труднощах, пов'язаних із змішуванням поняття кореляції з причинно-наслідковим зв'язком , Точності з достовірністю і обгрунтованістю. Для того щоб система ставок вважалася обгрунтованою і гарантувала досягнення поставлених цілей, в першу чергу необхідно розуміти, від чого залежить її ефективність.

Поки не буде виявлена ​​причинно-наслідковий зв'язок там, де простежується кореляція, ви не зможете зрозуміти, що може послужити причиною зникнення кореляційної залежності - кореляція без причинно-наслідкового зв'язку не має сенсу.

Футбольна ліга English League Two: приховані можливості для отримання прибутку

Кілька тижнів тому під час перегляду стрічки в Твіттері я звернув увагу на те, що якби хтось просто сліпо робив ставки на всі перемоги гостьових команд English League 2 протягом сезонів з 2012-2013 рр. по 2016-2017 рр. включно (приблизно 3000 ставок) з коефіцієнтами в розмірі 4,3% від значень лінії закриття Піннаклі і майже 10% від кращих ринкових коефіцієнтів, то результати були б вражаючими.

Тільки одного разу протягом цих п'яти сезонів спостерігалася ситуація, коли фактичні значення не відповідали коефіцієнтам лінії закриття Піннаклі, але ця розбіжність було незначним. Нижче наведено графік прибутковості.

Нижче наведено графік прибутковості

Це пояснювалося тим, що ринок недооцінив шанси гостьових команди цього дивізіону, і саме тому їх коефіцієнти були завищені. Однак таке відхилення від норми не є чимось короткочасним; це, скоріше, послідовна і систематична помилка роблять ставки гравців, які недооцінили ймовірність перемог гостьових команд English League 2 і чиї прогнози значно перевершували букмекерський коефіцієнт прибутковості. Але чи можемо ми дійсно припускати існування будь-якої причинності в виявлених кореляційних відносинах?

Ставки на нічиї і їх удавана простота

Ще однією стратегій, з якої мені нещодавно довелося зіткнутися, є стратегія ставок на нічиї. Вважається, що вона забезпечила майже 16% прибутку за більш ніж 2500 ставками при ретроспективному тестуванні стосовно до результатів футбольних матчів і коефіцієнтів Піннаклі за 2012 р

Критерії відбору прості: жодна з команд не повинна завершити матч з нічийним результатом в попередніх трьох іграх; коефіцієнти повинні бути в діапазоні від 3,20 до 3,56. При проведенні тестування з метою виявлення статистичної значущості такого прибутку ми виявляємо, що цей показник в дійсності дуже примітний. Подібні показники прибутковості по ставках, зроблених із зазначеними коефіцієнтами, спостерігаються з частотою один раз на мільйон або ще рідше з урахуванням, що існуючі закономірності обумовлені тільки випадковими чинниками.

У вас може виникнути питання, чому було обрано саме ці критерії? Чому не попередні чотири, п'ять або шість ігор? Чому не коефіцієнти в діапазоні 3,07-3,41 або 3,13-3,72? Звичайно, вибір цих критеріїв майже напевно не передував етапу аналізу даних: просто було виявлено, що вони забезпечили отримання прибуткового результату. І пояснення не може бути скоригована на підставі результату, оскільки тоді це було б рівноцінно переінакшування явища причинно-наслідкового обумовленості.

Поки не буде виявлена ​​причинно-наслідковий зв'язок там, де простежується кореляція, ви не зможете зрозуміти, що може послужити причиною зникнення кореляційної залежності.

На захист цієї стратегії ви можете тепер сказати: «Один раз на мільйон: звичайно, це має означати, що все не випадково, чи не так?». Так це так. Однак якщо ми тестуємо мільйон стратегій і знаходимо одну, що є статистично значущою (наприклад, ту, про яку говорилося раніше), про що це свідчить? У своїй книзі Обдурені випадковістю (Fooled by Randomness) Нассим Талеб (Nassim Taleb) розповідає фантастичну історію про мавп, які намагаються надрукувати поему Гомера на друкарській машинці.

«Якби в грі брало участь п'ять мавп, то я був би дуже вражений, якби однієї з них вдалося надрукувати" Іліаду ", і навіть міг би повірити, що ця мавпа є реінкарнацією поета давнини. Але якби кількість мавп обчислювалася мільярдом в мільярдної ступеня, це справило б на мене куди менше враження ».

Як зазначає Талеб, не багато людей спромагаються порахувати всіх мавп, а якби вони все ж так зробили, то навряд чи хтось із них зміг би виявити варті уваги закономірності. Під впливом тренда виживання ми звертаємо увагу тільки на переможців.

Чому роблять ставки гравці повинні «вважати мавп»?

Якщо ми не будемо висувати апріорні гіпотези перед застосуванням методу сліпого прочісування даних в пошуках забезпечують прибуток закономірностей, то замість цього нам слід протестувати велику кількість систем ставок для того, щоб оцінити частоту виявлення статистичної значущості. Під час дискусії на цю тему, яка розгорнулася на моїй сторінці в Твіттері, я написав наступне: «Давайте побудуємо графік розподіл доходів на підставі 10 000 вибірок даних про зроблених наосліп ставках, обраних відповідно до 10 000 різних критеріїв, і подивимося, як це виглядатиме".

Мені не вдалося знайти 10 000 вибірок відповідного розміру, що включають дані про зроблені наосліп ставках (для цього буде потрібно безліч даних), але одна тисяча шістсот вісімдесят шість вибірок включали дані про 100 або більше ставках. Кожна вибірка включала дані про ставки на конкретний результат (перемогу господарів, нічию або перемогу гостей) в рамках ігор однієї футбольної ліги, зроблених наосліп протягом одного сезону.

Спочатку я обчислив справжні коефіцієнти для всіх варіантів результату без урахування коефіцієнта прибутковості Піннаклі, а потім розрахував суму теоретичного доходу і t-критерій для кожної вибірки (мій улюблений метод вимірювання ймовірності випадкового збільшення доходу). Нижче наведено графік розподілу отриманих величин. Позитивні t-показники вказують на прибуткові вибірки, негативні - на збиткові; чим більше значення, тим менше ймовірність.

Ті з вас, хто знайомий з нормальним розподілом (колоколообразная крива), визнають його як доказ випадковості. Тобто дані про ефективність ставок, зроблених наосліп і включених в ці вибірки, в значній мірі відповідають тому, що можна було б очікувати, якби все було піддано виключно впливу випадковості.

В цілому, очевидно, що практично немає нічого, що мало б систематичний характер. Прибуток, отриманий за ставками на команди English League 2 протягом цих двох сезонів, швидше за все, пояснюється щасливим збігом обставин, про що стало відомо в результаті непрофесійного аналізу даних і виявлення здаються прибутковими закономірностей, які утворилися внаслідок систематично ірраціональних дій гравця або букмекера.

t-показник для доходів за ставками, зробленим з істинними коефіцієнтами за п'ять сезонів в цілому, дорівнює +2,4, і це означає, що ймовірність того, що подібне сталося випадково, становить 1 до 100 (p-значення). Статистично це має велике значення, і якщо б нам довелося опублікувати наукову статтю на цю тему у відриві від інших обставин, у нас була б причина вважати подібне реально можливим. Але проаналізувавши ситуацію в цілому, ми майже напевно знаємо, що це не так. Вся справа в сліпий удачі.

Якщо ми візьмемося за розробку системи ставок за допомогою методу сліпого прочісування даних, поки не будуть знайдені забезпечують прибуток критерії, ми ризикуємо зазнати невдачі у визначенні причинних пояснень того, що виявили.

Насправді ставки, включені до вибірки за сезон 2007-2008 рр. English League 2, принесли навіть більший прибуток. Розмір теоретичної прибутку за ставками на 242 матчу, дані про яких є у мене і які були зіграні з грудня по травень, становив понад 29% (або 35%, якщо орієнтуватися на справжні коефіцієнти без урахування маржі). Імовірність такого результату становить 1 до 1000 і пояснюється випадковим збігом обставин. Цей показник є найкращим для 1686 вибірок.

В цілому ставки з 837 вибірок (що становить близько половини), як і очікувалося, були прибутковими, якщо орієнтуватися на справжні коефіцієнти. Цілком очікуване, що в такій вибірці вибірок p-значення для вибірки з кращими показниками складе приблизно 1 до 1686. Очікувалося, що р-значення для приблизно 16 вибірок (близько 1%) складе менше 1 до 100. Аналогічно очікувалося, що р- значення для приблизно 168 вибірок (близько 10%) складе менше 1 до 10. Будь-яке відхилення, і ми могли б справедливо задатися питанням, а чи не є це результатом впливу випадковості?

Насправді були отримані значення 15 (0,9%) і 158 (9,4%) відповідно, що досить точно відповідає очікуванням. У наведеній нижче таблиці порівнюються теоретичні очікування щодо процентного кількості вибірок прибуткових ставок з р-значеннями нижче певного порогового значення (1 до 10 = 10%, 1 до 5 = 20% і так далі) і процентні показники фактичної кількості таких випадків. Майже ідеальна тотожність вражає.

По суті, графік - це ще один спосіб сказати, що майже всі, що ми бачимо, виникає випадково або під впливом випадковості. Правда, вірогідність отримання прибутку, що оцінюється як 1 до 1000, вражає, але це цілком очікувано, якщо у нас на вибір є 1000 вибірок, а тому це не може служити переконливим доказом наявності будь-якої причинності.

Правда, вірогідність отримання прибутку, що оцінюється як 1 до 1000, вражає, але це цілком очікувано, якщо у нас на вибір є 1000 вибірок, а тому це не може служити переконливим доказом наявності будь-якої причинності

Що можуть дізнатися гравці про аналіз і сліпому прочісуванні даних?

Випадковий характер розподілу прибутковості ставок на ігри футбольного дивізіону протягом сезону, можливо, не викликає подиву. Цей метод розробки стратегії ставок навряд чи може вважатися самим витонченим. Але важливий момент полягає в тому, що якщо ми візьмемося за розробку системи ставок за допомогою методу сліпого прочісування даних, поки не будуть знайдені забезпечують прибуток критерії, ми ризикуємо зазнати невдачі у визначенні причинних пояснень того, що виявляємо.

Поки нам точно не відомі причини, що зумовлюють отримання прибутку, це може виявитися повною нісенітницею. Кореляція без причинно-наслідкового зв'язку просто регресує до середнього значення . Для гравця, що робить ставки на спорт, це означає втрату грошей в довгостроковій перспективі.

Можна заперечити, що немає нічого поганого в тому, щоб сподіватися на удачу в отриманні прибутку, адже, врешті-решт, саме вона є ключовим елементом розміщення ставок. Однак коли ми чинимо так, не варто обманювати себе, вважаючи, що успіх є наслідком чогось ще.

Що можуть дізнатися гравці про аналіз і сліпому прочісуванні даних?
Але чи можемо ми дійсно припускати існування будь-якої причинності в виявлених кореляційних відносинах?
У вас може виникнути питання, чому було обрано саме ці критерії?
Чому не попередні чотири, п'ять або шість ігор?
Чому не коефіцієнти в діапазоні 3,07-3,41 або 3,13-3,72?
На захист цієї стратегії ви можете тепер сказати: «Один раз на мільйон: звичайно, це має означати, що все не випадково, чи не так?
Однак якщо ми тестуємо мільйон стратегій і знаходимо одну, що є статистично значущою (наприклад, ту, про яку говорилося раніше), про що це свідчить?
Чому роблять ставки гравці повинні «вважати мавп»?
10. Будь-яке відхилення, і ми могли б справедливо задатися питанням, а чи не є це результатом впливу випадковості?
Що можуть дізнатися гравці про аналіз і сліпому прочісуванні даних?

Новости