https://frosthead.com

Может ли компьютерная модель предсказать первый раунд мартовского безумия этого года?

«Остерегайтесь мартовских идов». Да, наконец-то снова наступило это время года: когда императоры баскетбольного колледжа должны следить за своими спинами, чтобы не попасться на самые низменные семена турнирной забастовки.

До 15 марта миллионы людей во всем мире заполнят свои скобки March Madness. В 2017 году ESPN получил рекордные 18, 8 миллиона кронштейнов.

Первый шаг к идеальному брекету - это правильный выбор первого раунда. К сожалению, большинство из нас не может предсказать будущее. В прошлом году только 164 из представленных скобок были идеальными в первом туре - менее 0, 001 процента.

Отправлено 18, 8 миллиона скобок.

164 идеальны после 1 раунда.

Вот переусердствовать. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18 марта 2017 г.

Многие скобки рушатся, когда команда с более низким посевом расстраивает привилегированное высшее семя. Поскольку в 1985 году поле расширилось до 64 команд, в среднем каждый год происходит как минимум восемь расстройств. Если вы хотите выиграть свой пул скобок, вам лучше выбрать хотя бы несколько расстройств.

Мы два доктора математики кандидаты в университете штата Огайо, которые имеют страсть к науке о данных и баскетболу. В этом году мы решили, что было бы интересно создать компьютерную программу, которая использует математический подход для прогнозирования расстройств в первом раунде. Если мы правы, скобка, выбранная с помощью нашей программы, должна показывать лучшие результаты в первом раунде, чем средняя скобка.

Ошибочные люди

Не легко определить, какая из игр первого раунда приведет к расстройству.

Скажем, вам нужно выбрать между семенем № 10 и семенем № 7. Семя № 10 вызвало недовольство в последних трех турнирных выступлениях, однажды даже сделав финальную четверку. Семя № 7 - это команда, которая практически не получила национального покрытия; случайный поклонник, вероятно, никогда не слышал о них. Что бы вы выбрали?

Если бы вы выбрали семена № 10 в 2017 году, вы бы поступили в Университет Содружества Вирджинии, а не в Сент-Мэри, штат Калифорния, - и вы бы ошиблись. Благодаря ошибке принятия решений, называемой смещением недавности, люди могут быть обмануты, используя свои последние наблюдения для принятия решения.

Предвзятость в отношении недавности - это всего лишь один из видов предвзятости, который может проникнуть в чей-то процесс выбора, но есть много других. Возможно, вы склонны к своей домашней команде, или, может быть, вы отождествляете себя с игроком и отчаянно хотите, чтобы он или она преуспели. Все это влияет на вашу скобку потенциально негативным образом. Даже опытные профессионалы попадают в эти ловушки.

Моделирование расстраивает

Машинное обучение может защитить от этих ловушек.

В области машинного обучения статистики, математики и компьютерные специалисты обучают машину прогнозировать, позволяя ей «учиться» из прошлых данных. Этот подход использовался во многих различных областях, включая маркетинг, медицину и спорт.

Методы машинного обучения можно сравнить с черным ящиком. Сначала вы передаете алгоритму прошлые данные, по существу устанавливая циферблаты на черный ящик. После того, как настройки откалиброваны, алгоритм может читать новые данные, сравнивать их с прошлыми данными и затем выдвигать свои прогнозы.

Черный ящик алгоритмов машинного обучения. Черный ящик алгоритмов машинного обучения. (Мэтью Осборн, CC BY-SA)

В машинном обучении есть множество доступных черных ящиков. Для нашего проекта March Madness те, которые мы хотели, известны как алгоритмы классификации. Они помогают нам определить, следует ли классифицировать игру как расстройство, предоставляя вероятность расстройства или явно классифицируя игру как игру.

Наша программа использует ряд популярных алгоритмов классификации, включая логистическую регрессию, модели случайных лесов и k-ближайших соседей. Каждый метод похож на другую «марку» одной и той же машины; под капотом они работают так же по-разному, как и форды и тойоты, но выполняют ту же классификационную работу. Каждый алгоритм или блок имеет свои прогнозы относительно вероятности расстройства.

Мы использовали статистику всех команд первого тура с 2001 по 2017 год, чтобы установить циферблаты на наших черных ящиках. Когда мы протестировали один из наших алгоритмов с данными первого раунда 2017 года, он имел примерно 75% успеха. Это дает нам уверенность в том, что анализ прошлых данных, а не просто доверие к нашей интуиции, может привести к более точным прогнозам расстройств и, таким образом, к улучшению общих показателей.

Какие преимущества эти коробки имеют перед человеческой интуицией? Например, машины могут идентифицировать шаблоны во всех данных за 2001–2017 годы за считанные секунды. Более того, поскольку машины полагаются только на данные, они могут быть менее подвержены психологическим отклонениям человека.

Это не значит, что машинное обучение даст нам идеальные скобки. Несмотря на то, что коробка обходит предвзятость человека, она не застрахована от ошибок. Результаты зависят от прошлых данных. Например, если семя № 1 проиграет в первом раунде, наша модель вряд ли предскажет это, потому что этого никогда не было раньше.

Кроме того, алгоритмы машинного обучения лучше всего работают с тысячами или даже миллионами примеров. С 541 года в первый раунд игры «Безумие в марте» было сыграно всего 544, поэтому наши алгоритмы не будут корректно вызывать каждое расстройство. Повторяя эксперт по баскетболу Джален Роуз, наш результат должен использоваться в качестве инструмента в сочетании с вашими экспертными знаниями - и удачи! - выбрать правильные игры.

Машинное обучение безумие?

Мы не первые, кто применяет машинное обучение к March Madness, и мы не будем последними. На самом деле, техники машинного обучения скоро могут понадобиться, чтобы сделать ваш брейк конкурентоспособным.

Вам не нужна степень по математике, чтобы использовать машинное обучение - хотя это помогает нам. Вскоре машинное обучение может стать более доступным, чем когда-либо. Желающие могут взглянуть на наши модели онлайн. Не стесняйтесь изучать наши алгоритмы и даже сами придумайте лучший подход.


Эта статья была первоначально опубликована на разговор. Разговор

Мэтью Осборн, кандидат математических наук, Государственный университет Огайо

Кевин Новланд, кандидат технических наук, Университет штата Огайо

Может ли компьютерная модель предсказать первый раунд мартовского безумия этого года?