https://frosthead.com

Может ли статистическая модель точно предсказать количество олимпийских медалей?

Если кто-то попросит вас предсказать количество медалей, которые каждая страна собирается выиграть на Олимпийских играх этого года, вы, вероятно, попытаетесь определить избранных спортсменов в каждом соревновании, а затем подсчитать, сколько ожидаемых побед в каждой стране принесет результат.

Тим и Дэн Греттингер, братья из компании Discovery Corps, Inc., занимающейся добычей данных, придерживаются совершенно другого подхода. Они полностью игнорируют спортсменов.

Вместо этого, их модель для игр в Сочи рассматривает географический район каждой страны, ВВП на душу населения, общую стоимость экспорта и широту, чтобы определить, сколько медалей выиграет каждая страна. Если вам интересно, он предсказывает, что США выйдут на первое место с 29 медалями.

Graettingers не первые, кто использует подобный подход, основанный на данных, сверху вниз для прогнозирования количества медалей. Даниэль Джонсон, профессор экономики в Колорадском колледже, построил аналогичные модели для пяти Олимпийских игр в период с 2000 по 2008 год, достигнув в целом 94-процентной точности при прогнозировании количества медалей в каждой стране, но не создал модель для Сочи.

Дэн и Тим новички в игре. Дэн, который обычно работает над более традиционными проектами по сбору данных, например, прогнозирует потенциальных клиентов компании, впервые заинтересовался использованием моделей для прогнозирования соревнований четыре года назад, во время зимних Олимпийских игр в Ванкувере. «Я использую данные о прошлом, чтобы постоянно предсказывать будущее», - говорит он. «Каждую ночь они показывали количество медалей по телевизору, и я начал задаваться вопросом, можем ли мы это предсказать».

По его мнению, даже несмотря на то, что выступления отдельных спортсменов могут непредсказуемо отличаться, может существовать общая взаимосвязь между фундаментальными характеристиками страны (например, ее размерами, климатом и уровнем благосостояния) и количеством медалей, которые она, скорее всего, заберет домой. Такой подход не сможет сказать, кто из конкурентов может выиграть данное событие, но, имея достаточно данных, он сможет точно предсказать совокупное количество медалей для каждой страны.

Первоначально он и его брат принялись за разработку предварительной модели лондонских игр 2012 года. Для начала они собрали широкий спектр различных типов данных, начиная от географии страны и заканчивая ее историей, религией, богатством и политической структурой. Затем они использовали регрессионный анализ и другие методы обработки данных, чтобы увидеть, какие переменные наиболее тесно связаны с историческими данными об олимпийских медалях.

Они обнаружили, что для летних игр модель, которая включала в себя валовой внутренний продукт страны, население, широту и общую экономическую свободу (согласно индексу Фонда наследия), наилучшим образом коррелировала с количеством медалей в каждой стране на двух предыдущих летних Олимпийских играх (2004 год). и 2008). Но на этом этапе их предварительная модель могла только предсказать, какие страны выиграют две или более медалей, а не количество медалей на страну.

Они решили улучшить его для игр в Сочи, но не могли положиться на свою предыдущую модель, потому что страны, которые успешны зимой, так сильно отличаются от лета. Их новая модель в Сочи решает проблему прогнозирования количества медалей в два этапа. Поскольку около 90 процентов стран никогда не выигрывали ни одной медали на зимних Олимпийских играх (ни один спортсмен из стран Ближнего Востока, Южной Америки, Африки или Карибского бассейна никогда не выигрывал), сначала выделяются десять процентов, которые могут выиграть хотя бы один, а затем прогнозируется, сколько каждый победит.

«Некоторые тенденции в значительной степени соответствуют ожиданиям - поскольку население страны увеличивается, есть большая вероятность, что она выиграет медаль», - говорит Тим. «В конечном счете, однако, вам нужен более мощный статистический механизм, который может перебирать множество переменных и ранжировать их в терминах, которые являются наиболее прогнозируемыми».

В конце концов, они столкнулись с несколькими переменными, которые точно отделяют девяносто процентов стран, не завоевавших медали, от десяти процентов, которые, вероятно, победят: к ним относятся уровень миграции, количество врачей на душу населения, широта, валовой внутренний продукт и наличие в стране выиграл медаль в предыдущих летних играх (ни одна страна не выиграла зимнюю медаль, не выиграв ее прошлым летом, отчасти потому, что количество победителей летом намного больше, чем зимних). Запустив эту модель на прошлых двух зимних Олимпийских играх, эта модель определила, какие страны забрали домой медаль с точностью 96, 5%.

Поскольку 90 процентов стран были исключены, Греттингеры использовали аналогичные регрессионные анализы для создания модели, которая задним числом предсказывала, сколько медалей выиграла каждая оставшаяся страна. Их анализ показал, что немного другой список переменных лучше всего соответствует историческим данным медалей. Эти переменные вместе с прогнозами для сочинских игр приведены ниже:

Image 4-Predicted Medal Таблица 2 - с border.png Предсказания модели для сочинских игр (График предоставлен Discovery Corps, Inc.)

Некоторые из переменных, которые оказались коррелирующими, не являются огромным шоком - есть смысл, что страны с более высокими широтами лучше справляются с событиями, проводимыми во время зимних игр, - но некоторые были более удивительными.

«Мы думали, что население, а не земля, будет иметь важное значение», - говорит Дэн. Они не уверены, почему географическая область в итоге более точно соответствует историческим данным, но это может быть потому, что несколько стран с высоким населением, которые не выигрывают зимние медали (такие как Индия и Бразилия), сбрасывают данные. Используя вместо этого площадь земли, модель избегает чрезмерного влияния этих стран, но все еще сохраняет грубую связь с населением, потому что в целом страны с более обширными территориями имеют большее население.

Конечно, модель не идеальна, даже в сопоставлении исторических данных. «Наш подход - 30 000-футовый подход. Есть переменные, которые мы не можем объяснить», - говорит Тим. Некоторые страны неоднократно превосходили прогнозы модели (включая Южную Корею, которая выиграла непропорционально большое количество соревнований по скоростному бегу на короткой дорожке), в то время как другие постоянно уступают (например, Великобритания, которая, кажется, намного лучше на летних соревнованиях, которые можно было бы ожидать, возможно, потому что - несмотря на его широту - это получает намного больше дождя чем снег).

Кроме того, постоянное исключение, которое они обнаружили в предсказаниях модели, заключается в том, что принимающая страна имеет в своем составе больше медалей, чем в противном случае, основываясь просто на данных. И Италия (во время Туринских игр 2006 года), и Канада (во время Ванкуверских игр 2010 года) превзошли модель, и Канада установила свой рекордный рекорд, выиграв 14 золотых монет.

Тем не менее, основываясь на их статистически строгом подходе, Graettingers уверены, что в целом их модель будет прогнозировать окончательный подсчет медалей с относительно высокой степенью точности.

Как их прогнозы сравниваются с прогнозами экспертов, которые используют более традиционные стратегии? Эксперты не сильно отличаются, но у них есть несколько традиционно успешных стран (Норвегия, Канада, Россия), завоевавших большее количество медалей, и несколько других (Китай, Нидерланды, Австралия), выигравших по несколько меньше.

На сегодняшний день Graettingers не сделали ставок на свои прогнозы, но они планируют сравнить результаты своей модели с коэффициентами ставок непосредственно перед началом игр. Если они увидят какие-либо несоответствия, которые они хотели бы использовать, они могут положить свои деньги туда, где их рот.

Может ли статистическая модель точно предсказать количество олимпийских медалей?