Я надеюсь, что смогу правильно задать этот вопрос. У меня есть доступ к данным play-by-play, так что это скорее проблема с лучшим подходом и правильным построением данных.
Я рассчитываю рассчитать вероятность выигрыша в игре в НХЛ, учитывая количество очков и оставшееся время в регламенте. Я полагаю, что мог бы использовать логистическую регрессию, но я не уверен, как должен выглядеть набор данных. Буду ли я иметь несколько наблюдений за игру и за каждый интересующий меня отрезок времени? Буду ли я иметь одно наблюдение за игру и подгонять отдельные модели за отрезок времени? Логистическая регрессия - даже правильный путь?
Буду очень признателен за любую помощь, которую вы можете оказать!
С наилучшими пожеланиями.
time-series
probability
logistic
Btibert3
источник
источник
Ответы:
Проведите логистическую регрессию с помощью ковариат «время игры» и «цели (домашняя команда) - цели (выездная команда)». Вам понадобится эффект взаимодействия этих терминов, так как преимущество в 2 гола в перерыве будет иметь гораздо меньший эффект, чем преимущество в 2 гола с оставшейся только 1 минутой. Ваш ответ «победа (хозяева поля)».
Не только предположить , линейность для этого подходят плавно изменяющуюся модель коэффициента для эффекта «целей (хозяев поля) - цели (расстояние команды)», например , в R можно использовать
mgcv
«sgam
функцию с модельной формулой типаwin_home ~ s(time_remaining, by=lead_home)
. Сделатьlead_home
фактор, так что вы получите различный эффектtime_remaining
для каждого значенияlead_home
.Я бы создал несколько наблюдений за игру, по одному на каждый интересующий вас отрезок времени.
источник
win_home
является постоянным на уровне группировки (то есть для всех временных интервалов для любого данного совпадения это либо 0, либо 1), включая, например, случайный перехват для совпадений просто приведет к огромным проблемам с разделением в этом контексте.Я бы начал моделировать данные из игрушечной модели. Что-то вроде:
Теперь нам есть с чем поиграть. Вы также можете использовать необработанные данные, но я считаю, что имитация данных очень полезна для обдумывания.
Затем я просто нанесу на график данные, то есть график зависимости времени игры от начального уровня, с цветовой шкалой, соответствующей наблюдаемой вероятности выигрыша.
Это поможет вам найти поддержку ваших данных и даст вам общее представление о том, как выглядят вероятности.
источник
Посмотрите статистику ботаников на Football Outsiders, а также книгу Mathletics для вдохновения.
Ребята из Football Outsiders делают прогнозы на основе каждой игры в футбольном матче.
Уинстон в математике также использует некоторые методы, такие как динамическое программирование.
Вы также можете рассмотреть другие алгоритмы, такие как SVM.
источник