Любой, кто следит за бейсболом, скорее всего, слышал о непонятном выступлении в стиле MVP в Торонто Жозе Баутиста. За четыре года до этого он совершил около 15 хоумранов за сезон. В прошлом году он ударил 54, число превзошло только 12 игроков в истории бейсбола.
В 2010 году ему заплатили 2,4 миллиона, и он просит команду за 10,5 миллиона на 2011 год. Они предлагают 7,6 миллиона. Если он сможет повторить это в 2011 году, он легко будет стоить любую сумму. Но каковы шансы его повторения? Как сильно мы можем ожидать, что он регрессирует до среднего? Какую часть его выступления мы можем ожидать благодаря случайности? Что мы можем ожидать от его скорректированных итогов регрессии к среднему значению за 2010 год? Как мне это решить?
Я играл с базой данных Lahman Baseball Database и выдал запрос, который возвращает итоги хоумранов для всех игроков в предыдущих пяти сезонах, у которых было не менее 50 игроков в сезоне.
Таблица выглядит следующим образом (обратите внимание на Хосе Баутиста в строке 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
и полный результат (232 строки) доступен здесь .
Я действительно не знаю, с чего начать. Может кто-то указать мне верное направление? Некоторые соответствующие теории и R команды были бы особенно полезны.
Спасибо
Томми
Примечание: пример немного надуманный. Хоум-раны определенно не лучший показатель ценности игрока, а итоги хоум-ранов не учитывают разное количество шансов в сезоне, что у бэттера есть шанс попасть в хоум-раны (появление на пластине). Также это не отражает того, что некоторые игроки играют на более благоприятных стадионах, и что средний пробег в лиге меняется с каждым годом. И т. Д. И т. Д. Если я могу понять теорию, лежащую в основе учета регрессии к среднему, я могу использовать ее для более подходящих показателей, чем для HR.
источник
Ответы:
Я думаю, что определенно есть байесовская усадка или предварительная коррекция, которая могла бы помочь в прогнозировании, но вы можете также рассмотреть другой вариант ...
Посмотрите на игроков в истории, а не только в последние несколько лет, у которых были сезонные прорывы после пары в крупных компаниях (резкое увеличение возможно в 2 раза) и посмотрите, как они это сделали в следующем году. Вполне возможно, что вероятность поддержания производительности есть правильный предсказатель.
Существует множество способов взглянуть на эту проблему, но, как сказал mpiktas, вам понадобится больше данных. Если вы просто хотите иметь дело с последними данными, вам придется посмотреть общую статистику лиги, питчеров, с которыми он столкнулся, это сложная проблема.
А потом просто с учетом собственных данных Баутиста. Да, это был его лучший год, но впервые с 2007 года у него было более 350 АБ (569). Возможно, вы захотите пересчитать процентное увеличение производительности.
источник
Вы можете приспособить модель только к этим данным и получить прогнозы, которые учитывают регрессию к среднему значению, используя смешанные (многоуровневые) модели. Предсказания от таких моделей объясняют регрессию к среднему значению. Даже не зная почти ничего о бейсболе, я не нахожу результатов, которые я получил ужасно правдоподобно, поскольку, как вы говорите, модель действительно должна учитывать другие факторы, такие как внешний вид пластин.
Я думаю, что модель со смешанными эффектами Пуассона была бы более подходящей, чем линейная смешанная модель, так как количество хоум-ранов является подсчетом. Глядя на предоставленные вами данные , гистограмма
hr
показывает, что они сильно искажены, что говорит о том, что линейная смешанная модель не будет работать хорошо и включает в себя довольно большое количество нулей с первым или без преобразования лог-кода.Вот некоторый код, использующий
lmer
функцию из пакета lme4 . Создав переменную ID для идентификации каждого игрока и преобразовав данные в «длинный» формат, как указано в его ответе mpiktas (я сделал это в Stata, так как я не очень хорош в управлении данными в R, но вы могли бы сделать это в пакет электронных таблиц):Это соответствует модели с лог-ссылкой, дающей экспоненциальную зависимость коэффициента успешности от года, которая может варьироваться между игроками. Возможны и другие функции связи, хотя идентификационная ссылка дала ошибку из-за отрицательно подобранных значений Ссылка sqrt работала нормально, хотя и имеет меньшие значения BIC и AIC, чем модель со ссылкой журнала, поэтому она может быть более подходящей. Прогнозы по скорости попадания в 2011 году чувствительны к выбранной функции связи, особенно для таких игроков, как Баутиста, чей показатель популярности сильно изменился в последнее время.
Боюсь, мне не удалось получить такие прогнозы
lme4
. Я более знаком со Stata, который позволяет очень легко получать прогнозы для наблюдений с пропущенными значениями для результата, хотя xtmelogit , по- видимому , не предлагает какого-либо выбора функции связи, кроме log, что дало прогноз 50 для Bautista. Домой бежит в 2011 году. Как я уже сказал, я не считаю это ужасно правдоподобным. Я был бы признателен, если бы кто-то мог показать, как генерировать прогнозы на 2011 год из приведенных вышеlmer
моделей.Модель авторегрессии , такие как AR (1) для ошибок игрок уровня может быть интересна, но я не знаю , как совместить такую структуру со смешанной моделью Пуассона.
источник
Вам нужны дополнительные данные об игроках и их характеристиках за тот промежуток времени, когда у вас есть данные о хоум-ранах. Для первого шага добавьте некоторые изменяющиеся во времени характеристики, такие как возраст игрока или опыт. Тогда вы можете использовать HLM или панельные модели данных. Вам нужно будет подготовить данные в форме:
Тогда самая простая модель будет (функция lme из пакета nlme )
Эта модель будет в значительной степени опираться на предположение, что число хоум-ранов каждого игрока зависит только от опыта, допускающего некоторую изменчивость. Вероятно, это будет не очень точно, но вы по крайней мере почувствуете, насколько маловероятны цифры Хосе Баутиста по сравнению со средним игроком. Эта модель может быть улучшена путем добавления характеристик других игроков.
источник
Возможно, вы захотите проверить Книжный блог.
Том Танго и другие авторы книги «Процент в бейсболе», вероятно, являются лучшими источниками саберметрии. В частности, они любят регресс до среднего. Они придумали систему прогнозирования, разработанную, чтобы быть самой базовой приемлемой системой (Марсель), и она основана почти исключительно на регрессии до среднего.
Вдобавок ко всему, я полагаю, что один из методов - использовать такой прогноз для оценки истинного таланта, а затем найти подходящее распределение вокруг этого среднего таланта. Как только вы это получите, каждый внешний вид пластины будет похож на испытание Бернулли, так что биномиальное распределение может пройти вас до конца.
источник
К вашему сведению, с 2011 по 2014 год он ударил 43, 27, 28 и 35.
Это довольно близко к его 162 играм в среднем 32 (что, конечно, включает в себя эти значения), и около 1 SD под 54 в 2010 году.
Выглядит как регрессия к среднему значению в действии: экстремальная группа, построенная на использовании зашумленных предметов (в данном случае 1), случайно отклоняющихся от своей группы.
http://www.baseball-reference.com/players/b/bautijo02.shtml
источник