Было ли много исследований по рейтингу инфляции?

24

Ничья Магнуса Карлсена во вчерашнем раунде лондонского Chess Classic 2012 года заверила, что его рейтинг в следующем опубликованном рейтинговом списке ФИДЕ превзойдет предыдущий рекорд Каспарова - 2851. Я видел / слышал, как страстные шахматные фанаты обсуждают относительные достоинства рейтинга Карлсена по сравнению с Каспаровым по сравнению, скажем, с Фишера. Чтобы было ясно, я здесь не за этим.

Одним из важнейших элементов таких дискуссий является понятие о том, что рейтинги Эло в целом подвергались инфляции с течением времени: сегодня на 2700+ гроссмейстеров гораздо больше, чем было 20 лет назад, из-за общего роста игровой силы или просто из-за некоторого общий инфляционный тренд в цифрах? Я также не пытаюсь получить голое мнение о том, так ли это или нет. Что мне интересно знать:

Какие серьезные исследования были предприняты, чтобы ответить на эмпирический вопрос о том, были ли рейтинги ФИДЕ Эло естественным образом завышены с течением времени из-за чего-то кроме увеличения общей численности игроков в пуле?

Запись в Википедии о рейтинговой системе Elo может немного рассказать об этом, а также указывает на статью Джеффа Сонаса из Chessmetrics . В дополнение к любым указателям на работу других, я, например, также хотел бы получить ответ, который дает четкое и краткое резюме основных моментов Sonas.

расчетное время отправления
источник
Еще одна вещь, чтобы думать о инфляции в рейтингах USCF. Были, и периодически USCF вносит коррективы в ужас игроков. Поскольку USCF и FIDE используют одну и ту же систему, я был бы удивлен, если инфляция может повлиять на USCF, а не на FIDE.
Тони Эннис
2
Системы не одинаковы, например, USCF имеет рейтинговые уровни, которые явно являются инфляционным фактором.
RemcoGerlich

Ответы:

19

Я удивлен тем, что статья «Внутренние шахматные рейтинги» Кена Ригана и Гая Хаворта еще не была опубликована. Это именно то, что требуется, серьезное исследование инфляции рейтинга. PDF

В основном они получали игры трех периодов (1976–1979, 1991–1994, 2006–2009), в нескольких рейтинговых диапазонах (например, оба игрока в пределах 10 очков из 2200, в пределах 10 очков из 2300 и т. Д.), И исключали типы игр, в которых может быть аномальным, как командные матчи. Прочитайте статью, она выглядит довольно тщательно.

Затем они систематически сравнивали игры с Рыбкой 3.

Несколько предложений из заключения:

Мы пришли к выводу, что существует четкая связь между фактическими рейтингами Эло игроков и внутренним качеством выбора ходов, измеряемого шахматной программой и подгонкой агента. Более того, полученные окончательные значения соответствия почти одинаковы для соответствующих записей всех трех периодов времени.

На мой взгляд, это достаточно веские доказательства против существования рейтинговой инфляции.

RemcoGerlich
источник
1
Спасибо за публикацию, я также пришел, чтобы поделиться этим. Это единственное направление исследований, которое сравнило игроков с объективным стандартом. Все аргументы, которые я видел в отношении инфляции рейтинга, являются субъективными и, как правило, анекдотичными. Что касается меня, я не думаю, что тот факт, что Морфи был, вероятно, 2300, лишает меня оценки его игр или его мастерства по сравнению с его конкурентами в то время.
Сэм Коупленд
12

Я ковырялся вокруг некоторых. Вы, наверное, видели эти страницы, но я все равно опубликую их:

а. Эта страница заинтересует вас . Он включает в себя фотокопию письма от самого Эло, в котором говорится о возможности:

Таким образом, со временем рейтинговая шкала может сместиться, если не будут приняты какие-либо меры для ее стабилизации.

Далее он упоминает, что шкала рейтингов не имеет привязки и фиксированной точки. Сравните со спортсменом, который проводит гонку за час; час сейчас такой же, как час 50 лет назад. Время такая фиксированная точка.

р. Кроме того, разве на вопрос «инфляции» уже не ответили недавние открытия высоких рейтингов, исходящих из изолированных областей? См. Раздел «Пул игроков» на этой странице, чтобы узнать об этой проблеме. Дополнительная поддержка , хотя она не является ни научной, ни особенно информативной. Поиск "Изол". Вот еще один анекдот, показывающий, что происходит с изолированным населением (и еще один кандидат на тему «почему шахматисты сумасшедшие»!) Я не проверял факты, но это должно быть достаточно легко сделать.

с. В статье Elo wiki говорится об инфляции, как будто это общепризнанный факт.

д. Вот уместная статья об инфляции и продолжение . Посмотрите на этот дымящийся пистолет в 1986 году!

Тони Эннис
источник
Я не видел страницу от. Спасибо за это. Что касается б., Я не знаю, что вы имеете в виду; можешь уточнить?
ETD
2
Я бы сказал, что без реальной привязки невозможно точно отрегулировать; в конце концов, мы просто приспосабливаемся к некоторому произвольному значению.
Даниэль Б
Возможно. Но корректировка рейтингов для получения аналогичной кривой распределения, вероятно, будет хорошим началом. Например, несколько лет назад USCF корректировал рейтинги, чтобы средний игрок клуба был 1500. Я не знаю, делают ли они это до сих пор.
Тони Эннис
1
@TonyEnnis Конечно, и я думаю, что сейчас это, вероятно, так же хорошо, как и сейчас. В частности, я имею в виду: что произойдет, если «средний клубный игрок» сегодня действительно лучше, чем 50 лет назад? Это не значит, что мы можем заставить их играть против игроков из прошлого ... Так что нам осталось как-то оценить силу игрока и приспособиться. Возможно, с компьютерными программами (работающими на стандартной, предписанной платформе) у нас может быть какой-то беспристрастный, длительный якорь. Но даже у этого были бы проблемы, такие как обнаружение стратегий, которые хорошо работают против эталонной программы, и т. Д.
Даниэль Б.
5

В абсолютном выражении, Карлсен 2012 наверняка является более сильным игроком, чем Каспаров 1985 года.

Если бы Карлсен 2012 путешествовал во времени, сыграл матч с Каспаровым 1986 года, Карлсен победил бы Каспарова. Это просто потому, что техническая подготовка намного эффективнее, и Карлсен также имеет преимущество в теории открытия, потому что у него есть накопленные знания 1987-2012 гг., Которых у Каспарова нет.

Однако Каспаров, вероятно, более сильный игрок, чем Карлсен. Если мы возьмем список 100 лучших игроков ФИДЕ за июнь 2000 года (самый старый, который можно получить), мы увидим, что Каспаров с 2849 Эло конкурирует со средним показателем 2641 для 99 последователей (расстояние Эло 208 очков), а Кальсен в Топ 100 Фиде. за декабрь 2012 года с 2848 Эло соревнуется в среднем 2702 за его 99 последователей (дистанция Эло 146 баллов).

Эло говорит о разнице очков, а не об абсолютных значениях (100 очков разницы для Эло означают, что игрок А в 2 раза лучше, чем игрок Б, 200 очков - в 4 раза лучше, и т. Д. Таким образом, этот список означал, что Каспаров был в среднем более чем в 4 раза лучше, чем все его 99 последователей, в то время как Карлсен, вероятно, всего лишь в 3 раза лучше, чем в среднем его 99 последователей.

Если мы возьмем список, в котором у Каспарова максимальное расстояние со своими 99 последователями, и сравним это расстояние с лучшим для Карлсена, мы сможем определить, какой игрок на самом деле был лучшим, потому что с 99 точками данных, выбросами (как у другого гения) смягчить это.

Однако мне интересно, действительно ли Карлсену или Каспарову небезразлично, кто лучше.

бодрость духа
источник
3
Ваш аргумент о том, что Каспаров является более сильным игроком, чем Карлсен, основывается на сравнении каждого из следующих 99 лучших игроков. Вы правильно заметили, что рейтинги Эло являются относительными, но ваш аргумент делает второе, неустановленное предположение, а именно, что следующие 99 игроков сегодня имеют такую ​​же среднюю силу игры, что и следующие 99 игроков в период расцвета Каспарова. Если это второе предположение неверно, то вы сравниваете Каспарова и Карлсена с разными стандартами. Нужно найти группу людей, которые сегодня такие же, как во времена Каспарова. Этот пул, вероятно, ваш средний новичок, а не супер-гроссмейстеры.
Thucydides411
4

Система Эло состояла из двух компонентов. Один был независим от истории, другой не был. Его система создания «рейтинга производительности» в течение события или периода не имела к нему исторической составляющей; это была просто мера производительности за указанное время. (Память подводит меня в этом вопросе, но я думаю, что когда он вычислял рейтинги ФИДЕ, именно этот метод он использовал.)

Однако система Elo, используемая федерациями по всему миру, имеет историческую составляющую, в которой рейтинги рассчитываются путем вычисления дельты, которая отличается от предыдущего рейтинга.

Исторически сложившаяся система имеет естественную тенденцию к дефляции. Система является закрытой системой, без создания новых точек. Таким образом, новые игроки приходят, получают очки от установленных игроков, а затем выходят (через смерть или отставку), прежде чем вернуть все эти очки обратно в следующую партию восходящих игроков.

Многие идеи пытались компенсировать это, некоторые работали лучше, чем другие. Добавьте к этому коммерческое давление со стороны USCF в начале 70-х годов, чтобы рейтинги росли быстрее (довольно циничное мнение заключалось в том, что игроки будут покупать книги у USCF и играть в турнирах, их рейтинг будет расти, побуждая их покупать еще одну. книга и т. д.) и инфляция была реальной вещью в некоторые моменты истории.

Поскольку система Эло была основана на нормальной кривой (колокол), бессмысленно пытаться измерить инфляцию, измеряя либо экстремальные значения; Экстремальные ситуации, скорее всего, будут зависеть от общего количества оцениваемых игроков, чем от изменений фактической силы или какого-либо инфляции.

Арлен
источник
1

У меня есть простая идея. Давайте возьмем шахматный компьютер (аппаратное и программное обеспечение), рейтинг которого был измерен 20 лет назад, посредством игры с другими шахматными компьютерами с известными рейтингами, которые были у них 20 лет назад. Теперь давайте измерим его рейтинг (точно такое же оборудование плюс точно такое же программное обеспечение) через игру с современными шахматными компьютерами с известным сегодняшним рейтингом. Разница между двумя измерениями будет составлять рейтинг инфляции за последние 20 лет. Достаточно просто?

alex1220
источник
Это будет более или менее вычислять рейтинг инфляции для компьютеров , а не для людей-игроков. Люди играют по-разному против компьютеров, чем между собой.
Глорфиндель
1

Выводы из статьи Ригана-Хаворта должны быть приняты с недоверием, так как это, кажется, противоречит другому компьютерному анализу игр, более качественному программному и аппаратному обеспечению и более продвинутым математическим методам. Там они приходят к выводу (см. Таблицу 9), например, что Карпов в 1977 году играл на чуть более низком уровне, чем Каспаров в 2001 году и Ананд в 2008 году (ожидается, что он наберет около 47% очков), и фактически лучше, чем Топалов в 2005 году и Пономарев в 2011. Поскольку рейтинг «Каспаров-2001» на 150 баллов выше, чем у «Карпова-1977», ожидается, что он наберет 70% баллов. Я не вижу, как это согласовать с утверждением об отсутствии рейтинга.

Обратите внимание, что также, вопреки неявному требованию в вопросе, нет механизма, с помощью которого рейтинг отражал бы изменение общей силы в пуле игроков . Эмпирически может случиться так, что типичная сила игрока на 2600 не изменилась за определенный период времени, но это было бы просто совпадением, а не отражением фундаментальных свойств системы ELO, и, конечно, не подлежало обобщению.

Если мы наивно определяем инфляцию и просто измеряем средний рейтинг 100 лучших игроков, то, как видно из этой ссылки , до 2012 года была стабильная инфляция, а с тех пор инфляции не было - средний рейтинг 100 лучших колебался между 2700 и 2705 за последние 7 лет .

Kostya_I
источник
0

Во-первых, вы должны определить, что вы подразумеваете под лучшим. Например, лучше всего означает, что вы самый доминирующий игрок для своей эпохи? Или это означает, что качество вашего плеера превосходит все остальные плееры. И если вы имеете в виду качество, то как вы определяете качество?

Пол Морфи был, вероятно, самым доминирующим игроком. Например, когда ему было 12 лет, он победил десятку игроков (Lowenthal) в матче 3-0. По данным Edo и chessmetrics, он, наверное, уже был одним из лучших игроков в мире в возрасте 12 лет! В возрасте 21 года он играл против 5 лучших игроков (Берд, Барнс, Боден, Де Ревьер и Ловенталь) и забил 3-2.

Однако большинство будет утверждать, что доминирование является плохим показателем того, кто лучше. В конце концов, Морфи был описан как первый современный шахматист. Его конкуренция была слабой по сравнению с последующими чемпионами.

Другое используемое определение - качество игры. Тем не менее, это определение также имеет много проблем. В 1900 сотнях ряд людей утверждал, что Штейниц или Ласкер были лучшими игроками всех времен, утверждая, что их знание открытия и современной теории сделает их превосходящими игроков из прошлого. Однако Луи Полсен выдвинул несколько очень умных аргументов против этой гипотезы. Он утверждал, что Морфи (который имел фотографическую память и запомнил штриховой код Луизианы к 19 годам), если его вернуть к жизни, через год изучит дебюты и современную теорию и сможет успешно конкурировать с современными шахматистами.

Риган утверждает, что современные шахматисты, которые имеют доступ к шахматным компьютерам и современным методам обучения, играют больше как компьютеры, чем игроки прошлого. Это не удивительно, потому что они обучались на компьютерах, но значит ли это, что современные игроки действительно лучше? Возникает вопрос: что бы сделали Фишер или Капабланка, если бы у них был доступ к современным компьютерам?

Кроме того, аналитический компьютер профессора Регана кажется мне довольно неполным, поскольку он включает в себя несколько пятилетних периодов, и игроки, включенные в анализ, не упоминаются. Более тщательный компьютерный анализ профессоров Матей Гуид и Ивана Братко показал, что на самом деле Капабланка играл больше как компьютер, чем современные игроки! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-, Тем не менее, Гуид и Братко отметили, что есть проблема с выводом, что Капабланка был лучшим игроком. Возможно, его довольно спокойный стиль привел к меньшему количеству позиций, где он мог бы ошибиться. Поэтому его процент ошибок был ниже, но он также оказывал меньшее давление на своих противников, чем более агрессивные игроки. На самом деле у Капабланки был высокий процент ничьи по сравнению с современниками.

Напротив, высокотактический игрок, такой как Каспаров, может быть оштрафован его стилем игры, что, скорее всего, приведет к высокотактическим позициям, где компьютеры особенно хороши в обнаружении ошибок. Фактически, компьютеры, как правило, работают лучше против тактических игроков, чем позиционные игроки или игроки с закрытыми позициями, где тактика играет меньшую роль. Таким образом, компьютерный анализ, основанный на количестве обнаруженных компьютером ошибок, вероятно, предпочтет игроков с закрытыми позициями. Напротив, такой агрессивный игрок, как Каспаров, может совершать больше тактических ошибок, чем некоторые другие игроки, потому что он искал очень сложные позиции, но его противники будут делать еще больше!

Поэтому вам нужна система взвешивания ошибок, которая не просто рассчитывает процент ошибок на 100 ходов (что в основном и делали Риган, Гуид и Братко). Вместо этого вам нужно рассчитать разницу между уровнем ошибок и уровнем ошибок ваших оппонентов. Ведь в шахматах меньше ошибок, чем у вашего оппонента. Давление на оппонента с целью вызвать больше ошибок считается хорошим качеством.

Тем не менее, мой пересмотренный метод расчета приводит к другой проблеме, которая заключается в том, что эти компьютерные анализы не учитывают силу вашего оппонента. Например, возможно, Ларсон достигает очень высокого рейтинга по шахматам, потому что его агрессивный (оптимистичный) стиль привел к доминированию над игроками с более низким рейтингом. Однако у него были проблемы в играх с игроками с равным рейтингом. Другие игроки часто утверждали, что он был слишком оптимистичен в своей игре против других игроков с высоким рейтингом. Чтобы избежать этой проблемы, компьютерный анализ ошибок должен рассматривать только игры с сильными конкурентами (например, топ-10, 20 или 100 игроков). Однако это все еще не решает проблему усиления сильной конкуренции с течением времени.

Можно ли исправить проблему повышения качества игры, посмотрев на прошлые рейтинги, такие как Chessmetrics? На самом деле, я предпочитаю рейтинговую систему Эдо http://www.edochess.ca/потому что статистические предположения лучше. Например, Chessmetrics предполагает, что максимальный рейтинг игрока наступает, когда ему 40 лет. Я сомневаюсь, что это верно для всех, и многие игроки отказываются от шахмат до этого возраста, или их игра была на высшем уровне только в течение нескольких лет (например, Гарри Нельсон Пилсбери, Чарусек, Фишер, Морфи, Рубинштейн, Файн). К сожалению, Эдо сравнивает рейтинги игроков только с 1811 по 1920 год. Согласно Эдо, Капабланка и Морфи оцениваются как два самых высоких игрока этой эпохи. Согласно Chessmetrics, Капабланка и Ласкер были двумя лучшими игроками (Морфи даже не входит в десятку лучших). По данным Chessmetrics, Цукерторт, Штайниц, Тарраш, Ласкер, Пилсбери, Марокко, Маршалл, Яновский, Чигорин, Шелектер, Блэкберн, Дюрас, Тейхманн, Нейман, Видмар, Гансберг, Рубинштейн и Берн были лучше, чем Морфи.

Если инновации приводят к доминированию в определенной шахматной эпохе с течением времени, и с течением времени становится все труднее вводить инновации, поскольку сила конкуренции возрастает, вы не можете измерить истинное доминирование, просто взглянув на результаты матчей 30 лучших игроков. То есть Магнусу Карлсену намного сложнее доминировать над своими противниками, чем прошлым чемпионам. Если вы посмотрите на прошлые рейтинги, то легко заметить, что величина разницы между рейтингами лучших игроков со временем уменьшается. Поэтому я считаю, что статистическая модель типа Эдо, которая учитывает сложность доминирования во времени, будет лучшим подходом, чем то, что было опробовано ранее. Например, Фишер был довольно доминирующим игроком своей эпохи, потому что он выиграл 20 игр подряд. Какая у Каспарова или Карпова самая длинная победная серия по сравнению с этой? По словам Сейравана, их самые длинные серии побед - семь игр.

Конечно, я не утверждаю, что выигрышные полосы являются хорошим показателем. Я просто утверждаю, что доминирование по рейтингу или в отдельных матчах с другими ведущими игроками является полезным показателем, который явно не принимается во внимание в текущих системах обратного рейтинга.

Таким образом, мой анализ мечты заключается в том, что вы используете рейтинги Эдо на основе базы данных, в которую входят только лучшие 20 или 30 игроков из каждого пятилетнего периода. После завершения этого анализа вы переоцениваете свои результаты по фактору доминирования. То есть более новые игроки получают бонусный фактор, который рассчитывается путем оценки траектории сложности доминирования во времени (уменьшение различий в рейтингах между топ-30 игроками с течением времени). Затем, вы должны проверить этот анализ, сравнив процент игроков в шахматных компьютерных ошибках, рассчитанных их оппонентами, за вычетом их собственных ошибок. Если это лишает законной силы вышеперечисленное, то вам необходимо выполнить повторный анализ в соответствии с анализом компьютерных ошибок, если он показывает, что более поздние топ-игроки имеют тенденцию играть более точно, даже после того, как учитывается мой фактор доминирования.

Мое предположение, основанное на моих взглядах на это, состоит в том, что Каспаров будет очень хорошо. Но это только предположение.

ToddM
источник
2
Это не похоже на ответ на вопрос.
Херб Вулф
Я хочу сказать, что вы не можете ответить на вопрос об оценке инфляции, пока не определите шахматные способности. Я рассмотрел исследование, пытаясь скорректировать инфляцию рейтинга или попытаться определить, как варьируются способности чемпионов по шахматам с течением времени (именно это и составляет рейтинг инфляции). Я полагаю, что проблема в том, что исследователи на самом деле не определили свои предположения о том, что они считают шахматными способностями. По моему мнению, без определения шахматных способностей, вы не можете ответить на вопрос, меняется ли шахматная способность со временем или что-то сказать об инфляции рейтинга.
ToddM