Сильные игроки перемещают свои фигуры с другой относительной частотой, чем слабые игроки?

24

Этот вопрос является ответом на предыдущий вопрос Рамона Снира о том, как часто в шахматной партии в среднем перемещаются фигуры разных типов. Мой вопрос:

Различаются ли относительные числа ходов для фигур данного типа, если смотреть на игры более сильных игроков в отличие от игр более слабых игроков? (Например, возможно, более слабые игроки, как правило, делают больше пешечных ходов за счет пошаговых ходов, или они делают слишком много ходов ферзя. Я не знаю.)

Я смог дать ответ на предыдущий вопрос, используя необработанные данные, которые были извлечены из большой базы данных кем-то другим . Эти данные поступили из выборки игр 4M +, начиная от игры гроссмейстера и заканчивая слабой любительской игрой, и суммарные числа для общего количества ходов, которые там приводятся, не различаются по силе игрока. Ответ на мой вопрос потребует получения отдельных данных для игр между сильными игроками и игр между слабыми игроками, и я ищу ответы, подкрепленные данными, а не анекдотами .

Вот более конкретная форма моего вопроса:

Существует ли какой-либо порог рейтинга Эло N, такой, что, если взглянуть на среднее число ходов в игре с разбивкой по типу фигур, существует существенная разница между тем, что можно найти в играх с игроками выше N, и тем, что он находит в играх показывая игроков ниже N.

Было бы интересно, если бы можно было найти больше подобных вещей, то есть конкретных различий между сильными и слабыми игроками, которые можно обнаружить с помощью интеллектуального анализа данных. Такие результаты могут указывать на конкретные виды поведения, которые сдерживают игроков, или наоборот, которые продвигают их вперед. Теперь, может быть, нет никаких различий, которые можно найти, просто взглянув на такие данные, но мне было бы интересно это знать.

расчетное время отправления
источник
Я немного подозрительно отношусь к таким агрегированным данным, потому что они могут упустить смысл. Некоторые игры решаются игрой с фигурами других, толкая пешки. Частота движения фигуры ничего не говорит о качестве ходов. Существует эмпирическое правило, которое гласит, что вы не должны часто перемещать одну часть в дебюте. Однако сильные игроки иногда принимают эту тактику, если это оправдано позицией.
Майкл
@ Майкл, я полностью согласен, что такой фактор, о котором я спрашиваю, сам по себе не будет указывать на хорошую игру; скажем, если я перемещаю свои типы фигур с той же относительной частотой, что и Аронян, это, конечно, не означает, что я играю так же, как и он. Но именно поэтому выше, скажем, Elo 1800, нет никакой заметной разницы в этих относительных частотах (хотя существует огромный диапазон способностей выше 1800), в то время как ниже 1800 это значительно искажено. Это обнаружение в данных может указывать на один фактор, стоящий за игроком, который находится ниже этого порога силы.
ETD
1
Имейте в виду, что данные покажут вам, что делают гроссмейстеры, когда они сталкиваются с другими гроссмейстерами , а также с меньшими игроками. В идеале вы хотели бы сравнить то, что лучше и хуже игроки делают в одинаковых позициях , но это, вероятно, было бы невозможно через анализ данных, кроме как в дебюте.
Эван Харпер
@EdDean - это довольно интересная тема. Есть идеи, где именно он получил игры 4M +? Есть ли место, где мы могли бы получить что-то значительного размера (скажем, 100K + игры) из авторитетного, но бесплатного источника? Я специально думаю о легко загружаемом источнике, а не о «онлайн-поиске».
Даниэль Б
1
Просто чтобы продолжить, в Википедии есть хорошая страница о коллекциях шахматных игр . Из них первая ссылка казалась наиболее перспективной (относительно небольшое количество заархивированных PGN для загрузки), но отсутствуют большие разделы (коды ECO от B до E), что сделало бы анализ очень односторонним и совершенно бесполезным.
Даниэль Б

Ответы:

29

Вот быстрый грязный анализ, основанный на базе данных PGN "Million Base". Я сделал это немного спешно, поэтому вполне может быть ошибки в моем программировании или логике. Пожалуйста, не используйте это для чего-то слишком серьезного. Обновление - Примечание. На самом деле, я только что заметил, что допустил ошибку с набором данных и ограничил его первым 1 миллионом записей. Я опубликую обновление, когда у меня будет свободное время, чтобы снова запустить его на полную версию. Между тем, эти цифры должны быть интересными, тем не менее.

Получение данных:

Я получил файл Million Base 1.74 по этому URL , поскольку сайт top-5000.nl кажется 404, когда вы на самом деле пытаетесь его скачать. Файл содержит чуть более 1 миллиона игр в формате экспорта PGN (то есть легко разбирается).

К сожалению, в более чем 60% игр отсутствовала какая-либо рейтинговая информация (я искал теги «WhiteELO» и «BlackELO»), а еще меньше - рейтинги обоих игроков. В конце я решил получить как можно больший размер выборки и подсчитать ходы игрока, если его или ее рейтинг известен, независимо от рейтинга другого игрока.

Процесс:

Игры анализировались одна за другой, и если рейтинг игрока был известен, все его ходы для этой игры были бы добавлены в совокупность для группы рейтинга игрока. Я решил разделить рейтинги на группы по 100, например, с 1600 по 1699 год - это одна группа.

Поскольку фактический текст перемещения в PGN - это SAN, я использовал следующий ярлык для подсчета ходов: ходы рыцаря (N), слона (B), ладьи (R), королевы (Q) и короля (K) начинаются с буквы их фигуры , Рокировка (ОО и ООО) учитывалась отдельно, как особый случай. Все оставшиеся ходы были засчитаны как ходы пешки без дальнейшего изучения.

Очистка данных не была выполнена. Не было попытки идентифицировать выбросы и удалить их (например, очень короткие и длинные игры и т. Д.). Я сохранил, но не включил в следующий анализ результаты оценок ниже 1600 - размер выборки для этих игр был значительно ниже 100, что привело к значительным различиям в результатах. Необработанные данные приведены в конце этого поста.

Некоторые недостатки информации: на данный момент я собрал только очень простые итоги и дал средние значения. Я почти уверен, что в общем случае данные НЕ распределяются нормально, но я не смогу сказать больше, не выводя необработанные данные и не выполняя их через статистическую программу. Я могу сделать это, если есть интерес. На данный момент это означает отсутствие доверительных интервалов или другой информации о распределении чисел, которые представляют эти средние значения. Я также не проверял, сколько лет охватывает набор данных - если он представляет много лет, может быть полезно попытаться скорректировать общую силу поля.

Некоторые тенденции:

Несколько слов о рейтингах игроков - наиболее часто встречающиеся рейтинговые группы были в порядке: от 2400 до 2500, от 2500 до 2600 и от 2300 до 2400. Эти рейтинговые группы обеспечивали 72% подсчитанных игр.

Глядя на реальные результаты, средняя продолжительность игры была неожиданностью:

Среднее количество ходов по рейтинговой группе

Во всех рейтинговых группах до 2000 года игры были значительно короче, чем в более высоких группах. Это вполне может быть объяснено тем, что они играли более сильных противников (см. Средний рейтинг выше) и что они потерпели поражение за меньшее количество ходов. Это, кажется, идет вразрез с немного более короткими играми, в которые играют лучшие рейтинговые группы, хотя это может способствовать уменьшению размера выборки.

Относительно большие различия в средней продолжительности игры означают, что предоставление частоты перемещения определенной фигуры, а не общего числа перемещений фигуры, возможно, является более справедливым сравнением. Расчет частот приводит к следующему графику:

Переместить частоты по частям

Следующие тенденции, кажется, присутствуют:

  • Частота ходов коня, похоже, немного снижается в зависимости от рейтинга.
  • Епископ двигает тренд вниз примерно до 2000 года, затем медленно тренд вверх.
  • Ладья резко перемещается вверх примерно в одной и той же точке и остается более частой, чем епископ, в игре высокого уровня.
  • Похоже, что пешечные движения имеют тенденцию к небольшому снижению с повышением рейтинга Большим исключением является высшая категория, от 2800 до 2900. Это подводит нас к следующему пункту:
  • Высшая рейтинговая категория обеспечивает выбросы или контр-тренды в целом ряде измерений. Это может быть объяснено различными способами: 1) размер выборки довольно мал: 363, не крошечный, а 10% от следующего наименьшего размера выборки. 2) Поскольку они находятся на верхних строчках рейтинговых групп, они никогда не играют «более сильных» противников, чем они сами. 3) Или просто на этом уровне, их стиль игры превысил уровни ниже их. Мое предположение было бы комбинацией 1) и 2).
  • Различия в ходах королевы и ходах рокировки очень малы без каких-либо реальных трендов, кроме крошечного тренда вниз в обоих случаях.
  • Частота ходов короля имеет некоторые самые большие различия. Четкой тенденции не видно, и кажется, что она меняет направление 3 или 4 раза.

Дальнейший анализ

Некоторые идеи для будущего анализа:

  • Основные статистические исправления: я считаю, что очень короткие и длинные игры, вероятно, следует исключить. Кроме того, распределение фактического количества может быть очень показательным.
  • Разделение анализа дальше может также дать интересные результаты. Например, мне было бы интересно узнать, как совпадают частоты для черного и белого (они одинаковые или разные? Почему?).
  • Также может быть интересна категоризация по разнице в рейтингах. Играют ли игроки с более сильным оппонентом (скажем, 200 над ними) с разными частотами движения? К сожалению, для этого нужно знать ELO обоих игроков, что редко встречается в этом наборе данных.
  • Тенденция к коротким и длинным замкам также может варьироваться в зависимости от рейтинга.
  • Статистика продвижения фигуры, некоторый легкий структурный анализ (например, количество удвоенных пешек, пассивов, булавок, вилок, показанных по рейтингу) может быть проницательным.
  • «Тепловые карты» размещения фигур на фактической доске, показанные рейтингом, также могут быть довольно интересными.

Агрегировать данные в формате CSV

Для тех, кто хочет играть с данными, не стесняйтесь.

Рейтинговый диапазон, размер выборки, средняя длина игры, средние ходы пешки, средние ходы коня, средние ходы слона, средние ходы ладьи, средние ходы ферзя, средние ходы короля, средний бросок

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857
Даниэль Б
источник
Ницца! Спасибо, что запустили цифры здесь. Кстати, если вы считаете, что какие-либо идеи из вашего раздела «дальнейшего анализа» созрели, пожалуйста, не стесняйтесь делать это.
ETD
1
@EdDean спасибо, и я, вероятно, сделаю дальнейший анализ, когда позволит время. Я также заметил некоторые дальнейшие улучшения, которые можно внести (например, отфильтровывать игры в блиц и симултаны и, возможно, другие), так что, вероятно, это будет немного работы. Я создам обновление, когда у меня будет что-то.
Даниэль Б
1
Вау. Это был хороший ответ. Фантастика.
Джеймс Томазино
3
Я не удивлюсь, если, скажем, увеличение числа ходов ладьи среди сильных игроков просто означает, что они с большей вероятностью окажутся в длинных окончаниях ладьи, а не то, что они чаще перемещают ладей в аналогичных позициях.
dfan
3
@dfan Я согласен, эти цифры могут иметь большее отношение к различным эффектам 2-го порядка, например, игроки с более низким рейтингом бредуют на ранних этапах и не попадают в длинный эндшпиль и т. д. У меня есть различные идеи о том, как это можно сделать более точными, но к сожалению нет времени их реализовывать.
Даниэль Б