Этот вопрос является ответом на предыдущий вопрос Рамона Снира о том, как часто в шахматной партии в среднем перемещаются фигуры разных типов. Мой вопрос:
Различаются ли относительные числа ходов для фигур данного типа, если смотреть на игры более сильных игроков в отличие от игр более слабых игроков? (Например, возможно, более слабые игроки, как правило, делают больше пешечных ходов за счет пошаговых ходов, или они делают слишком много ходов ферзя. Я не знаю.)
Я смог дать ответ на предыдущий вопрос, используя необработанные данные, которые были извлечены из большой базы данных кем-то другим . Эти данные поступили из выборки игр 4M +, начиная от игры гроссмейстера и заканчивая слабой любительской игрой, и суммарные числа для общего количества ходов, которые там приводятся, не различаются по силе игрока. Ответ на мой вопрос потребует получения отдельных данных для игр между сильными игроками и игр между слабыми игроками, и я ищу ответы, подкрепленные данными, а не анекдотами .
Вот более конкретная форма моего вопроса:
Существует ли какой-либо порог рейтинга Эло N, такой, что, если взглянуть на среднее число ходов в игре с разбивкой по типу фигур, существует существенная разница между тем, что можно найти в играх с игроками выше N, и тем, что он находит в играх показывая игроков ниже N.
Было бы интересно, если бы можно было найти больше подобных вещей, то есть конкретных различий между сильными и слабыми игроками, которые можно обнаружить с помощью интеллектуального анализа данных. Такие результаты могут указывать на конкретные виды поведения, которые сдерживают игроков, или наоборот, которые продвигают их вперед. Теперь, может быть, нет никаких различий, которые можно найти, просто взглянув на такие данные, но мне было бы интересно это знать.
источник
Ответы:
Вот быстрый грязный анализ, основанный на базе данных PGN "Million Base". Я сделал это немного спешно, поэтому вполне может быть ошибки в моем программировании или логике. Пожалуйста, не используйте это для чего-то слишком серьезного. Обновление - Примечание. На самом деле, я только что заметил, что допустил ошибку с набором данных и ограничил его первым 1 миллионом записей. Я опубликую обновление, когда у меня будет свободное время, чтобы снова запустить его на полную версию. Между тем, эти цифры должны быть интересными, тем не менее.
Получение данных:
Я получил файл Million Base 1.74 по этому URL , поскольку сайт top-5000.nl кажется 404, когда вы на самом деле пытаетесь его скачать. Файл содержит чуть более 1 миллиона игр в формате экспорта PGN (то есть легко разбирается).
К сожалению, в более чем 60% игр отсутствовала какая-либо рейтинговая информация (я искал теги «WhiteELO» и «BlackELO»), а еще меньше - рейтинги обоих игроков. В конце я решил получить как можно больший размер выборки и подсчитать ходы игрока, если его или ее рейтинг известен, независимо от рейтинга другого игрока.
Процесс:
Игры анализировались одна за другой, и если рейтинг игрока был известен, все его ходы для этой игры были бы добавлены в совокупность для группы рейтинга игрока. Я решил разделить рейтинги на группы по 100, например, с 1600 по 1699 год - это одна группа.
Поскольку фактический текст перемещения в PGN - это SAN, я использовал следующий ярлык для подсчета ходов: ходы рыцаря (N), слона (B), ладьи (R), королевы (Q) и короля (K) начинаются с буквы их фигуры , Рокировка (ОО и ООО) учитывалась отдельно, как особый случай. Все оставшиеся ходы были засчитаны как ходы пешки без дальнейшего изучения.
Очистка данных не была выполнена. Не было попытки идентифицировать выбросы и удалить их (например, очень короткие и длинные игры и т. Д.). Я сохранил, но не включил в следующий анализ результаты оценок ниже 1600 - размер выборки для этих игр был значительно ниже 100, что привело к значительным различиям в результатах. Необработанные данные приведены в конце этого поста.
Некоторые недостатки информации: на данный момент я собрал только очень простые итоги и дал средние значения. Я почти уверен, что в общем случае данные НЕ распределяются нормально, но я не смогу сказать больше, не выводя необработанные данные и не выполняя их через статистическую программу. Я могу сделать это, если есть интерес. На данный момент это означает отсутствие доверительных интервалов или другой информации о распределении чисел, которые представляют эти средние значения. Я также не проверял, сколько лет охватывает набор данных - если он представляет много лет, может быть полезно попытаться скорректировать общую силу поля.
Некоторые тенденции:
Несколько слов о рейтингах игроков - наиболее часто встречающиеся рейтинговые группы были в порядке: от 2400 до 2500, от 2500 до 2600 и от 2300 до 2400. Эти рейтинговые группы обеспечивали 72% подсчитанных игр.
Глядя на реальные результаты, средняя продолжительность игры была неожиданностью:
Во всех рейтинговых группах до 2000 года игры были значительно короче, чем в более высоких группах. Это вполне может быть объяснено тем, что они играли более сильных противников (см. Средний рейтинг выше) и что они потерпели поражение за меньшее количество ходов. Это, кажется, идет вразрез с немного более короткими играми, в которые играют лучшие рейтинговые группы, хотя это может способствовать уменьшению размера выборки.
Относительно большие различия в средней продолжительности игры означают, что предоставление частоты перемещения определенной фигуры, а не общего числа перемещений фигуры, возможно, является более справедливым сравнением. Расчет частот приводит к следующему графику:
Следующие тенденции, кажется, присутствуют:
Дальнейший анализ
Некоторые идеи для будущего анализа:
Агрегировать данные в формате CSV
Для тех, кто хочет играть с данными, не стесняйтесь.
Рейтинговый диапазон, размер выборки, средняя длина игры, средние ходы пешки, средние ходы коня, средние ходы слона, средние ходы ладьи, средние ходы ферзя, средние ходы короля, средний бросок
источник