Компьютерные оценки: насколько они заслуживают доверия?

14

Фриц 12 с Рыбкой дал моему другу оценку +3 для белых в этой позиции в эндшпиле ,

Белые двигаться

которая оказалась ничьей. Но я слышал, что +3 от компьютера означает гарантированный выигрыш с идеальной игрой. Я только что услышал неправильно? Как следует оценивать компьютерные оценки в целом? Что вообще означают начальные преимущества <.5?

analysis engines software statistics evaluation chubbycantorset
источник

3

Я бы оспаривал комментарий «гарантированная победа». Оценочный номер является эвристическим показателем, в основном «ощущением», которое имеет компьютер для данной позиции. У эндшпилей могут быть «неожиданные» результаты, и если компьютер не запрограммирован на обнаружение всех возможных паттернов (или он может рассчитывать полностью), он пропустит некоторые. Иными словами, если +3 действительно гарантировано, это не будет +3, это будет + бесконечность.

Даниэль Б

Для справки, я проверил это на 7-элементных таблицах Lichess, и это действительно ничья.

PhishMaster

8

Здесь есть пара вещей.

Во-первых, каждая программа будет иметь свой собственный способ оценки позиций, поэтому результаты нельзя сравнивать напрямую. Например, я недавно запускал StockFish против Рыбки и обнаружил, что оценки Stockfish примерно вдвое выше, чем у Рыбки. Я был удивлен этим, но довольно ясно, что оценка 1 не всегда означает «1 пешка». Я думаю, что мы должны смотреть на то, как изменяется счет. Еще одно любопытство, которое я видел вчера (отвечая по совпадению на один из ваших других вопросов), было то, что алгоритм оценки Stockfish не очень любит нечетные числа. На самом деле большинство оценок были кратны 0,04. Учитывая, что величина значения является произвольной, я бы не предположил, что какое-либо определенное значение означает «верный выигрыш», если машина не утверждает, что нашла партнера.

Во-вторых, таблицы конечных игр были созданы, потому что решение конечных игр требует большой глубины поиска. Компьютеры, играющие на турнирных скоростях, просто не справляются. Несколько дней назад я работал над другой игрой и объявил на этом сайте, что у одной из сторон есть преимущество. Эд использовал настольную базу, чтобы показать, что в позиции не осталось тайны - она была нарисована теоретически. Конечно, существует огромная разница между ничьей с идеальной игрой и ничьей; игроки должны найти правильные ходы.

Небольшое значение, которое обычно дают белые на ранних стадиях игры, означает, что белые могут претендовать на более ценную недвижимость. Например, на 1-м ходу белые могут претендовать на e4 и атаковать e5 и f5. Черный может противостоять. Но тогда белые могут сыграть Nc3 и атаковать / поддержать a4, b5, d5 и e4. Но черные могут противостоять. Так что это значит очень мало.

Наконец, чтобы ответить на вопрос в вашей теме - оценки очень заслуживают доверия, поскольку они основаны на неопровержимых фактах и впечатляющей глубине поиска. Конечно, машины не безошибочны. Но мы, b-игроки, должны помнить, что Stockfish (или Рыбка) играют на сильных сторонах GM на скромном оборудовании. На лучшем стандартном оборудовании они оценивают свои рейтинги в ФИДЕ 3200. Это настолько высоко, что только лучшие люди имеют небольшой шанс не проиграть.

Подумайте, что это значит; У меня (USCF 1650-ish) нет шансов против человека (скажем, USCF 2050), у которого нет шансов против человека (скажем, USCF 2450), у которого нет шансов против человека (скажем, USCF 2850), у которого есть щепка из шансов против первоклассной коммерческой программы (FIDE 3200).

Таким образом, когда Stockfish говорит, что одно движение лучше, чем другое, я обычно принимаю это за чистую монету. Когда я подключу таблицы финальных игр, эта штука начнет анонсировать 30-е, смеется.

Тони Эннис
источник

1

Очень хороший ответ. Я всегда думал, что оценка 1 означает ценность 1 пешки материала. Кроме того, Chesstempo говорит, что лучший ход (ы) в его задачах - это те, которые выигрывают как минимум 2 пешки материала, поэтому я считал, что оценка двигателя +2 или более выигрывает независимо от стадии в игре. Тем не менее, я обнаружил, что анализ вяленой рыбы был ошибочным и видел, как он не может правильно оценить финальные игры. На этой ноте, вы знаете, где я могу найти настольную базу финалов?

chubbycantorset

Вот электронная таблица из 6 человек, которую написал Эд: k4it.de/index.php?topic=egtb&lang=en

Тони Эннис,

+1 для «Я бы не предположил, что какое-то определенное значение означает« верный выигрыш », если машина не утверждает, что нашла партнера».

Ferit

14

Различные двигатели имеют разные «шкалы» для своих численных оценок. Например, в типичной позиции среднего звена с большим количеством оставшейся игры, когда Гудини говорит +2,00 или лучше, очень вероятно, что у белых есть выигрышное преимущество (хотя даже здесь я включил квалификации по причине). Но учтите: можно изменить исходный код Гудини и удвоить абсолютные значения всех чисел, участвующих в оценках; каждый получает двигатель одинаковой силы, который производит одинаковую игру, но теперь +4,00 означает то, что раньше означало +2,00. Это показывает, что не следует ожидать одинакового числового порога для двигателей, который обычно указывает на выигрышное преимущество.

Более того, однако, важно понимать, что числовая оценка позиции (в отличие от откровенного объявления неизбежного помощника) никогда строго не переводится как «выигранная игра», даже для одного фиксированного движка. Ключевым моментом является то, что числовые оценки не имеют четкого «смысла» в общих чертах шахмат и являются скорее просто заменой разумной мысли, которая используется для механического направления двигателя к обычно желаемым результатам, влияя на то, какое движение он выбирает в каждой точке. в игре; с этой точки зрения, что в конечном счете наиболее важно для игры двигателя, это только разница в оценке, назначенной потенциальным ходам, а не что-либо об абсолютных значенияхучаствует. Числа полезны для самого движка, который нуждается в чем-то конкретном, чтобы принять решение для одного движения за другим, но мы, люди, не должны слишком торопиться, чтобы читать больше смысла в величинах, связанных с мыслями типа «+ X означает победа. "

В частности, чем дальше и дальше мы приближаемся к эндшпилю, а не к средней игре, тем меньше мы можем использовать эмпирическое правило (например, мои +2,00 для Гудини в средних играх выше) о том, что для победы достаточно определенного порога. Одной из основных причин этого является сложность, с которой двигатели распознают крепости, где изобилие дополнительного материала все еще недостаточно для победы. Например, когда я кормлю Stockfish этой позиции,

NN - NN

через пару минут я подумал, что он дает оценку около +7.00, и в типичной позиции, когда Stockfish говорит это, у вас почти наверняка есть победа. Тем не менее, это мертвая ничья, и человек может легко это увидеть, когда осознает тот факт, что черные могут просто перетасовать ладью между f6 и h6, и поэтому (1) пешка h бесполезна, и (2) белые король никогда не сможет помочь атаковать белую королеву. В конце концов , Stockfish и здесь распознает ничью, как только он сталкивается с 50 ходами, скажем, или, наконец, заканчиваются разными ходами, чтобы попытаться, и, наконец, не может избежать повторения, но эти события находятся далеко за линией глубины поиска.

Финальная позиция из вашего предыдущего вопроса, с которой вы связались, похожа на такого рода крепость, в которой у лишних связанных проходных пешек у белых есть все и хорошо, но, в конечном счете, их недостаточно для победы в этой позиции. Если бы движок рассчитывал достаточно времени, чтобы увидеть столько информации, сколько содержится в таблицах, то его оценка снизилась бы до 0, но в то же время его алгоритму оценки нет ничего лучше, чем дать + для этого дополнительный материал (который он еще не знает, не имеет смысла).

расчетное время отправления
источник

+1 за «Более того, тем не менее, важно понимать, что числовая оценка позиции (в отличие от откровенного объявления неизбежного помощника) никогда не переходит строго в

выигрышную

8

Я думаю, что эта картина достаточно хорошо описывает ситуацию. Он был создан из 400 тысяч игр и рассматривает только простой материал.

Вероятность выигрыша / преимущество пешки

Источник: Pawn Advantage, Процент выигрыша и ELO

Томас Але
источник

1

Хороший вклад! +1

ferit

@ Томас Але: График интересный. Но оригинальная статья больше не доступна, к сожалению, ссылка на wikispaces не работает. Вы помните точное значение W = Win Вероятность? Было ли это победа против проигрыша, игнорируя ничьи? Или это был «ожидаемый счет» с учетом ничьих?

Дидрш

@Diedrsch Я обновил ссылку

Томас Ахл

Компьютерные оценки: насколько они заслуживают доверия?

Ответы: