Фриц 12 с Рыбкой дал моему другу оценку +3 для белых в этой позиции в эндшпиле ,
Белые двигаться
которая оказалась ничьей. Но я слышал, что +3 от компьютера означает гарантированный выигрыш с идеальной игрой. Я только что услышал неправильно? Как следует оценивать компьютерные оценки в целом? Что вообще означают начальные преимущества <.5?
analysis
engines
software
statistics
evaluation
chubbycantorset
источник
источник
Ответы:
Здесь есть пара вещей.
Во-первых, каждая программа будет иметь свой собственный способ оценки позиций, поэтому результаты нельзя сравнивать напрямую. Например, я недавно запускал StockFish против Рыбки и обнаружил, что оценки Stockfish примерно вдвое выше, чем у Рыбки. Я был удивлен этим, но довольно ясно, что оценка 1 не всегда означает «1 пешка». Я думаю, что мы должны смотреть на то, как изменяется счет. Еще одно любопытство, которое я видел вчера (отвечая по совпадению на один из ваших других вопросов), было то, что алгоритм оценки Stockfish не очень любит нечетные числа. На самом деле большинство оценок были кратны 0,04. Учитывая, что величина значения является произвольной, я бы не предположил, что какое-либо определенное значение означает «верный выигрыш», если машина не утверждает, что нашла партнера.
Во-вторых, таблицы конечных игр были созданы, потому что решение конечных игр требует большой глубины поиска. Компьютеры, играющие на турнирных скоростях, просто не справляются. Несколько дней назад я работал над другой игрой и объявил на этом сайте, что у одной из сторон есть преимущество. Эд использовал настольную базу, чтобы показать, что в позиции не осталось тайны - она была нарисована теоретически. Конечно, существует огромная разница между ничьей с идеальной игрой и ничьей; игроки должны найти правильные ходы.
Небольшое значение, которое обычно дают белые на ранних стадиях игры, означает, что белые могут претендовать на более ценную недвижимость. Например, на 1-м ходу белые могут претендовать на e4 и атаковать e5 и f5. Черный может противостоять. Но тогда белые могут сыграть Nc3 и атаковать / поддержать a4, b5, d5 и e4. Но черные могут противостоять. Так что это значит очень мало.
Наконец, чтобы ответить на вопрос в вашей теме - оценки очень заслуживают доверия, поскольку они основаны на неопровержимых фактах и впечатляющей глубине поиска. Конечно, машины не безошибочны. Но мы, b-игроки, должны помнить, что Stockfish (или Рыбка) играют на сильных сторонах GM на скромном оборудовании. На лучшем стандартном оборудовании они оценивают свои рейтинги в ФИДЕ 3200. Это настолько высоко, что только лучшие люди имеют небольшой шанс не проиграть.
Подумайте, что это значит; У меня (USCF 1650-ish) нет шансов против человека (скажем, USCF 2050), у которого нет шансов против человека (скажем, USCF 2450), у которого нет шансов против человека (скажем, USCF 2850), у которого есть щепка из шансов против первоклассной коммерческой программы (FIDE 3200).
Таким образом, когда Stockfish говорит, что одно движение лучше, чем другое, я обычно принимаю это за чистую монету. Когда я подключу таблицы финальных игр, эта штука начнет анонсировать 30-е, смеется.
источник
Различные двигатели имеют разные «шкалы» для своих численных оценок. Например, в типичной позиции среднего звена с большим количеством оставшейся игры, когда Гудини говорит +2,00 или лучше, очень вероятно, что у белых есть выигрышное преимущество (хотя даже здесь я включил квалификации по причине). Но учтите: можно изменить исходный код Гудини и удвоить абсолютные значения всех чисел, участвующих в оценках; каждый получает двигатель одинаковой силы, который производит одинаковую игру, но теперь +4,00 означает то, что раньше означало +2,00. Это показывает, что не следует ожидать одинакового числового порога для двигателей, который обычно указывает на выигрышное преимущество.
Более того, однако, важно понимать, что числовая оценка позиции (в отличие от откровенного объявления неизбежного помощника) никогда строго не переводится как «выигранная игра», даже для одного фиксированного движка. Ключевым моментом является то, что числовые оценки не имеют четкого «смысла» в общих чертах шахмат и являются скорее просто заменой разумной мысли, которая используется для механического направления двигателя к обычно желаемым результатам, влияя на то, какое движение он выбирает в каждой точке. в игре; с этой точки зрения, что в конечном счете наиболее важно для игры двигателя, это только разница в оценке, назначенной потенциальным ходам, а не что-либо об абсолютных значенияхучаствует. Числа полезны для самого движка, который нуждается в чем-то конкретном, чтобы принять решение для одного движения за другим, но мы, люди, не должны слишком торопиться, чтобы читать больше смысла в величинах, связанных с мыслями типа «+ X означает победа. "
В частности, чем дальше и дальше мы приближаемся к эндшпилю, а не к средней игре, тем меньше мы можем использовать эмпирическое правило (например, мои +2,00 для Гудини в средних играх выше) о том, что для победы достаточно определенного порога. Одной из основных причин этого является сложность, с которой двигатели распознают крепости, где изобилие дополнительного материала все еще недостаточно для победы. Например, когда я кормлю Stockfish этой позиции,
через пару минут я подумал, что он дает оценку около +7.00, и в типичной позиции, когда Stockfish говорит это, у вас почти наверняка есть победа. Тем не менее, это мертвая ничья, и человек может легко это увидеть, когда осознает тот факт, что черные могут просто перетасовать ладью между f6 и h6, и поэтому (1) пешка h бесполезна, и (2) белые король никогда не сможет помочь атаковать белую королеву. В конце концов , Stockfish и здесь распознает ничью, как только он сталкивается с 50 ходами, скажем, или, наконец, заканчиваются разными ходами, чтобы попытаться, и, наконец, не может избежать повторения, но эти события находятся далеко за линией глубины поиска.
Финальная позиция из вашего предыдущего вопроса, с которой вы связались, похожа на такого рода крепость, в которой у лишних связанных проходных пешек у белых есть все и хорошо, но, в конечном счете, их недостаточно для победы в этой позиции. Если бы движок рассчитывал достаточно времени, чтобы увидеть столько информации, сколько содержится в таблицах, то его оценка снизилась бы до 0, но в то же время его алгоритму оценки нет ничего лучше, чем дать + для этого дополнительный материал (который он еще не знает, не имеет смысла).
источник
Я думаю, что эта картина достаточно хорошо описывает ситуацию. Он был создан из 400 тысяч игр и рассматривает только простой материал.
Источник: Pawn Advantage, Процент выигрыша и ELO
источник