Система рейтинга Эло использует алгоритм минимизации градиентного спуска функции кросс-энтропийной потери между ожидаемой и наблюдаемой вероятностью исхода в парных сравнениях. Мы можем написать общие функции потерь как
где сумма производится по всем исходам и всем противникам . - наблюдаемая частота события а - ожидаемая частота.п р я я д я
В случае только двух возможных результатов (победа или поражение) и одного противника у нас есть
Если - рейтинг игрока а - рейтинг игрока мы можем построить ожидаемую вероятность как тогда правило обновления градиентного спуска скажет использовать i π j j q i = e π i
где и p_i - ожидаемая и наблюдаемая вероятность выигрыша игрока i против игрока j . Это обновление правил. i jtwo outcomes
При наличии ничьих мы можем обобщить вышеприведенную модель, включая и третий результат с вероятностью
дя
И мы можем построить функцию потери как
где - соответственно наблюдаемая вероятность , и и ожидаемая вероятность , и . В последнем случае правило обновления будетq ( w ) , q ( l ) , q ( d )win
loose
draw
win
loose
draw
где и - ожидаемая вероятность того, что игрок выиграет и сыграет вничью с игроком . И где и - наблюдаемая вероятность того, что игрок выиграет и сыграет вничью с игроком . Это правило обновления.q j ( d ) i j p ithree outcome
Вопрос в том, почему рейтинговая система Elo использует two outcomes
правила обновления даже при наличии розыгрышей?
источник