Обучение совместному укреплению

10

У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех с независимыми учениками кажется неправильным, потому что цена одного влияет на вознаграждение другого. Цель состоит в том, чтобы динамически оценить их все, чтобы максимизировать сумму каждого отдельного дохода.Q(λ)

Я проводил некоторые исследования, чтобы попытаться найти что-то, что применяет обучение с подкреплением таким образом, но я обнаружил, что многие мультиагентные реализации больше ориентированы на конкурентные игры, чем на кооперативные, или они предполагают неполное знание других агентов (я хотел бы знание каждого агента в этом сценарии). Существуют ли хорошо изученные / документированные применения совместного обучения таким образом?

user3704120
источник

Ответы:

0

В целом, вы пытаетесь достичь эффективности Парето.

Чтобы сделать его совместным, вам нужно определить единую функцию вознаграждения, которая является общей для всех игроков (это может быть функция, которая каким-то образом объединяет отдельные функции вознаграждения).

Каким-то образом вам нужно взвесить вознаграждения, которые вы получаете от одного продукта, по отношению к другим.

Хуан Лени
источник