Отказ от ответственности: я биолог, извините за (возможно) основной вопрос, сформулированный в таких грубых выражениях.
Я не уверен, стоит ли мне задавать этот вопрос здесь или на DS / SC, но CS - самый большой из трех, так что здесь. (После того, как я написал, мне пришло в голову, что Cross-Validated может быть лучшим местом для этого, но увы).
Представьте, что есть агент, который принимает бинарные решения. И среда, которая за каждое из решений агента («испытания») либо вознаграждает агента, либо нет. Критерии вознаграждения за решения агента не просты. В целом критерии являются случайными, но они имеют ограничение, например, среда никогда не вознаграждает более 3 раз за одно и то же решение и никогда не заменяет вознаграждаемое решение более 4 раз подряд.
Тогда последовательность критериев может выглядеть примерно так
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
но никогда
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
потому что критерий вознаграждения не может повторяться более 3 раз.
В этих условиях довольно легко сформулировать стратегию, которую должен предпринять идеальный наблюдатель, чтобы максимизировать вознаграждение. Нечто подобное
- решать случайным образом
- если вы обнаружите, что критерии повторяются 3 раза - решите противоположность, чем последний критерий
- если вы обнаружите, что критерии чередуются 4 раза, решите по последнему критерию
Теперь сложная часть. Теперь критерий в каждом испытании зависит не только от истории предыдущих критериев, но и от истории решений агента, например, если агент чередуется более чем в 8 из последних 10 испытаний, вознаградите то же решение, что и агент, принятый в прошлый раз (как если агент отговаривает от чередования) и если агент повторил одно и то же решение более чем из 8 из последних 10 испытаний, то есть он предвзят, сделайте критерий, противоположный смещению. Приоритет истории критериев над историей решений определяется заранее, поэтому двусмысленности не бывает.
Последовательности решений (d) и критериев (c) теперь могут выглядеть следующим образом
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
Я не вижу простого способа придумать максимизирующую стратегию для агента. Но я уверен, что он должен быть, и какой-то умный алгоритм машинного обучения сможет его идентифицировать.
Мой вопрос не столько в том, как решить эту проблему (хотя я был бы рад, если бы вы предложили решение), а в том, как называются проблемы такого типа? Где я могу прочитать об этом? Есть ли абстрактное решение или только симуляция может помочь? В общем, как я, как биолог, могу подойти к этому типу проблем?
источник
Ответы:
Вы можете подойти к этой проблеме, используя Усиление обучения.
Классическая книга для этого - Саттон и Барто:
Черновик второго издания доступен бесплатно: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html.
Чтобы сделать вашу проблему марковской, определите каждое государство как вектор последних десяти решений. Ваши действия будут 1 или 0.
источник