Недавно я начал использовать перекрестную проверку сглаживания важности по Парето (PSIS-LOO), описанную в следующих статьях:
- Vehtari, A. & Gelman, A. (2015). Парето сгладил важность выборки. Препринт arXiv ( ссылка ).
- Вехтари А., Гельман А. и Габри Дж. (2016). Практическая оценка байесовской модели с использованием кросс-проверки без участия и WAIC. Препринт arXiv ( ссылка )
Это представляет собой очень заманчивый подход к оценке модели вне выборки, поскольку он позволяет выполнять LOO-CV за один прогон MCMC, и он, как утверждается, лучше, чем существующие информационные критерии, такие как WAIC.
К сожалению, я обнаружил, что, применяя этот метод к моей проблеме, для большинства моделей, представляющих интерес, я обнаружил, что большая доля . Неудивительно, что некоторые из зарегистрированных логарифмических правдоподобий LOO были совершенно бессмысленными (по сравнению с другими наборами данных). В качестве двойной проверки я выполнил традиционную (и трудоемкую) 10-кратную перекрестную проверку, обнаружив, что действительно в приведенном выше случае PSIS-LOO давал ужасно неправильные результаты (с другой стороны, результаты были в очень хорошем согласии с 10). кратное резюме для моделей, в которых все ). Для записи, я использую реализацию PSIS-LOO от MATLAB от Aki Vehtari.
Возможно, мне просто очень не повезло в том, что моя текущая и первая проблема, в которой я применяю этот метод, «трудна» для PSIS-LOO, но я подозреваю, что этот случай может быть относительно распространенным. В таких случаях, как мой, газета Vehtary, Gelman & Gabry просто говорит:
Даже если оценка PSIS имеет конечную дисперсию, когда , пользователь должен рассмотреть выборку непосредственно из для проблемного , используйте кратное перекрестное проверки или используйте более надежную модель.
Это очевидные, но не совсем идеальные решения, так как они все требуют много времени или требуют дополнительных действий (я ценю, что MCMC и оценка моделей - это все, что нужно, но чем меньше, тем лучше).
Есть ли какой-либо общий метод, который мы можем применить заранее, чтобы попытаться предотвратить сбой PSIS-LOO? У меня есть несколько предварительных идей, но мне интересно, есть ли уже эмпирическое решение, которое люди принимают.