Общий вопрос
Скажем, у нас есть потоковые данные , , ... . Мы хотим рекурсивно вычислить оценку максимального правдоподобия \ boldsymbol {\ theta} . То есть, вычислив
\ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}),
мы наблюдаем новый x_n и хотим как-то постепенно обновлять нашу оценку
\ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n}
без необходимости начинать с нуля. Существуют ли общие алгоритмы для этого?thetas ; п - 1 = Arg макс & thetas ; ∈ R р п - 1 Π я = 1 п ( х яθ п - 1 ,
Пример игрушки
Если , , ... , то
так
что
Ответы:
Смотрите понятие достаточности и, в частности, минимально достаточную статистику . Во многих случаях вам нужна целая выборка для вычисления оценки при заданном размере выборки, без тривиального способа обновления из выборки на один размер меньше (т.е. нет удобного общего результата).
Если распределение является экспоненциальным семейством (и в некоторых других случаях, кроме того, униформа - это хороший пример), есть хорошая достаточная статистика, которая во многих случаях может быть обновлена так, как вы ищете (т. Е. С помощью ряда часто используемых распределений будет быстрое обновление).
Одним из примеров, о котором я не знаю ни одного прямого способа вычисления или обновления, является оценка местоположения распределения Коши (например, с использованием единицы измерения, чтобы сделать задачу простой однопараметрической задачей). Однако может быть более быстрое обновление, которого я просто не заметил - я не могу сказать, что действительно сделал больше, чем просто взглянул на него для рассмотрения случая обновления.
С другой стороны, с MLE, полученными с помощью методов численной оптимизации, предыдущая оценка во многих случаях будет отличной отправной точкой, поскольку обычно предыдущая оценка будет очень близка к обновленной оценке; в этом смысле, по крайней мере, быстрое обновление часто должно быть возможным. Но даже это не общий случай - с мультимодальными функциями правдоподобия (снова, см. Пример с Коши), новое наблюдение может привести к тому, что самый высокий режим будет находиться на некотором расстоянии от предыдущего (даже если местоположения каждого из немногих самых больших режимов не сильно изменился, какой из них может измениться лучше всего).
источник
В машинном обучении это называется онлайн-обучением .
Как указал @Glen_b, существуют особые случаи, когда MLE может быть обновлен без необходимости доступа ко всем предыдущим данным. Как он также указывает, я не верю, что есть общее решение для поиска MLE.
Довольно общий подход для нахождения приближенного решения состоит в том, чтобы использовать что-то вроде стохастического градиентного спуска. В этом случае, когда приходит каждое наблюдение, мы вычисляем градиент по отношению к этому отдельному наблюдению и очень мало перемещаем значения параметров в этом направлении. При определенных условиях мы можем показать, что это будет сходиться к окрестности MLE с высокой вероятностью; окрестность становится все теснее, поскольку мы уменьшаем размер шага, но для сближения требуется больше данных. Тем не менее, эти стохастические методы в целом требуют гораздо больше усилий для получения хорошей производительности, чем, скажем, закрытые обновления формы.
источник