Существует ли концепция «достаточных» данных для обучения статистическим моделям?

10

Я работаю над большим количеством статистических моделей, таких как скрытые марковские модели и модели гауссовой смеси. Я вижу, что для обучения хороших моделей в каждом из этих случаев требуется большой (> 20000 предложений для НММ) объем данных, который берется из аналогичных сред в качестве конечного использования. Мой вопрос:

  1. Существует ли в литературе понятие «достаточно» обучающих данных? Сколько тренировочных данных «достаточно хорошо»?
  2. Как я могу вычислить, сколько предложений необходимо для «хороших» (которые дают хорошую точность распознавания (> 80%)) обучаемых моделей?
  3. Как мне узнать, была ли модель обучена правильно? Начнут ли коэффициенты в модели демонстрировать случайные флуктуации? Если да, то как отличить случайные колебания от реальных изменений в результате обновления модели?

Пожалуйста, не стесняйтесь пометить этот вопрос, если ему нужно больше тегов.

Sriram
источник

Ответы:

10

Вы можете разделить свой набор данных на последовательные подмножества с 10%, 20%, 30%, ..., 100% ваших данных и для каждого подмножества оценить отклонение точности вашего оценщика, используя перекрестную проверку в k-кратном порядке или начальную загрузку. Если у вас «достаточно» данных, при построении графиков отклонений должна отображаться убывающая монотонная линия, которая должна достигать плато до 100%: добавление дополнительных данных никоим образом не уменьшает дисперсию точности оценки.

ogrisel
источник
Я должен буду попробовать это. Звучит интересно. Спасибо!
Шрирам