Я сталкивался со слухами о том, что некоторые исследования показали, что эффективность прогностических моделей больше зависит от опыта аналитика данных с выбранным методом, чем от выбора метода.
Другими словами, утверждается, что более важно, чтобы аналитик данных был знаком с выбранным методом, чем то, насколько «подходящим» этот метод может показаться для проблемы с более теоретической точки зрения.
Это было упомянуто в контексте хемометрики, которая обычно включает в себя проблемы многих вариаций (от 100 до 1000 с), множественной коллинеарности и, конечно, слишком малого количества образцов. Предсказание могло быть классификацией или регрессией.
Мой личный опыт показывает, что это правдоподобно , но исследование было упомянуто (я спросил человека, который упомянул об этом по электронной почте после быстрого, но безуспешного поиска, но так и не получил ответа). Однако, также с более сложным поиском, я не смог отследить какие-либо бумаги.
Кто-нибудь знает о таких выводах? Если нет, то что говорит личный опыт Больших Парней здесь?
источник
Ответы:
На самом деле, я слышал слух о том, что приличные обучающие машины обычно лучше, чем эксперты, потому что человеческое стремление сводить к минимуму дисперсию за счет смещения (слишком гладкого), что приводит к плохой прогностической производительности в новом наборе данных. Машина откалибрована для минимизации MSE и, таким образом, имеет тенденцию улучшаться с точки зрения прогнозирования в новом наборе данных .
источник