Когда использовать несколько моделей для прогнозирования?

13

Это довольно общий вопрос:

Как правило, я обнаружил, что использование нескольких различных моделей превосходит одну модель при попытке предсказать временной ряд из выборки. Есть ли хорошие статьи, которые демонстрируют, что комбинация моделей превзойдет одну модель? Есть ли лучшие практики по объединению нескольких моделей?

Некоторые ссылки:

Шейн
источник
я добавил довольно хороший источник (к сожалению, учебник) с аннотацией в свете вашего комментария / вопроса ниже моего ответа. Я отредактировал свой оригинальный ответ, поэтому он появляется в конце.
Дуг

Ответы:

8

Иногда такого рода модели называют ансамблем. Например, эта страница дает хороший обзор того, как это работает. Также упомянутые там ссылки очень полезны.

Питер Смит
источник
3
Действительно, смешивание является одним из возможных методов ансамбля. В частности, есть два, когда вы объединяете один и тот же вид классификатора: повышение (как Adaboost) и пакетирование (как Случайный лес) и смешивание, когда вы объединяете разные классификаторы (о чем говорил Шейн).
3
Для смешивания, этот документ от конкурса Netflix стоит прочитать: the-ensemble.com/content/feature-weighted-linear-stacking .
Шейн
2
Интересно, что метеорологи также используют слово «ансамбль», но не для сочетания: они используют его для ансамбля предсказания (например, сценария), полученного путем возмущения начальных условий численной модели.
Робин Жирар
1
@MBQ на самом деле они называют себя прогнозистом и довольно часто используют статистику ...
Робин Джирард
1
@ Robin Я знаю, именно поэтому это называется "ансамбль", а не набор или что-то вроде этого.
10

Последний год конкурса NetFlix Prize (2009), как мне показалось, резко изменил общую концепцию сообщества против объединения нескольких алгоритмов обучения.

Например, мое формальное обучение (университетские курсы), а затем надзор за работой / наставничество научили нас избегать комбинации алгоритмов, если у нас не было явной причины для этого, и «улучшить разрешение моего текущего алгоритма», разве ' Это действительно считается веской причиной. (У других может быть другой опыт - конечно, я вывожу мнение всего сообщества, основанное исключительно на моем собственном опыте, хотя мой опыт в кодировании неэффективных алгоритмов ML существенен.)

Тем не менее, было несколько «шаблонов», в которых комбинирование алгоритмов так или иначе было принято, и фактически улучшило производительность. Для меня наиболее частым примером был некоторый алгоритм ML, настроенный в машинном режиме (присвоение метки класса каждой точке данных) и в котором было более двух классов (обычно намного больше). Например, при использовании алгоритма контролируемого обучения для разрешения четырех классов мы увидим отличное разделение, за исключением , скажем, класса III против класса IV. Таким образом, из этих шести границ принятия решений только одно разрешено ниже требуемого порога. В частности, когда на классы III и IV вместе приходится небольшой процент данных, добавляется дополнительный алгоритм, оптимизированный только по разрешению этих двух классов, было довольно распространенным решением этой аналитической проблемы типа. (Обычно это «слепое пятно» было неотъемлемым ограничением основного алгоритма - например, это был линейный классификатор, а граница принятия решения III / IV была нелинейной.

Другими словами, когда у нас был надежный алгоритм, подходящий для среды обработки (которая обычно представляла собой потоковую передачу данных) и которая выполнялась в спецификации, за исключением одного слепого пятна, из-за которого он не мог разрешить два (или более) класса, на которые приходилось небольшая часть данных, тогда всегда было лучше «прикрутить» другой специализированный алгоритм, чтобы поймать то, что систематически отсутствовало в основном алгоритме.

Наконец, по этой теме я бы очень рекомендовал главу 17 « Объединение нескольких учащихся». в « Введение в машинное обучение» , 2д, Этем Алпайдин, MIT Press, 2010. Обратите внимание, что это второе издание, опубликованное несколько месяцев назад; первое издание было опубликовано в 2004 году, и я сомневаюсь, что оно имеет такое же освещение этой темы. (На самом деле я рекомендую весь текст, но эту главу, в частности, так как он касается вопроса Шейна.)

На 25 страницах автор суммирует, вероятно, каждую схему комбинации алгоритмов ML, полезность которой была продемонстрирована в научной литературе или практике - например, суммирование, повышение, сочетание экспертов, суммированное обобщение, каскадирование, голосование, исправление ошибок, .. ..

Дуг
источник
это отличная информация. Знаете ли вы какие-либо документы, которые покрывают это?
Шейн
(не получил уведомления от SA о вашем комментарии) Ну, я не имел в виду какие-либо статьи, когда писал, а просто неформально суммировал части моего опыта, относящиеся к вашему Вопросу. Я посмотрю свои файлы и посмотрю, что у меня есть, хотя это актуально.
Даг
4

В продолжение ответа Петра о методах ансамбля:

Шейн
источник
2

Самый яркий пример - вызов Netflix , благодаря которому популярность смешивания значительно возросла.


источник
1

Вот ответ немного левого поля, который касается только части вашего вопроса, «лучших практик по объединению нескольких моделей» . По сути, это мой диплом с отличием, за исключением того, что я имею дело со сложными, сильно нелинейными моделями, которые демонстрируют хаос и шум - климатическими моделями. Это вряд ли будет широко применимо ко многим областям, но может быть полезно в экологии или эконометрике.

До недавнего времени в сообществе по моделированию климата модели в основном просто сбивались в невзвешенном среднем (обычно после коррекции смещения, включающей удаление среднего значения модели для части или всего периода выборки). Это в основном то, что МГЭИК сделала для 4-го оценочного отчета (4AR) и предыдущих отчетов.

Это более или менее пример правда плюс ошибка» школы сочетания ансамблей », где подразумевается, что молниеносно или явно предполагается, что ряд наблюдений (например, глобальная температура, локальные осадки и т. Д.) Истинен, и что если вы берете достаточно образцов (например, прогоны модели), шум в прогонах модели будет отменен (см. (1)).

В последнее время методы объединения моделей основаны на взвешивания производительности производительности. Поскольку климатические модели очень шумные и имеют так много переменных и параметров, единственными способами оценки эффективности (насколько я знаю) является выбор ковариации или выбор MSE между выходными данными модели и наблюдаемыми временными рядами. Модели могут быть объединены путем взвешивания среднего значения на основе этой меры. Есть хороший обзор этого в (2).

Одним из предположений, лежащих в основе этого метода объединения симуляций, является предположение, что все модели достаточно независимы - если бы некоторые были сильно зависимыми, они бы смещали среднее значение. Это предположение было достаточно справедливым для набора данных, используемого для 4AR ( CMIP3 , так как этот набор данных состоял из нескольких прогонов моделей из многих групп моделирования (с другой стороны, код является общим в сообществе моделирования, поэтому может сохраняться некоторая взаимозависимость). Интересный взгляд на это см. (3)). Набор данных для следующего отчета об оценке, CMIP5 , не имеет этого несколько случайного атрибута - некоторые команды моделирования будут отправлять несколько прогонов, в то время как некоторые будут представлять сотни. Ансамбли из разных групп могут создаваться по начальному условию петурбация, или изменения в физике модели и параметризации. Кроме того, этот супер-ансамбль не подвергается выборке каким-либо систематическим способом - он просто принимает данные, которые принимаются (в пределах разумного). Это известно в данной области как « ансамбль возможность". Есть большая вероятность, что использование невзвешенного среднего значения в таком ансамбле вызовет у вас серьезный уклон в сторону моделей с большим количеством прогонов (поскольку даже при сотнях прогонов, вероятно, будет гораздо меньшее число действительно независимых прогонов". ).

В данный момент у моего руководителя есть рецензируемый документ, описывающий процесс сочетания моделей, включающий производительность и взвешивание независимости . Имеется конспект тезисов конференции (4), я опубликую ссылку на статью, когда она будет опубликована (медленный процесс, не задерживайте дыхание). В основном, в этой статье описывается процесс, который включает в себя принятие ковариации ошибок модели (модель-obs) и утяжеление моделей, которые имеют высокую ковариацию со всеми другими моделями (т.е. модели с сильно зависимыми ошибками). Модель ошибки дисперсии также вычисляется и используется в качестве компонента взвешивания производительности.

Стоит также отметить, что на моделирование климата явно оказывают огромное влияние капризы численного моделирования в целом. Есть такая вещь, как «тест смеха» - если вы закончите с прогоном модели, который подразумевает, что глобальные средние температуры будут к 2050 году + 20 ° C, вы просто выбросите его, потому что он явно не имеет физического значения. Очевидно, что этот вид теста довольно субъективен. Я этого еще не требовал, но ожидаю в ближайшее время.

Это мое понимание комбинации модели состояния в моей области на данный момент. Очевидно, я все еще учусь, поэтому, если я найду что-то особенное, я вернусь и обновлю этот ответ.

(1) Tebaldi, C. & Knutti, R., 2007. Использование многомодельного ансамбля в вероятностных климатических проекциях. Философские труды Королевского общества A: Математические, физические и инженерные науки, 365 (1857), с. 2053–2075.

(2) Кнутти Р. и др., 2010 г. Совещание экспертов МГЭИК по оценке и комбинированию многомодельных климатических прогнозов.

(3) Массон Д. и Кнутти Р., 2011. Генеалогия модели климата. Geophys. Местожительство Lett, 38 (8), p.L08703.

(4) Abramowitz, G. & Bishop, C., 2010. Определение и взвешивание для модельной зависимости в ансамблевом прогнозировании. В AGU Осенняя встреча тезисов. п. 07.

naught101
источник
Первый абзац вы имеете в виду "сложные, сильно нелинейные модели", верно? Для моей области работы (не климатической области) я часто нахожу, что использование разных моделей обычно не приводит к сильно отличающимся прогнозам. Тем не менее, простое налаживание вычислений для комбинирования моделей не по назначению является для нас серьезным препятствием. Я ожидал бы более точных прогнозов, но у меня нет времени, чтобы объединить модели и точно оценить ошибку в этих прогнозах.
вероятностная
Спасибо, исправлено. У меня есть доступ к вычислительному кластеру, так что вычислительная мощность не является большой проблемой, но да, даже установка единственной модели, которую я использую, настроена правильно, - это боль, и она уже написана. Вот почему существует CMIP, поэтому людям не приходится каждый раз проходить через все эти неприятности. Было бы интересно узнать, в какой области вы находитесь, если вы делаете подобные вещи.
naught101