Что такое смешивание данных?

15

Этот термин часто встречается в темах, связанных с методом .

Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google.

Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему результату. Есть ли какой-нибудь ресурс, который поможет мне узнать больше об этом?

TomHall
источник

Ответы:

10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Некоторые документы, которые помогут вам лучше понять, что такое смешивание. Я думаю, что вы также можете Google для выбора / обучения ансамбля, а также укладки.

Ваше общее понимание «смешивания результатов многих моделей и достижения лучшего результата», тем не менее, верно.

король
источник
Эта ссылка также была взята где-то на форуме Kaggle. Я сохранил только ссылку в PDF, но не обсуждение ...
Король
12

Повышение (как упоминалось в связанном обсуждении) - это метод, который объединяет набор алгоритмов для получения результата, который лучше, чем тот, который вы можете получить из любого отдельного алгоритма. Например, случайные леса - это метод объединения различных деревьев классификации для алгоритма классификации. Этот подход формально называется ансамблевым усреднением (хотя алгоритм обычно применяет правило большинства). Смешивание - это слово, которое некоторые люди используют для описания ускоренного подхода к классификации.

Майкл Р. Черник
источник
Так можно ли это назвать смешиванием, если я заменю деревья классификации в нормальной модели adaboost другим набором алгоритмов?
TomHall
Привет, Майкл. Ваш ответ действительно полезен, но, позор мне, я новичок в статистике и еще не набрал достаточно репутации, чтобы проголосовать за ваш ответ.
TomHall
1
Хорошо, тогда не забудьте сделать это после того, как вы получите несколько очков репутации.
Майкл Р. Черник
0

В отрасли смешивание данных связано не с моделями, а с предварительной обработкой : это когда данные объединяются из разных источников, например, из базы данных и других данных из файлов CSV.

Make42
источник