Повышение нейронных сетей

21

В последнее время я работал над алгоритмами повышения обучаемости, такими как adaboost, ускорение градиента, и я знал тот факт, что наиболее часто используемым слабым учеником являются деревья. Я действительно хочу знать, есть ли некоторые недавние успешные примеры (я имею в виду некоторые статьи или статьи) для использования нейронных сетей в качестве базового ученика.

user4380802
источник
Это может быть интересное чтение для вас: arxiv.org/pdf/1706.04964.pdf
Даниил

Ответы:

8

В бустинге слабые или нестабильные классификаторы используются в качестве базовых учеников. Это так, потому что цель состоит в том, чтобы создать границы решений, которые значительно отличаются. Тогда хорошим базовым учеником является тот, кто сильно предвзят, другими словами, результат остается в основном таким же, даже когда параметры обучения для базовых учеников изменяются незначительно.

В нейронных сетях отсев - это метод регуляризации, который можно сравнить с обучающими ансамблями. Разница в том, что ансамблирование выполняется в скрытом пространстве (существуют нейроны или нет), что уменьшает ошибку обобщения.

«Каждый учебный пример таким образом , может рассматриваться как обеспечение градиентов для различной, произвольно отобранного архитектуры, так что конечная нейронная сеть эффективно представляет собой огромный ансамбль нейронных сетей, с возможностью хорошего обобщения» - цитирует здесь .

Существует два таких метода: при отбрасывании нейроны сбрасываются (имеется в виду, что нейроны существуют или не существуют с определенной вероятностью), тогда как при сбрасывании соединения сбрасываются веса.

Теперь, чтобы ответить на ваш вопрос, я полагаю, что нейронные сети (или персептроны) не используются в качестве базовых учащихся в ускоряющих настройках, поскольку они медленнее обучаются (просто занимает слишком много времени), а учащиеся не такие слабые, хотя они могли бы быть настроен быть более нестабильным. Таким образом, это не стоит усилий.

Возможно, были исследования по этой теме, но жаль, что идеи, которые не работают, обычно не публикуются успешно. Нам нужно больше исследований, охватывающих пути, которые никуда не ведут, иначе говоря «не пытайтесь это делать».

РЕДАКТИРОВАТЬ:

У меня было немного больше об этом, и если вы заинтересованы в ансамблях больших сетей, то вы могли бы обратиться к методам объединения выходов нескольких таких сетей. Большинство людей усредняют или используют большинство голосов в зависимости от задачи - это может быть не оптимальным. Я полагаю, что должна быть возможность изменить вес для каждой выходной сети в соответствии с ошибкой в ​​конкретной записи. Чем меньше коррелирует выходы, тем лучше правило ансамбля.

сюрикен х синий
источник
2

Я вижу, что это не имеет принятого ответа, поэтому я дам очень эвристический ответ. Да, это сделано .... например, это доступно в JMP Pro (вероятно, лучший пакет статистики, о котором вы никогда не слышали). http://www.jmp.com/support/help/Overview_of_Neural_Networks.shtml

В середине страницы есть описание того, для чего оно используется. Я не ставил никаких циклов в исследовании теории, но, похоже, они подразумевают, что она достигает по существу тех же результатов, что и использование большего количества узлов в одной более крупной модели. Преимущество [они утверждают] в скорости подбора модели.

Для очень грубой калибровки я сравнил его на наборе данных, который у меня есть, с 2 сигмовидными и 2 гауссовыми узлами и увеличил модель в 6 раз по сравнению с 12 сигмовидными и 12 гауссовыми узлами в одной модели, и результаты были практически идентичны на моем тестовом наборе данных ,

Я также не заметил никакой разницы в скорости ... но набор данных составляет всего 1600 точек, и я использую только 12 переменных, поэтому для большого набора данных с большим количеством переменных может быть верно, что существует заметная разница в вычислениях.

JPJ
источник