В последнее время я работал с большими наборами данных и нашел много статей о потоковых методах. Назвать несколько:
- Follow-the-Regularized-Leader и зеркальный спуск: теоремы об эквивалентности и регуляризация L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Потоковое обучение: однопроходные SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: первичный оцененный суб-GrAdient SOlver для SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- или здесь: может ли SVM выполнять потоковое обучение по одному примеру за раз?
- Потоковая передача случайных лесов ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Тем не менее, я не смог найти никаких документов относительно того, как они сравниваются друг с другом. Кажется, что каждая статья, которую я читаю, проводит эксперименты с различными наборами данных.
Я знаю о софии-мл, ваубале ваббит, но они, кажется, реализуют очень мало методов по сравнению с огромным количеством существующих методов!
Разве менее распространенные алгоритмы недостаточно эффективны? Есть ли какая-нибудь статья, пытающаяся рассмотреть как можно больше методов?
machine-learning
references
large-data
online
RUser4512
источник
источник
Ответы:
Насколько мне известно, тщательный обзор множества алгоритмов, аналогичный работе с Delgado, которую вы связали, недоступен, но предпринимались попытки собрать результаты для семейств алгоритмов.
Вот некоторые источники, которые я нахожу полезными (отказ от ответственности: я публикую в этой области, так что, скорее всего, я предвзят в своем выборе):
Некоторые пакеты программного обеспечения:
Я могу добавить больше информации и источников, если это необходимо. Как и другие говорили, поле может использовать комплексное обследование.
источник