Каковы «горячие алгоритмы» для машинного обучения?

14

Это наивный вопрос от того, кто начинает изучать машинное обучение. Я читаю в эти дни книгу «Машинное обучение: алгоритмическая перспектива» от Марсленда. Я считаю ее полезной в качестве вводной книги, но теперь я хотел бы перейти к продвинутым алгоритмам, которые в настоящее время дают лучшие результаты. В основном меня интересует биоинформатика: кластеризация биологических сетей и поиск закономерностей в биологических последовательностях, особенно в применении к анализу однонуклеотидного полиморфизма (SNP). Не могли бы вы порекомендовать мне несколько обзоров или книг для чтения?

хах
источник

Ответы:

15

Глубокое обучение привлекло большое внимание с 2006 года. Это в основном подход к обучению глубоких нейронных сетей и приводит к действительно впечатляющим результатам для очень сложных наборов данных (таких как кластеризация документов или распознавание объектов). Некоторые люди говорят о втором ренессансе нейронных сетей (например, в этом докладе Google Шмидхубера).

Если вы хотите, чтобы вас впечатлили, вам стоит взглянуть на эту научную статью « Сокращение размерности данных с помощью нейронных сетей», Хинтон и Салахутдинов.

(Сейчас в этой области так много работы, что я знаю только о двух будущих книгах, посвященных этой теме: крупномасштабное машинное обучение , Лэнгфорд и др. И машинное обучение: вероятностная перспектива Кевина Мерфи.)

Если вы хотите узнать больше, посмотрите, что делают основные группы глубокого обучения: Стэнфорд , Монреаль и, что наиболее важно, Торонто # 1 и Торонто # 2 .

bayerj
источник
8

Большинство ответов, приведенных до сих пор, относятся к «Контролируемому обучению» (т. Е. Там, где у вас есть метки для части вашего набора данных, которые вы можете использовать для обучения алгоритмов). В вопросе конкретно упоминается кластеризация, которая является подходом без надзора (т.е. метки заранее не известны). В этом сценарии я бы предложил посмотреть на:

  • K-средства и ядро ​​K-средства
  • Агломерационная кластеризация
  • Неотрицательная матричная факторизация
  • Скрытое распределение Дирихле
  • Процессы Дирихле и иерархические процессы Дирихле

Но на самом деле вы, вероятно, обнаружите, что ваша мера сходства / расстояния важнее, чем конкретный алгоритм, который вы используете.

Если у вас есть некоторые помеченные данные, то подходы «Полу-контролируемое обучение» набирают популярность и могут быть очень эффективными. Хорошей отправной точкой для SSL является LapSVM (Laplacian Support Vector Machine).

TDC
источник
7

Это книги, которые могут быть полезны:

  • Введение в интеллектуальный анализ данных Панг-Нинг Тан, Майкл Штейнбах, Випин Кумар. Это была рекомендуемая книга во время моих занятий Data Mining в университете. Мне нравится его расположение и теоретический подход;
  • Интеллектуальный анализ данных: практические инструменты и методы машинного обучения. Автор - Ян Х. Виттен, Эйб Франк, Марк А. Холл. Очень интересная книга. Эта книга охватывает также многие реализованные методы с использованием Data Mining Framework WEKA ;
  • Машинное обучение Томаса Митчелла. Это немного старая книга, но она может быть полезной.

Тогда помните, что вы можете посещать бесплатные занятия по машинному обучению в Стэнфорде, которые только начались: www.ml-class.com .

А что касается вашей конкретной проблемы - анализа SNP, я бы посоветовал взглянуть на группу Ди Камилло в университете Падуи.

Симона
источник
5

Вот отличная статья и книга, которые объясняют обоснование, теорию и применение большинства самых популярных методов:

Топ 10 алгоритмов в интеллектуальном анализе данных

Это особенно опрятно, потому что это «топ-10», выбранный экспертами в этой области.

Кроме того, для данных генов в целом выбор функций чрезвычайно важен из-за множества функций. Например, SVM-рекурсивное удаление признаков (SVM-RFE) и связанные с ним методы очень популярны и активно разрабатываются и применяются в контексте данных генов.

Джон Колби
источник
4

Повышенные деревья и некоторая форма SVM выигрывают множество соревнований, но это всегда зависит от контекста. Регуляризация коллектора также на переднем крае.

Патрик Макканн
источник
4

Я рекомендую «Элементы статистического обучения» Хасти, Тибширани и Фридмана. Не просто читайте его, играйте с некоторыми описанными ими алгоритмами (большинство из них реализованы на R, или вы могли бы даже реализовать некоторые самостоятельно), и изучайте их слабые и сильные стороны.

user31264
источник
3

Гауссовские процессы для машинного обучения Расмуссена и Уильямса (MIT Press) - необходимость. Гауссовские процессы являются одним из самых популярных алгоритмов машинного обучения, поскольку теперь доступны алгоритмы распространения ожиданий и вариационного вывода. Книга очень хорошо написана, имеет бесплатный набор инструментов MATLAB (хороший набор), и книгу можно скачать бесплатно.

Дикран Сумчатый
источник