Показатели эффективности для оценки обучения без учителя

49

Что касается неконтролируемого обучения (например, кластеризации), есть ли какие-либо показатели для оценки эффективности?

user3125
источник
4
Я думаю, что этот вопрос более общий, чем этот, поэтому я голосую, чтобы оставить этот вопрос открытым.
Питер Флом - Восстановить Монику
У меня был тот же вопрос, что и у вас, и у меня есть некоторые (на данный момент еще не полностью прочитанные) ссылки: Исследование внутренней меры достоверности для валидации кластера Л.Джегата Дебора, Р.Баскаран, А.Каннан и Методы измерения валидности кластера Ференц Ковач, Чаба Леганы, Аттила
Бабос

Ответы:

44

В некотором смысле я думаю, что этот вопрос не подлежит обсуждению. Я говорю это потому, что то, насколько хорошо работает конкретный неконтролируемый метод, будет в значительной степени зависеть от того, почему в первую очередь проводится обучение без учителя, т. Е. Хорошо ли работает метод в контексте вашей конечной цели? Очевидно, что это не совсем так, люди работают над этими проблемами и публикуют результаты, которые включают в себя какую-то оценку. Ниже я опишу несколько подходов, с которыми я знаком.

Хорошим ресурсом (со ссылками) для кластеризации является страница документации sklearn, Оценка эффективности кластеризации . Это охватывает несколько методов, но все, кроме одного, Силуэт Силуэт, предполагает наличие наземных меток правды. Этот метод также упоминается в вопросе « Оценка степени кластеризации» , приведенном в комментариях к этому вопросу.

Если ваш метод обучения без присмотра является вероятностным, другой вариант - оценить некоторую меру вероятности (логарифмическая вероятность, недоумение и т. Д.) На удерживаемых данных. Мотивация здесь заключается в том, что если ваш метод обучения без присмотра назначает высокую вероятность аналогичным данным, которые не использовались для подгонки параметров, то он, вероятно, хорошо поработал над распределением интересов. Домен, где этот тип оценки обычно используется, является языковым моделированием.

Последний вариант, который я упомяну, - это использование контролируемого ученика для выполнения вспомогательного задания. Если вы не контролируете метод, создающий скрытые переменные, вы можете думать об этих скрытых переменных как о представлении входных данных. Таким образом, целесообразно использовать эти скрытые переменные в качестве входных данных для контролируемого классификатора, выполняющего некоторую задачу, связанную с областью, из которой получены данные. Выполнение контролируемого метода может затем служить суррогатом для работы неконтролируемого ученика. По сути, это настройка, которую вы видите в большинстве работ по обучению представлению.

Это описание, вероятно, немного туманно, поэтому я приведу конкретный пример. Почти во всех работах по обучению представлению слов используется следующий подход для оценки:

  1. Изучите представления слов, используя ученика без присмотра.
  2. Используйте изученные представления в качестве входных данных для контролируемого учащегося, выполняющего некоторые задачи НЛП, такие как теги речи или распознавание именованных объектов.
  3. Оцените эффективность неконтролируемого учащегося по его способности улучшить производительность контролируемого учащегося по сравнению с базовым уровнем, используя в качестве входных данных стандартное представление, такое как функции присутствия двоичных слов.

Пример такого подхода в действии см. В статье « Обучение машин Больцмана с ограничениями на наблюдениях за словами», выполненная Dahl et al.

альт
источник
11
+1 « Насколько хорошо работает конкретный метод без присмотра, во многом будет зависеть от того, почему в первую очередь проводится обучение без присмотра », в значительной степени подводит итог. Не ищите какое-то магическое число, которое вы можете каким-то образом использовать, чтобы оправдать данный результат, фактически не интерпретируя результат .
Марк Класен
1
Я также добавил бы, что использование контролируемого подхода в качестве прокси для определения того, насколько хорошо работает неконтролируемый подход, не требует открытия новых функций. Например, кластеризация не изучает новые функции, но кластеризация часто используется для повышения точности прогнозирования контролируемого учащегося, с дополнительным преимуществом объяснения, почему это может быть так. Например, кластеризация с помощью k-средних может дать k предсказаний, каждое из которых улучшается путем использования обнаруженной структуры и сжатия из кластеризации. См. Ttic.uchicago.edu/~shubhendu/Papers/clustering_bagging.pdf
Кибернетический