Ожидаемая наилучшая производительность возможна для набора данных

9

Скажем, у меня есть простая проблема машинного обучения, такая как классификация. С некоторыми показателями в зрении или распознавании звука я, как человек, являюсь очень хорошим классификатором. Поэтому у меня есть интуиция о том, насколько хорошим может стать классификатор.

Но с большим количеством данных одна вещь в том, что я не знаю, насколько хорошо можно получить классификатор, который я тренирую. Это данные, где я лично не очень хороший классификатор (скажем, классифицирую настроение человека по данным ЭЭГ). На самом деле невозможно понять, насколько сложна моя проблема.

Теперь, если у меня возникнет проблема с машинным обучением, я хотел бы узнать, насколько хорошо я могу получить. Есть ли принципиальные подходы к этому? Как бы вы это сделали?

Визуализировать данные? Начать с простых моделей? Начните с очень сложных моделей и посмотрите, смогу ли я переодеться? Что вы ищете, если хотите ответить на этот вопрос? Когда вы перестанете пытаться?

bayerj
источник

Ответы:

6

Я не знаю, считается ли это ответом ...

Это единственная проблема, которая не дает вам спать по ночам. Вы можете построить лучшую модель? Phd-comics подытоживает это (я не знаю, разрешено ли мне загружать комиксы, поэтому я просто связал их)

Исходя из моего личного опыта, полученного при участии в соревнованиях по машинному обучению, вот правило большого пальца.

Представьте, что вы получили задачу классификации. Сядьте, проведите мозговой штурм в течение часа или меньше, как вы подходите к проблеме, и посмотрите на уровень техники в этой области. Постройте модель, основанную на этом исследовании, предпочтительно такую, которая, как известно, является стабильной без слишком большого изменения параметров. Результирующая производительность будет составлять примерно 80% от максимально достижимой производительности.

Это правило основано на так называемом принципе Парето , который также применяется к оптимизации. Учитывая проблему, вы можете создать решение, которое работает достаточно быстро, но с этого момента соотношение усилий и времени сокращается быстро.

Несколько заключительных слов: когда я читаю статьи о новых алгоритмах классификации, я ожидаю, что авторы сравнят свою новую породу с такими «оптимизированными по парето» подходами, т.е. я ожидаю, что они потратят разумное количество времени, чтобы сделать современное произведение искусства (некоторые требуют более или менее оптимизации параметров). К сожалению, многие этого не делают.

Штеффен
источник
0

Общепринятым способом является рассмотрение РПЦ и территории под ним (AUC). Обоснование этого подхода заключается в том, что чем выше истинно положительный показатель для конкретного показателя ложного срабатывания, тем лучше классификатор. Интеграция по всем возможным ложноположительным ставкам дает вам общую меру.

Эмре
источник
3
Насколько я понял ОП, его проблема не в измерении производительности классификатора (который, как мы надеемся, является хорошей оценкой будущей ожидаемой производительности), а в том, насколько хорошо можно получить ВСЕ, т.е. каков максимум (не совсем). за метрику (максимум AUC равен 1 или что-то в этом роде), но для данной проблемы)
декабря
Да, это то, что я имел в виду.
Bayerj
0

Если у вас есть какой-то способ визуализации данных, это наилучший из возможных сценариев, однако не все данные можно визуализировать одинаково, поэтому вам может потребоваться найти свой собственный способ проецирования данных, который поможет вам понять ваши данные. лучше.

Однако в целом я обычно беру небольшую выборку данных, преобразовываю ее в ARFF и пробую разные алгоритмы кластеризации от WEKA. Затем я просто вижу, какой алгоритм дает мне лучшую матрицу путаницы. Это дает мне подсказку о том, насколько хорошо разделены классы, и позволяет мне выяснить, почему этот конкретный алгоритм работает лучше для этих данных. Я также изменяю количество кластеров (т.е. я не просто использую k = 2, я использую k = 3, 4 и т. Д.). Это дает мне представление о том, существует ли фрагментация данных или один класс более фрагментирован, чем другой. Если вы объединяете точки обучения и тестирования вместе для кластеризации, вы также можете измерить, какие кластеры представлены вашими точками обучения. Некоторые кластеры могут быть перепредставлены, а некоторые могут быть недопредставлены, оба могут вызвать проблемы, которые изучают классификатор.

Всегда проверяйте точность тренировок. Если ваша точность тренировки выглядит не очень хорошо, то неверно классифицированные тренировочные очки также являются большой подсказкой.

TenaliRaman
источник