Скажем, у меня есть простая проблема машинного обучения, такая как классификация. С некоторыми показателями в зрении или распознавании звука я, как человек, являюсь очень хорошим классификатором. Поэтому у меня есть интуиция о том, насколько хорошим может стать классификатор.
Но с большим количеством данных одна вещь в том, что я не знаю, насколько хорошо можно получить классификатор, который я тренирую. Это данные, где я лично не очень хороший классификатор (скажем, классифицирую настроение человека по данным ЭЭГ). На самом деле невозможно понять, насколько сложна моя проблема.
Теперь, если у меня возникнет проблема с машинным обучением, я хотел бы узнать, насколько хорошо я могу получить. Есть ли принципиальные подходы к этому? Как бы вы это сделали?
Визуализировать данные? Начать с простых моделей? Начните с очень сложных моделей и посмотрите, смогу ли я переодеться? Что вы ищете, если хотите ответить на этот вопрос? Когда вы перестанете пытаться?
источник
Если у вас есть какой-то способ визуализации данных, это наилучший из возможных сценариев, однако не все данные можно визуализировать одинаково, поэтому вам может потребоваться найти свой собственный способ проецирования данных, который поможет вам понять ваши данные. лучше.
Однако в целом я обычно беру небольшую выборку данных, преобразовываю ее в ARFF и пробую разные алгоритмы кластеризации от WEKA. Затем я просто вижу, какой алгоритм дает мне лучшую матрицу путаницы. Это дает мне подсказку о том, насколько хорошо разделены классы, и позволяет мне выяснить, почему этот конкретный алгоритм работает лучше для этих данных. Я также изменяю количество кластеров (т.е. я не просто использую k = 2, я использую k = 3, 4 и т. Д.). Это дает мне представление о том, существует ли фрагментация данных или один класс более фрагментирован, чем другой. Если вы объединяете точки обучения и тестирования вместе для кластеризации, вы также можете измерить, какие кластеры представлены вашими точками обучения. Некоторые кластеры могут быть перепредставлены, а некоторые могут быть недопредставлены, оба могут вызвать проблемы, которые изучают классификатор.
Всегда проверяйте точность тренировок. Если ваша точность тренировки выглядит не очень хорошо, то неверно классифицированные тренировочные очки также являются большой подсказкой.
источник